強化學習

強化學習是機器學習中的一個領域，強調(diào)如何基于環(huán)境而行動，以取得最大化的預期利益。其靈感來源于心理學中的行為主義理論，即有機體如何在環(huán)境給予的獎勵或懲罰的刺激下，逐步形成對刺激的預期，產(chǎn)生能獲得最大利益的習慣性行為。這個方法具有普適性，因此在其他許多領域都有研究，例如博弈論、控制論、運籌學、信息論、仿真優(yōu)化、多主體系統(tǒng)學習、群體智能、統(tǒng)計學以及遺傳算法。在運籌學和控制理論研究的語境下，強化學習被稱作“近似動態(tài)規(guī)劃”（approximate dynamic programming，ADP）。在最優(yōu)控制理論中也有研究這個問題，雖然大部分的研究是關于最優(yōu)解的存在和特性，并非是學習或者近似方面。在經(jīng)濟學和博弈論中，強化學習被用來解釋在有限理性的條件下如何出現(xiàn)平衡。

四虎影视精品永久在线观看,中文字幕婷婷日韩欧美亚洲 ,婷婷成人综合激情在线视频播放,中文在线а√天堂,伊人久久大香线蕉成人

強化學習

友情鏈接

業(yè)界熱點: