具有自適應(yīng)貪婪因子的深度強(qiáng)化學(xué)習(xí)路徑規(guī)劃
摘要: 深度強(qiáng)化學(xué)習(xí)的開創(chuàng)性(Deep Q-Network, DQN)算法,雖然其在路徑規(guī)劃中表現(xiàn)優(yōu)異,但仍存在過估值、經(jīng)驗(yàn)回放機(jī)制缺陷以及沒有很好地平衡探索與利用的關(guān)系等問題。為了解決上述問題,提出了一種具有自適應(yīng)貪婪因子的深度強(qiáng)化學(xué)習(xí)路徑規(guī)劃算法。首先,在D3QN算法的基礎(chǔ)上引入了優(yōu)先經(jīng)驗(yàn)回放機(jī)制,解決過估值問題的同時(shí)增加了算法對(duì)重要樣本的抽樣概率,提高了算法的效率;其次,設(shè)計(jì)了一... (共8頁)
開通會(huì)員,享受整站包年服務(wù)