基于D2GA的逆強化學(xué)習(xí)算法
摘要: 針對傳統(tǒng)生成對抗逆強化學(xué)習(xí)存在的專家樣本獲取困難以及生成樣本利用率低的問題,提出一種基于事后經(jīng)驗回放策略HER的雙鑒別器生成對抗D2GA逆強化學(xué)習(xí)算法。在該算法中,HER自動合成類專家的正樣本,通過D2GA與強化學(xué)習(xí)方法柔性動作-評價SAC生成的負樣本進行對抗性訓(xùn)練,基于所求解的最優(yōu)獎勵函數(shù),利用SAC求解最優(yōu)策略。將所提出的D2GA算法與經(jīng)典的逆強化學(xué)習(xí)算法在Fetch機械臂... (共10頁)
開通會員,享受整站包年服務(wù)