基于強(qiáng)化學(xué)習(xí)的艦船目標(biāo)跟蹤有限理性博弈算法研究
摘要: 針對(duì)現(xiàn)實(shí)中的決策者并非總能完全理性分析問(wèn)題的情況,提出有限理性下的追逃博弈算法。建立追逃博弈模型,先求解完全理性下博弈雙方的鞍點(diǎn)策略。引入有限理性level-k模型,對(duì)追擊者和躲避者思考策略的層次進(jìn)行結(jié)構(gòu)性假設(shè),允許追逃雙方具備不同的策略推理能力,并給出相應(yīng)等級(jí)的值函數(shù)和策略,策略滿足HJI方程。隨著等級(jí)的增加,策略最終會(huì)趨于納什均衡。由于HJI方程難以直接求解,基于強(qiáng)化學(xué)習(xí)的... (共8頁(yè))
開(kāi)通會(huì)員,享受整站包年服務(wù)