基于序列建模的生成式強(qiáng)化學(xué)習(xí)研究綜述
摘要: 強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)中關(guān)于如何學(xué)習(xí)決策的分支,是一個(gè)序列決策問題,通過與環(huán)境反復(fù)交互試錯(cuò)找到最優(yōu)策略。強(qiáng)化學(xué)習(xí)可以與生成模型結(jié)合使用來優(yōu)化其性能,通常用于微調(diào)生成模型,提高其創(chuàng)建高質(zhì)量內(nèi)容的能力。強(qiáng)化學(xué)習(xí)過程也可以視為一個(gè)通用的序列建模問題,對(duì)任務(wù)軌跡上的分布進(jìn)行建模,通過預(yù)訓(xùn)練生成模型產(chǎn)生一系列動(dòng)作來獲取一系列的高回報(bào)。在對(duì)輸入信息進(jìn)行建模的基礎(chǔ)上,生成式強(qiáng)化學(xué)習(xí)能夠更好地處理... (共16頁)
開通會(huì)員,享受整站包年服務(wù)