面向駕駛場景精準(zhǔn)圖像翻譯的條件擴(kuò)散模型
摘要: 目的 針對虛擬到現(xiàn)實(shí)駕駛場景翻譯中成對的數(shù)據(jù)樣本匱乏、翻譯結(jié)果不精準(zhǔn)以及模型訓(xùn)練不穩(wěn)定等問題,提出一種多模態(tài)數(shù)據(jù)融合的條件擴(kuò)散模型。方法 首先,為解決目前主流的基于生成對抗網(wǎng)絡(luò)的圖像翻譯方法中存在的模式崩塌、訓(xùn)練不穩(wěn)定等問題,以生成多樣性強(qiáng)、訓(xùn)練穩(wěn)定性好的擴(kuò)散模型為基礎(chǔ),構(gòu)建圖像翻譯模型;其次,為解決傳統(tǒng)擴(kuò)散模型無法融入先驗(yàn)信息從而無法控制圖像生成這一問題,提出基于多頭自注意力... (共14頁)
開通會員,享受整站包年服務(wù)