當前位置:首頁 > 科技文檔 > 計算機硬件技術(shù) > 正文

多特征融合的越英端到端語音翻譯方法

中文信息學報 頁數(shù): 11 2024-10-15
摘要: 語音翻譯的編碼器需要同時編碼語音中的聲學信息和語義信息,單一的Fbank或Wav2vec2語音特征表征能力存在不足。通過分析人工的Fbank特征與自監(jiān)督的Wav2vec2特征間的差異性,提出基于交叉注意力機制的聲學特征融合方法,并探究了不同的自監(jiān)督特征和融合方式,加強模型對語音中聲學和語義信息的學習。結(jié)合越南語語音特點,以Fbank特征為主、Pitch特征為輔混合編碼Fbank... (共11頁)

開通會員,享受整站包年服務(wù)