多特征融合的越英端到端語音翻譯方法
摘要: 語音翻譯的編碼器需要同時編碼語音中的聲學信息和語義信息,單一的Fbank或Wav2vec2語音特征表征能力存在不足。通過分析人工的Fbank特征與自監(jiān)督的Wav2vec2特征間的差異性,提出基于交叉注意力機制的聲學特征融合方法,并探究了不同的自監(jiān)督特征和融合方式,加強模型對語音中聲學和語義信息的學習。結(jié)合越南語語音特點,以Fbank特征為主、Pitch特征為輔混合編碼Fbank... (共11頁)
開通會員,享受整站包年服務(wù)