基于多尺度時(shí)空卷積的唇語識(shí)別方法
摘要: 現(xiàn)有的唇語識(shí)別模型大多采用將單層的3維卷積與2維卷積神經(jīng)網(wǎng)絡(luò)結(jié)合的方式,從唇語視頻序列中挖掘出時(shí)空聯(lián)合特征。然而,由于單層的3維卷積不能很好地提取時(shí)間信息,同時(shí)2維卷積神經(jīng)網(wǎng)絡(luò)對(duì)細(xì)粒度的唇語特征的挖掘能力有限,該文提出一種多尺度唇語識(shí)別網(wǎng)絡(luò)(MS-LipNet)以改善唇語識(shí)別任務(wù)。該文在Res2Net網(wǎng)絡(luò)中,采用3維時(shí)空卷積替代傳統(tǒng)的2維卷積以更好地提取時(shí)空聯(lián)合特征,同時(shí)提出時(shí)... (共8頁)
開通會(huì)員,享受整站包年服務(wù)