視覺(jué)Transformer(ViT)發(fā)展綜述
摘要: 視覺(jué)Transformer(Vision Transformer, ViT)是基于編碼器-解碼器結(jié)構(gòu)的Transformer改進(jìn)模型,已經(jīng)被成功應(yīng)用于計(jì)算機(jī)視覺(jué)領(lǐng)域。近幾年基于ViT的研究層出不窮且效果顯著,基于該模型的工作已經(jīng)成為計(jì)算機(jī)視覺(jué)任務(wù)的重要研究方向,因此針對(duì)近年來(lái)ViT的發(fā)展進(jìn)行概述。首先,簡(jiǎn)要回顧了ViT的基本原理及遷移過(guò)程,并分析了ViT模型的結(jié)構(gòu)特點(diǎn)和優(yōu)勢(shì);然... (共16頁(yè))
開(kāi)通會(huì)員,享受整站包年服務(wù)