博客專欄

        EEPW首頁 > 博客 > 精度提升方法:自適應(yīng)Tokens的高效視覺Transformer框架

        精度提升方法:自適應(yīng)Tokens的高效視覺Transformer框架

        發(fā)布人:CV研究院 時間:2022-07-23 來源:工程師 發(fā)布文章

        YOLOv7相同體量下比YOLOv5精度更高,速度快120%(FPS),比YOLOX快180%(FPS),比Dual-Swin-T快1200%(FPS),比ConvNext快550%(FPS),比SWIN-L快500%(FPS)。


        01

        概述


        今天介紹的,是研究者新提出了A-ViT,一種針對不同復(fù)雜度的圖像自適應(yīng)調(diào)整vision transformers (ViT) 的推理成本的方法。A-ViT通過在推理進(jìn)行時自動減少在網(wǎng)絡(luò)中處理的視覺轉(zhuǎn)換器中的tokens數(shù)量來實(shí)現(xiàn)這一點(diǎn)

        圖片

        研究者為這項任務(wù)重新制定了自適應(yīng)計算時間(ACT[Adaptive computation time for recurrent neural networks]),擴(kuò)展了停止以丟棄冗余空間標(biāo)記。vision transformers吸引人的架構(gòu)特性使我們的自適應(yīng)tokens減少機(jī)制能夠在不修改網(wǎng)絡(luò)架構(gòu)或推理硬件的情況下加速推理A-ViT不需要額外的參數(shù)或子網(wǎng)絡(luò)來停止,因為將自適應(yīng)停止的學(xué)習(xí)建立在原始網(wǎng)絡(luò)參數(shù)的基礎(chǔ)上。與之前的ACT方法相比,進(jìn)一步引入了分布式先驗正則化,可以穩(wěn)定訓(xùn)練。在圖像分類任務(wù)(ImageNet1K)中,展示了提出的A-ViT在過濾信息空間特征和減少整體計算方面的高效性。所提出的方法將DeiT-Tiny的吞吐量提高了62%,將DeiT-Small的吞吐量提高了38%,準(zhǔn)確率僅下降了0.3%,大大優(yōu)于現(xiàn)有技術(shù)。


        02

        背景


        Transformers已經(jīng)成為一類流行的神經(jīng)網(wǎng)絡(luò)架構(gòu),它使用高度表達(dá)的注意力機(jī)制來計算網(wǎng)絡(luò)輸出。它們起源于自然語言處理(NLP)社區(qū),已被證明可有效解決NLP中的廣泛問題,例如機(jī)器翻譯、表示學(xué)習(xí)和問答。最近,vision transformers在視覺社區(qū)中越來越受歡迎,它們已成功應(yīng)用于廣泛的視覺應(yīng)用,例如圖像分類、目標(biāo)檢測、圖像生成和語義分割。最流行的范式仍然是vision transformers通過將圖像拆分為一系列有序的補(bǔ)丁來形成tokens并在tokens之間執(zhí)行inter-/intra-calculations以解決基礎(chǔ)任務(wù)。使用vision transformers處理圖像在計算上仍然很昂貴,這主要是由于tokens之間的交互次數(shù)的平方數(shù)。因此,在大量計算和內(nèi)存資源的情況下,在數(shù)據(jù)處理集群或邊緣設(shè)備上部署vision transformers具有挑戰(zhàn)性

        03

        新框架分析


        首先看下圖:

        圖片

        上圖是一種為vision transformers啟用自適應(yīng)tokens計算的方法。使用自適應(yīng)停止模塊來增加vision transformers塊,該模塊計算每個tokens的停止概率。該模塊重用現(xiàn)有塊的參數(shù),并從每個塊的最后一個密集層借用單個神經(jīng)元來計算停止概率,不施加額外的參數(shù)或計算。一旦達(dá)到停止條件,tokens就會被丟棄。通過自適應(yīng)停止tokens,我們僅對被認(rèn)為對任務(wù)有用的活動tokens執(zhí)行密集計算。結(jié)果,vision transformers中的連續(xù)塊逐漸接收到更少的tokens,從而導(dǎo)致更快的推理。學(xué)習(xí)到的tokens停止因圖像而異,但與圖像語義非常吻合(參見上面的示例)。這會在現(xiàn)成的計算平臺上立即實(shí)現(xiàn)開箱即用的推理加速

        圖片

        A-ViT的一個例子:在可視化中,為了簡單起見,省略了(i)其他補(bǔ)丁標(biāo)記,(ii)類和補(bǔ)丁標(biāo)記之間的注意力以及(iii)殘差連接。 每個標(biāo)記的第一個元素保留用于停止分?jǐn)?shù)計算,不增加計算開銷。我們用下標(biāo)c表示類標(biāo)記,因為它有特殊處理。由k索引的每個token都有一個單獨(dú)的Nk累加器,并停在不同的深度。與標(biāo)準(zhǔn)ACT不同,平均場公式僅適用于分類標(biāo)記,而其他標(biāo)記通過注意力對類別標(biāo)記做出貢獻(xiàn)。這允許在不聚合圖像/補(bǔ)丁token的情況下進(jìn)行自適應(yīng)tokens計算。

        圖片


        04

        實(shí)驗分析及可視化


        圖片

        Original image (left) and the dynamic token depth (right) of A-ViT-T on the ImageNet-1K validation set. Distribution of token computation highly aligns with visual features. Tokens associated with informative regions are adaptively processed deeper, robust to repeating objects with complex backgrounds. Best viewed in color.

        圖片

        (a) ImageNet-1K驗證集上A-ViT-T的每個圖像補(bǔ)丁位置的平均tokens深度。(b)通過變壓器塊的停止分?jǐn)?shù)分布。每個點(diǎn)與一個隨機(jī)采樣的圖像相關(guān)聯(lián),表示該層的平均tokens分?jǐn)?shù)。

        圖片

        由平均tokens深度確定的ImageNet-1K驗證集中的難易樣本的視覺比較。請注意,上面的所有圖像都被正確分類——唯一的區(qū)別是難樣本需要更多的深度來處理它們的語義信息。與右側(cè)圖像相比,左側(cè)圖像中的標(biāo)記退出大約5層。

        圖片

        圖片

        圖片


        *博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。



        關(guān)鍵詞: AI

        相關(guān)推薦

        技術(shù)專區(qū)

        關(guān)閉
        主站蜘蛛池模板: 河南省| 新丰县| 东丰县| 鞍山市| 象州县| 长子县| 政和县| 德保县| 青河县| 伊春市| 通榆县| 防城港市| 清涧县| 元江| 泸西县| 保山市| 万源市| 武陟县| 淳安县| 通州市| 东丰县| 绥中县| 库尔勒市| 都匀市| 独山县| 扶余县| 永寿县| 潜江市| 容城县| 广水市| 武安市| 闽侯县| 尼玛县| 汽车| 琼海市| 兴文县| 乳源| 鄯善县| 孝义市| 乌兰察布市| 青川县|