博客專欄

        EEPW首頁 > 博客 > ECCV 2022丨輕量級模型架構火了,力壓蘋果MobileViT(附代碼和論文下載)

        ECCV 2022丨輕量級模型架構火了,力壓蘋果MobileViT(附代碼和論文下載)

        發布人:CV研究院 時間:2022-08-20 來源:工程師 發布文章

        圖片

        論文地址:https://arxiv.org/abs/2203.03952

        代碼地址:https://github.com/hkzhang91/ParC-Net



        01

        概述


        最近,vision transformers開始顯示出令人印象深刻的結果,顯著優于基于大型卷積的模型。然而,在移動或資源受限設備的小型模型領域,ConvNet在性能和模型復雜度方面仍然具有自己的優勢。研究者提出了ParC-Net,這是一種純基于ConvNet的骨干模型,通過將vision transformers的優點融合到ConvNet 中,進一步增強了這些優勢。

        圖片

        ConvNet與ViT模型圖像分類實驗結果對比

        具體來說,研究者提出了位置感知循環卷積(ParC),這是一種輕量級的卷積運算,它擁有全局感受野,同時產生與局部卷積一樣的位置敏感特征。將ParCssqueeze-exictation ops結合起來形成一個類似于元模型的模型塊,它還具有類似于transformers的注意力機制。上述塊可以即插即用的方式使用,以替換ConvNets或transformers中的相關塊。

        圖片


        實驗結果表明,在常見的視覺任務和數據集中,所提出的ParC-Net比流行的輕量級ConvNets和基于vision transformers的模型具有更好的性能,同時具有更少的參數和更快的推理速度。對于ImageNet-1k上的分類,ParC-Net在大約500萬個參數的情況下實現了78.6%的top-1準確率節省了11%的參數和13%的計算成本,但準確率提高了0.2%,推理速度提高了23%(基于ARM的Rockchip RK3288)與MobileViT相比,僅使用0.5倍的參數,但與DeIT相比獲得了2.7%的準確度。在MS-COCO目標檢測和PASCAL VOC分割任務上,ParC-Net也表現出更好的性能。

        02

        背景


        然而,我們認為ViTs和ConvNets都是不可或缺的,原因如下:1)從應用的角度來看,ViTs和ConvNets都有其優點和缺點。ViT模型通常具有更好的性能,但通常計算成本高且難以訓練。與ViTs相比,ConvNets可能表現出較差的性能,但它們仍然具有一些獨特的優勢。例如,ConvNets具有更好的硬件支持并且易于訓練。此外,正如[Jianyuan Guo, Kai Han, Han Wu, Chang Xu, Yehui Tang, Chunjing Xu, and Yunhe Wang. Cmt: Convolutional neural networks meet vision transformers.]和研究者的實驗中總結的那樣,ConvNets在移動或邊緣設備的小型模型領域仍然占主導地位2)從信息處理的角度來看,ViTs和ConvNets都具有獨特的特征。ViT擅長提取全局信息,并使用注意力機制從輸入數據驅動的不同位置提取信息。ConvNets專注于對局部關系進行建模,并且通過歸納偏置具有很強的先驗性。上述分析自然提出了一個問題:我們能否向ViT學習以改進用于移動或邊緣計算應用的ConvNet?

        ViT論文:https://arxiv.org/abs/2010.11929

        ConvNeXt論文:https://arxiv.org/abs/2201.03545


        03

        新框架


        研究者們取ViT的三個亮點,將純卷積結構變強。研究者認為,ViT和ConvNet有三個主要區別:ViT更擅長提取全局特征,采用meta-former結構,而且信息集成由數據驅動。ParC的設計思路便是從這三點著手來優化ConvNet。

        圖片

        普通ConvNet和ViT之間的三個主要區別。a)ConvNet常用的Residual block;b)ViT中常用的Meta-Former 結構;c)研究者提出的ParC block。

        具體而言,研究人員設計了一種位置信息敏感的循環卷積(Position aware circular convolution, ParC)。這是一種簡單有效的輕量卷積運算算子,既擁有像ViT類結構的全局感受野,同時產生了像局部卷積那樣的位置敏感特征,能克服依賴自注意力結構提取全局特征的問題。

        圖片

        Position aware circular convolution

        圖片

        水平方向的全局循環卷積可以看到ParC-H沿著通過連接輸入的開始和結束生成的圓執行卷積。因此,研究者將提出的卷積命名為循環卷積。提議的ParC引入了三個修改:

        • 結合circular padding和大感受野低秩分解卷積核提取全局特征;
        • 引入位置嵌入,保證輸出特征對于空間位置信息的敏感性;
        • 動態插值實時生成尺寸適配的卷積核和位置編碼,應對輸入分辨率變化情況,這增強了對不同尺寸輸入的適應能力。

        研究者還將ParC和squeeze exictation結合起來,構建了一個純卷積結構的meta former結構。該結構舍棄了自注意力硬件支持不友好的操作,但保留了傳統Transformer塊提取全局特征的特點。究者還在channel mixer部分引入硬件支持較友好的通道注意力機制,使其純卷積meta former結構也具備自注意力的特點。

        基于ParC結構最終得到的ParC塊,可作為一個即插即用的基礎單元,替換現有ViT或ConvNet模型中的相關塊,從而提升精度,并降低計算成本,有效克服硬件支持的問題。

        圖片

        三種主要的混合結構。(a) serial structure; (b) parallel structure; (c) bifurcate structure。

        04

        實驗分析


        圖片

        在圖像分類實驗中,對于ImageNet-1k的分類,ParC-Net使用的參數規模最小(約500萬個參數),卻實現了最高準確率78.6%

        圖片

        MobileViT是Apple2022年在國際深度學習頂會ICLR22上提出的輕量級通用ViT模型。同樣部署在基于Arm的瑞芯微RK3288芯片上,相較基線模型MobileViT,ParC-Net節省了11%的參數和13%的計算成本,同時準確率提高了0.2%,推理速度提高了23%

        圖片

        MS-COCO物體檢測實驗結果

        圖片

        PASCAL VOC分割任務實驗結果

        圖片

        研究者將ParC-Net和基線模型MobileVit均部署到自研低功耗芯片DP上進行推理速度測試。從實驗結果可以看到,ParC-Net的推理速度能夠達到MobileViT速度的3~4倍。


        *博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。

        linux操作系統文章專題:linux操作系統詳解(linux不再難懂)


        關鍵詞: AI

        相關推薦

        技術專區

        關閉
        主站蜘蛛池模板: 龙岩市| 万宁市| 买车| 玉龙| 永修县| 益阳市| 临武县| 兴海县| 平凉市| 六枝特区| 昌都县| 平南县| 清丰县| 淮安市| 行唐县| 攀枝花市| 乐至县| 和龙市| 皋兰县| 年辖:市辖区| 固镇县| 巨鹿县| 东兰县| 依兰县| 蕉岭县| 宁河县| 兴和县| 汝州市| 嘉峪关市| 石台县| 阳山县| 亚东县| 泾源县| 疏附县| 丹东市| 镇沅| 乌兰县| 边坝县| 资中县| 万年县| 赤峰市|