博客專欄

        EEPW首頁 > 博客 > CVPR2022:使用完全交叉Transformer的小樣本目標檢測

        CVPR2022:使用完全交叉Transformer的小樣本目標檢測

        發布人:CV研究院 時間:2022-08-20 來源:工程師 發布文章

        圖片

        論文地址:

        https://openaccess.thecvf.com/content/CVPR2022/papers/Han_Few-Shot_Object_Detection_With_Fully_Cross-Transformer_CVPR_2022_paper.pdf



        01

        概述


        小樣本目標檢測 (FSOD) 旨在使用很少的訓練示例檢測新目標,最近在社區中引起了極大的研究興趣。已經證明基于度量學習的方法使用基于雙分支的孿生網絡對這項任務有效,并計算圖像區域和少樣本示例之間的相似性以進行檢測。然而,在之前的工作中,兩個分支之間的交互只限于檢測頭,而剩下的數百層用于單獨的特征提取。受最近關于視覺轉換器和視覺語言轉換器的工作的啟發,研究者提出了一種新穎的基于完全交叉轉換器(Fully Cross-Transformer)的FSOD模型 (FCT),方法是將交叉轉換器整合到特征主干和檢測頭中。提出了非對稱批處理交叉注意來聚合來自具有不同批處理大小的兩個分支的關鍵信息。新模型可以通過引入多級交互來改善兩個分支之間的少樣本相似性學習。PASCAL VOC和MSCOCO FSOD基準的綜合實驗證明了我們模型的有效性。

        02

        背景


        以往小樣本檢測方法大致可以分為倆類:single-branch方法two-branch方法;前者通常是基于Faster RCNN進行finetuned,需構建multi-class classifier;但該方法針對shot比較少例如1-shot時,較為容易出現過擬合情況;而后者通常時構建siamese網絡,分別同時提取query特征和support特征,然后基于metric learning方法比如feature fusion,feature alignment,GCN或者non-local attention來計算倆分支的相似性,由于在Novel類別上無需構建multi-class classifier,所以泛化性更好;倆類方法大致差異如下圖所示:

        圖片


        03

        新框架


        Task Definition

        在小樣本目標檢測(FSOD)中,有兩組類C=Cbase∪Cnovel和Cbase∩Cnovel=?,其中基類Cbase每個類都有大量訓練數據,而新類Cnovel(也稱為支持類)只有每個類的訓練示例很少(也稱為支持圖像)。對于K-shot(例如,K=1,5,10)目標檢測,研究者為每個新類別c∈Cnovel準確地使用K個邊界框注釋作為訓練數據。FSOD的目標是利用數據豐富的基類來協助檢測少樣本的新類。

        Overview of Our Proposed Model (FCT)

        研究者認為以往的two-branch方法只關注了detection head部分的特征交互,忽略了特征提取部分;于是這篇論文的motivation就出來了。因此研究者在Faster RCNN上提出了Fully Cross-Transformer(FCT)的小樣本檢測方法,在每個階段都進行特征交互。如下圖所示:

        圖片

        The Cross-Transformer Feature Backbone

        在cross-transformer中計算Q-K-V attention時為了減少計算量,研究者采用了PVTv2的方式。上面大致介紹了query和support特征提取,在特征交互上作者提出了 Asymmetric-Batched Cross-Attention。具體做法如下圖和公式所示:

        圖片

        圖片


        評論。研究者徹底研究了提出的模型中兩個視覺分支之間的多層次交互。cross-transformer特征主干中的三個階段使兩個分支與低級、中級和高級視覺特征逐漸有效交互。

        The Cross-Transformer Detection Head

        在detection head部分,和以上操作相反,在每張query上提取完proposal之后經過ROI Align可以得到ROI特征fpRBp?H?W?C3,其中Bp=100,為了減少計算復雜度還是對support進行ave操作fs=1BsBsfs,fsR1?H?W?C3,然后使用Asymmetric-Batched Cross-Attention計算倆分支attention,不同的是,query分支Bp1 and Bs=1 。

        04

        實驗


        圖片

        從上面表格的(c-d)倆行可以看出,使用三階段訓練在2-shot、10-shot上均有提升。

        圖片

        圖片


        *博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。

        linux操作系統文章專題:linux操作系統詳解(linux不再難懂)


        關鍵詞: AI

        相關推薦

        技術專區

        關閉
        主站蜘蛛池模板: 金坛市| 化隆| 琼海市| 孝感市| 汕尾市| 齐齐哈尔市| 瑞昌市| 新平| 尤溪县| 凉山| 赤峰市| 长乐市| 正安县| 琼中| 汽车| 云霄县| 郁南县| 九寨沟县| 伊宁县| 长岭县| 开原市| 临潭县| 清水河县| 鄢陵县| 余江县| 永济市| 城步| 天柱县| 砀山县| 五家渠市| 巴东县| 固阳县| 临清市| 山西省| 鹤山市| 剑川县| 康保县| 扶余县| 安阳县| 绿春县| 同德县|