CVPR小樣本檢測:蒸餾&上下文助力小樣本檢測
目標檢測現在的框架越來越多,我們“計算機視覺研究院”最近也分享了眾多的目標檢測框架!今天我們繼續分享一個最新的檢測框架——YOLOR。
論文:https://arxiv.org/pdf/2103.17115.pdf
開源代碼: https://github.com/hzhupku/DCNet
前言
傳統的基于深度學習的目標檢測方法需要大量的邊界框標注數據進行訓練,獲得如此高質量的標注數據成本很高。少樣本目標檢測,學習適應只有少數帶注釋的例子的新類,非常具有挑戰性,因為新目標的細粒度特征很容易被忽略,而只有少數可用數據。
為了充分利用帶注釋的新目標的特征并捕獲查詢對象的細粒度特征,研究者提出了具有稠密關系蒸餾與上下文感知聚合來解決Few-Shot檢測問題。Dense Relation Distillation 模塊建立在基于元學習的框架之上,旨在充分利用支持特征,其中支持特征和查詢特征密集匹配,以前向傳播方式覆蓋所有空間位置。引導信息大量使用賦予了模型處理常見挑戰(例如外觀變化和遮擋)的能力。此外,為了更好地捕捉尺度感知特征,上下文感知聚合模塊自適應地利用來自不同尺度的特征以獲得更全面的特征表示。
2
背景
先前對Few-Shot物體檢測的研究主要由兩組組成。他們中的大多數采用基于元學習的框架來為特定于類的預測執行特征重新加權。而【Frustratingly simple few-shot object detection】采用兩階段微調方法,僅微調最后一層檢測器并實現最先進的性能。【Multi-scale positive sample refinement for few-shot object detection】也使用類似的策略并專注于小樣本檢測中的尺度變化問題。
然而,由于小樣本對象檢測的挑戰性,上述方法通常存在一些缺點。首先,在之前的小樣本檢測工作中,支持特征和查詢特征之間的關系幾乎沒有被充分探索,其中支持特征的全局池化操作主要用于調制查詢分支,這容易丟失詳細的局部上下文。具體來說,物體的外觀變化和遮擋很常見,如上圖所示。如果沒有提供足夠的判別信息,模型就無法學習類別和邊界框預測的關鍵特征。其次,盡管尺度變化問題在之前的工作中得到了廣泛的研究,但它仍然是小樣本檢測任務中的一個嚴重障礙。在少樣本設置下,具有尺度感知改變的特征提取器傾向于過度擬合,導致基類和新類的性能下降。
Few-Shot Object Detection
小樣本目標檢測旨在僅提供一些帶注釋的訓練示例,從新類別中檢測目標。LSTD和RepMet采用通用的遷移學習框架,通過將預訓練的檢測器適應少數場景來減少過度擬合。
Meta YOLO
最近,Meta YOLO使用YOLO v2設計了一種新穎的小樣本檢測模型,該模型學習可泛化的元特征,并通過從支持示例中生成特定于類的激活系數來自動重新加權新類的特征。
Meta R-CNN
Meta R-CNN和FsDetView使用基礎檢測器執行與Faster RCNN類似的過程。TFA通過僅在第二階段微調分類器來簡單地執行兩階段微調方法,并獲得更好的性能。MPSR提出了多尺度正樣本細化來處理尺度方差問題。CoAE提出了非局部RPN,并通過與其他跟蹤方法進行比較,從跟蹤的角度專注于單次檢測。
而今天分享的方法以更直接的方式對主干提取的特征進行交叉注意,目標在Few-Shot檢測任務。FSOD提出了注意力RPN、多關系檢測器和對比訓練策略來檢測新對象。在新框架工作中,采用了與Meta R-CNN類似的基于元學習的框架,并進一步提高了性能。此外,使用提出的方法,可以成功刪除特定于類的預測過程,從而簡化整個過程。
3
新框架
DCNet
如下圖所示,展示了具有上下文感知特征聚合 (CFA) 模塊的密集關系蒸餾 (DRD) 模塊,以充分利用支持特征并捕獲必要的上下文信息。這兩個提出的組件構成了最終模型DCNet。研究者將首先描述所提出的DRD模塊的架構。然后將帶出CFA模塊的細節。
Dense Relation Distillation Module
給定查詢圖像和支持集,通過將它們輸入共享特征提取器來生成查詢和支持特征。密集關系蒸餾(DRD)模塊的輸入是查詢特征和支持特征。這兩個部分首先通過專用的深度編碼器編碼成鍵和值映射對。查詢編碼器和支持編碼器采用相同的結構,但不共享參數。
Relation Distillation。在獲取查詢和支持特征的鍵/值映射后,進行關系蒸餾。如上圖所示,支持特征值映射的軟權重是通過測量查詢特征的關鍵映射和支持特征之間的相似性來計算的。
Context-aware Feature Aggregation
如上圖所示,研究者為每個由兩個塊組成的特征添加一個注意力分支。第一個塊包含全局平均池化。第二個包含兩個連續的fc層。之后,向生成的權重添加softmax歸一化,以平衡每個特征的貢獻。那么聚合特征的最終輸出就是三個特征的加權求和。
Learning Strategy
4
實驗及可視化
Few-shot object detection performance on VOC 2007 test set of PASCAL VOC dataset
(a). Visualizations of features before and after dense relation distillation module. (b). Visualizations of effect of context-aware feature aggregation module.
消融研究以評估提出的方法中不同組件的有效性
Few-shot object detection performance on COCO minival of MS COCO dataset
在coco中篩選了少量的數據集,基于源碼訓練10個epoch,效果還是不行啊!可能我數據集選的太少了還有就是訓練啥都沒有改,主要想快速看下具體效果及檢測精度。有興趣的同學自行去操作實踐下!
*博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。