目標檢測 | Anchor free的目標檢測進階版本
今天說的是《Soft Anchor-Point Object Detection》,其也是最近關于anchor free的目標檢測的論文,作者來自于CMU,一作同樣也是FSAF(2019 CVPR)的作者。該論文的出發點還是在樣本選擇和FPN特征選擇層面。
背景
Anchor free是目標檢測領域的一個研究熱點,其主要可以分為anchor-point和keypoint兩類。后者在往往在一個高分辨率的特征圖上進行檢測,其優點是準確率高,但是計算量大。而anchor-point的方法往往在多個分辨率上進行檢測,結構簡單,速度更快。作者認為anchor-point的方法性能不高主要還是在于訓練的不充分,主要是注意力偏差(attention bias)和特征選擇(feature selection)。因而作者提出了兩種策略:1)soft-weighted anchor points對不同位置的樣本進行權重分配,2)soft-selected pyramid levels,將樣本分配到多個分辨率,并進行權重加權。
方法框架
整體框架其實和FSAF是類似
●Soft-Weighted Anchor Points ●
清晰的目標更容易獲得關注和更高的分數,而邊緣或者被遮擋的目標比較難檢測。具體的問題如下:
上圖中有五個足球運動員,分類輸出的得分圖score map如圖b所示,可以看到有兩個運動員的得分區域占了主導地位。甚至這兩個運動員的得分區域還侵占了其他運動員的得分區域。
作者認為引起該問題的主要原因是特征不對齊,位于gt邊緣的anchor和位于中心的anchor不應被同等對待。解決思路就是對不同位置的樣本引入不同的權重,其離gt的中心越近,其權重越高,離gt中心越遠,其權重越低(因為邊緣往往意味著包含很多背景信息)。從而引入了廣義
概述我們的訓練策略與h soft-weighted anchorpoints和soft-selected pyramid levels。黑條表示正錨定點對網絡損耗貢獻的指定權重。
●Soft-Selected Pyramid Levels ●
該問題實際上在FSAF中也研究過,即如何選擇合適的分辨率(尺度)來進行目標的檢測。FSAF是通過loss來選擇合適的分辨率。該論文同時也借鑒了FoveaBox將一個anchor映射到多個分辨率進行檢測的思想(實際上工程中也會用到)來提升性能。同時作者還給不同的分辨率分配不同的權重。具體地,作者額外訓練了一個子網絡來預測不同尺度的權重,該網絡具體為:
而該子網絡的輸入,是在不同分辨率上利用roialign提取gt(ground truth)的特征,并
實驗結果
作者和FSAF(基于anchor-free分支)進行比較,soft-weighted anchor points(SW)策略提升了1.1個點,soft-selected pyramid levels(SS)提升了1個點。作者還采用了BFPN(2019 CVPR Libra RCNN中的特征融合策略)進行了加強,還能有性能提升。
可視化結果
論文最好的性能是47.4,在R50上也達到了41.7。
總結
作者在FSAF的基礎上進一步地分析了現有的兩個問題:注意力偏差和特征選擇問題。前一個問題通過對不同樣本加權實現,后一個問題通過對不同分辨率加權實現,論文講述清晰,思路簡單。同時也要注意到,該論文特征選擇預測網絡的訓練問題,工程上是否真的有效還需進一步地嘗試驗證。
論文地址:https://arxiv.org/pdf/1911.12448.pdf
*博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。