博客專欄

EEPW首頁 > 博客 > 30%Token就能實現SOTA性能，華為諾亞輕量目標檢測器Focus-DETR效率倍增（1）

30%Token就能實現SOTA性能，華為諾亞輕量目標檢測器Focus-DETR效率倍增（1）

發布人：計算機視覺工坊時間：2023-08-03 來源：工程師

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

發布文章

目前 DETR 類模型已經成為了目標檢測的一個主流范式。但 DETR 算法模型復雜度高，推理速度低，嚴重影響了高準確度目標檢測模型在端側設備的部署，加大了學術研究和產業應用之間的鴻溝。

來自華為諾亞、華中科技大學的研究者們設計了一種新型的 DETR 輕量化模型 Focus-DETR 來解決這個難題。

論文地址：https://arxiv.org/abs/2307.12612
代碼地址 - mindspore：https://github.com/linxid/Focus-DETR
代碼地址 - torch：https://github.com/huawei-noah/noah-research/tree/master/Focus-DETR

為實現模型性能和計算資源消耗、顯存消耗、推理時延之間的平衡，Focus-DETR 利用精細設計的前景特征選擇策略，實現了目標檢測高相關特征的精確篩選；繼而，Focus-DETR 進一步提出了針對篩選后特征的注意力增強機制，來彌補 Deformable attention 遠距離信息交互的缺失。相比業界全輸入 SOTA 模型， AP 降低 0.5 以內，計算量降低 45%，FPS 提高 41%，并在多個 DETR-like 模型中進行了適配。
作者對多個 DETR 類檢測器的 GFLOPs 和時延進行了對比分析，如圖 1 所示。從圖中發現，在 Deformable-DETR 和 DINO 中，encoder 的計算量分別是 decoder 計算量的 8.8 倍和 7 倍。同時，encoder 的時延大概是 decoder 時延的 4~8 倍。這表明，提升 encoder 的效率至關重要。
圖 1：多個 DETR 類檢測器的計算量和時延對比分析
網絡結構
Focus-DETR 包括一個 backbone，一個由 dual-attention 組成的 encoder 和一個 decoder。前景選擇器（Foreground Token Selector）在 backbone 和 encoder 之間，是一個基于跨多尺度特征的自頂向下評分調制，用來確定一個 token 是否屬于前景。Dual attention 模塊通過多類別評分機制，選擇更細粒度的目標 token，然后將其輸入到一個自注意模塊來彌補 token 交互信息的缺失。
圖 2 ：Focus-DETR 整體網絡結構
計算量降低：前景篩選策略
目前已經有一些對于前景 token 進行剪枝提升性能的方法。例如，Sparse DETR（ICLR2022）提出采用 decoder 的 DAM（decoder attention map）作為監督信息。然而作者發現，如圖 3 所示，Sparse DETR 篩選的 token 并不都是前景區域。作者認為，這是由于 Sparse DETR 使用 DAM 來監督前景 token 導致的，DAM 會在訓練的時候引入誤差。而 Focus-DETR 使用 ground truth（boxes 和 label）來監督前景的 token 的篩選。
圖 3：Focus-DETR 和 Sparse DETR 在不同 feature map 上保留的 token 對比
為了更好地訓練前景篩選器，作者優化了 FCOS 的前背景標簽分配策略，如圖 4 所示。作者首先為不同特征映射的包圍框設置了一個大小范圍。與傳統的多尺度特征標簽分配方法不同，它允許相鄰兩個特征尺度之間的范圍重疊，以增強邊界附近的預測能力。對每個擁有步長的特征，其中代表多尺度特征的層級序號，代表在二維特征圖上的位置坐標，作者定義該特征在原圖上的映射位置為，那么，因此特征所對應的標簽應該為：

其中代表坐標和真值框中心之間的最大棋盤距離，代表真值目標框，分別代表被第層特征圖預測的目標的尺度的最大值和最小值，由于尺度重疊設置，。
圖 4. 前背景標簽分配可視化
此外，來自不同特征映射的特征選擇的差異也被忽略，這限制了從最合適的分辨率選擇特征的潛力。為彌補這一差距，Focus-DETR 構造了基于多尺度 feature map 的自頂向下的評分調制模塊，如圖 5 所示。為了充分利用多尺度特征圖之間的語義關聯，作者首先使用多層感知器 (MLP) 模塊來預測每個特征圖中的多類別語義得分。考慮到高層語義特征，低層語義特征包含更豐富的語義信息，作者利用高層 feature map 的 token 重要性得分，作為補充信息來調制低層 feature map 的預測結果。

圖 5：top-down 前景篩選評分調制策略

*博客內容為網友個人發布，僅代表博主個人觀點，如有侵權請聯系工作人員刪除。

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關鍵詞： AI

焦點

更多>>

技術專區

關閉

博客專欄

30%Token就能實現SOTA性能，華為諾亞輕量目標檢測器Focus-DETR效率倍增（1）

相關推薦

技術專區