博客專欄

        EEPW首頁(yè) > 博客 > Sparse R-CNN:稀疏框架,端到端的目標(biāo)檢測(cè)(附源碼)

        Sparse R-CNN:稀疏框架,端到端的目標(biāo)檢測(cè)(附源碼)

        發(fā)布人:CV研究院 時(shí)間:2022-12-22 來源:工程師 發(fā)布文章

        圖片1 簡(jiǎn)要

        目前目標(biāo)檢測(cè)成熟的算法都是基于Dense prior(密集的先驗(yàn),比如anchors、reference points),但密集的先驗(yàn)存在很多問題:1)會(huì)檢測(cè)出很多相似的結(jié)果,需要后處理(比如NMS)來過濾;2)many-to-one label assignment 問題(作者描述為 many-to-one 正負(fù)樣本分配),猜測(cè)意思是我們?cè)谠O(shè)置pred和gt時(shí),一般不是一對(duì)一的關(guān)系,可能是有多個(gè)preds,看看哪個(gè)與gt更符合;3)檢測(cè)結(jié)果與先驗(yàn)的關(guān)系非常密切(anchors的數(shù)量、大小,reference points的密級(jí)程度、proposal生成的數(shù)量)。

        圖片

        所以,有研究者提出了稀疏RCNN(Sparse R-CNN),一種圖像中目標(biāo)檢測(cè)的純稀疏方法。現(xiàn)有的目標(biāo)檢測(cè)工作很大程度上依賴于密集的候選目標(biāo),如所有H×W的圖像特征圖網(wǎng)格上預(yù)定義的k個(gè)anchor boxes。

        然而,在新提出的方法中,提供了一套固定的稀疏的學(xué)習(xí)候選目標(biāo),總長(zhǎng)度N,給目標(biāo)檢測(cè)頭進(jìn)行分類和定位。通過消除H*W*k(多達(dá)數(shù)十萬(wàn))手工設(shè)計(jì)的候選目標(biāo)到N(例如100)可學(xué)習(xí)的建議,Sparse R-CNN完全避免了所有與候選目標(biāo)的設(shè)計(jì)和多對(duì)一的標(biāo)簽分配相關(guān)的工作。更重要的是,最終的預(yù)測(cè)是直接輸出的,而沒有非極大抑制的后處理。SparseR-CNN證明了準(zhǔn)確性、運(yùn)行時(shí)和訓(xùn)練收斂性能,與具有挑戰(zhàn)性的COCO數(shù)據(jù)集上建立的檢測(cè)器基線相當(dāng),例如,在標(biāo)準(zhǔn)3×訓(xùn)練計(jì)劃中實(shí)現(xiàn)45.0AP,并使用ResNet-50FPN模型以22fps的速度運(yùn)行。

        作者是希望新的框架能夠激發(fā)人們重新思考目標(biāo)檢測(cè)器中密集先驗(yàn)的慣例。


        2 背景

        圖片

        不同目標(biāo)檢測(cè)pipelines的比較。(a)Dense,HWk候選目標(biāo)枚舉在所有的圖像網(wǎng)格上,例如。RetinaNet;(b)Dense-to-Sparse,它們從密集的HWk候選目標(biāo)中選擇一小組N個(gè)候選目標(biāo),然后通過池化操作提取相應(yīng)區(qū)域內(nèi)的圖像特征,如Faster R-CNN;(c)研究者提出的Sparse R-CNN,直接提供了一小組N個(gè)學(xué)習(xí)的候選目標(biāo),這里N遠(yuǎn)小于HWk

        DenseNet

        是CVPR2017的oral,非常厲害。文章提出的DenseNet(Dense Convolutional Network)主要還是和ResNet及Inception網(wǎng)絡(luò)做對(duì)比,思想上有借鑒,但卻是全新的結(jié)構(gòu),網(wǎng)絡(luò)結(jié)構(gòu)并不復(fù)雜,卻非常有效!眾所周知,最近一兩年卷積神經(jīng)網(wǎng)絡(luò)提高效果的方向,要么深(比如ResNet,解決了網(wǎng)絡(luò)深時(shí)候的梯度消失問題)要么寬(比如GoogleNet的Inception),而作者則是從feature入手,通過對(duì)feature的極致利用達(dá)到更好的效果和更少的參數(shù)。主要優(yōu)化

        • 減輕了vanishing-gradient(梯度消失)

        • 加強(qiáng)了feature的傳遞

        • 更有效地利用了feature

        • 一定程度上較少了參數(shù)數(shù)量

        在深度學(xué)習(xí)網(wǎng)絡(luò)中,隨著網(wǎng)絡(luò)深度的加深,梯度消失問題會(huì)愈加明顯,目前很多論文都針對(duì)這個(gè)問題提出了解決方案,比如ResNet,Highway Networks,Stochastic depth,F(xiàn)ractalNets等,盡管這些算法的網(wǎng)絡(luò)結(jié)構(gòu)有差別,但是核心都在于:create short paths from early layers to later layers。那么作者是怎么做呢?延續(xù)這個(gè)思路,那就是在保證網(wǎng)絡(luò)中層與層之間最大程度的信息傳輸?shù)那疤嵯拢苯訉⑺袑舆B接起來!

        圖片

        RetinaNet

        提出一個(gè)新的損失函數(shù),在解決類別不均衡問題上比之前的方法更有效。損失函數(shù)是動(dòng)態(tài)縮放的交叉熵?fù)p失,其中縮放因子隨著對(duì)正確類別的置信度增加而衰減到零(如下圖)。直觀地說,這個(gè)縮放因子可以自動(dòng)降低訓(xùn)練過程中簡(jiǎn)單樣本的貢獻(xiàn),并快速將模型集中在困難樣本上。實(shí)驗(yàn)發(fā)現(xiàn),F(xiàn)ocal Loss在one-stage檢測(cè)器上的精確度勝過之前的state-of-art的啟發(fā)式采樣和困難樣本挖掘。最后,focal loss的具體公式形式不是關(guān)鍵的,其它的示例可以達(dá)到類似的結(jié)果。

        圖片

        設(shè)計(jì)了一個(gè)名叫RetinaNet的one-stage對(duì)象檢測(cè)器來說明focalloss的有效性,RetinaNet命名來源于在輸入圖像上的密集采樣。它基于ResNet-101- FPN主干網(wǎng),以5fps的運(yùn)行速度下,在COCO test-dev上取得了39.1 AP的成績(jī),超過目前公開的單一模型在one-stage和two-stage檢測(cè)器上取得的最好成績(jī)。

        圖片


        3 新框架

        圖片

        • 數(shù)據(jù)輸入包括an image, a set of proposal boxes and proposal features

        • 使用FPN作為Backbone,處理圖像

        • 下圖中的Proposal Boxes: N*4是一組參數(shù),跟backbone沒啥關(guān)系

        • 下圖中的proposals features和backbone也沒啥關(guān)系

        Learnable porposal box

        • 跟backbone沒有什么關(guān)系

        • 可以看成是物體潛在位置的統(tǒng)計(jì)概率

        • 訓(xùn)練的時(shí)候可以更新參數(shù)

        Learnable proposal feature

        • 跟backbone沒有什么關(guān)系

        • 之前的proposal box是一個(gè)比較簡(jiǎn)潔、卻的方法來描述物體,但缺少了很多信息,比如物體的形狀與姿態(tài)

        • proposal feature就是用來表示更多的物體信息。

        Dynamic instance interactive head

        • 通過proposal boxes以及ROI方法獲取每個(gè)物體的特征,然后與proposal feature結(jié)合得到最終預(yù)測(cè)結(jié)果

        • Head的數(shù)量與learnable box的數(shù)量相同,即head/learnable proposal box/learnable proposal feature一一對(duì)應(yīng)

        圖片

        圖片

        Sparse R-CNN的兩個(gè)顯著特點(diǎn)就是sparse object candidatessparse feature interaction,既沒有dense的成千上萬(wàn)的candidates,也沒有dense的global feature interaction。Sparse R-CNN可以看作是目標(biāo)檢測(cè)框架從dense到dense-to-sparse到sparse的一個(gè)方向拓展。


        4 實(shí)驗(yàn)&可視化

        COCO 2017 val set測(cè)試結(jié)果

        圖片


        COCO 2017 test-dev set

        圖片

        圖片

        可視化迭代架構(gòu)中每個(gè)階段的預(yù)測(cè)框,包括學(xué)習(xí)到的候選框。學(xué)習(xí)到的候選框以白色繪制。顯示了分類分?jǐn)?shù)超過0.3的預(yù)測(cè)框。同一候選類的框以相同顏色繪制,學(xué)習(xí)到的候選框被隨機(jī)分布在圖像上,并一起覆蓋整個(gè)圖像。迭代頭逐漸細(xì)化邊界框位置,刪除重復(fù)的。

        上圖顯示了converged model的學(xué)習(xí)到的候選框。這些方框被隨機(jī)分布在圖像上,以覆蓋整個(gè)圖像區(qū)域。這保證了在稀疏候選條件下的召回性能。此外,每個(gè)階段的級(jí)聯(lián)頭逐漸細(xì)化邊界框的位置,并刪除重復(fù)的位置。這就導(dǎo)致了高精度的性能。上圖還顯示了Sparse R-CNN在罕見場(chǎng)景和人群場(chǎng)景中都表現(xiàn)出穩(wěn)健的性能。對(duì)于罕見場(chǎng)景中的目標(biāo),其重復(fù)的方框?qū)⒃趲讉€(gè)階段內(nèi)被刪除。擁擠的場(chǎng)景需要更多的階段來細(xì)化,但最終每個(gè)目標(biāo)都被精確而唯一地檢測(cè)到。


        *博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

        pic相關(guān)文章:pic是什么




        關(guān)鍵詞: AI

        相關(guān)推薦

        技術(shù)專區(qū)

        關(guān)閉
        主站蜘蛛池模板: 黎城县| 丰镇市| 东兰县| 简阳市| 石狮市| 怀宁县| 普洱| 浮山县| 东山县| 资溪县| 通江县| 万州区| 贺州市| 饶平县| 大渡口区| 新竹市| 甘泉县| 长宁县| 旌德县| 镇赉县| 高淳县| 兰溪市| 镇宁| 施甸县| 揭东县| 江阴市| 盈江县| 准格尔旗| 昭苏县| 桓台县| 德钦县| 枞阳县| 兴义市| 芜湖县| 彭山县| 金秀| 新郑市| 资中县| 阿勒泰市| 法库县| 南阳市|