目標檢測新方法:Copy-Paste新方式解決擁擠的目標檢測
文章地址:https://arxiv.org/pdf/2211.12110.pdf
01
概述
在今天分享中,研究者首先強調了擁擠問題的兩個主要影響:1)IoU置信度相關干擾(ICD)和2)混淆重復數據消除(CDD)。然后,研究者從數據擴充的角度探索破解這些。
首先,針對擁擠的場景提出了一種特殊的復制粘貼方案。基于此操作,研究者首先設計了一種“共識學習”策略,以進一步抵抗ICD問題,然后發現粘貼過程自然地揭示了場景中目標的偽“深度”,這可能用于緩解CDD困境。這兩種方法都源自對復制粘貼的神奇使用,無需額外的處理。
實驗表明,在典型的擁擠檢測任務中,新提出方法可以輕松地將最先進的檢測器提高2%以上。此外,這項工作可以在擁擠場景中勝過現有的數據增強策略。
02
背景
目標檢測的任務已經被仔細研究了相當長的時間。在深度學習時代,近年來,已經提出了許多精心設計的方法,并將檢測性能提高到了令人驚訝的高水平。盡管如此,仍然存在許多根本性問題沒有得到根本解決。其中之一是“擁擠問題”,這通常表示屬于同一類別的目標高度重疊在一起的現象。在幾何方式中,基本困難源于2D空間的語義歧義。如下圖所示,在我們的3D世界中,每個體素都有其“獨特的語義”,并位于“特定目標”上。然而,投影到2D平面后,一個像素可能落在幾個碰撞的對象上。在將概念從“像素”演變為“框”之后,擁擠場景中的語義模糊導致了重疊的概念。
為了探究這個問題的影響,研究者現在深入到檢測范式的本質。通常,目標檢測器讀取圖像并輸出一組邊界框,每個邊界框與置信度分數相關。對于理想執行的檢測器,得分值應反映預測框與GT的重疊程度。換句話說,這兩個框之間的交集(IoU)應與置信度得分呈正相關。在下圖中可視化了與IoU相關的得分的平均值和標準差后,結果表明,即使是像(Mask r-cnn)這樣的現成檢測器,這種正相關也會逐漸受到擁擠度增加的干擾。
這項實驗研究清楚地表明了當前檢測算法在面對超重重疊時的困難。我們將這種效應體現為IoU置信度相關干擾(ICD)。另一方面,典型的檢測管道通常以重復數據消除模塊結束,例如,廣泛采用的非極大抑制(NMS)。由于前面提到的2D語義模糊,這些模塊經常被嚴重重疊的預測所混淆,這導致在人群中嚴重缺失。我們將這種效果稱為混亂的重復數據消除(CDD)。
03
新框架
Copy-Paste Augmentation:
Copy-Paste增強技術于2017年首次提出。通過從源圖像中剪切目標塊并粘貼到目標圖像,可以輕松獲取組合數量的合成訓練數據,并顯著提高檢測/分割性能。這一驚人的魔力隨后被后續作品所驗證,并通過上下文改編進一步完善了該方法。Ghiasi等人聲稱只要訓練足夠,簡單的Copy-Paste可以帶來相當大的改進。他們的實驗進一步表明了這種增強策略在實例級圖像理解上的潛力。需要注意的是Copy-Paste的最初動機是使樣本空間多樣化,特別是對于稀有類別或緩解復雜的掩模標簽。然而,研究者利用這種操作來精確地解決擁擠問題。盡管在以前的工作中有過簡單的實踐,但從未系統地設計和研究過這種策略在處理擁擠場景方面的實際效果。
Consensus Learning:
通過Copy-Paste工具包,使用專門的策略來抵抗ICD問題,從而增強檢測器訓練。考慮到上圖所示的觀察結果,預測分數的不穩定性來源于擁擠,一種新的解決方案是將擁擠環境中的一個目標的分數(被其他目標覆蓋)與未覆蓋時的分數對齊。由于Copy-Paste方法可以很容易地生成這種類型的目標對,其中兩個相同的目標位于不同的環境中。下圖說明了研究者的想法。
在前面的數據擴充之后,研究者選擇了一組由其他目標覆蓋的目標。然后,將與中的目標patch相同的目標patch重新粘貼到圖像上,而不進行覆蓋,從而構建另一組。在訓練期間,強制執行每個目標的預測分數分布與其對應的保持一致。將這一過程稱為共識學習,通過對每一對中的“達成共識”進行類比。具體來說,具體來說,讓是與匹配的建議集,是匹配的建議集,首先計算每個目標得分的平均值和標準差:
Analyze the IoU-Confidence Disturbances:
現在,分析了方法在減輕上述ICD問題上的有效性。為了重新審視提出的原始動機,在下圖中繪制了分數的標準差(STD)。
清楚地表明,用提出的Crowdedness-oriented Copy-Paste(CCP)訓練的模型的 STDs明顯低于基線模型(BL),并且通過提高擁擠程度(從圖(a)到(d))。其次,雖然CCP和CCP+CL的曲線似乎沒有明顯的區別,但通過計算它們的平均std(圖中的4個直方圖),研究者發現后者的值實際上低于前者。
Alleviate the Confused De-Duplications:
增強策略有一個自然的副產品:對于粘貼的這些重疊目標,相對的“深度順序”是先驗的。換句話說,我們知道哪個在前面,哪個在后面。
基本上,2D空間中的歧義是由真實(3D)世界中缺少一維造成的。從這個角度來看,深度順序可以被視為額外第三維度的一些薄弱知識,這有助于減輕模糊性。作為一種可行的實踐,在這項工作中利用深度順序信息來解決混淆的重復數據消除(CDD)問題。
引入一個名為“overlay depth”(OD)的變量,該變量描述了目標在視覺上被其他目標覆蓋的程度。上圖顯示了計算OD的過程。首先假設一個目標的覆蓋深度等于1.0,如果沒有其他目標覆蓋它。設是由目標覆蓋的目標的區域,表示區域的大小。
04
實驗及可視化
Results on CrowdHuman val setOD prediction可視化
*博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。