位置感知的自監督transformer
論文:https://arxiv.org/pdf/2212.02400.pdf
代碼:
https://github.com/google-research/scenic/tree/main/scenic/projects/loca
論文出發點
預訓練通常用于提高像素級模型推理的性能和標簽效率。然而,圖像級預訓練是否是具有空間理解的識別任務的最佳策略尚不清楚。一項研究表明,一些經過圖像分類預訓練的模型,雖然在圖像級下游任務中表現出色,但在目標檢測方面表現不佳,而目標檢測需要空間推理。
預訓練通常使用全局目標的主要原因是:標注在圖像級別上比在像素級別上更容易收集。事實上,在SOTA中通常使用的圖像分類或圖像-文本數據集比密集標注的數據集大了幾個數量級,涵蓋了更多的類別。因此,釋放大規模密集空間感知預訓練潛力的一種方法可能是去掉標注,正如自監督學習(SSL)方法所提出的那樣。
SSL的一個成功分支,通常被稱為“對比學習”,其工作原理是通過數據增強來匹配從同一圖像中獲得的不同圖像的表示。Caron等人已經表明,用對比方法訓練的視覺transformer(ViT)的注意圖中出現了分割掩模。
然而,本文在初步實驗中發現,在對語義分割任務進行微調后,顯著注意圖與優異的表現并不相關。因此,作者假設,這是因為對比方法在全局層面上沒有明確使用空間關系。
本文的主要貢獻
1.本文探索了一種替代內容重建的方法,以鼓勵空間Transformer特征的出現,即預測相對圖像部分的位置。
2.將模型實現為一個分類問題,其中查詢圖像中的每個patch都經過訓練,以預測其相對于參考圖像的位置。
3.可以通過掩碼查詢的參考patch特征來控制任務的難度和結果特征的屬性。
SSL與位置預測
SSL中的開創性工作提出利用空間線索來生成pretext任務。值得注意的是,受word2vec的啟發,Doersch等人訓練了一個網絡,以預測同一圖像中一對patch的相對位置,而Noroozi和Favaro通過重新排列圖像中的一組混疊作物,將這種方法擴展到解決“拼圖”。Zhai等人提出對ViT進行預處理,以預測其輸入patch的位置,僅考慮其視覺外觀,即通過丟棄位置嵌入。作者將該策略與本文的LOCA機制進行了比較,如圖2所示。
圖2。單一與查詢-參考patch位置預測機制的概念比較:(a)在單一圖像中,如Zhai等人;(b)在查詢圖像中相對于LOCA中的參考圖像。
方法
查詢參考機制
本文提出了一種查詢參考機制來預測圖像部分的定位。具體來說,查詢通過預測一個查詢圖像相對于另一個參考圖像的位置來工作,如圖1所示。因為查詢和參考是由兩個獨立的擴增圖生成的,所以它們通常具有不同的圖像統計信息(即不同的比例、區域或顏色直方圖)。這迫使網絡更少地依賴低級線索(色差、顏色和邊緣一致性)來解決定位任務,而更多地依賴于識別對象部分及其組織。
查詢的任務是在參考圖像中定位自己,因此損失僅在兩個圖像的相交處定義。此外,為了有利于圖像部分表示的出現,限制了查詢的空間范圍。然后,選擇是對參考圖像進行采樣,使其覆蓋原始圖像的大面積,而查詢圖像則覆蓋原始圖像中的一小部分。
圖1。LOCA通過預測查詢圖像相對于參考圖像的位置來工作。
查詢和參考之間的對應關系
根據視覺transformer,查詢圖像和參考圖像被劃分為分辨率為P×P的非重疊patch。更準確地說,參考圖像被平坦化為Nref。在查詢圖像上應用“patch化”過程,生成一系列Nqpatch。
通過回溯生成xref和xq的數據擴充圖,識別這兩個圖像之間的patch級別對應關系。使用連續的最近插值實現函數h,因為xq和xref的修補網格通常不完全對齊。這種效果可以在圖1的示例中看到。
patch位置預測
將查詢定位問題實現為Nref -way分類任務,其中每個查詢patch表示必須預測在參考圖像中覆蓋相同內容的patch的位置。為此,查詢的patch表示需要能夠“查看”參考的patch表示。使用單個交叉注意轉換塊(用g表示)實現這種查詢參考交互,其查詢從Zq計算,鍵和值從Zref獲得。將查詢表示法表示為G = G (Zq, Zref)∈Rd×Nq,并將W∈Rd×Nref表示為最后的“位置分類”層。訓練網絡使以下位置預測損失最小化:
平均不同查詢圖像和批處理的損失,并通過反向傳播學習f, g和W參數。還使用特征預測損失來鼓勵在不同圖像中覆蓋相似內容的patch保持一致。
掩碼查詢可見的參考patch
在實踐中,作者發現該網絡可以近乎完美地解決問題(見圖3中的驗證精度)。
圖3。單一vs查詢參考patch位置預測機制。
對于這兩種機制,報告了位置預測精度(左)和轉移到ADE20k上的語義分割后的性能(右)對于不同的掩碼比η。由于查詢和參考之間的不同圖像統計量以及受約束的patch交互,查詢-參考使得訓練前目標更具挑戰性(位置預測任務的準確性較低)。
patch特性預測
受UP-DETR框架的啟發,作者在定位框架中增加了patch特征預測目標,以獲得更多的語義表示。patch功能不僅應該能夠定位自己,而且還應該能夠匹配不同上下文中處于相似位置的功能。使用基于patch的MSN框架來實現這一點。作者在初步實驗中觀察到,這種選擇對最終性能的影響最小,選擇MSN是因為它的穩定性。
實驗
表1 . Localization loss。
圖5。可視化LOCA的預測。
表2。與以往語義分割結果的比較。
表3。在ADE20k上進行少量的語義分割。
表4。語義分割中的定位與分類。
表5。消融實驗。
圖6。擴展實驗。
*博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。