博客專欄

        EEPW首頁 > 博客 > 半監督語義分割前沿

        半監督語義分割前沿

        發布人:計算機視覺工坊 時間:2022-11-19 來源:工程師 發布文章

        來源丨MCPRL

        導讀

        傳統語義分割在很多任務上已經達到了很好的性能,然而這需要大規模完全標注的數據集,這無疑需要昂貴的人力物力財力。半監督語義分割旨在利用少量標注樣本和大量的未標記樣本解決標注難度大、標注成本昂貴等問題。本文將焦距近期半監督語義分割的前沿論文,分析其方法和特點并給出總結。


        背景

        定義:使用大量的未標記數據,以及同時使用標記數據,來進行語義分割。常用數據集:PASCAL VOC 2012;Cityscapes等
        常用分割網絡:不同backbone的deeplabv3+;HRNet;PSPNet等常用方法:主要包括Pseudo-Labels based和Consistency based,Pseudo-Labels based就是基于偽標簽進行監督學習的方法, 一般就是模型對unlabeled data預測偽標簽,然后進行監督學習;Consistency based就是利用數據增強、網絡擾動等方法,但認為模型的輸出應該保持一致,可以看作一種正則化方法以提高模型的泛化性,防止網絡對有標簽數據的過擬合,讓模型提取出最本質的特征。

        2 論文列表

        本文分析的論文如下:圖片

        3 ST++: Make Self-training Work Better for Semi-supervised Semantic Segmentation

        第一篇就是CVPR2022的ST++,它具有兩大出發點:
        1. 對于半監督語義分割來說,一些精細的機制(指加的一些tricks)是必不可少的嗎?更重要的是,self-train對于這項任務來說已經過時了嗎?針對這個出發點,作者就使用self-train策略,利用常用的數據增強,而沒有用其他花哨的tricks,產生ST模型
        2. 第二個出發點就是,以前的方法,同時利用了所有的unlabeled data,而不同的未標記圖像不可能同樣簡單,對應的偽標簽也不可能同樣可靠,因此在使用有些不可靠的偽標簽迭代優化模型時,會導致嚴重的預測偏差和潛在的性能下降。因此,作者提出ST++進行重新訓練,它會基于偽mask在不同迭代輪次中的整體穩定性自動選擇和優先排序更可靠的圖像,為剩下的不可靠的圖像生成更高質量的人工標簽。
        基本的self-train范式如下:
        • 【有監督預訓練】在有標簽圖像上完全訓練得到一個初始的教師模型T
        • 【生成偽標簽】用教師模型在所有的無標簽圖像上預測one-hot偽標簽
        • 【重新訓練】混合有標簽圖像和無標簽圖像及其偽標簽,在其上重新訓練一個學生模型S,用于最終的測試
        而原始的ST存在兩個問題:基于Teacher模型的偽標簽可能是錯的,導致學生模型對噪聲標簽過擬合問題;T和S的網絡結構相同,初始化相似,容易對未標記的圖像做出相似的真假預測,導致學生S除了熵最小化外,沒有學到額外的信息。為了解決上述兩個問題,我們改進的ST為S模型引入了強數據增強(colorjitter, grayscale, blur, Cutout),來防止這種過擬合。圖片其實就是用T產生的偽標簽和真的標簽一起進行監督學習訓練S,而且對S的unlabelled data加了強數據增強。ST++就是再ST的基礎上通過觀察T在訓練過程中產生偽標簽的圖像穩定性,來對可靠的未標記樣本進行優先級排序和選擇,防止不可靠樣本損害網絡訓練。具體地,作者觀察到在訓練階段,分割性能和所生產的偽掩碼的進化穩定性之間存在正相關。因此,在訓練過程中,可以根據進化穩定性選擇更可靠、預測效果更好的未標記圖像。所以將前K-1個checkpoint的mask與第K個求一個meanIOU,認為值越高,可靠性越強。完整的ST++見下圖:圖片具體步驟
        • 在labeled data上訓練T,并根據meanIOU篩選可靠的unlabeled data
        • 用labeled data和可靠的unlabeled data第一次訓練S
        • 訓練好的模型對不可靠的unlabeled data重新預測生成偽標簽
        • 用所有數據對S進行第二次訓練
        • 整個訓練過程還可以繼續迭代,利用自身模型性能的提升和數據不斷清洗形成正反饋。

        4 Semi-Supervised Semantic Segmentation With Cross Pseudo Supervision

        這一篇CPS來自于CVPR2021,,其思想非常簡單,就是利用網絡擾動,即兩個具有相同架構的不同初始化的網絡進行交叉監督,來達到提升模型預測穩定性的作用。它結合Cutmix數據增強和CELoss就可達到當時SOTA。圖片具體地,相同的數據塞入兩個架構相同、不同初始化的網絡,通過sofmax產生預測P,然后再生成最終的偽標簽Y,這里用Y1監督P2,反之亦然,使用了一個交叉監督的思想,可以同時達到利用偽標簽監督(且增加了監督信號)和一致性約束的效果。

        5 Perturbed and Strict Mean Teachers for Semi-supervised Semantic Segmentation

        這篇文章也是出自CVPR2022,是一個利用一致性損失的經典方法。它主要貢獻就是:1.  通過一個新的輔助教師和一個更嚴格的信心加權的CE損失(Conf-CE)來替代MT的MSE損失,提高了未標記訓練圖像的分割精度,和更好的收斂——架構、損失函數層面2.  結合使用輸入數據、特征和網絡擾動,以改進模型的泛化3.  提出一種新型的特征擾動,稱為T-VAT,基于從我們的MT模型的教師那里學習到的對抗性噪聲,并將其應用于學生模型,從而產生具有挑戰性的噪聲,以促進學生模型的有效訓練。——擾動層面圖片具體的細節就是:增加了一個T模型,對兩個T模型只使用弱數據增強(比如flip、crop、scale),防止對T模型的預測造成干擾;對S模型進行強數據增強(Cutmix,Zoom in/ Out)然后,對S編碼后的特征層使用T-VAT擾動,增加模型泛化性,使編碼器能提取最本質的特征。這個擾動要足夠大足夠有效,如何衡量?就是用兩個T模型的預測來衡量,要讓T模型的預測在加噪聲前后,預測的差異越大越好。然后就是兩個T模型的預測和S的預測使用Conf-CE Loss作為一致性損失函數:圖片就是在CELoss加了一個權重c(w)代表w像素位置的分割置信度,置信度越高,損失越大,這樣對于不那么可靠的像素,損失較小,可一定程度上緩解對于錯誤標簽的過擬合,而對于Labeled data就用監督損失函數CELoss然后梯度下降更新S,EMA交替更新T,即一個epoch只更新一個T模型。可以看到這個文章改進思路比較全面,輸入數據、特征和網絡三個層面的擾動和架構損失函數的改進都考慮到了。

        6 Semi-Supervised Semantic Segmentation Using Unreliable Pseudo-Labels

        圖片這篇文章出發點就是現有Pseudo-Labels based方法大多扔掉置信度不高的偽標簽,只使用置信度高的偽標簽進行訓練;然而,這會導致有些像素可能永遠不會被訓練。從而導致某些類別訓練不充分或者類不平衡。解決方案:雖然有些不靠譜的偽標簽可能是misclassified,但是我可以排除一些絕不可能的類別。利用什么來拉遠這些類別的距離?對比學習損失InfoNCELoss圖片所以它的基本思路是:對于labeled data正常監督學習,對于unlabeled樣本首先根據閾值劃分出可靠像素和不可靠的像素,可靠像素使用監督學習,不可靠的像素使用對比學習拉遠與不可能類別之間的距離。

        7 Semi-Supervised Semantic Segmentation via Adaptive Equalization Learning

        這是NIPS2021的一篇,著重于解決長尾、類不平衡問題,比如說Cityscapes數據集,頭部類別的像素數遠多于尾部類別幾百倍。為了應對數據集中的這種問題,本文提出了三大自適應策略:1)自適應復制-粘貼和CutMix數據增強方法,為表現不佳的類別提供更多被復制或剪切的機會2)自適應數據采樣方法,鼓勵從表現不佳的類別中采樣像素3)一種簡單而有效的重加權方法,以緩解偽標記帶來的訓練噪聲圖片通過這些策略,我們可以一定程度上緩解長尾問題,比如Cityscape數據集的兩種設置,我們從圖中看到,從藍線變成了黃線,很大程度上緩解了長尾問題基本網絡框架如下:圖片基本策略和經典方法一樣,經典的mean Teacher模型,采用EMA的方法更新T,采用梯度回傳更新S利用T模型在弱增廣無標記數據Du上生成一組偽標簽, 隨后,用gt對標記數據Dl(弱增強)和用生成的偽標簽對未標記數據Du(強增強)進行訓練。損失函數也是標準的利用偽標簽的方法,使用了CELoss圖片其使用的自適應策略如下:首先構建Confidence Bank:計算一個batch中的c類像素的平均預測概率,然后隨著訓練的進行,這一個值采用EMA更新。圖片圖片然后使用Adaptive CutMix數據增強:置信度越高的類別選擇進行Cutmix的概率越低,對所有類別使用Softmax得到選取的概率。具體地,作者依據概率隨機選取一個類別,作為采樣類別,隨機選取一幅包含采樣類別的未標記圖像,然后對該類別區域Crop,再粘到另一幅圖像上;由于自適應CutMix是在沒有標注的數據上執行的,因此我們使用T的預測作為近似gt。圖片然后進行Adaptive Copy-Paste:思路同CutMix,只不過將采樣類別的所有像素隨機粘到另一張圖像上。然后使用Adaptive Equalization Sampling:就是在訓練集每個圖象中的每一個類別按一定采樣率采樣,采樣到的像素計算損失。圖片越困難的類別采樣率越高,可以看到置信率最低的樣本采樣率為1;只對被采樣到的像素計算損失圖片作者還采用了Dynamic Re-Weighting:按照分為c類的置信度進行加權,置信度越高,損失越大圖片

        8 Enhancing Pseudo Label Quality for Semi-Supervised Domain-Generalized Medical Image Segmentation

        這一篇是用在醫學圖像CT上的半監督域擴展語義分割,解決Domain-Generalize問題:訓練數據由來自三個源域的標記圖像和未標記圖像組成,且不知道域標簽,而測試數據來自一個未知分布。方法主要是借鑒CPS交叉監督提出 confidence-aware cross pseudo supervision,并且使用了使用傅里葉特征做數據增強。圖片

        9 Collaborative and Adversarial Learning of Focused and Dispersive Representations for Semi-supervised Polyp Segmentation

        圖片

        • 這篇是半監督方法用在息肉分割上的,主要提出了兩個提取模塊,在兩個分割網絡的編碼路徑上分別采用FEM和DEM。FEM使我們的網絡能夠捕捉到輸入特征圖的重點信息,如位置信息和空間信息,而DEM試圖聚合輸入的零散邊界信息。
        • 同時訓練兩個分割網絡和一個discriminator網絡標記圖像通過對抗訓練方法。在一致性約束的幫助下,我們可以利用FEM和DEM的兩種特征映射,通過訓練好的鑒別器網絡生成具有高可信度的置信度映射;
        • 提出了另一種對抗訓練方法——輔助對抗學習(AAL),以提高半監督訓練階段未標記圖像分割預測的質量。我們采用一種新的鑒別器對有標記圖像的分割結果分配真標簽,對無標記圖像的預測分配假標簽。使用AAL可以得到可信度較高的置信圖,從而更好地應用于分割網絡

        10 總結

        • 半監督語義分割目前的改進方向主要包括:圖像、特征、網絡層級的擾動;網絡架構(目前較少);損失函數(更細的改動,結合consistency-based 和 pseudo-based);訓練策略(更細致的策略)
        • 可融合的方向:對比學習、相似度學習可作為突破口,可能可以結合弱監督、無監督方法。

        撰稿人、排版人:董軍豪

        本文僅做學術分享,如有侵權,請聯系刪文。


        *博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。



        關鍵詞: AI

        相關推薦

        技術專區

        關閉
        主站蜘蛛池模板: 苗栗县| 玉环县| 梁河县| 庄浪县| 桑植县| 池州市| 保山市| 富锦市| 德清县| 新兴县| 石渠县| 扎囊县| 吉隆县| 贺州市| 荥经县| 临桂县| 禹城市| 南昌市| 成安县| 乌鲁木齐市| 浮山县| 巩留县| 栖霞市| 贵南县| 汶上县| 城固县| 东海县| 东兰县| 木里| 明水县| 河池市| 曲松县| 绍兴市| 惠州市| 普格县| 昭苏县| 泽普县| 新平| 裕民县| 和政县| 通州区|