博客專欄

        EEPW首頁 > 博客 > Curriculum Labeling:重新審視半監(jiān)督學習的偽標簽

        Curriculum Labeling:重新審視半監(jiān)督學習的偽標簽

        發(fā)布人:數據派THU 時間:2022-07-23 來源:工程師 發(fā)布文章

        來源:DeepHub IMBA

        Curriculum Labeling (CL),在每個自訓練周期之前重新啟動模型參數,優(yōu)于偽標簽 (PL)。


        Pseudo-Labeling (PL) 通過將偽標簽應用于未標記集中的樣本以在自訓練周期中進行模型訓練。Curriculum Labeling (CL)中,應用類似課程學習的原則,通過在每個自學習周期之前重新啟動模型參數來避免概念漂移。該論文發(fā)布在2021 AAAI 。
        圖片


        偽標簽 (PL) 簡要回顧


        圖片
        偽標簽可以認為是未標記數據的目標類,就好像它們是真正的標簽一樣。偽標簽是通過選取網絡為每個未標記樣本預測的最大預測概率的類來實現的。偽標簽使用帶有 Dropout 的微調階段,可以將預訓練的網絡以有監(jiān)督的方式同時使用標記和未標記的數據進行訓練。


        Curriculum Labeling (CL)


        圖片
        模型在標記樣本上進行訓練。然后該模型用于預測和分配未標記樣本的偽標簽。預測概率分數的分布用于選擇偽標記樣本的子集。使用標記和偽標記樣本重新訓練新模型。通過使用這個新模型重新標記未標記的樣本來重復這個過程。當訓練期間使用數據集中的所有樣本時,該過程停止。
        圖片
        具體來說,百分位分數用于決定添加哪些樣本。上面的算法顯示了模型的完整流程,其中percentile (X, Tr)返回第r個百分位的值。r的值從0%到100%以20為單位遞增。當偽標記集包含整個訓練數據樣本(r=100%)時,重復過程終止。
        數據由N個有標記的樣例(Xi, Yi)和M個無標記的樣例Xj組成。設H是一組假設H θ,其中H θ∈H,其中H θ∈H表示一個映射X到Y的函數。設Lθ(Xi)表示給定例子Xi的損失。為了選擇具有最低可能誤差的最佳預測器,公式可以用正則化經驗風險最小化(ERM)框架解釋。
        下面,L(θ)定義為偽標記正則化經驗損失:
        圖片
        上圖的cee為交叉熵 cross entropy。

        實驗結果


        下圖為基于WideResNet-28在CIFAR-10和SVHN上的測試錯誤率。
        圖片
        下圖為使用CNN-13在CIFAR-10和SVHN上的測試錯誤率。
        圖片
        CL在CIFAR-10上出人意料地超過了之前基于偽標記的方法和一致性正則化方法。CL的數據增強是以完全隨機的方式進行的轉換,稱為隨機增強(RA)。在SVHN上,CL方法與以前所有依賴中高度數據增強的方法相比,具有競爭性的測試誤差。
        圖片
        測試SSL算法的一種常見做法是,使用每個類的50、100和200個樣本來改變標記數據的大小。當處理較小的標簽集時CL也不會顯著降低。
        圖片
        在ImageNet上,CL以最先進的技術取得了具有競爭力的結果,得分非常接近目前的頂級表現方法。模型為 ResNet-50,使用已標記/未標記數據的10%/90%的訓練分割。
        對于標記樣本分布外的真實評估結果如下:
        圖片
        在 Oliver NeurIPS’18 更現實的 SSL 設置中,未標記數據可能與標記數據不共享同一類集。該實驗是通過綜合改變 CIFAR-10 上的類重疊來復制的,這里只選擇動物類來執(zhí)行分類(鳥、貓、鹿、狗、青蛙、馬)。
        CL 對分布外的類具有魯棒性,而以前方法的性能顯著下降。據推測,所提出的自定進度是CL中表現良好的關鍵,其中自適應閾值方案可以幫助在訓練期間過濾分布外的未標記樣本。

        消融研究


        標簽的有效性。
        圖片
        不同的數據增強,如混淆和SWA,在應用傳統(tǒng)的偽標記時,沒有進度,也沒有特定的閾值(即0.0)。只有在對偽標注進行重數據增強時,該方法才能在不使用任何數據擴充的情況下匹配所提出的進度設計。
        圖片
        在偽標記 (PL) 中使用的固定閾值,這些閾值用于包含偽標記的未標記數據。CL能夠產生比傳統(tǒng)的偽標記方法,即使在應用重數據增強時使用固定閾值顯著的收益。
        圖片
        只有最有把握的樣本在 CL 中被重新標記。置信閾值為 0.9 和 0.9995。使用精心挑選的閾值是次優(yōu)的。
        重新初始化與微調的有效性結果如下:
        圖片
        重新初始化模型會產生至少 1% 的提升,并且不會給建議的自定進度方法增加的開銷。與微調相反,重新初始化模型確實提高了準確性,展示了一種替代且可能更簡單的解決方案來緩解確認偏差問題。
        論文地址:https://arxiv.org/abs/2001.06001作者:Sik-Ho Tsang

        *博客內容為網友個人發(fā)布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。



        關鍵詞: AI

        相關推薦

        技術專區(qū)

        關閉
        主站蜘蛛池模板: 清苑县| 中卫市| 冀州市| 普定县| 江北区| 双牌县| 佳木斯市| 电白县| 海南省| 昌都县| 稻城县| 永平县| 皮山县| 兴城市| 淅川县| 舒城县| 海阳市| 杭锦旗| 太原市| 军事| 合川市| 东港市| 正镶白旗| 杭锦旗| 县级市| 巴林左旗| 托克逊县| 台山市| 房山区| 郓城县| 改则县| 体育| 保德县| 丹凤县| 突泉县| 宿迁市| 双牌县| 新密市| 宁海县| 宝坻区| 蒙自县|