博客專欄

        EEPW首頁 > 博客 > ICLR 2021 | 微軟亞洲研究院精選論文一覽(2)

        ICLR 2021 | 微軟亞洲研究院精選論文一覽(2)

        發布人:MSRAsia 時間:2021-05-07 來源:工程師 發布文章

        結論三:預訓練和下游任務的問題對齊決定了遷移效果

        為了進一步解釋為何自監督預訓練在目標檢測上效果更好,研究員們又做了如下實驗。(1)通過分析檢測錯誤,自監督預訓練能得到更準確的位置信息。(2)當利用 Deep image prior 對高層特征進行圖像重建時,自監督重建的圖像更接近于原圖并且更加完整。雖然對比學習訓練時也包含了位置尺度不變性,但卻能在重建中保持正確的尺度和位置。相反,有監督的學習過度關注物體的局部區域,丟失了很多對于精確定位的重要信息。研究員們認為 instance discrimination 方法為了保證當前實例區別與其它所有實例,盡可能的保留了更多的信息。

        17.jpg

        圖6:對于物體檢測,有監督的預訓練(相比自監督)帶來了更多定位的錯誤

        18.jpg

        圖7:自監督模型可以更好的重建底層的圖像信息

        二、一種改進的有監督預訓練方法

        大量的標注數據包含了豐富的語義信息,應該對下游任務有所幫助,但傳統的有監督預訓練是通過減小 intra-class variation 進行學習的。這樣模型更多的關注了對特定類有識別力的區域,從而忽略了其它可能包含有用信息的區域。一個更好的有監督預訓練方法應該僅僅拉遠不同類的實例,而不對同類樣本加以任何約束,這樣可以更好地保留每個實例的特征。參考 examplar SVM 的方法,研究員們在 instance discrimination 的損失函數上進行了改進。

        19.png

        實驗證明這種方式在圖像分類和目標識別兩個下游任務上都得到了提升。

        20.jpg

        表9:改進的有監督模型 examplar 提高了遷移性能

        基于實例的層序可變Transformer網絡結構

        21.png

        論文地址: https://arxiv.org/abs/2103.03457

        Transformer 網絡在自然語言以及視覺領域取得了極大的成功。它由三個基本的子層:自注意力層 (self-attention, SA)、編碼-解碼注意力層 (encoder-decoder attention, ED)和前饋全連接層 (feed-forward, FF)線性堆疊而成,并且這些子層的順序是固定的。然而,微軟亞洲研究院的研究員們通過一些簡單的驗證發現,不同的子層順序堆疊的網絡 (如 SA→FF→ED 或者 FF→ED→SA) 對于不同的樣本來說重要程度是不一樣的。如表10所示,對于這個句子,用不同的子層順序網絡翻譯出的結果差距非常大。這告訴研究員們,其實每個語句都擁有自己偏好的網絡順序來進行更好的翻譯。

        基于上述發現,研究員們提出了基于實例的子層順序動態可變的 Transformer 網絡結構 (IOT),以打破固定順序的 Transformer 網絡,使得網絡能夠通過不同順序的堆疊來建模不同的函數,從而增大了網絡的建模空間并提升最后的任務結果表現。值得注意的是,研究員們的方法幾乎沒有增加額外的參數,并且能夠適用于各類神經網絡 (如驗證了在 DynamicConv 上的結果) ,只需網絡包含不同的子層結構。

        22.png

        表10:一句德文語句的不同子層順序網絡對應的不同英文翻譯結果以及 BLEU、TER 的分數差距

        關于論文中使用的方法,具體來說,研究員們在 Transformer 的編碼器和****模塊之前各增加了一個輕量的、基于 MLP 的層序預測器網絡,以此來進行不同的子層順序選擇。框架如圖8所示,圖中展示了對于三個不同的樣本進行各自的子層順序網絡選擇的結果。

        23.png

        圖8:IOT: 基于實例的子層順序變化的框架圖以及三個樣例的順序選擇

        研究員們采用了基于 Gumbel-softmax 的不同子層順序的權重學習。以****的順序選擇為例,λ_n  即為第 n 種層序的重要程度,其中 s_d 為編碼器最后層輸出的平均。同理,編碼器的第m種順序的重要程度用 γ_m 表示。所以研究員們根據 λ_n 以及 γ_m 的大小 (argmax) 來選擇相應的編碼器和****的子層順序。

        24.png

        在訓練過程中,研究員們還使用了一個探索(exploration)和一個利用(exploitation)的損失函數來輔助訓練(通過約束順序的分布),從而使得每個數據實例能夠選擇其偏好的順序,并且網絡能夠穩定且有效。

        研究員們在三個不同的序列生成任務——機器翻譯、文本摘要以及代碼生成上進行了驗證,一共包含9個不同的數據集。實驗表明 IOT 都取得了超越基準模型不少的優異結果。如在 IWSLT8 個方向的小數據集翻譯任務上都取得了超過一個點的 BLEU 提升,在 WMT14 的 En->De 大數據上取得了30.03的 BLEU 分數。研究員們還進行了各類不同方面的分析,以數據和順序間的選擇關系為例,如圖9所示,在數據所選擇的子層順序網絡上的確取得了超越其余子層順序的更優結果,因此證明了數據的確進行了自己更偏好的、更優的子層順序選擇。研究員們的方法簡單而高效,希望能夠讓更多人關注如何構建動態網絡,從而增強網絡的建模能力。

        25.png

        圖9:根據層序預測器預測劃分的數據集以及不同子層順序的翻譯結果

        基于回報的對比表征學習在強化學習中的應用

        26.png

        論文地址: https://openreview.net/pdf?id=_TM6rT7tXke

        在深度強化學習中,如何學習緊致且有效的狀態表示是解決復雜決策問題和提升樣本效率的一個關鍵問題。最近,很多工作利用基于對比學習的輔助任務在強化學習過程中加強狀態表示的學習,都取得了很好的實際效果,但已有的基于對比學習的輔助任務并沒有充分考慮到強化學習問題的特性,而且大多是無/自監督的。因此,微軟亞洲研究院的研究員們探究了如何利用回報分布 (Return Distribution)——強化學習中最為重要的反饋信號,來構建一個新的對比學習式輔助任務。

        首先,為了從數學上嚴謹地刻畫利用回報分布這一想法,研究員們提出了 Z^π-irrelevance 抽象函數。直觀上來說,Z^π-irrelevance 抽象函數會把回報分布類似的狀態動作對聚集到一起。相比于之前的抽象函數,該函數能夠在不損失過多信息的同時,大幅縮小狀態動作空間,從而提高學習效率。該抽象函數具有兩大特點:

        1.可以更大程度上地縮小狀態動作空間。

        2.能夠在抽象狀態動作空間中精確表示原狀態動作空間的價值函數。

        27.png

        圖10:Z^π-irrelevance 抽象函數示意圖

        接下來,為了從采樣數據中學習得到 Z^π-irrelevance 抽象函數,研究員們提出了基于對比損失函數的Z學習算法:

        28.png

        這里,? 代表編碼器,也就是狀態動作表示;w 代表判別器;y 是二元標簽,用于判斷當前兩個狀態動作對 x_1,x_2 是否具有相同的采樣回報值。

        在理論上,該方法嚴謹地證明了 Z 學習算法會以 1/√n  的速率收斂到 Z^π-irrelevance 抽象函數。而實際中,也可以通過分段的方式來判斷兩個狀態動作是否具有同樣的采樣回報值。具體來說,軌跡內分段的思路如下:從頭到尾捋一遍采樣得到的整條軌跡,如果累計的獎勵絕對值變動超過某個閾值,那么就會從這里形成一個新的分段。這就是實際的 RCRL 算法。

        29.png30.png

        圖11:RCRL 算法示意圖

        為了驗證算法的有效性,研究員們分別在 Atari 游戲的26個游戲以及 DMControl 套件的6個任務中進行了大量實驗,結果表明 RCRL 算法不僅可以取得比其它前沿的狀態表示算法更佳的樣本效率,還可以和一些已有的狀態表示算法 (比如,CURL) 結合,共同提升基準算法的樣本效率。

        *博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。



        關鍵詞: 機器學習

        相關推薦

        技術專區

        關閉
        主站蜘蛛池模板: 九龙坡区| 长宁县| 保靖县| 湘西| 江都市| 方正县| 射阳县| 双鸭山市| 石首市| 齐河县| 九寨沟县| 东乡县| 贵德县| 武隆县| 镇江市| 东兰县| 卢氏县| 武乡县| 湛江市| 滦南县| 宁乡县| 庄浪县| 北川| 五常市| 江西省| 盐津县| 五家渠市| 平陆县| 海门市| 灵宝市| 新郑市| 仙桃市| 太和县| 弋阳县| 桦甸市| 锡林浩特市| 亚东县| 资中县| 大丰市| 华宁县| 临沂市|