博客專欄

EEPW首頁 > 博客 > ICLR 2021 | 微軟亞洲研究院精選論文一覽（2）

ICLR 2021 | 微軟亞洲研究院精選論文一覽（2）

發(fā)布人：MSRAsia 時間：2021-05-07 來源：工程師

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

結論三：預訓練和下游任務的問題對齊決定了遷移效果

為了進一步解釋為何自監(jiān)督預訓練在目標檢測上效果更好，研究員們又做了如下實驗。（1）通過分析檢測錯誤，自監(jiān)督預訓練能得到更準確的位置信息。（2）當利用 Deep image prior 對高層特征進行圖像重建時，自監(jiān)督重建的圖像更接近于原圖并且更加完整。雖然對比學習訓練時也包含了位置尺度不變性，但卻能在重建中保持正確的尺度和位置。相反，有監(jiān)督的學習過度關注物體的局部區(qū)域，丟失了很多對于精確定位的重要信息。研究員們認為 instance discrimination 方法為了保證當前實例區(qū)別與其它所有實例，盡可能的保留了更多的信息。

圖6：對于物體檢測，有監(jiān)督的預訓練（相比自監(jiān)督）帶來了更多定位的錯誤

圖7：自監(jiān)督模型可以更好的重建底層的圖像信息

二、一種改進的有監(jiān)督預訓練方法

大量的標注數(shù)據(jù)包含了豐富的語義信息，應該對下游任務有所幫助，但傳統(tǒng)的有監(jiān)督預訓練是通過減小 intra-class variation 進行學習的。這樣模型更多的關注了對特定類有識別力的區(qū)域，從而忽略了其它可能包含有用信息的區(qū)域。一個更好的有監(jiān)督預訓練方法應該僅僅拉遠不同類的實例，而不對同類樣本加以任何約束，這樣可以更好地保留每個實例的特征。參考 examplar SVM 的方法，研究員們在 instance discrimination 的損失函數(shù)上進行了改進。

實驗證明這種方式在圖像分類和目標識別兩個下游任務上都得到了提升。

表9：改進的有監(jiān)督模型 examplar 提高了遷移性能

基于實例的層序可變Transformer網(wǎng)絡結構

論文地址: https://arxiv.org/abs/2103.03457

Transformer 網(wǎng)絡在自然語言以及視覺領域取得了極大的成功。它由三個基本的子層：自注意力層 (self-attention, SA)、編碼-解碼注意力層 (encoder-decoder attention, ED)和前饋全連接層 (feed-forward, FF)線性堆疊而成，并且這些子層的順序是固定的。然而，微軟亞洲研究院的研究員們通過一些簡單的驗證發(fā)現(xiàn)，不同的子層順序堆疊的網(wǎng)絡 (如 SA→FF→ED 或者 FF→ED→SA) 對于不同的樣本來說重要程度是不一樣的。如表10所示，對于這個句子，用不同的子層順序網(wǎng)絡翻譯出的結果差距非常大。這告訴研究員們，其實每個語句都擁有自己偏好的網(wǎng)絡順序來進行更好的翻譯。

基于上述發(fā)現(xiàn)，研究員們提出了基于實例的子層順序動態(tài)可變的 Transformer 網(wǎng)絡結構 (IOT)，以打破固定順序的 Transformer 網(wǎng)絡，使得網(wǎng)絡能夠通過不同順序的堆疊來建模不同的函數(shù)，從而增大了網(wǎng)絡的建?？臻g并提升最后的任務結果表現(xiàn)。值得注意的是，研究員們的方法幾乎沒有增加額外的參數(shù)，并且能夠適用于各類神經(jīng)網(wǎng)絡 (如驗證了在 DynamicConv 上的結果) ，只需網(wǎng)絡包含不同的子層結構。

表10：一句德文語句的不同子層順序網(wǎng)絡對應的不同英文翻譯結果以及 BLEU、TER 的分數(shù)差距

關于論文中使用的方法，具體來說，研究員們在 Transformer 的編碼器和****模塊之前各增加了一個輕量的、基于 MLP 的層序預測器網(wǎng)絡，以此來進行不同的子層順序選擇。框架如圖8所示，圖中展示了對于三個不同的樣本進行各自的子層順序網(wǎng)絡選擇的結果。

圖8：IOT: 基于實例的子層順序變化的框架圖以及三個樣例的順序選擇

研究員們采用了基于 Gumbel-softmax 的不同子層順序的權重學習。以****的順序選擇為例，λ_n 即為第 n 種層序的重要程度，其中 s_d 為編碼器最后層輸出的平均。同理，編碼器的第m種順序的重要程度用 γ_m 表示。所以研究員們根據(jù) λ_n 以及 γ_m 的大小 (argmax) 來選擇相應的編碼器和****的子層順序。

在訓練過程中，研究員們還使用了一個探索（exploration）和一個利用（exploitation）的損失函數(shù)來輔助訓練（通過約束順序的分布），從而使得每個數(shù)據(jù)實例能夠選擇其偏好的順序，并且網(wǎng)絡能夠穩(wěn)定且有效。

研究員們在三個不同的序列生成任務——機器翻譯、文本摘要以及代碼生成上進行了驗證，一共包含9個不同的數(shù)據(jù)集。實驗表明 IOT 都取得了超越基準模型不少的優(yōu)異結果。如在 IWSLT8 個方向的小數(shù)據(jù)集翻譯任務上都取得了超過一個點的 BLEU 提升，在 WMT14 的 En->De 大數(shù)據(jù)上取得了30.03的 BLEU 分數(shù)。研究員們還進行了各類不同方面的分析，以數(shù)據(jù)和順序間的選擇關系為例，如圖9所示，在數(shù)據(jù)所選擇的子層順序網(wǎng)絡上的確取得了超越其余子層順序的更優(yōu)結果，因此證明了數(shù)據(jù)的確進行了自己更偏好的、更優(yōu)的子層順序選擇。研究員們的方法簡單而高效，希望能夠讓更多人關注如何構建動態(tài)網(wǎng)絡，從而增強網(wǎng)絡的建模能力。

圖9：根據(jù)層序預測器預測劃分的數(shù)據(jù)集以及不同子層順序的翻譯結果

基于回報的對比表征學習在強化學習中的應用

論文地址: https://openreview.net/pdf?id=_TM6rT7tXke

在深度強化學習中，如何學習緊致且有效的狀態(tài)表示是解決復雜決策問題和提升樣本效率的一個關鍵問題。最近，很多工作利用基于對比學習的輔助任務在強化學習過程中加強狀態(tài)表示的學習，都取得了很好的實際效果，但已有的基于對比學習的輔助任務并沒有充分考慮到強化學習問題的特性，而且大多是無/自監(jiān)督的。因此，微軟亞洲研究院的研究員們探究了如何利用回報分布 (Return Distribution)——強化學習中最為重要的反饋信號，來構建一個新的對比學習式輔助任務。

首先，為了從數(shù)學上嚴謹?shù)乜坍嬂没貓蠓植歼@一想法，研究員們提出了 Z^π-irrelevance 抽象函數(shù)。直觀上來說，Z^π-irrelevance 抽象函數(shù)會把回報分布類似的狀態(tài)動作對聚集到一起。相比于之前的抽象函數(shù)，該函數(shù)能夠在不損失過多信息的同時，大幅縮小狀態(tài)動作空間，從而提高學習效率。該抽象函數(shù)具有兩大特點：

1.可以更大程度上地縮小狀態(tài)動作空間。

2.能夠在抽象狀態(tài)動作空間中精確表示原狀態(tài)動作空間的價值函數(shù)。

圖10：Z^π-irrelevance 抽象函數(shù)示意圖

接下來，為了從采樣數(shù)據(jù)中學習得到 Z^π-irrelevance 抽象函數(shù)，研究員們提出了基于對比損失函數(shù)的Z學習算法：

這里，? 代表編碼器，也就是狀態(tài)動作表示；w 代表判別器；y 是二元標簽，用于判斷當前兩個狀態(tài)動作對 x_1,x_2 是否具有相同的采樣回報值。

在理論上，該方法嚴謹?shù)刈C明了 Z 學習算法會以 1/√n 的速率收斂到 Z^π-irrelevance 抽象函數(shù)。而實際中，也可以通過分段的方式來判斷兩個狀態(tài)動作是否具有同樣的采樣回報值。具體來說，軌跡內(nèi)分段的思路如下：從頭到尾捋一遍采樣得到的整條軌跡，如果累計的獎勵絕對值變動超過某個閾值，那么就會從這里形成一個新的分段。這就是實際的 RCRL 算法。

圖11：RCRL 算法示意圖

為了驗證算法的有效性，研究員們分別在 Atari 游戲的26個游戲以及 DMControl 套件的6個任務中進行了大量實驗，結果表明 RCRL 算法不僅可以取得比其它前沿的狀態(tài)表示算法更佳的樣本效率，還可以和一些已有的狀態(tài)表示算法 (比如，CURL) 結合，共同提升基準算法的樣本效率。

*博客內(nèi)容為網(wǎng)友個人發(fā)布，僅代表博主個人觀點，如有侵權請聯(lián)系工作人員刪除。

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關鍵詞： 機器學習

焦點

更多>>

技術專區(qū)

關閉

博客專欄

ICLR 2021 | 微軟亞洲研究院精選論文一覽（2）

相關推薦

技術專區(qū)