博客專欄

        EEPW首頁 > 博客 > AAAI 2022|AI頂會論文究竟關注什么?(3)

        AAAI 2022|AI頂會論文究竟關注什么?(3)

        發布人:MSRAsia 時間:2022-02-19 來源:工程師 發布文章

        07

        用于文本摘要任務的序列級對比學習模型

        圖片

        論文鏈接:https://arxiv.org/abs/2109.03481
        文本摘要(Text Summarization)的主要目標就是提煉一篇長文章的主要內容,將其改寫成一篇概括性的摘要。按照改寫的方式,通常將摘要分為抽取式摘要和生成式摘要兩種。抽取式摘要是指從原文中抽取幾個句子作為摘要,而生成式摘要則需要模型對整個長文章有一個整體的理解,然后生成一段簡潔、連貫的摘要。 
        目前來說生成式摘要主要是在 sequence-to-sequence 框架下完成的(如圖13所示)。通過一個編碼器(Encoder)對長的文章進行編碼,再用一個****(Decoder)對編碼后的信息進行解碼并生成想要的摘要。在訓練過程中,通常使用的是NLL(Negative Log Likelihood)作為損失函數。
        圖片圖13:Sequence-to-Sequence 訓練中使用的 NLL 損失函數 
        但是微軟亞洲研究院的研究員們意識到 NLL 并沒有很好地建模文本摘要任務一個重要的特點:文章和摘要雖然長度的差別很大,但是所描述的主要內容應該是一致的。為了更好地在訓練過程中強調這一點,研究員們引入了序列間對比學習模型 SeqCo(Sequence-level Contrastive Learning),將文章和摘要映射到成同一個向量空間的兩個序列,并且在該向量空間內拉近文章序列和摘要序列的相似度。 
        除此之外,為了增加訓練樣本的多樣性,研究員們還將模型生成的摘要也加入到訓練樣本中。整個訓練過程在優化 NLL 的同時,也在拉近原文章、目標摘要和模型生成的摘要三者的相似度(如圖15所示)。在訓練過程中,跟 BYOL 類似,研究員們采用了雙塔型的結構(見圖14)。為提高訓練的穩定性,對比學習目標端的參數為其對比端的移動平均值(moving average)并停止梯度回傳。
        圖片圖14:訓練過程的對比學習損失函數
        圖片圖15:拉近原文章、目標摘要和模型生成的摘要三者的相似度
        實驗結果表明,和僅僅使用了 NLL 作為損失函數的模型相比,在訓練中引入對比學習使得模型的效果在 CNNDM、XSum 和 NYT 摘要數據集上都得到了顯著的提升(表8為在 CNNDM 上的結果,在其他數據集上的結果具有相同趨勢)。
        圖片表8:CNN/DM數據集上不同方法的性能比較

        08

        針對圖片識別的稀疏MLP:自注意力機制真的是必要的嗎?
        圖片論文鏈接:https://arxiv.org/pdf/2109.05422.pdf代碼鏈接:https://github.com/microsoft/SPACH
        最近,Transformer 在計算機視覺領域取得了領先性能并得到了學者的廣泛關注。其中,自注意力機制(Self-Attention)是 Transformer 取得成功的核心模塊。它以一種動態的方式捕獲圖片的全局感受野。然而,由于需要計算每兩個 token 之間的關系,它的時間復雜度是平方量級的,因此,難以處理高分辨率圖片,并且對金字塔結構(pyramid structure)很不友好。而高分辨率輸入和金字塔結構是提高圖片識別性能的關鍵要素。此外,Transformer 完全摒棄了局部偏置(locality bias)。這種局部偏置也是卷積神經網絡在計算機視覺取得成功的重要因素。 
        另一方面,也有學者對自注意力機制的必要性提出了質疑。MLP-Mixer設計了一種單純使用多層感知機(MLP)的網絡架構。它與基于 Transformer 的網絡架構 ViT 的主要區別是在空域上進行 token 之間的交互時僅使用了 MLP 來替代自注意力機制。MLP 由于參數量大容易過擬合,因此效果與基于 Transformer 的方法比還有差距。然而,這并不能證明自注意力機制一定是必要的。 
        在進行全局建模時,本文設計了一種不基于自注意力機制的方法——稀疏的多層感知機(sparse MLP)模塊。每個 token 只與其所在行和所在列的 token 進行直接交互。這種方法參數量低,緩解了 MLP 容易過擬合的問題,同時又可以快速地捕獲全局感受野。
        圖片圖16:傳統 MLP 與本文提出的稀疏 MLP 對比示意圖
        基于 sparse MLP,配合局部偏置和金字塔結構這種對于圖片識別很重要的設計理念,該方法達到了和基于自注意力機制的方法一樣的性能。這說明自注意力機制并不是必須的,也希望本文可以啟發更多研究人員關注不基于自注意力機制的方法。
        圖片表9:在 ImageNet-1k 上與主流方法的性能比較

        09

        Shift 操作與 Transformer 的結合:一種高效的 Attention 替代方案


        圖片代碼鏈接:https://github.com/microsoft/SPACH
        最近, Vision Transformer 的結構引起了研究者們的廣泛關注。在許多計算機視覺的任務中,Vision Transformer 都取得了領先的性能。那么,由此引發的一個問題就是:Vision Transformer 性能優異的原因究竟是什么? 
        此前,許多研究者相信,自注意力機制(Self-Attention)是讓Vision Transformer 成功的主要原因。相比與常見的卷積操作,自注意機制提供了一種全局的(global)、動態的(dynamic)方式去建模圖像中的空間關系。但是,最近的一些研究表明,全局性和動態性可能都不是必須的,例如 Swin Transformer 將全局的 Attention 轉換為局部的 Attention;MLP-Mixer 將動態的聚合權重變成了固定的全連接層。實驗證明,這些簡化都沒有損害自注意力機制的性能。為了進一步探索是什么讓 Transformer 成功,微軟亞洲研究院的研究員們希望進一步去簡化 Attention 的模塊。具體來說,研究員們將簡化推向一種極端情況:沒有全局性、沒有動態性、甚至沒有參數、沒有算術運算。這個操作就是鄰域的移位操作(Shift)。
        移位操作在計算機視覺已經有了很成功的應用。所以研究員們借鑒了部分移位的設計,其結構如圖17所示。對于輸入的特征,研究員們將一部分的通道向上、下、左、右四個方向分別移位一個像素。通過這種方式,使得模型能夠獲取鄰域位置的信息。
        圖片圖17:Shift 模塊與標準注意力模塊對比示意圖 
        研究員們采用這個簡單的操作去替代 Swin Transformer 中的 Attention。令人驚訝的是,在許多視覺任務上,它的效果并不亞于 Swin Transformer。這說明 Transformer 成功的因素可能并不完全是由于 Attention :哪怕是這么一個0參數量、0計算量的簡單操作都能夠取得相近的性能。因此,在今后的研究中,Transformer 的一些設計細節或許也應該受到大家的重視,例如訓練細節、歸一化的方式等等。在文章中,微軟亞洲研究院的研究員們也進行了一些初步的探討,希望能夠啟發大家的思考。
        圖片表10:與基準模型在各視覺任務中的性能對比


        *博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。



        關鍵詞: AI

        相關推薦

        技術專區

        關閉
        主站蜘蛛池模板: 扶沟县| 河源市| 阳东县| 盐池县| 金昌市| 南通市| 原阳县| 建平县| 新蔡县| 崇阳县| 荆门市| 开阳县| 中卫市| 前郭尔| 衡水市| 武强县| 平定县| 崇信县| 灵寿县| 子洲县| 会东县| 巨野县| 泰和县| 鸡西市| 亚东县| 南溪县| 清水河县| 繁昌县| 涞水县| 罗江县| 高尔夫| 吉隆县| 安达市| 桃江县| 体育| 晋城| 闸北区| 忻州市| 德安县| 安吉县| 瑞金市|