ACL 2022 | NLP領域最新熱門研究,你一定不能錯過!
編者按:作為自然語言處理領域的國際頂級學術會議,ACL 每年都吸引了大量學者投稿和參會,今年的 ACL 大會將于5月22日至5月27日舉辦。值得注意的是,這也是 ACL 大會采用 ACL Rolling Review 機制后的首次嘗試。在此次會議中,微軟亞洲研究院有多篇論文入選,本文精選了其中的6篇進行簡要介紹,論文主題涵蓋了:編碼器****框架、自然語言生成、知識神經元、抽取式文本摘要、預訓練語言模型、零樣本神經機器翻譯等。歡迎感興趣的讀者閱讀論文原文。
SpeechT5:語音和文本聯合預訓練的編碼器****框架
論文鏈接:https://arxiv.org/abs/2110.07205
編碼器-****框架廣泛應用于自然語言處理和語音處理領域,比如端到端的神經機器翻譯模型和語音識別模型。受 T5(Text-To-Text Transfer Transformer)在自然語言處理預訓練模型上應用成功的啟發,本文提出了一個統一語音模態和文本模態的聯合框架 SpeechT5,該框架探索了基于自監督語音和文本表示學習的編碼器-****預訓練方法。
SpeechT5 包含一個共享的編碼器-解碼網絡和對應模態的前處理/后處理網絡,試圖通過編碼器-****框架將不同的語音處理任務轉換成語音/文本到語音/文本的問題。利用大規模的未標注語音和文本數據,SpeechT5 統一了預訓練學習兩種模態的表示,以提高對語音和文本的建模能力。為了將文本和語音信息對齊到統一的語義空間中,本文提出了一種跨模態的矢量量化方法,該方法將語音和文本向量和潛在量化向量隨機混合,作為編碼器和****之間的語義接口。研究員們在多種不同的語音處理任務上評估了所提出的 SpeechT5 模型,包括自動語音識別、語音合成、語音翻譯、語音轉換、語音增強和說話人識別,均顯示出該模型的有效性和優越性。
圖1:(a)是 SpeechT5 模型結構,該模型架構包含一個編碼器-****模塊和六個模態特定的前處理/后處理網絡。(b)是聯合預訓練方法,通過在不同模態之間共享潛在量化向量,聯合預訓練方法搭建起了語音和文本之間的橋梁。
論文鏈接:https://arxiv.org/abs/2202.13257
為了指導大型預訓練語言模型的生成,之前的工作主要集中在直接微調語言模型或利用屬性分類模型來引導生成。Prefix-tuning (Li and Liang, 2021) 提出通過訓練前綴(一個小規模的連續向量)來替代在下游生成任務上進行的微調。受此啟發,研究員們在本文中提出了一種用于控制 GPT2 生成的新型輕量級框架。該框架利用一組前綴來引導自然語言文本的生成,每個前綴都與一個被控制的屬性相對應。
與使用屬性分類模型或生成判別器相比,使用前綴實現可控性具有以下優點:首先,它引入了更少的附加參數(在實驗中約為 GPT2 參數的 0.2%-2%)。其次,使用前綴可以使推理速度與原始 GPT2 模型相媲美。與 Prefix-tuning 獨立訓練每個前綴的方式不同,微軟亞洲研究院的研究員們認為屬性之間有相互關系(比如正面情感和負面情感是相互對立的關系),并且在訓練過程中學習這種關系將有助于提高前綴的控制效果。因此,在該框架中,研究員們考慮了前綴之間的關系并同時訓練了多個前綴。本文提出了一種新的有監督訓練方法和一種新的無監督訓練方法來實現單屬性控制,而這兩種方法的結合則可以實現多屬性控制。單屬性控制任務(情緒控制、去毒化、主題控制)的實驗結果表明,研究員們提出的方法可以在保持較高語言質量的同時引導生成文本具備目標屬性。而多屬性控制任務(情感和主題控制)的實驗結果表明,用該方法訓練的前綴可以同時成功地控制這兩個方面的屬性。
圖2: Prefix-tuning(上)和本文方法(下)在情感控制任務上的比較。實線箭頭表示訓練過程,虛線箭頭表示生成過程。在本文提出的框架中,訓練可以是有監督的、半監督的、或者無監督的。
論文鏈接:https://arxiv.org/abs/2104.08696
近年來,大規模預訓練語言模型被證明擁有較好的回憶預訓練語料中所暴露的知識的能力。但現有的知識探針工作,如 LAMA,僅僅關注評估知識預測的整體準確率。本文試圖對預訓練語言模型進行更深入的研究,通過引入知識神經元的概念,來探究事實型知識是如何在模型中進行存儲的。
首先,如圖3所示,研究員們把 Transformer 中的 FFN 模塊類比為鍵-值記憶模塊。具體來說,FFN 中的第一個線性層可以被看做一系列鍵,而第二個線性層可以被看做一系列對應的值。一個隱向量先跟第一個線性層中的鍵通過內積來計算出一系列中間神經元的激活值,然后用這個激活值作為權重,來對第二個線性層中的值進行加權求和。研究員們假設知識神經元就存在于這些中間神經元之中。
圖3:研究員們把 FFN 模塊類比為鍵-值記憶模塊,而知識神經元存在于其中
在以上類比和假設的基礎之上,研究員們提出了一套檢測知識神經元的方法。基于知識填空的任務,研究員們先通過知識歸因算法來找到對最終知識表達最重要的神經元,然后再通過一個知識神經元精煉的步驟,進一步提取出跟知識表達最為相關的神經元。
研究員們通過實驗驗證了知識神經元跟知識表達之間的關系:正向的,研究員們驗證了知識神經元的激活值可以直接影響事實型知識的表達;反向的,研究員們驗證了知識神經元更容易被表達知識的文本所激活。此外,基于知識神經元,本文還提出了兩個初步的知識編輯方法,通過修改知識神經元對應的 FFN 中的參數,可以一定程度上對預訓練模型中的一條知識進行更新,也可以從模型中刪除一整類知識。
論文鏈接:https://arxiv.org/abs/2204.13512
抽取式文本摘要目前在英文上已經取得了很好的性能,這主要得益于大規模預訓練語言模型和豐富的標注語料。但是對于其他小語種語言,目前很難獲得大規模的標注數據。因此,本文的研究內容是基于 Zero-Shot 的多語言抽取式文本摘要,具體方法是使用在英文上預訓練好的抽取式文本摘要模型來在其他低資源語言上直接進行摘要抽取。針對多語言 Zero-Shot 中的單語言標簽偏差問題,本文提出了多語言標簽(Multilingual Label)標注算法和神經標簽搜索模型 NLSSum。
多語言標簽是通過機器翻譯和雙語詞典替換等無監督的方式所構造的標簽,如圖4所示,其中包含a、b、c、d四組標簽集合,它們分別通過不同語言間的翻譯和詞替換來構造。通過這種方式構造的標簽能夠在標簽中融入更多跨語言信息。
圖4:多語言抽取式摘要標簽構建。a為在英文上獲得的標簽集合,b、c、d為對英文訓練集進行機器翻譯(MT)和雙語詞典替換(WR)而獲得的標簽集合。
NLSSum 通過神經搜索的方式來對多語言標簽中不同標簽集合賦予不同的權重,并最終得到每個句子加權平均的標簽。本文就是使用這種最終的標簽在英文數據集上訓練抽取式摘要模型(見圖5)。其中,每個句子的標簽得分綜合考慮了句子級別權重預測器 T_α 以及標簽集合級別權重預測器 T_β 的結果。和單語言標簽相比,多語言標簽中存在更多的跨語言語義和語法信息,因此 NLSSum 模型在數據集 MLSUM 的所有語言數據集上均大幅度超越了基線模型的分數,甚至超越了未使用預訓練模型的有監督方法(Pointer-Generator)。
圖5:多語言神經標簽搜索摘要模型
本文中,研究員們還通過可視化分析進一步研究了不同語言間重要信息的分布位置,可以發現英文語言中重要信息的分布較為靠前,其他語言中重要信息的分布相對比較分散,而這也是本文多語言標簽能夠提升模型性能的重要原因。
論文鏈接:https://arxiv.org/abs/2202.12024
預訓練語言模型是近年來自然語言處理領域備受關注的熱門技術之一。在下游任務中如何有效地微調預訓練語言模型是其成功與否的關鍵。目前已有的許多方法直接利用下游任務中的數據來微調預訓練語言模型,如圖6(a)所示。但是,研究員們認為語言模型也存在過擬合預訓練任務和數據的風險。由于預訓練任務與下游任務通常存在鴻溝,已有的微調方法較難快速地從預訓練空間遷移到下游任務空間,特別是當下游任務的訓練數據較為稀少時。針對這一問題,微軟亞洲研究院的研究員們提出了一種簡單而有效的解決方案,即在微調之前添加少量噪聲來擾動預訓練語言模型,名為 NoisyTune。其范式如圖6(b)所示。
圖6:標準語言模型微調的方式與本文所提出方式的對比
研究員們認為,對 PLM 添加少量噪聲可以幫助模型“探索”更多潛在的特征空間,從而減輕對預訓練任務和數據的過擬合問題。為了更好地保留語言模型的知識,研究員們提出了一種根據參數矩陣的方差添加均勻噪聲的方法,這種方法能夠根據不同類型參數的特點添加合適強度的噪聲,其公式如下。其中超參數λ控制了添加噪聲的強度。
研究員們在英文的 GLUE 數據集與多語言的 XTREME 數據集上開展了實驗。結果顯示,NoisyTune 可以有效為不同類型的語言模型帶來提升,特別是對規模相對較小的數據集提升幅度更大。
此外,研究員們還進一步探究了添加不同噪聲對于 NoisyTune 的影響,結果發現加入全局統一分布的噪聲往往對模型性能有一定損害,而根據參數矩陣的偏離程度添加效果更佳。另外,可能由于高斯噪聲缺乏硬性范圍約束,添加均勻分布噪聲的模型效果比高斯噪聲更好。
圖7:不同噪聲類型對 NoisyTune 的影響
論文鏈接:https://arxiv.org/abs/2110.08547
本文證明了在零樣本神經網絡機器翻譯中,合適的多語言預訓練和多語言微調方法對提高跨語言遷移的能力都是至關重要的。根據這個動機,研究員們提出了 SixT+,一個強大的多語言神經機器翻譯模型,該模型只使用了六種語言的平行語料進行訓練,卻能夠同時支持100種語言的翻譯。
SixT+ 使用 XLM-R large 初始化 ****嵌入和整個編碼器,然后使用簡單的兩階段訓練策略訓練 編碼器和****。SixT+ 在不少翻譯方向上都取得了很好的結果,性能明顯優于 CRISS 和 m2m-100 這兩個強大的多語言神經機器翻譯系統,其平均增長分別為7.2和5.0 BLEU。
此外,SixT+ 也是一個很好的預訓練模型,可以進一步微調以適應其他無監督任務。實驗結果證明,在斯洛文尼亞語和尼泊爾語這兩個語言的翻譯上,SixT+ 比最先進的無監督機器翻譯模型的平均 BLEU 高出1.2以上。SixT+ 同樣可以應用于零樣本跨語言摘要,它的平均性能顯著高于 mBART-ft,平均可以提高 12.3 ROUGE-L。研究員們還對 SixT+ 進行了詳細分析,以了解 SixT+ 的關鍵組成部分,包括多語言平行數據的必要性,位置分離編碼器及其編碼器的跨語言遷移能力。
圖8:研究員們提出的兩階段訓練框架,利用多語言預訓練模型 XLM-R 建立跨語言生成模型。圖中藍色的冰塊表示用 XLM-R 初始化并凍結,而紅色的火焰則代表隨機初始化或從第一階段開始初始化。
*博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。