Meta AI 新研究,統一模態的自監督新里程碑
雖然 AI 領域不斷涌現出新的突破和進展,卻始終難以逃離單一領域的束縛——一種用于個性化語音合成的新穎方法,卻并不能用于識別人臉的表情。
為了解決這個問題,不少研究人員正在致力于開發功能更強大、應用更廣泛的 AI 工具:無論在口頭、書面還是視覺材料上,都可以實現自主學習。
傳統訓練 AI 模型正確理解某些內容的方法是,提供大量(比如數百萬個)有標記的例子。
試想一下,一幅標有貓的部分特征的圖片,一段與演講者的對話或摘錄的文本,等等。但這種方法日趨淘汰,因為研究人員發現,手動創建訓練下一代 AI 所需的數據庫已不再可行。試想一下,誰想給 5000 萬張貓的照片貼上標簽呢?好吧,可能有幾個人;但是誰又愿意給 5000 萬張常見水果和蔬菜的照片貼上標簽呢?答案明顯是否定的。
目前,最有前景的一些 AI 系統采用的就是所謂的“自我監督”(self - supervision):模型可以在大量無標簽數據(比如人們互動的書籍或視頻)中運行,并建立自己對系統規則的結構化理解。例如,模型通過閱讀 1000 本書,會自主學習語法結構,包括單詞的相對位置,而無需任何人告訴它什么是賓語、冠詞或逗號……這些完全可以從大量的例子中推理得出。
就在近日,基于上述理論,來自 Meta 的研究團隊發表了一篇題為“data2vec: A General Framework for Self-supervised Learning in Speech, Vision and Language”的論文。
在這項研究中,開發人員構建了一個名為 data2vec 的框架,可以跨語音處理、NLP 和計算機視覺(CV, Computer Vision)使用相同的學習方法,極大地克服了單一開發模式的缺陷,提高了模型的通用性能。
其核心思想是,在使用標準 Transformer 體系結構的自蒸餾設置中,基于輸入的掩碼視圖(masked view)預測完整輸入數據的潛在表示。data2vec 并非是預測特定模式的目標,比如像單詞、視覺 tokens 或語言單元等,而是預測包含來自整個輸入信息的上下文潛在表示。通過在語音識別、圖像分類和自然語言理解的主要基準上進行實驗,有力證明了該方法的技術水平和優異性能。
從直覺上看,這更像是人們學習的方式,這也是研究人員喜歡它的原因之一。但是這些模型仍然趨向于單模態,也就是說,你為建立語音識別的半監督學習系統所做的所有工作根本不適用于圖像分析,兩者無疑是大相徑庭。從而,這就更加突顯出 Meta 這項最新研究的意義所在。
然而從本質上看,data2vec 的想法就是建立一個 AI 框架,然后以更抽象的方式學習。這便意味著一切從零開始,你可以準備一些可閱讀的書籍、可掃描的圖像或有聲的讀物供其訓練,以使模型達到學習這些知識的目的。這有點像從一粒種子開始,給它不同植物的生存環境和營養條件,使其開出不同的花朵,如水仙、三色堇或郁金香。
總而言之,團隊提出的方法就是將掩碼預測與潛在目標表示的學習相結合,只不過是通過使用多個網絡層作為目標,對后者進行推廣,并表明該方法適用于多種模式。
具體來說,如 圖 1 所示,團隊成員需要訓練一個現成的可以在教師模式和學生模式中使用的 Transformer 網絡:首先需要構建完整的輸入數據表示,其目的是充當學習任務中的目標(教師模式)。接下來,對輸入樣本的掩碼版本進行編碼,用它預測完整的數據表示(學生模式)。教師的權重是學生權重指數衰減的平均值。由于不同的模式有著截然不同的輸入,例如,像素和單詞,因此,團隊采用了特定于模式的特征編碼器和掩碼策略。
在整體架構上,采用標準 Transformer 體系結構,并沿用先前的工作對輸入數據進行特定模式的編碼。
對于 CV,團隊成員采用了 ViT 策略,將圖像編碼為一系列補丁序列,每個補丁跨越 16x16 像素,輸入到線性變換之中。語音數據使用多層一維 CNN 進行編碼,該網絡將 16 kHz 波形映射為 50 Hz 表示。對文本進行預處理以獲得子詞單元,然后通過學習得到的嵌入向量將其嵌入到分布空間中。
在訓練目標上,基于掩碼樣本的編碼訓練模型,以預測原始未掩碼訓練樣本的模型表示。需要注意的是,團隊僅針對掩碼的時間步長預測模型表示。預測的表示是一種上下文的表示,不僅對特定的時間步長進行編碼,還對來自樣本的其他信息進行編碼,這是由于在 Transformer 網絡中使用了自注意力機制(Self-attention)。因此,相比于預測缺乏上下文信息目標的 BERT、wav2vec 2.0 或BEiT、MAE、SimMIM 和 MaskFeat 模型,這是一條重要的區別。
在實驗設置上,研究團隊采用了兩種尺寸的模型:data2vec Base 和 data2vec Large,包含 H=768 或 1024 兩個隱藏維度的 L=12 或 24 的 Transformer blocks。
在用各種數據語料庫對 data2vec 進行訓練后,測試的結果表明,在該模式上,相比于類似規模的專用模型,它具有一定的競爭力,甚至表現得更加出色。(也就是說,如果所有模型都被限制在 100 兆字節,data2vec 會做得更好——隨著模型規模的增大,專用模型取勝的幾率會更大。)
具體而言,為了評估該方法在 CV 領域的應用,團隊成員在 ImageNet-1K 訓練集的圖像上預訓練 data2vec,并使用相同基準的標記數據對圖像分類的結果模型進行微調。結果如表 1 所示,data2vec 優于之前使用 ViT-B 和 ViT-L 的研究工作。與預測局部目標的方法相比,在掩碼預測設置中預測上下文的潛在表示可以很好地執行。
而在語音處理方面,團隊成員使用 Librispeech (LS-960)的 960 小時語音音頻數據對 data2vec 進行預訓練。這個數據集包含了從英語有聲讀物中獲取的相對清晰的語音音頻,是語音社區的標準基準。
為了了解不同資源設置下的性能,團隊使用不同數量的標記數據(從 10 分鐘到 960 小時不等)對自動語音識別模型進行了微調。表 2 顯示了所有標記數據設置的改進,很明顯,標記數據為 10 分鐘時,收益達到最大值。
最后,為了了解 data2vec 在語言方面的表現,研究團隊采用了與BERT相同的訓練設置,通過對圖書語料庫和英語維基百科的數據進行預訓練。結果如表 3 所示,data2vec 的性能優于 RoBERTa 基線。據團隊所知,這是首個不使用離散單元(單詞,子單詞,字符或字節)作為訓練目標而成功完成預訓練的 NLP 模型。
此外,研究團隊還進行了一系列的消融實驗,如圖 2 所示,對于大多數模式來說,預測多個層的平均目標要比只預測最頂層(K = 1)更加穩健。使用所有層通常是一個不錯的選擇,并且僅比仔細調整的 K 值稍差一點。現代神經網絡往往在多個層上構建特征,并在不同的層上提取不同類型的特征。顯然,使用來自多個層的特征既豐富了自監督任務,又提高了準確性。
在一篇博客文章中,該團隊寫道:“這種方法的核心思想是更廣泛地學習。AI 應該能夠學會做多種類型的任務,包括那些完全不熟悉的任務。
我們也殷切希望 data2vec 能夠讓我們更接近這樣的一個世界,計算機只需要很少的標記數據即可完成任務。”
除此之外,首席執行官馬克·扎克伯格(Mark Zuckerberg)在研究中評論道,“人們通過視覺、聲音和文字的組合來體驗世界,這樣的系統有朝一日可能會像我們一樣理解世界”。
顯然,這仍然屬于早期研究的范疇,所以不要期待傳說中的“通用人工智能”(GAI, General Artificial Intelligence)會突然出現。
不過,相比于當下我們所使用的支離破碎的微智能(micro-intelligence),擁有一個具有通用學習結構的 AI,以勝任處理各種領域和數據類型,這似乎是一個更完美、更優雅的解決方案。
*博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。