博客專欄

EEPW首頁 > 博客 > FaceBook推出強大的多語言模型，試圖理解所有人類語言

FaceBook推出強大的多語言模型，試圖理解所有人類語言

發布人：大數據文摘時間：2021-12-18 來源：工程師

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

發布文章

以下文章來源于數據實戰派，作者Facebook

大數據文摘授權轉載自數據實戰派

作者：MetaAI

譯者：張雨嘉

語言交流是人們日常生活中最常用的交互方式，而隨著語音技術的發展，未來人們還可以與電子設備以及虛擬世界進行交互，將虛擬體驗與現實世界合二為一。

但是，現有的語音技術僅適用于數千種世界語言中的一小部分。

有效的方法是基于有限標記數據的少樣本學習，或者無監督的語音識別方法，而這些方法的成功取決于自監督模型的性能。

目前，Meta AI 團隊（原Facebook AI）發布了一個用于多種語音任務的自監督模型——XLS-R。

通過在之前 2 倍以上的語言數量和近 10 倍的公共數據集上進行訓練，XLS-R 模型的性能遠超以前的多語言模型。

為了讓單一模型實現理解多種不同語言語音的能力，Meta AI 團隊對 XLS-R 進行微調，以執行語音識別、語音翻譯和語言識別任務。并分別在以下基準上獲得不錯的結果：用于語音識別的 BABEL、CommonVoice 和 VoxPopuli；用于外文到英文翻譯的 CoVoST-2；以及用于語言識別的 VoxLingua107。

為了讓更多人可以使用這種方法，FB已經和 Hugging Face 聯手發布該模型，并可以在 GitHub 的 fairseq 項目中使用 (https://github.com/pytorch/fairseq/tree/master/examples/wav2vec)。

XLS-R 在 436,000 多小時的公開語音錄音數據上進行訓練，并且基于 wav2vec 2.0 模型對語音表征進行自監督學習。該方法的訓練數據量比去年發布的最好模型 XLSR-53 還多 10 倍。

通過收集會議記錄、有聲讀物等不同來源的語音數據，XLS-R 模型已經可以支持 128 種不同語言，是之前語言數量的約 2.5 倍。

最大 XLS-R 模型有超過 20 億個參數，其性能遠遠優于其他較小的模型，因為更多的參數可以更充分地學習數據集中的多種語言。并且團隊發現，與在單一語言上預訓練相比，更大的模型可以得到更好的性能。

將 XLS-R 在四個多語言的語音識別任務上進行評估，結果表明它在 37 種測試語言上的表現都優于之前的工作。具體包括 BABEL 的5種語言、CommonVoice 的 10 種語言、MLS 的 8 種語言和 VoxPopuli 的 14 種語言。

圖 | 在 BABEL 上的單詞錯誤率結果。與以前的工作相比，XLS-R 有明顯改進

團隊還在語音翻譯任務上對模型進行評估，語音翻譯就是將錄音翻譯成另一種語言。而且為了實現一個能夠執行多任務的模型，他們將 XLS-R 在 CoVoST-2 基準的不同翻譯方向上進行微調。結果顯示，這種單一模型可以在英語和其他 21 種語言之間完成翻譯。

對英語以外的語言進行編碼時，XLS-R 有比較明顯的改進，這也是多語言語音表征方面的一大突破。模型在將印度尼西亞等低資源語種（low-resource language）翻譯為英語方面有顯著改進，BLEU 指標的平均準確率翻了一番，也是口語翻譯方面的一大進步。BLEU 指標的提升，意味著模型生成的自動翻譯結果與人工翻譯間有更高的相似性。

圖 | 自動語音翻譯在 BLEU 上的準確性，模型對高資源語言（例如法語、德語）、中等資源語言（例如俄語、葡萄牙語）和低資源語言（例如泰米爾語、土耳其語）的語音翻譯成英語時，準確性逐漸降低。

XLS-R 證明了通過跨語言預訓練可以提高模型在低資源語言上的性能。

在語音識別和將外語翻譯到英語的語言翻譯任務上的準確率提高了一倍以上。

FB表示，XLS-R 是用單一模型理解多種不同語言語音的關鍵一步，是在已知公共數據上進行多語言預訓練方面的最大努力。相信該研究將使機器學習應用更好地理解所有人類語言，使語音技術在全球范圍尤其是在服務欠缺地區中被使用。

未來，他們將繼續從少監督學習中開發新方法來改進算法，并將其擴展到全球 7,000多種語言上。

如果你想使用該模型，可以查看 Hugging Face 上有關微調模型的教程（

https://huggingface.co/blog/fine-tune-xlsr-wav2vec2）。

*博客內容為網友個人發布，僅代表博主個人觀點，如有侵權請聯系工作人員刪除。

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關鍵詞： AI

焦點

更多>>

技術專區

關閉

博客專欄

FaceBook推出強大的多語言模型，試圖理解所有人類語言

相關推薦

技術專區