比 OpenAI 更好!!谷歌發布 20 億參數通用語音模型——USM
去年11月,谷歌曾宣布“1000 種語言計劃”,通過建立一個機器學習模型,從而支持世界上使用人數最多的 1000 種語言。
近日,谷歌正式發布 20 億參數通用語音模型——USM,可支持 100 多種語言自動識別內容檢測。谷歌將其描述為“最先進的通用語音模型”,擁有 20 億個參數,經過了 1200 萬小時的語音、280 億個句子和 300 多個語種數據集的預訓練。
目前該模型在 Youtube 的字幕生成中已展現出來,可自動翻譯和檢測,如英語、普通話,甚至是阿塞拜疆語、阿薩姆語等小眾語言。
谷歌表示:“與 OpenAI 的大型通用語音模型 Whisper 相比,USM 的數據訓練時長更短,錯誤率更低。”
支持 100 多種語言,將面臨兩大挑戰
隨著微軟和谷歌就 AI 聊天機器人展開討論后,我們逐漸清楚,這并不是機器學習和大語言模型的唯一用途。
據傳言,谷歌計劃在今年的年度 I/O 大會上展示 20 多款由 AI 驅動的產品。為了實現“1000種語言計劃”,谷歌表示他們目前需要解決自動語音識別(ASR)中的兩大挑戰。
一是傳統的學習方法的缺乏可擴展性。將語音技術擴展到多語種的一個基本挑戰便是需要足夠的數據來訓練高質量的模型,使用傳統方法時,需要手動將音頻數據進行標記,既耗時、價格又高。而對于那些小眾冷門的語種,更難找到預先存在的來源收集。
二是在擴大語言覆蓋范圍和提高模型質量的同時,模型必須以高效的計算方法來改進。這就要求學習算法更加靈活、高效、可推廣。這些算法需要使用來源廣泛的數據,并在不用重復訓練的情況下更新模型,再推廣到新的語言中。
三個步驟降低錯誤率
據論文介紹,USM 使用的是標準的編碼器-****架構,其中****是 CTC、RNN-T 或 LAS。編碼器則使用的是 Conformer 或卷積增強 transformer。Conformer的關鍵組件是 Conformer 塊,它由注意力模塊、前饋模塊和卷積模塊組成。通過將語音信號的 log-mel 聲譜圖作為輸入,進行卷積下采樣,然后使用一系列的 Conformer 塊和投影層得到最終的嵌入。
訓練共分為三個步驟:
第一步,是使用 BEST-RQ 來對涵蓋數百種語種的語音音頻進行自我監督學習。
第二步,需要使用多目標監督預訓練來整合來自于其他文本數據的信息。該模型引入了一個額外的編碼器模塊來輸入文本,并引入額外層來組合語音編碼器和文本編碼器的輸出,并在未標記語音、標記語音和文本數據上聯合訓練模型。
最后一步,需要 USM 對下游任務進行微調,包括 ASR(自動語音識別)和 AST(自動語音翻譯)。
多項結果驗證
YouTube Captions 上的多語言表現
谷歌通過預訓練集成了 300 多種語言,并通過對 YouTube Captions 的多語言語音數據進行微調,證明了預先訓練的編碼器的有效性。
受監督的 YouTube 數據包括 73 種語言,平均每種語言的數據不到 3000 小時。盡管監督數據有限,但 USM 在 73 種語言中實現了小于 30% 的單詞容錯率(WER)。與當前內部最先進的模型相比,還要低 6%。與最近發布的大型模型 Whisper (large-v2)相比,USM 在 18 種語言中的錯誤率只有32.7%,同樣低于 Whisper。
對下游 ASR 任務的可推廣性
在公開可用的數據集上,USM 在 CORAAL (非裔美國人方言英語)、SpeechStew (en-US)和 FLEURS(102種語言)的數據集上的 WER 要比 Whisper 更低。不管是否接受過域內數據訓練,USM 的 WER 都更低。
自動語音翻譯(AST)
對于語音翻譯,谷歌在 CoVoST 數據集上對 USM 進行微調。通過有限的監督數據達到了最佳性能。為了評估模型性能的廣度,谷歌根據資源可用性將 CoVoST 數據集中的語言劃分為高、中、低三種,并計算每個部分的 BLEU 得分(越高越好)。
如下圖所示,USM 在所有細分領域的表現都優于 Whisper。
團隊表示,谷歌的使命是整合全球信息并使人人皆可訪問。而 USM 的開發便是實現這一使命的關鍵步驟。基于 USM 基礎模型框架和訓練 pipeline,未來谷歌可以將語音建模擴展至 1000 種語言。
結語
目前,USM 支持 100 多種語言。團隊表示,谷歌的使命是整合全球信息并使人人皆可訪問。
USM 的開發便是實現這一使命的關鍵步驟。
相信不久,谷歌可以將語音建模擴展至 1000 種語言。
參考鏈接:
https://analyticsindiamag.com/google-usm-shatters-language-barriers-with-multilingual-speech-recognition-model/
https://arxiv.org/abs/2303.01037
https://www.theverge.com/2023/3/6/23627788/google-1000-language-ai-universal-speech-model
https://ai.googleblog.com/2023/03/universal-speech-model-usm-state-of-art.html
*博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。