微軟翻譯突破百種語言和方言大關
編者按:“ ??????? ???、?? ????、???????????? 、?????????”,你知道這句話里有幾種語言,它們又是什么意思么?其實這只是我國少數民族語言的一部分,依次為維吾爾語、蒙古語、哈薩克語和藏語的“你好”之意。這類文字我們在旅行中也時常能見到,比如,故宮里就有不少牌匾上有漢文、滿文和蒙文,只因大家看不懂,而常常被忽略。近日,微軟翻譯再添12種新語言和方言,其中就包括由微軟亞洲研究院提供技術支持的維語、 蒙語、藏語、土庫曼語、烏茲別克語等。目前,微軟翻譯共支持103種語言,讓你輕松實現跨國、跨地區交流無障礙。
近日,微軟 Azure 認知服務翻譯的語言列表又添加了12種全新的語種和方言,微軟翻譯可以提供翻譯支持的語言總數已達103種!
新增語言的母語使用者合計達8,460萬人,包括巴什基爾語、迪維希語、格魯吉亞語、吉爾吉斯語、馬其頓語、蒙古語(西里爾文字)、蒙古語(傳統文字)、韃靼語、藏語、土庫曼語、維吾爾語和烏茲別克語(拉丁文字)。微軟亞洲研究院為其中的七種語言和方言——迪維希語、蒙古語(西里爾文字)、蒙古語(傳統文字)、藏語、土庫曼語、維吾爾語和烏茲別克語(拉丁文字),提供了核心技術支持。目前最新版的微軟翻譯可以在全球56.6億人所使用的不同母語之間實現文本文檔的互譯。
打破語言障礙:實現100+語言翻譯的自由
微軟翻譯的核心使命是打破人與人之間的文化和語言障礙。為實現這一目標,微軟的研究員們不斷為這項服務增添新的語種和方言,同時確保所支持語言的機器翻譯達到并超過我們設置的高質量標準。
微軟研究院在20多年前首次開發出了機器翻譯系統。2003年,該機器翻譯系統將整個微軟知識庫(Microsoft Knowledge Base)從英文翻譯成了西班牙文、法文、德文、日文,并在微軟網站上發布了譯文版,使之成為當時互聯網上規模最大、面向公眾開放的初始機器翻譯應用。
此后,微軟以統計機器翻譯(SMT)模型為基礎,對系統做了進一步改良,并通過 Windows Live Translator、Translator API 以及作為微軟 Office 應用程序的內置功能,向用戶提供翻譯服務。
多年來,微軟已將世界上諸多常用的語言和方言添加到了微軟翻譯的系統中。而隨著人工智能技術的發展,微軟研究院開始采用神經機器翻譯(NMT)技術,將所有機器翻譯系統遷移到了基于 Transformer 架構的神經模型上,因此翻譯的流暢度和準確性獲得了大幅提升。
引入 Transformer 架構的 NMT 技術,不僅可以利用包括單語語料數據在內的更多數據來訓練超大模型,提升翻譯的整體質量,也為構建機器翻譯模型開辟了新的路徑,讓模型可以借助比先前更少的數據來進行訓練。多語言的 Transformer 架構可以利用來自其他語言(通常屬于相同或相關的語系)的資料擴充訓練數據,為低資源語言構建翻譯模型。
當全部技術都已準備就緒的同時,機器翻譯系統還必須要有一套數字化的并行文檔,其中包括目標語言版本的文檔,以及另一種已納入翻譯服務的語言的翻譯版文檔。但對于很多小語種來說,這些并行文檔中的平行語料很難獲得。幸運的是,微軟通過與語言社區的合作伙伴展開合作,可以獲取人工翻譯的文本,收集低資源語言的數據。這些社區伙伴通常是在各自社區任職的志愿者,他們通過咨詢社區成員和長者,不辭勞苦地收集雙語詞句。與社區合作伙伴的接觸始于2010年,當時微軟與社區負責災難響應的人員合作,在海地發生毀滅性地震后短短10天內,就為海地克里奧爾語構建了一個翻譯系統。從那時起,越來越多的社區伙伴加入了社群,幫助微軟創建了多個語言系統,例如苗族語、烏爾都語、瑪雅語、毛利語和因紐特語等等。
盡管如此,缺少足夠的平行語料依然是小語種語言翻譯的最大難點。多年來,微軟亞洲研究院承擔了多個小語種語言和方言的模型構建工作,將新技術融入其中,幫助解決語料問題。微軟亞洲研究院首席研究員秦濤表示,“基于源語言和目標語言的平行語料及單語語料,我們在訓練階段將多語言模型與 MASS 預訓練模型相結合,同時再利用相關大語種的豐富語料及單語語料來提升模型的翻譯質量。”
圖 1:2016年,微軟利用神經機器翻譯(NMT)技術提高了翻譯質量,2019年,微軟采用 Transformer 架構為低資源語言構建了模型
Azure 認知服務翻譯工具的技術能力
Azure 認知服務中的翻譯工具由微軟翻譯提供支持,旨在幫助企業擴大其全球影響力,讓他們能夠快速、可靠并以合理的成本跨越語言障礙,用客戶的母語與之進行合作、交流并提供內容服務。當然,這項服務還能幫助企業內部來自不同國家的員工在溝通時打破語言障礙。
Azure 認知服務翻譯工具將 NMT 模型納入微軟產品中,通過文本翻譯和文檔翻譯 API,為用戶提供服務,將純文本和復雜的文檔從一種語言翻譯成另一種語言。Azure 認知服務翻譯工具還包含自定義翻譯服務,該服務允許用戶使用自備翻譯存儲器構建自定義的機器翻譯模型,用于翻譯他們在各自業務及相關領域中所使用的特定術語。用戶可以通過文本和文檔翻譯 API 使用這些自定義機器翻譯模型。為了實現音頻或語音內容的翻譯,Azure 認知服務的翻譯工具和語音工具緊密集成,并通過 Azure 語音 SDK 為語音翻譯和多設備對話提供支持。
Azure 認知服務翻譯工具及其支持的產品被用戶廣泛采用,用于網站內容和 App 的本地化、為業務分析的對話和內容及法證調查的內容提供翻譯等諸多應用場景。該服務還無縫集成到微軟的許多產品中,每個人都可以隨時通過他們所選擇的語言來使用和創建內容。集成了翻譯服務的微軟產品包括 Microsoft 365 中的文本和文檔翻譯、微軟 Edge 瀏覽器中的網頁翻譯、SwiftKey 中的消息翻譯、LinkedIn 中的用戶提交內容翻譯、微軟翻譯 App 中的多語言對話翻譯等等。
消除語言障礙是承諾,但仍任重道遠
如果一個人并不能掌握承載特定信息的語言,那么技術如何才能幫助他獲取信息呢?在一個不斷縮小的世界中,人們又將如何更了解和欣賞彼此的文化?語言障礙阻礙了人們獲取某些重要信息,而這也是促使微軟致力于打破這些障礙的動因之一。將文本、文檔、語音和圖像從一種語言翻譯成另一種語言,將為實現這一目標發揮重要作用。
微軟亞洲研究院高級研究員張冬冬認為,“語言作為文化的載體,其翻譯任務一方面促進了各種文化的交流,另一方面也在保護、復原那些正在消失或已經消失的語言中所蘊含的人類知識、智慧文明。我們除了不斷提升主流語言機器翻譯質量讓其接近人工翻譯水平外,同時也在考慮低資源和零資源語言的翻譯問題。機器翻譯技術是解決跨國家、跨地區、跨民族無障礙交流、文化傳承等問題的重要手段。”
事實上,當翻譯語言覆蓋面達到世界語言總數的百分之一時,微軟就已經為全球72%的人口打破了語言障礙。微軟的科研和技術人員在感到自豪的同時,也將以謙卑的態度繼續語言翻譯的探索與研究。未來,微軟將繼續滿懷激情地改進服務和解決方案,提升質量,讓每個人都能獲取來自世界各地的內容,消除語言差異帶來的分歧,同時保持對文化、傳統和歸屬感的尊重。
*博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。