博客專欄

        EEPW首頁 > 博客 > 谷歌首次展示新版語言模型BERT,參數達4810億個

        谷歌首次展示新版語言模型BERT,參數達4810億個

        發布人:深科技 時間:2021-12-08 來源:工程師 發布文章
        近日,機器學習開放組織 MLCommons 發布了 MLPerf 訓練基準(v1.1) 的結果。


        MLPerf 訓練是一個完整的系統基準測試,用于測試機器學習模型、軟硬件等。上一輪 MLPerf 訓練基準(v1.0)發布于 5 個月前,與之相比,本次最佳基準測試結果提高了 2.3 倍,在軟硬件和系統規模方面都有了實質性的改進。

        MLPerf 訓練基準的內容由封閉式和開放式兩個部分組成。開放式區別于封閉式的地方是,開放式的參與者可以提交各種模型,而封閉式為確保一個相對公平的競爭環境,只允許提交相同的參考模型。

        值得一提的是,谷歌在本次基準測試的開放式部分提交了之前從未公開過的新版 BERT 自然語言程序。

        新的 BERT 程序規模比通行的 BERT 標準版本大了 3 個數量級,神經網絡參數達到 4810 億個,而標準版 BERT 只有 3.4 億個參數。更多的參數通常意味著需要更多的計算能力。

        據了解,為了得到更大的 BERT 模型,谷歌使用的計算機搭載了 2048 個 TPU(Tensor Processing Unit)芯片。與英偉達的 GPU 不同,TPU 是谷歌針對機器學習專門定制的芯片。此“2048-TPU 系統”目前可以通過谷歌云服務獲得。

        谷歌表示,這一新穎的語言模型反映了 AI 規模日益增長的重要性。

        谷歌還說,其能夠以 63% 的效率運行龐大的 BERT 模型,這比英偉達和微軟共同開發的 Megatron-Turing 語言模型 52% 的效率要好。該效率是通過相對于理論容量每秒執行的浮點運算數量來衡量的。

        構建越大的 AI 深度學習程序,越需要使用更多的 GPU 芯片或新型加速器芯片。研究人員認為,程序的準確性隨著 AI 規模的增加而增加。

        谷歌機器學習基礎設施負責人阿魯沙·塞爾萬(Aarush Selvan)說:“我們一直在確保向 MLPerf 提交的文件與自身內部需求以及機器學習行業的需求完全一致。培訓 AI 大模型在谷歌內部變得越來越重要。其是我們研究和生產的一大重點,也是我們的云客戶所關注的重點?!?br />
        塞爾萬還說道,AI 大模型有著成百上千億個,甚至超過萬億的參數。在 MLPerf 競賽中有某種大型基準是非常有好處的,MLCommons 應該考慮更多的大模型來衡量大規模培訓的表現,像 ResNet-50 這樣較老、較小的網絡“只能給我們提供一個代理”。

        MLCommons 的執行董事大衛·坎特(David Kanter)對此表示,大模型的建立需要所有成員共同決定。他同時指出,使用小型神經網絡作為測試,能夠讓更多的成員參與競爭。這有助于為整個社區生產更多有價值的工程產品,并幫助推動行業不斷向前發展。

        “基準的關鍵是要公平和有代表性,而且也得考慮到經營者的承受能力,不能讓其破產。從理論上講,我們可以把 GPT-3 作為 MLPerf 基準,但培訓 GPT-3 相當昂貴,需要數千萬美元。”坎特補充說。據悉,GPT-3 是 OpenAI 在 2020 年推出的有著 1750 億參數的自然語言模型。

        此外,MLPerf 標準測試的代碼對每個人都是開放的,任何 AI 研究人員都可以復制測試結果進行重新驗證。

        谷歌今年早些時候在高度并行化神經網絡方面做了一定研究,其中概述的設計與本次展示的巨型 BERT 模型類似。該公司認為,巨型 BERT 模型經過訓練,可以產生更具準確性的結果。

        在封閉式部分測試中,谷歌使用了較小的 BERT 模型。同時,為了達到與其他供應商在封閉式部分相同的準確性,谷歌還使用了較少的文本數據樣本。封閉式部分要求一個程序訓練近 5 億個令牌序列,每個序列的長度大多為 128 個令牌。谷歌的程序只使用了大約 2000 萬個令牌序列,每個序列長度為 512 個令牌。

        塞爾萬說,谷歌打算在未來繼續提交 MLPerf 的封閉式部分基準?!懊髂昊蛟S將看到所有人回到封閉式賽區,雖然不能保證,但我們計劃那樣做?!彼f。

        整體來看,MLPerf 訓練基準(v1.1)的結果進一步推動了 MLCommons 的目標,即通過比較機器學習系統、軟件和解決方案,提供基準和指標,使行業競爭環境更加公平。

        “通過對體系結構、系統規模、軟件、模型劃分等方面的優化,”坎特說,“供應商正設法加速神經網絡的性能,其速度比摩爾定律的歷史軌跡快 11 倍。”

        據了解,本次的基準測試共有 14 個組織參與,包括微軟 Azure、百度、戴爾、富士通、技嘉、谷歌、Graphcore、HabanaLabs、HPE、浪潮、聯想、英偉達、三星和超微,發布的同行評審結果數量超過 185 個。

        MLCommons 與其合作伙伴,包括全球技術提供商、學者和研究人員,通過各種方式為整個機器學習行業構建工具。

        “回顧 2018 年的第一輪 MLPerf 訓練,我們一些基準的性能提高了 30 倍,”坎特說,“這種性能的快速增長將激發出新的機器學習創新,最終使社會受益?!?/span>
        -End-
        參考:
        https://www.zdnet.com/article/google-uses-mlperf-competition-to-showcase-performance-on-gigantic-version-of-bert-language-model/
        https://mlcommons.org/en/news/mlperf-training-v11/



        *博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。

        電機保護器相關文章:電機保護器原理


        關鍵詞: 谷歌

        相關推薦

        技術專區

        關閉
        主站蜘蛛池模板: 汶上县| 易门县| 法库县| 九寨沟县| 勃利县| 榆社县| 海口市| 苏尼特右旗| 盐池县| 六安市| 聂荣县| 山西省| 周宁县| 安化县| 齐河县| 石渠县| 夹江县| 呼图壁县| 汉源县| 宁乡县| 彭州市| 商城县| 依安县| 大冶市| 开鲁县| 阿勒泰市| 白朗县| 中牟县| 咸宁市| 崇文区| 安陆市| 凤城市| 永顺县| 新营市| 许昌市| 平昌县| 洱源县| 葵青区| 读书| 正镶白旗| 郧西县|