博客專欄

        EEPW首頁 > 博客 > 語言模型參數越多越好?DeepMind用700億打敗自家2800億,訓練優化出「小」模型

        語言模型參數越多越好?DeepMind用700億打敗自家2800億,訓練優化出「小」模型

        發布人:機器之心 時間:2022-04-09 來源:工程師 發布文章
        給定固定的 FLOPs 預算,應該如何權衡模型大小和訓練 token 的數量?DeepMind 得出了與先前不同的結論。


        最近一系列大型語言模型 (LLM) 正在崛起,其中最大的語言模型已經擁有超過 5000 億個參數。這些大型自回歸 transformer 通過使用各種評估協議(例如零樣本、少樣本和微調),在許多任務中表現出令人印象深刻的性能。
        然而訓練大型語言模型需要消耗巨大的計算和能源,并且這種消耗隨著模型的增加而增加。在實踐中,研究者事先分配的訓練計算預算通常是預先知道的:有多少加速器可用以及我們想要使用它們多長時間。通常這些大模型只訓練一次是可接受的,因此準確估計給定計算預算的最佳模型超參數至關重要。
        Kaplan 等人研究 (2020) 表明,自回歸語言模型 (LM) 中的參數數量與其性能之間存在冪律關系。結果是該領域一直在訓練越來越大的模型,期望性能得到改善。Kaplan 等人(2020) 得出的一個值得注意的結論是,不應該將大型模型訓練到其可能的最低損失,以獲得計算的最佳化。
        來自 DeepMind 的研究者得出了相同的結論,但他們估計大型模型可以訓練的 token 數應該比作者推薦的更多。具體來說,假設計算預算增加 10 倍,其他研究者建議模型的大小應該增加 5.5 倍,而訓練 token 的數量應該只增加 1.8 倍。相反,DeepMind 發現模型大小和訓練 token 的數量應該以相等的比例擴展。
        圖片
        論文地址:https://arxiv.org/pdf/2203.15556.pdf
        繼 Kaplan 等人和 GPT-3 的訓練設置研究之后,近期大型模型的訓練 token 大約為 3000 億個(表 1),這與增加算力時,主要采用增加模型大小結論一致。
        圖片
        在這項工作中,DeepMind 重新審視了這個問題:給定固定的 FLOPs 預算,應該如何權衡模型大小和訓練 token 的數量?為了回答這個問題,DeepMind 將最終的預訓練損失

        *博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。



        關鍵詞: AI

        相關推薦

        技術專區

        關閉
        主站蜘蛛池模板: 延寿县| 北安市| 平安县| 沁源县| 卢湾区| 吴旗县| 通化县| 许昌市| 清水县| 洛浦县| 博乐市| 宁城县| 娄烦县| 阿鲁科尔沁旗| 谷城县| 靖边县| 洛川县| 东乡| 安岳县| 马关县| 菏泽市| 绥中县| 襄垣县| 防城港市| 开封市| 清徐县| 贺兰县| 佛冈县| 玉环县| 泸定县| 彭泽县| 雷山县| 十堰市| 礼泉县| 平遥县| 长汀县| 洪湖市| 普格县| 台南县| 密云县| 大化|