博客專欄

        EEPW首頁 > 博客 > 更強的Llama 2開源,可直接商用:一夜之間,大模型格局變了(1)

        更強的Llama 2開源,可直接商用:一夜之間,大模型格局變了(1)

        發布人:機器之心 時間:2023-07-19 來源:工程師 發布文章

        已上微軟 Azure,即將要上 AWS、Hugging Face。


        一夜之間,大模型格局再次發生巨變。


        圖片


        一直以來 Llama 可以說是 AI 社區內最強大的開源大模型。但因為開源協議問題,一直不可免費商用。


        今日,Meta 終于發布了大家期待已久的免費可商用版本 Llama 2。



        此次 Meta 發布的 Llama 2 模型系列包含 70 億、130 億和 700 億三種參數變體。此外還訓練了 340 億參數變體,但并沒有發布,只在技術報告中提到了。


        據介紹,相比于 Llama 1,Llama 2 的訓練數據多了 40%,上下文長度也翻倍,并采用了分組查詢注意力機制。具體來說,Llama 2 預訓練模型是在 2 萬億的 token 上訓練的,精調 Chat 模型是在 100 萬人類標記數據上訓練的。


        圖片


        公布的測評結果顯示,Llama 2 在包括推理、編碼、精通性和知識測試等許多外部基準測試中都優于其他開源語言模型。


        圖片


        接下來,我們就從 Meta 公布的技術報告中,詳細了解下 Llama 2。


        圖片


        • 論文地址:https://ai.meta.com/research/publications/llama-2-open-foundation-and-fine-tuned-chat-models/

        • 項目地址:https://github.com/facebookresearch/llama


        總的來說,作為一組經過預訓練和微調的大語言模型(LLM),Llama 2 模型系列的參數規模從 70 億到 700 億不等。其中的 Llama 2-Chat 針對對話用例進行了專門優化。


        圖片

        Llama 2-Chat 的訓練 pipeline。


        Llama 2 模型系列除了在大多數基準測試中優于開源模型之外,根據 Meta 對有用性和安全性的人工評估,它或許也是閉源模型的合適替代品。


        圖片

        Llama 2-Chat 與其他開源和閉源模型在安全性人類評估上的結果。


        Meta 詳細介紹了 Llama 2-Chat 的微調和安全改進方法,使社區可以在其工作基礎上繼續發展,為大語言模型的負責任發展做出貢獻。


        預訓練


        為了創建全新的 Llama 2 模型系列,Meta 以 Llama 1 論文中描述的預訓練方法為基礎,使用了優化的自回歸 transformer,并做了一些改變以提升性能。


        具體而言,Meta 執行了更穩健的數據清理,更新了混合數據,訓練 token 總數增加了 40%,上下文長度翻倍。下表 1 比較了 Llama 2 與 Llama 1 的詳細數據。


        圖片


        Llama 2 的訓練語料庫包含了來自公開可用資源的混合數據,并且不包括 Meta 產品或服務相關的數據。Llama 2 采用了 Llama 1 中的大部分預訓練設置和模型架構,包括標準 Transformer 架構、使用 RMSNorm 的預歸一化、SwiGLU 激活函數和旋轉位置嵌入。


        在超參數方面,Meta 使用 AdamW 優化器進行訓練,其中 β_1 = 0.9,β_2 = 0.95,eps = 10^?5。同時使用余弦學習率計劃(預熱 2000 步),并將最終學習率衰減到了峰值學習率的 10%。


        下圖 5 為這些超參數設置下 Llama 2 的訓練損失曲線。


        圖片


        在訓練硬件方面,Meta 在其研究超級集群(Research Super Cluster, RSC)以及內部生產集群上對模型進行了預訓練。兩個集群均使用了 NVIDIA A100。


        在預訓練的碳足跡方面,Meta 根據以往的研究方法,利用 GPU 設備的功耗估算和碳效率,計算了 Llama 2 模型預訓練所產生的碳排放量。


        圖片

        預訓練期間 Llama 2 各個模型的碳排放量。


        Llama 2 預訓練模型評估


        Meta 報告了 Llama 1、Llama 2 基礎模型、MPT(MosaicML)和 Falcon 等開源模型在標準學術基準上的結果。


        下表 3 總結了這些模型在一系列流行基準上的整體性能,結果表明,Llama 2 優于 Llama 1 。


        圖片


        除了開源模型之外,Meta 還將 Llama 2 70B 的結果與閉源模型進行了比較,結果如下表 4 所示。Llama 2 70B 在 MMLU 和 GSM8K 上接近 GPT-3.5,但在編碼基準上存在顯著差距。


        此外,在幾乎所有基準上,Llama 2 70B 的結果均與谷歌 PaLM (540B) 持平或表現更好,不過與 GPT-4 和 PaLM-2-L 的性能仍存在較大差距。


        圖片



        *博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。



        關鍵詞: AI

        相關推薦

        技術專區

        關閉
        主站蜘蛛池模板: 吉水县| 高邮市| 瓮安县| 巧家县| 沾化县| 平山县| 玉林市| 黑河市| 兴国县| 黄石市| 永川市| 丹寨县| 华蓥市| 织金县| 綦江县| 原阳县| 文成县| 东台市| 布尔津县| 五寨县| 威信县| 清流县| 朔州市| 阆中市| 长兴县| 息烽县| 乾安县| 亚东县| 武隆县| 苏尼特右旗| 淳安县| 平塘县| 广平县| 新余市| 左贡县| 玉树县| 中阳县| 太仆寺旗| 资溪县| 松溪县| 海宁市|