更強的Llama 2開源,可直接商用:一夜之間,大模型格局變了(1)
已上微軟 Azure,即將要上 AWS、Hugging Face。
一夜之間,大模型格局再次發生巨變。
一直以來 Llama 可以說是 AI 社區內最強大的開源大模型。但因為開源協議問題,一直不可免費商用。
今日,Meta 終于發布了大家期待已久的免費可商用版本 Llama 2。
此次 Meta 發布的 Llama 2 模型系列包含 70 億、130 億和 700 億三種參數變體。此外還訓練了 340 億參數變體,但并沒有發布,只在技術報告中提到了。
據介紹,相比于 Llama 1,Llama 2 的訓練數據多了 40%,上下文長度也翻倍,并采用了分組查詢注意力機制。具體來說,Llama 2 預訓練模型是在 2 萬億的 token 上訓練的,精調 Chat 模型是在 100 萬人類標記數據上訓練的。
公布的測評結果顯示,Llama 2 在包括推理、編碼、精通性和知識測試等許多外部基準測試中都優于其他開源語言模型。
接下來,我們就從 Meta 公布的技術報告中,詳細了解下 Llama 2。
論文地址:https://ai.meta.com/research/publications/llama-2-open-foundation-and-fine-tuned-chat-models/
項目地址:https://github.com/facebookresearch/llama
總的來說,作為一組經過預訓練和微調的大語言模型(LLM),Llama 2 模型系列的參數規模從 70 億到 700 億不等。其中的 Llama 2-Chat 針對對話用例進行了專門優化。
Llama 2-Chat 的訓練 pipeline。
Llama 2 模型系列除了在大多數基準測試中優于開源模型之外,根據 Meta 對有用性和安全性的人工評估,它或許也是閉源模型的合適替代品。
Llama 2-Chat 與其他開源和閉源模型在安全性人類評估上的結果。
Meta 詳細介紹了 Llama 2-Chat 的微調和安全改進方法,使社區可以在其工作基礎上繼續發展,為大語言模型的負責任發展做出貢獻。
預訓練
為了創建全新的 Llama 2 模型系列,Meta 以 Llama 1 論文中描述的預訓練方法為基礎,使用了優化的自回歸 transformer,并做了一些改變以提升性能。
具體而言,Meta 執行了更穩健的數據清理,更新了混合數據,訓練 token 總數增加了 40%,上下文長度翻倍。下表 1 比較了 Llama 2 與 Llama 1 的詳細數據。
Llama 2 的訓練語料庫包含了來自公開可用資源的混合數據,并且不包括 Meta 產品或服務相關的數據。Llama 2 采用了 Llama 1 中的大部分預訓練設置和模型架構,包括標準 Transformer 架構、使用 RMSNorm 的預歸一化、SwiGLU 激活函數和旋轉位置嵌入。
在超參數方面,Meta 使用 AdamW 優化器進行訓練,其中 β_1 = 0.9,β_2 = 0.95,eps = 10^?5。同時使用余弦學習率計劃(預熱 2000 步),并將最終學習率衰減到了峰值學習率的 10%。
下圖 5 為這些超參數設置下 Llama 2 的訓練損失曲線。
在訓練硬件方面,Meta 在其研究超級集群(Research Super Cluster, RSC)以及內部生產集群上對模型進行了預訓練。兩個集群均使用了 NVIDIA A100。
在預訓練的碳足跡方面,Meta 根據以往的研究方法,利用 GPU 設備的功耗估算和碳效率,計算了 Llama 2 模型預訓練所產生的碳排放量。
預訓練期間 Llama 2 各個模型的碳排放量。
Llama 2 預訓練模型評估
Meta 報告了 Llama 1、Llama 2 基礎模型、MPT(MosaicML)和 Falcon 等開源模型在標準學術基準上的結果。
下表 3 總結了這些模型在一系列流行基準上的整體性能,結果表明,Llama 2 優于 Llama 1 。
除了開源模型之外,Meta 還將 Llama 2 70B 的結果與閉源模型進行了比較,結果如下表 4 所示。Llama 2 70B 在 MMLU 和 GSM8K 上接近 GPT-3.5,但在編碼基準上存在顯著差距。
此外,在幾乎所有基準上,Llama 2 70B 的結果均與谷歌 PaLM (540B) 持平或表現更好,不過與 GPT-4 和 PaLM-2-L 的性能仍存在較大差距。
*博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。