新聞中心

EEPW首頁 > 智能計算 > 業界動態 > Meta訓練Llama 3遭遇頻繁故障

Meta訓練Llama 3遭遇頻繁故障

作者：時間：2024-07-29 來源：IT之家

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

7 月 28 日消息，Meta 發布的一份研究報告顯示，其用于訓練 4050 億參數模型 Llama 3 的 16384 個英偉達 H100 顯卡集群在 54 天內出現了 419 次意外故障，平均每三小時就有一次。其中，一半以上的故障是由顯卡或其搭載的高帶寬內存（HBM3）引起的。

本文引用地址：http://www.104case.com/article/202407/461443.htm

由于系統規模巨大且任務高度同步，單個顯卡故障可能導致整個訓練任務中斷，需要重新開始。盡管如此，Meta 團隊還是保持了 90% 以上的有效訓練時間。

IT之家注意到，在為期 54 天的預預訓練中，共出現了 466 次工作中斷，其中 47 次是計劃中斷，419 次是意外中斷。計劃內的中斷是由于自動化維護造成的，而意外的中斷則主要源于硬件問題。GPU 問題是導致故障的主要原因，占意外中斷的 58.7%。其中只有三起事件需要大量人工干預，其余的由自動化管理。

無標題.jpg

在 419 個意外中斷中，148 個（30.1%）是由各種 GPU 故障（包括 NVLink 故障）引起的，而 72 個（17.2%）是由 GPU 的 HBM3 內存故障引起的。有趣的是，54 天內只有兩個 CPU 發生故障。41.3% 的意外中斷是由多種因素造成的，包括軟件錯誤、網絡電纜和網絡適配器。

為提高效率，Meta 團隊開發了一系列工具和優化策略，包括縮短任務啟動和檢查點時間、利用 PyTorch 的 NCCL 飛行記錄器診斷性能問題、識別拖后顯卡等。此外，Meta 還關注到了環境因素的影響，如午間溫度波動對 GPU 性能的輕微影響，以及巨量 GPU 同時運行對數據中心電網的巨大壓力。

然而，隨著人工智能模型參數量的不斷增加，所需的計算資源也隨之擴大。以 xAI 計劃中的 10 萬塊 H100 顯卡集群為例，故障率可能會成倍增長，給未來的 AI 訓練帶來更大的挑戰。

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關鍵詞： Meta Llama 3 英偉達 H100 顯卡 GPU

焦點

更多>>

技術專區

關閉

新聞中心

Meta訓練Llama 3遭遇頻繁故障

評論

相關推薦

技術專區