新聞中心

        EEPW首頁 > 智能計算 > 業(yè)界動態(tài) > Meta訓練Llama 3遭遇頻繁故障

        Meta訓練Llama 3遭遇頻繁故障

        作者: 時間:2024-07-29 來源:IT之家 收藏

        7 月 28 日消息, 發(fā)布的一份研究報告顯示,其用于訓練 4050 億參數模型 的 16384 個 集群在 54 天內出現了 419 次意外故障,平均每三小時就有一次。其中,一半以上的故障是由顯卡或其搭載的高帶寬內存(HBM3)引起的。

        本文引用地址:http://www.104case.com/article/202407/461443.htm

        由于系統規(guī)模巨大且任務高度同步,單個顯卡故障可能導致整個訓練任務中斷,需要重新開始。盡管如此, 團隊還是保持了 90% 以上的有效訓練時間。

        IT之家注意到,在為期 54 天的預預訓練中,共出現了 466 次工作中斷,其中 47 次是計劃中斷,419 次是意外中斷。計劃內的中斷是由于自動化維護造成的,而意外的中斷則主要源于硬件問題。 問題是導致故障的主要原因,占意外中斷的 58.7%。其中只有三起事件需要大量人工干預,其余的由自動化管理。

        無標題.jpg

        在 419 個意外中斷中,148 個(30.1%)是由各種 故障(包括 NVLink 故障)引起的,而 72 個(17.2%)是由 的 HBM3 內存故障引起的。有趣的是,54 天內只有兩個 CPU 發(fā)生故障。41.3% 的意外中斷是由多種因素造成的,包括軟件錯誤、網絡電纜和網絡適配器。

        為提高效率, 團隊開發(fā)了一系列工具和優(yōu)化策略,包括縮短任務啟動和檢查點時間、利用 PyTorch 的 NCCL 飛行記錄器診斷性能問題、識別拖后顯卡等。此外,Meta 還關注到了環(huán)境因素的影響,如午間溫度波動對 GPU 性能的輕微影響,以及巨量 GPU 同時運行對數據中心電網的巨大壓力。

        然而,隨著人工智能模型參數量的不斷增加,所需的計算資源也隨之擴大。以 xAI 計劃中的 10 萬塊 集群為例,故障率可能會成倍增長,給未來的 AI 訓練帶來更大的挑戰(zhàn)。



        評論


        相關推薦

        技術專區(qū)

        關閉
        主站蜘蛛池模板: 永仁县| 莆田市| 项城市| 泗阳县| 长乐市| 鹰潭市| 黑山县| 绥阳县| 宁乡县| 巩留县| 南京市| 正阳县| 沧州市| 全椒县| 随州市| 天全县| 福海县| 西乡县| 永登县| 子洲县| 随州市| 桐柏县| 龙南县| 昌图县| 昂仁县| 连州市| 金山区| 达拉特旗| 横峰县| 莱芜市| 高邑县| 广元市| 蕲春县| 张北县| 沅江市| 宜川县| 温州市| 万州区| 察哈| 周口市| 屯昌县|