博客專欄

        EEPW首頁 > 博客 > AMD將構建全球最大AI訓練集群,集成120萬片GPU

        AMD將構建全球最大AI訓練集群,集成120萬片GPU

        發布人:芯智訊 時間:2024-07-19 來源:工程師 發布文章

        image.png

        6月26日消息,據The Next Platform報道,近日AMD執行副總裁兼數據中心解決方案集團總經理Forrest Norrod在接受采訪時表示,AMD將助力構建全球最大的單體人工智能(AI)訓練集群,將集成高達120萬片的GPU。

        120萬片GPU 是一個非常驚人的數字,要知道目前全球最強的超級計算機Frontier 所配備的 GPU 數量才只有37888片,這也意味著AMD所支持的AI訓練集群的GPU規模將達到Frontier的30多倍。不過,Forrest Norrod沒有透露哪個組織正在考慮構建這種規模的AI系統,但確實提到“非常清醒的人”正在考慮在AI訓練集群上花費數百億到數千億美元。

        目前的AI訓練集群通常由幾千個 GPU 構建而成,這些 GPU 通過跨多個服務器機架或更少的高速互連連接。如果要創建一個擁有高達 120 萬個 GPU 的單體 AI 集群,意味著將會面臨極為復雜的高速互連網絡,并且還會有延遲、功耗、硬件故障等諸多的問題,這似乎是難以實現的。

        比如,AI工作負載對延遲非常敏感,尤其是尾部延遲和異常值,其中某些數據傳輸比其他數據傳輸花費的時間要長得多,并且會中斷工作負載。此外,當今的超級計算機也會面臨每隔幾個小時就會發生的 GPU 或其他硬件故障。當擴展到當今最大的超級計算機集群的 30 倍時。更為關鍵的是,如此龐大的AI訓練集群,將會產生極為龐大的能耗,不僅穩定的供電將會是一個大難題,而且配套的散熱解決方案也面臨巨大挑戰。

        編輯:芯智訊-浪客劍


        *博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。



        關鍵詞: 芯片

        相關推薦

        技術專區

        關閉
        主站蜘蛛池模板: 剑阁县| 柞水县| 永城市| 吉首市| 威信县| 嘉义县| 稷山县| 阜康市| 元朗区| 定州市| 同德县| 应城市| 海兴县| 新源县| 宜昌市| 乌什县| 万安县| 锦屏县| 石河子市| 福州市| 荔浦县| 和田县| 奇台县| 疏勒县| 苗栗县| 奎屯市| 弥勒县| 屏东市| 武功县| 元朗区| 砚山县| 和平县| 庆元县| 苏尼特右旗| 班戈县| 东方市| 泉州市| 山阴县| 辉县市| 巴里| 青冈县|