新聞中心

        EEPW首頁 > 智能計算 > 業界動態 > Nvidia 的 Blackwell AI GPU 過熱問題似乎被夸大了

        Nvidia 的 Blackwell AI GPU 過熱問題似乎被夸大了

        —— 半導體分析師透露冷卻問題已基本得到解決
        作者: 時間:2024-11-21 來源:Toms hardware 收藏

        據稱,有關 的 GB200 NVL72 服務器機架過熱的報道被夸大了。Business Insider 報道稱, 的冷卻設計錯誤已經得到解決。據稱,Semianalysis 的首席分析師 Dylan Patel 告訴 Business Insider,已經存在了幾個月的 的設計問題已基本得到解決,并表示在很大程度上被夸大了。
        Semianalysis 的五位監控半導體行業的分析師報告說,觸發幾家供應商“返工”的冷卻系統問題是一個“微小”的變化。 的冷卻故障在 的大型 72 芯片服務器機架上尤其存在問題,該機架的功耗高達 120kW。由于機架內部的 GPU 過熱,機架設計中的設計缺陷迫使 多次重新評估其設計。這阻礙了 Nvidia 的 GB200 硬件的出貨量,由于所需的設計更改而導致額外的延遲。
        Nvidia 的 B200 GPU 是適用于 AI 工作負載的最強大處理芯片。例如,GB200 超級芯片具有數千瓦的可配置 TDP,峰值額定功率高達 2,700 瓦。這些荒謬的高功率數字使得空氣冷卻幾乎不可能在標準機架安裝外形尺寸的限制下使用。
        這個物理問題迫使 Nvidia 要求在其最新的 Blackwell GPU 上進行液體冷卻。它還要求數據中心改造其服務器場,以適應支持液冷服務器所需的基礎設施。
        Nvidia 可以通過創建速度較慢的風冷 GPU 來解決這個問題——GPU 制造商仍然以 H200 NVL 等 GPU 的形式這樣做。然而,為了保持在 軍備競賽的最前沿,Nvidia 不惜一切代價優先考慮性能,這就是為什么該公司選擇以犧牲風冷為代價制造需要數千瓦功率的 GPU。
        好消息是,Nvidia 的 72 芯片 Blackwell 冷卻問題顯然很小,并且已經基本得到解決。此外,只有 Nvidia 的旗艦 72 芯片服務器機架存在問題。

        本文引用地址:http://www.104case.com/article/202411/464835.htm


        評論


        相關推薦

        技術專區

        關閉
        主站蜘蛛池模板: 南宁市| 自贡市| 樟树市| 资中县| 蚌埠市| 油尖旺区| 临沂市| 锡林浩特市| 嵊州市| 那曲县| 康平县| 通河县| 临泉县| 姜堰市| 泰宁县| 富裕县| 彰化市| 固原市| 犍为县| 正阳县| 象山县| 出国| 措勤县| 北海市| 明溪县| 海晏县| 茶陵县| 寻甸| 临澧县| 五家渠市| 怀集县| 新晃| 绍兴县| 安阳市| 平利县| 新河县| 海兴县| 西丰县| 三明市| 临沭县| 厦门市|