新聞中心

        EEPW首頁 > 智能計算 > 業界動態 > Nvidia的Blackwell AI GPU過熱問題似乎被過度夸大——半導體分析師透露,冷卻問題已大多得到解決

        Nvidia的Blackwell AI GPU過熱問題似乎被過度夸大——半導體分析師透露,冷卻問題已大多得到解決

        作者:EEPW 時間:2024-11-21 來源:EEPW 收藏

        Nvidia的GB200 NVL72服務器機架過熱問題似乎被夸大了。根據《商業內幕》的報道,Blackwell的冷卻設計缺陷已經得到解決。Semianalysis的首席分析師Dylan Patel向《商業內幕》表示,Blackwell的設計問題已經存在幾個月,但大多數問題已經得到解決,過熱問題被夸大了。

        本文引用地址:http://www.104case.com/article/202411/464808.htm

        Semianalysis的五位半導體行業分析師表示,導致多個供應商進行“返工”的冷卻系統問題是一個“小問題”。Blackwell的冷卻問題尤其在Nvidia的大型72芯片服務器機架中出現,后者的功率需求可達到120kW。機架設計中的缺陷迫使Nvidia多次重新評估設計,因為機架內的GPU過熱。這導致Nvidia的GB200硬件出貨延遲,并因需要進行設計更改而進一步推遲。

        Nvidia的B200 GPU是AI工作負載中最強大的處理芯片。例如,GB200超級芯片的可配置熱設計功率(TDP)高達幾千瓦,峰值功率可達2700瓦。這些極高的功率使得在標準機架形式中幾乎不可能使用空氣冷卻。

        這一物理問題迫使Nvidia在最新的Blackwell GPU上使用液體冷卻。同時,它還要求數據中心重新改造服務器農場,以容納支持液冷服務器所需的基礎設施。

        Nvidia可以通過制造較低功率的空氣冷卻GPU來解決這個問題——該公司仍然制造這種類型的GPU,例如H200 NVL。然而,為了在AI GPU競賽中保持領先,Nvidia優先考慮性能,而不顧成本,這就是為什么該公司選擇制造需要數千瓦功率的GPU,而犧牲空氣冷卻的原因。

        好消息是,Nvidia的72芯片Blackwell冷卻問題似乎較輕微,且已大致得到解決。此外,只有Nvidia的旗艦72芯片服務器機架存在這個問題。



        關鍵詞:

        評論


        相關推薦

        技術專區

        關閉
        主站蜘蛛池模板: 资溪县| 寿光市| 望谟县| 大新县| 东方市| 宾川县| 彝良县| 盘锦市| 灯塔市| 盐池县| 东方市| 惠来县| 绥中县| 尖扎县| 遂川县| 石林| 井研县| 南城县| 天柱县| 朝阳县| 郯城县| 榆林市| 吕梁市| 汝南县| 江川县| 离岛区| 武安市| 庆安县| 宁安市| 日照市| 上虞市| 宿州市| 柳河县| 旅游| 壶关县| 聂荣县| 老河口市| 常熟市| 塔城市| 沐川县| 扎鲁特旗|