華為Ascend 910D志在與英偉達Blackwell和Rubin GPU競爭
據路透社報道,華為的下一代海思昇騰 910D AI 處理器有望提供比英偉達 H100 更好的性能。與 Nvidia 的 Blackwell B200 和 Blackwell Ultra B300 GPU 相比,新處理器在芯片上的速度會更慢,更不用說計劃于明年推出的下一代 Rubin GPU。然而,華為構建具有數百個處理器的 Pod 的方法應該允許 Ascend 910D 與基于 Nvidia 當前 Blackwell 和即將推出的 Rubin GPU 的 Pod 競爭。
華為正準備開始測試其最先進的人工智能處理器 Ascend 910D,其性能目標是超越 Nvidia 的 H100,并在美國出口限制的情況下提供國內替代方案。據消息人士透露,華為已經接觸了幾家當地公司,以評估新的 Ascend 910D 芯片是否滿足性能和部署要求。初步樣品預計將于 5 月下旬推出。
另外,華為計劃最早在下個月開始向中國客戶大規模交付其雙小芯片 Ascend 910C AI 處理器(可能還有基于這些芯片的完整系統)。達到 Nvidia H100 性能水平對華為來說并不容易。該公司最新的雙芯片 Ascend 910C 提供約 780 BF16 TFLOPS 的性能,而 Nvidia 的 H100 可提供約 2,000 BF16 TFLOPS。為了達到 H100 的性能水平,華為將不得不重新設計 Ascend 910D 的內部架構,并可能增加計算小芯片的數量。
為了在明年的 AI 行業保持競爭力,華為必須實現與美國開發的 AI 集群相當的性能。今年,該公司推出了配備 384 個 Ascend 910C 處理器的 CloudMatrix 384 系統。據報道,它可以在某些工作負載中擊敗 Nvidia 的 GB200 NVL72,但由于每瓦性能大大降低,因此功耗明顯更高。它還擁有比 NVL72 機架多五倍多的“AI 處理器”。互連是否能夠很好地擴展到所需的處理器數量還有待觀察。
如果無法獲得領先的工藝技術,華為明年要保持競爭地位將變得更加困難。Nvidia 有望在 2026 年推出代號為 Rubin GPU 的 AI 和 HPC。Rubin GPU 將采用臺積電的 N3(或更先進的)制造工藝制造,它們應該提供比當前一代 Blackwell GPU 更高的每瓦性能。
Rubin GPU 預計將提供約 8300 TFLOPS 的 FP8 訓練性能,大概是 BF16 的一半,大約是 B200 性能的兩倍。華為的 Ascend 910D 和配備 384 個此類處理器的下一代 CloudMatrix 系統理論上可以在機架級別提供有競爭力的 AI 性能。然而,Huaw 的性能如何還有待觀察與現有產品相比,ei 的 Ascend 910D 和 Nvidia 的 Rubin GPU 將提供。另外,應該注意的是,Nvidia 幾乎無法在中國銷售其高性能 Rubin GPU,因此對于該市場,華為不會真正有直接的競爭對手。
無論性能或效率如何,華為的 Ascend 910D 處理器都可能成為未來幾年中國 AI 訓練的主力軍。鑒于 AI 的戰略重要性,Ascend 910D(或任何其他國產 AI 處理器)的功耗不會成為限制因素,因為部署的單元數量可能會抵消 Nvidia(或 AMD、Intel、Broadcom 等)的效率。AI 處理器。中國的主要限制因素將是其生產足夠處理器的能力——無論是在國內還是在海外使用代理公司。
評論