國產「十萬卡」集群開始落地
在人工智能飛速發展的當下,算力已然成為核心競爭力的關鍵要素。由顯卡規模撐起的算力水平,是決定大模型性能的最重要指標之一。一般認為,1 萬枚英偉達 A100 芯片,是做好 AI 大模型的算力門檻。
本文引用地址:http://www.104case.com/article/202506/471846.htm2024 年,我國智算中心建設駛入快車道,最明顯的感受就是萬卡集群項目加速落地。萬卡集群,是指由一萬張及以上 GPU、TPU 等專用 AI 加速芯片組成的高性能計算系統,它深度融合高性能 GPU 計算、高速網絡通信、大容量并行文件存儲以及智能計算平臺等前沿技術,將底層基礎設施整合成一臺超級強大的「算力巨獸」。借助這樣的集群,千億乃至萬億參數規模的大模型訓練得以高效完成,大幅縮短模型迭代周期,助力 AI 技術快速進化。
然而,隨著 AGI 的概念持續火熱,行業對算力的渴求愈發強烈,「萬卡集群」逐漸難以滿足爆發式增長的需求,算力領域的「軍備競賽」愈演愈烈。如今,十萬卡集群已成為全球頂尖大模型企業的「兵家必爭之地」,xAI、Meta、OpenAI 等國際巨頭紛紛布局,國內企業也不甘示弱,積極投身這場算力角逐。
十萬卡集群挑戰巨大
在全球范圍內,OpenAI、微軟、xAI 和 Meta 等頭部科技公司競相構建超 10 萬卡規模的 GPU 集群。這一宏大計劃背后,是驚人的資金投入,僅服務器成本就超過 40 億美元。此外,數據中心的空間限制、電力供應不足等問題,也如同攔路虎,阻礙著項目推進。
而在國內,建一個萬卡集群,單是 GPU 的采購成本就高達幾十億,因此國內能夠部署萬卡規模集群的,原本就只有阿里、百度等寥寥幾家大廠。而想要部署十萬卡集群,其「燒錢」程度可想而知。
除了資金成本,十萬卡集群建設還面臨著諸多技術難題。
首先是電力與散熱的極限考驗。十萬卡 H100 集群僅關鍵 IT 設備就需約 150MW 電力,遠超單個數據中心建筑的承載能力,需通過園區多建筑分布式部署實現電力分配,同時還要應對電壓波動與穩定性難題。而散熱系統更需匹配巨量熱負荷—高密度 GPU 運行時產生的熱量若無法及時疏導,將直接導致設備宕機,高效散熱方案的能耗與維護成本也需同步優化。GPU 是一種很敏感的硬件,連一天之內氣溫的波動,都會影響到 GPU 的故障率,而且規模越大,出故障的概率就越高。Meta 訓練 llama3 的時候,用了 1.6 萬張 GPU 卡的集群,平均每 3 小時就會出一次故障。
此外,區別于傳統 CPU 集群的串行特點,大模型訓練過程需要全部顯卡同時參與并行計算,對網絡傳輸能力也提出了更大的挑戰。若采用胖樹拓撲實現全 GPU 高帶寬互聯,四層交換的硬件成本將呈指數級增長,因此通常采用「計算島」模式:島內以高帶寬保障通信效率,島間則降低帶寬以控制成本。但這要求在張量并行、數據并行等不同訓練模式下,精準平衡通信任務分配,避免因拓撲設計缺陷導致帶寬瓶頸。尤其當模型規模突破萬億參數時,前端網絡的通信量會隨稀疏技術應用急劇增加,延遲與帶寬的優化需精細化權衡。
最后,相比于美國同行,中國大模型企業還面臨一重特殊的困難。由于總所周知的原因,國內企業無法像馬斯克那樣全部采用英偉達方案,而是需要使用包括國產 GPU 在內的異構芯片。這也意味著,即使同樣十萬張顯卡,國內企業在算力規模上也很難同美國企業匹敵。
算力是大模型發展的核心,但算力的增長已從線性變為平面。構建十萬卡集群不僅是算力的增長,還涉及技術和運營挑戰,管理 10 萬卡集群與萬卡集群有本質區別。
國產「十萬卡」集群加速落地
「芯片問題其實沒必要擔心,用疊加和集群等方法,計算結果上與最先進水平是相當的。」華為總裁任正非的這番表態,不僅增強了社會各界對中國 AI 發展的信心,也凸顯了集群計算在 AI 研發應用中的關鍵地位。從曾經的「萬卡集群」入場券,到如今「十萬卡集群」新目標,國內智算中心建設不斷邁向新高度。
去年 9 月,一項瞄準十萬卡超大規模算力的單體集群建設計劃——「算海計劃」二期宣布落地啟動。「算海計劃」取「海納百川、聚沙成塔」之義,劍指籌建面向模型訓練的大規模單體集群。據介紹,「算海計劃」二期由北京并行科技股份有限公司(以下簡稱并行科技)發起,合作伙伴北京智譜華章科技有限公司、北京面壁智能科技有限責任公司、中國移動通信集團湖北有限公司武漢分公司、中國聯合網絡通信有限公司武漢市分公司、中國電信股份有限公司武漢分公司、武漢大學信息中心、內蒙古新東吉泰科技公司參與啟動儀式。在內蒙古和林格爾,占地超 50 畝的「算海計劃」一期建設項目已于今年 5 月上線運營,該項目規劃有 4000 個 20kW 高功率智算機柜,最大可支持建設 6 萬卡規模的單體智算集群。在距離該項目不超過 100 米處,「算海計劃」二期項目已規劃上馬,二期將依托單一大集群進行統一管理和調度,可容納高達 10 萬卡的強大算力資源。
2024 年 7 月底,甘肅億算智能科技有限公司已在慶陽投資 3.07 億元建成了中國首個國產萬卡推理集群。而在今年 6 月,甘肅億算及其生態合作伙伴計劃出資 55 億元,建設「國產十萬卡算力集群」,提供不低于 2.5 萬 P 算力服務,預計于 2027 年 12 月 30 日前建成并投入使用。本次擬落地慶陽的十萬卡算力集群,計劃全部采用國產芯片與自主架構,深度融合慶陽能源優勢與長三角技術勢能,構建「西部算力+東部智慧」全國聯動,打造開放算力平臺,為 AI 大模型訓練與科學計算筑牢「中國底座」。
字節跳動在智算領域的布局同樣雄心勃勃。2024 年,其資本開支達 800 億人民幣,接近 BAT 三家總和(約 1000 億人民幣)。預計 2025 年,這一數字將翻倍至 1600 億人民幣,其中 900 億用于 AI 算力采購,700 億投向數據中心基礎設施建設及配套硬件。據第三方機構測算,以 400T (FP16) AI 算力卡為標準,字節跳動當前訓練算力需求約為 26.73 萬張卡,文本推理算力需求約為 33.67 萬張卡,未來推理算力需求有望突破 230 萬張卡。
國產 AI 芯片公司,得到利好
在這股熱潮中,有能力建設十萬卡集群的國產 AI 芯片公司也將獲得利好。
在 6 月 20 日舉行的華為開發者大會 2025(HDC 2025)上,華為常務董事、華為云計算 CEO 張平安宣布,基于 CloudMatrix384 超節點的新一代昇騰 AI 云服務全面上線,為大模型應用提供澎湃算力。 通過 432 節點級聯,可構建 16 萬卡超算集群,滿足十萬億參數級大模型訓練需求,突破傳統架構擴展極限。
華為云新一代昇騰 AI 云服務基于 CloudMatrix384 超節點,首創將 384 顆昇騰 NPU 和 192 顆鯤鵬 CPU 通過全新高速網絡 MatrixLink 全對等互聯,形成一臺超級「AI 服務器」,單卡推理吞吐量躍升到 2300 Tokens/s。
超節點架構能更好地支持混合專家 MoE 大模型的推理,可以實現「一卡一專家」,一個超節點可以支持 384 個專家并行推理,極大提升效率。同時,超節點還可以支持「一卡一算力任務」,靈活分配資源,提升任務并行處理,減少等待,將算力有效使用率(MFU)提升 50% 以上。同時,超節點還可以支持訓推算力一體部署,如「日推夜訓」,訓推算力可靈活分配,幫助客戶資源使用最優。
此外,百度的百舸 4.0 通過 HPN 高性能網絡、自動化混訓切分策略、自研集合通信庫等一系列產品技術創新,已經能夠實現十萬卡集群的高效管理。
騰訊去年也宣布了自研星脈高性能計算網絡全面升級,星脈網絡 2.0 搭載全自研的網絡設備與 AI 算力網卡,能夠支持超 10 萬卡大規模組網,網絡通信效率比上一代提升 60%,讓大模型訓練效率提升 20%。
阿里方面同樣釋出消息,阿里云可實現芯片、服務器、數據中心之間的高效協同,支持 10 萬卡量級的集群可擴展規模,已服務全國一半的人工智能大模型企業。
算力互聯網和東數西算打通市場堵點
當前,我國智能算力供不應求的問題較為突出,大模型對算力的需求增速遠超單顆 AI 芯片性能的提升步伐。相關報告顯示,2023 年,中國智能算力需求達 123.6EFLOPS,而供給僅為 57.9EFLOPS,供需缺口一目了然。利用集群互聯彌補單卡性能短板,或是現階段緩解 AI 算力荒最值得探索與實踐的有效途徑。
「十萬卡集群」建成后如何充分挖掘其應用價值,使其在人工智能訓練、大數據分析等適配場景發揮最大作用,杜絕資源空置與浪費現象的問題亟待解決。智算中心的建設只是一個開端,更重要的是后續的有效運用。也就是說,如何打通市場堵點才是關鍵。在此背景下,為解決相關市場堵點,算力互聯網和東數西算被提出并受到廣泛關注。
算力互聯網,并非一張全新的網絡,而是基于現有互聯網,將各地分散的算力資源連接起來,借助標準化的算力標識與協議接口,跨域實現資源互聯網絡,達成全網異構算力的智能感知、實時發現與隨需獲取。簡單來說,它就是一張服務于算力流動的網絡,旨在進一步推動算力的互聯互通,盤活現有算力資源,提升使用效率,降低使用成本,為用戶帶來更優質的體驗。5 月 17 日,中國信通院會同三大運營商聯合啟動「算力互聯網試驗網」建設,并發布《算力互聯網體系架構 1.0》。這一舉措旨在面向通算、智算、超算,以及云、邊、端等公共算力資源,實現三家運營商自有算力和全國分散社會算力的互聯,讓用戶能便捷地「找、調、用」算力。未來,用戶有望像按「千瓦時」用電一樣,按「卡時」靈活購買使用算力資源,實現用多少買多少的便捷服務。
而東數西算工程,則是通過構建數據中心、云計算、大數據一體化的新型算力網絡體系,把東部的算力需求有序引導至西部,優化數據中心建設布局,促進東西部協同聯動。2022 年 2 月,國家在京津冀、長三角、粵港澳大灣區、成渝、內蒙古、貴州、甘肅、寧夏 8 地啟動建設國家算力樞紐節點,并規劃 10 個國家數據中心集群,標志著東數西算工程正式全面啟動。其核心目的是讓西部的算力資源更充分地支撐東部數據的運算,為數字化發展賦能。一方面,能緩解東部能源緊張問題;另一方面,為西部開辟新的發展道路。
通過算力互聯網和東數西算的協同推進,有望打通市場堵點,優化算力資源配置,推動我國 AI 產業的持續健康發展。一方面,算力互聯網能實現算力資源的跨區域、跨行業流通,提升資源利用效率;另一方面,東數西算可利用西部的能源和土地資源優勢,降低算力成本,同時緩解東部的數據中心建設壓力。二者相輔相成,共同為我國智能算力供需失衡問題提供解決方案。
如果說 2024 年是我國萬卡集群的元年,2025 年,十萬卡集群也要來了。
評論