?中國AI計算迎來重大突破!首批AGC架構(gòu)智算整機(jī)問世
大模型帶來了巨大的AI算力需求,同時也對傳統(tǒng)以CPU為中心的計算機(jī)架構(gòu)(ACC)提出了前所未有的挑戰(zhàn)。早在今年2月,致力于計算機(jī)體系結(jié)構(gòu)創(chuàng)新的容芯致遠(yuǎn)就首次提出了全新的AGC智算架構(gòu)——以GPU為中心重新設(shè)計AI計算機(jī)系統(tǒng),打破傳統(tǒng)AI計算面臨成本、效率、靈活性的“不可能三角”難題,引發(fā)業(yè)界關(guān)注。
本文引用地址:http://www.104case.com/article/202505/470369.htm從雙卡到20卡,全球首家單機(jī)適配全尺寸DeepSeek
5月9日,容芯致遠(yuǎn)聯(lián)合中國開放指令生態(tài)(RISC-V)聯(lián)盟在北京宣布成立RISC-V國產(chǎn)智算體系結(jié)構(gòu)創(chuàng)新專業(yè)組,現(xiàn)場300多人參與會議。容芯致遠(yuǎn)一舉發(fā)布5款采用AGC架構(gòu)設(shè)計的智算新品,從支持雙卡到支持20卡不等,成為全球首家單機(jī)全面適配DeepSeek各模型尺寸產(chǎn)品的企業(yè)。
其中,入門級的K2支持雙卡,體積小巧、超靜音(噪音低于55分貝),預(yù)置DeepSeek 32B模型服務(wù)、推理環(huán)境及RAG環(huán)境,非常適合辦公場景部署;旗艦級的K20單機(jī)可支持20卡,通過創(chuàng)新的張量并行技術(shù),完美運行滿血版 DeepSeek 671B全量模型。較于傳統(tǒng)方案則需要4臺8卡機(jī)器組網(wǎng),技術(shù)復(fù)雜、成本高、運維難度大。K20基于獨立全信創(chuàng)體系,支持國內(nèi)外多種形態(tài)的GPU算力卡及主流CPU處理器,同時適配DeepSeek、Qwen、LLama、ChatGLM等國內(nèi)外主流開源AI大模型。
圖:支持20卡(16生產(chǎn)卡+4熱備卡)的K20現(xiàn)場點亮
AGC智算架構(gòu)如何破解“不可能三角”?
容芯致遠(yuǎn)CTO石旭在主題報告中分享了K20背后的架構(gòu)創(chuàng)新理念與核心技術(shù)。他談到,芯片、系統(tǒng)和軟件是計算機(jī)體系結(jié)構(gòu)的三大關(guān)鍵要素。只有在體系結(jié)構(gòu)層面進(jìn)行高維度的創(chuàng)新,才能打破成本、效率、靈活性“不可能三角”的魔咒,讓GPU發(fā)揮更大算力效率,同時更具成本優(yōu)勢和靈活的適應(yīng)性。
圖:AGC是面向AI時代的計算機(jī)體系結(jié)構(gòu)
在高性能計算(HPC)、大模型訓(xùn)練/推理等場景應(yīng)用中,與CPU相比,GPU作為核心加速計算部件,具有功耗更高、運行溫度更高、故障率更高等“三高”特征,進(jìn)而對GPU算力卡的生產(chǎn)級可用性、運維便捷性、使用壽命構(gòu)成嚴(yán)重挑戰(zhàn)。有數(shù)據(jù)表明,某國外著名GPU在非7X24小時使用情況下的故障率為1-3%,在高負(fù)荷場景下故障率高達(dá)5-8%。由于長期處于高溫高能耗狀態(tài),GPU的平均壽命僅有1-3年。對普通架構(gòu)智算整機(jī)而言,單卡故障會直接導(dǎo)致整機(jī)停止服務(wù),恢復(fù)時間需2小時以上。
針對上述挑戰(zhàn),容芯致遠(yuǎn)技術(shù)團(tuán)隊另辟蹊徑,立足AGC架構(gòu)設(shè)計理念,實現(xiàn)了全球首創(chuàng)的GPU熱插拔、GPU-RAID高可用、GPU節(jié)能延壽等三大技術(shù)突破。通過GPU Box設(shè)計,更換GPU卡就像換硬盤一樣簡單,運維時間從至少2小時縮短到1分鐘,極致提升運維效率,保障業(yè)務(wù)連續(xù)性;通過GPU-RAID技術(shù),類似磁盤陣列的冗余設(shè)計,使單機(jī)可用性從傳統(tǒng)架構(gòu)的85%躍升至99.99%,極大提升生產(chǎn)環(huán)境下智算系統(tǒng)的SLA服務(wù)水平;通過GPU算力卡單點電源管理技術(shù),構(gòu)建細(xì)粒度能耗管理體系,讓GPU在非工作時段由系統(tǒng)自啟休眠模式,降低功耗和電費,并有效延長GPU卡的使用壽命。另外,通過單張GPU算力卡與100G至400G網(wǎng)卡綁定技術(shù)(不占用CPU性能),實現(xiàn)單機(jī)2T至8T通信墻,支撐構(gòu)建萬卡矩陣組網(wǎng)。
容芯致遠(yuǎn)提出的AGC架構(gòu)與技術(shù)突破,已經(jīng)獲得多家上下游伙伴與企業(yè)用戶的認(rèn)可。來自航天聯(lián)志、燧原科技、信者科技的嘉賓分別介紹了與容芯致遠(yuǎn)的合作成果。其中,航天聯(lián)志基于容芯致遠(yuǎn)技術(shù)的通算/智算系列產(chǎn)品,已經(jīng)在油田、政務(wù)、涉密部門實現(xiàn)部署應(yīng)用;燧原科技表示對于燧原S60的容芯致遠(yuǎn)一體機(jī)DeepSeek 671B滿血版,經(jīng)優(yōu)化測試后獲得了極好的綜合性能,相較于ACC結(jié)構(gòu),節(jié)省了50%的硬件資源;信者科技不僅將容芯致遠(yuǎn)的AGC智算方案引入某重點雙一流高校場景,還推出了基于超融合DAU數(shù)據(jù)處理器加速卡的信創(chuàng)服務(wù)器方案,提升IO性能3-10倍,降低硬件投資及運營成本50%以上。
攜手RISC-V聯(lián)盟,打造國產(chǎn)智算“朋友圈”
為進(jìn)一步推廣AGC架構(gòu),吸引更多企業(yè)進(jìn)行協(xié)同創(chuàng)新,容芯致遠(yuǎn)選擇將所有知識產(chǎn)權(quán)面向CPU、GPU、整機(jī)廠商以及RISC-V聯(lián)盟成員單位進(jìn)行開放、共享。在此次會議上,RISC-V聯(lián)盟國產(chǎn)智算體系結(jié)構(gòu)創(chuàng)新專業(yè)組也宣告成立,成為該聯(lián)盟旗下七大專業(yè)組之一。
圖:RISC-V國產(chǎn)智算體系結(jié)構(gòu)創(chuàng)新專業(yè)組成立儀式
在全球RISC-V生態(tài)高速發(fā)展、RISC-V高性能處理器不斷取得技術(shù)突破的態(tài)勢之下,RISC-V+AI正成為新的產(chǎn)業(yè)共識,有望為AI推理算力市場帶來新的組合方案。在這一背景下,基于RISC-V的國產(chǎn)化智算體系架構(gòu)創(chuàng)新機(jī)會巨大,國產(chǎn)智算創(chuàng)新體系專業(yè)組的成立可謂恰逢其時。中國開放指令生態(tài)(RISC-V)聯(lián)盟秘書長包云崗在致辭中對專業(yè)組提出了三點期望:一是堅持開源開放,秉承RISC-V初心,推動技術(shù)共享和協(xié)作創(chuàng)新,二是聚焦國產(chǎn)智算,結(jié)合中國市場需求,打造真正可自主演進(jìn)的解決方案,三是匯聚行業(yè)力量,聯(lián)合產(chǎn)學(xué)研各界共同構(gòu)建繁榮的RISC-V生態(tài)體系。
圖:中國開放指令生態(tài)(RISC-V)聯(lián)盟秘書長包云崗致辭
目前,國產(chǎn)智算體系結(jié)構(gòu)創(chuàng)新專業(yè)組首批共有15家成員單位加入,由北京中科彼岸集成電路科技有限公司和北京容芯致遠(yuǎn)科技有限公司共同發(fā)起創(chuàng)立,由天津信創(chuàng)海河實驗室、超睿科技(上海)有限公司、兆松科技(武漢)有限公司擔(dān)任副組長單位。其他十余家委員單位涵蓋RISC-V芯片、GPU、整機(jī)、軟件等全產(chǎn)業(yè)鏈。
圖:RISC-V國產(chǎn)智算體系結(jié)構(gòu)創(chuàng)新專業(yè)組證書頒發(fā)儀式
根據(jù)規(guī)劃,專業(yè)組一方面致力于中國的智算技術(shù)體系研究,秉持著開放、開源、創(chuàng)新、共享的合作理念,深入開展技術(shù)研究工作,挖掘RISC-V技術(shù)在智算領(lǐng)域的深度潛力,形成和輸出技術(shù)標(biāo)準(zhǔn)制定與規(guī)范,不斷推動體系結(jié)構(gòu)的創(chuàng)新;另一方面,致力于中國智算生態(tài)發(fā)展,以提升國產(chǎn)智算生態(tài)鏈的整體能力為己任,全力推動國產(chǎn)智算技術(shù)與產(chǎn)業(yè)的茁壯成長,打造優(yōu)質(zhì)的國產(chǎn)智算系統(tǒng)生態(tài)。
石旭在演講中也談到,未來還有很多體系結(jié)構(gòu)方面的技術(shù)需要協(xié)同專業(yè)組一起協(xié)作解決,比如部件級芯片級高速傳輸技術(shù)、國產(chǎn)開源人工智能框架等。目前聯(lián)盟內(nèi)部已經(jīng)啟動“延安開源框架”研發(fā)項目,將全方位支持國產(chǎn)GPU,著力解決GPU深度優(yōu)化、全局緩存共享、全鏈路優(yōu)化、大模型安全、訓(xùn)推效率提升等5個方面的問題。
在圓桌論壇環(huán)節(jié),RISC-V副秘書長張松就國產(chǎn)AI發(fā)展和七位行業(yè)專家展開深度對話,容芯致遠(yuǎn)首席科學(xué)家張彥朝指出:“AGC架構(gòu)已在國內(nèi)多個重點行業(yè)驗證,推理效率提升3倍以上。”兆松科技CEO范澤分享:“我們開發(fā)的RISC-V專用編譯器可將CUDA遷移損耗控制在15%以內(nèi)?!毙艅?chuàng)海河實驗室主任王濤強(qiáng)調(diào):“要通過開源協(xié)作突破技術(shù)壁壘,構(gòu)建自主可控的AI生態(tài)?!?/p>
圖:圓桌論壇
在本次行業(yè)盛會上,年輕的容芯致遠(yuǎn)公司以其突破性的技術(shù)讓大家為之震撼。公司研發(fā)的智能計算解決方案憑借創(chuàng)新架構(gòu)和卓越性能,贏得了與會專家的高度評價。一位資深I(lǐng)T專家現(xiàn)場題寫對聯(lián)“小公司,開大會,彰顯創(chuàng)新力量;新技術(shù),破舊局,科技引領(lǐng)未來”,生動詮釋了這家新興企業(yè)的創(chuàng)新力量。在日趨激烈的全球AI競賽中,這樣的創(chuàng)新力量將為中國智算架構(gòu)實現(xiàn)跨越式發(fā)展注入強(qiáng)勁動能,推動中國AI技術(shù)走向世界前沿。
評論