決勝AI云端:“芯火”燎原看燧原
人工智能(AI)毫無疑問是當今一個炙手可熱的詞匯,當智能化在各行各業被津津樂道之時,AI就成為其核心創新技術的體現,其中AI芯片更是“集萬千寵愛于一身”。本欄目曾經對用戶端的AI芯片及其落地應用做過介紹[1],主要為語音識別和智能圖像處理,在這里要一直看到AI云端,這里同樣風光獨好。
對于日益豐富的AI應用場景不斷提高的算力需求是驅動AI云端芯片發展的動力,其所蘊藏的商機巨大。據權威機構統計,AI算力需求每3個半月翻1倍,市場幾年內將會從數十億變為數百億美元。然而云端AI訓練芯片由國際巨頭所獨占的壁壘已經成為束縛整個產業健康發展的問題。這塊堅冰已在松動,如火如荼的爭鋒來臨在即,由AI“中國芯”點起火焰已經開始燃燒。升騰的烈火中浮現著不少本土公司的身影,其中上海燧原科技有限公司(Enflame)以紅色的火焰為企業形象標志,其云端AI訓練芯片格外令人矚目。筆者對燧原科技作為國產AI云端芯片新銳充滿好奇,特別是僅用與“摩爾定律”周期契合的18個月就取得豐碩成果而成為業內佼佼者,于是前往上海張江,在張潤大廈與創始人兼CEO趙立東進行訪談。
趙立東首先談到AI芯片的3個分層:技術門檻最高的是最上層的云端訓練,中間是云端推斷,最下層是終端推理。針對不同AI應用場景的模型訓練只能在云端進行。目前,云端訓練的市場規模大于云端推斷。隨著AI技術的大面積落地,云端推斷的市場規模會逐漸超過云端訓練。這也意味著訓練效果越來越好,AI模型越來越成熟,應用落地越來越廣泛。
在云端AI訓練芯片被壟斷的局面下,下游的云端推斷和終端應用的發展必然受到阻礙。價格高企、本土技術支持不夠,以及生態不開放等因素禁錮著訓練端,使其下游推斷的落地受阻,限制了更多AI創新的涌現。
燧原科技所致力的目標就是努力打破國外壟斷,實現國產替代,使這個市場和產業良性發展。因此,燧原科技于2019年12月11日發布了首款“邃思”云端訓練芯片和“云邃”AI訓練加速卡及“馭算”計算及編程平臺,如圖1所示。
圖1 國產AI云端訓練芯片和加速卡及開發平臺
2 邃思“芯”火升騰的奧秘
后來者居上是需要有硬實力的,對此趙立東指出,GPU或CPU芯片的架構原本就不是為AI而設計的,只有專為AI設計的架構才有機會打破壟斷贏得市場,滿足AI爆發式增長的數據和算法模型帶來的算力需求。“邃思”針對以深度學習為代表的神經網絡算法和模型,其主芯片DTU單元計算核心采用32個通用可擴展神經元處理器(SIP)進行高速并行處理,其中每8個SIP組合成1個可擴展智能計算群(SIC)。SIC之間通過HBM實現高速互聯,再利用片上調度算法,數據在搬遷中完成計算,實現SIP利用率最大化。SIP基于可重構芯片設計理念,不僅具有高度并行化的特點,也可通過可編程的指令集適配現有及未來可能的AI算法。
邃思采用12 nm FinFET工藝和2.5D高級封裝技術,集成了141億個晶體管。邃思芯片組成如圖2所示,其中,中間層用于布下密集的連線,采用的是自研的Interposer技術。
邃思DTU云端訓練芯片具有開放、通用、高性能特性,表現為如下4個方面。
1)世界領先的高精度算力:原生支持 FP32 精度的標量、向量、矩陣和卷積計算;FP32 最大算力20TFLOPS;這是業內唯一支持 BF16的 芯片,算力達到80TFLOPS。
2)支持E級數據中心互聯:200 GB/s 高速片間互聯總線;單節點最大 16 顆芯片互聯;支持多節點擴展和分布式訓練平臺;支持 PCIe 4.0。
3)可定制化算子庫:支持深度學習常用算子、多種超越函數;底層開放、按需定制。
4)支持模型深度優化:支持混合精度、BF16 數據格式;模型遷移成本低。
圖2 邃思芯片組成圖
3 云燧加速卡打造“火的戰車”
圖3為云燧T10加速卡組成圖,底層為裝有邃思AI芯片的主板及背板,上面為ESL片間互聯層。基于邃思芯片的云燧T10訓練加速卡具有高算力、低功耗、強互聯等特色。完全自主研發的ESL互聯技術,支持集群化的訓練,且無需專門的連接器和轉換器,從而有效降低成本,其創新的拓撲結構設計可提供更加靈活的連接方式。
云燧T10加速卡是一個PCIe插卡,但包著厚實的金屬外殼,就像能超高速運行的AI“火的戰車”,適用包括FP32/FP16/BF16/Int8/Int16/Int32等豐富的數據類型,支持CNN、RNN、LSTM、BERT等常用訓練模型,也適合于圖像、數據流、語音等各種訓練場景的應用,使其出眾的性能躍然于全球云端AI芯片強手之林。
圖3 云燧T10加速卡組成圖
4 傳播AI之火的“馭算”生態平臺
從AI云端訓練邃思芯片之“火”,到云燧加速卡“火的戰車”,其疊加組合的分布式集群就可視為“火的列車”。由ESL互聯的創新背板互聯方案,可形成支持超級計算中心的AI體系。首先是PCIe單卡,4個1組通過ESL背板互聯;然后是單服務器8卡ESL背板互聯的單機柜通過ESL線纜互聯;再來則是通過標準RDMA跨RACK組建E級計算數據中心。基于云燧加速卡的超級計算中心組成如圖4所示。
為駕馭AI超級立體化“火的列車”,需要打造軟件平臺——“馭算”計算及編程平臺,與硬件產品配套,實現軟硬件的一體化解決方案。在AI芯片領域里,軟件與硬件地位同等重要,“馭算”既兼容TensorFlow和PyTorch等主流AI框架,也支持ResNet、Yolo、BERT等多種主流AI模型,可通過SDK提供深度定制。正在開發的編程語言模型,在對開發者有相對友好的語義的同時,也能給開發者提供途徑來實現靈活操控,更好地發揮硬件性能。同時針對國產AI框架的適配和支持工作正在進行中。
5 中國AI本土化之火正在燎原
趙立東談到燧原科技的創業初心就是 “做大芯片,拼硬科技”,目前已經取得了階段性成果,第一代通用AI訓練芯片“邃思”成功發布并量產。對于未來的發展,他強調要“志存高遠,腳踏實地”。一方面,加速產品迭代和技術創新,持續軟件優化并完善生態系統;另一方面,堅持業務落地、規模化并實現盈利。唯有雙輪驅動,形成正向循環,企業才有可持續發展的動力。
2020年3月國家提出加快新型基礎設施建設的戰略,5G和AI成為重點發展領域;7月國家又頒布了《新時期促進集成電路產業和軟件產業高質量發展的若干政策》。對于像燧原科技這樣的本土企業而言是極大的鼓舞,希望與政府和上下游商業伙伴一起攜手,密切合作,打破壟斷實現國產替代。就在拜訪之后的9月22日,燧原科技正式宣布第一代AI訓練加速卡“云燧T10”及其組成的多卡分布式訓練集群已在云數據中心落地,這是該產品和系統進入商用化階段的里程碑,標志著燧原躍升為業內領先的以高性能AI訓練產品成功切入數據中心市場的“中國芯”公司,展現出AI本土化之火已呈現燎原之勢。
參考文獻:[1] 鄭小龍.人工智能探境科技之得“芯”應手[J].電子產品世界,2020(8):12-13.
注:本文來源于科技期刊《電子產品世界》2020年第10期,歡迎您寫論文時引用,并注明出處。
評論