阿里云發布飛天智算平臺,提供一站式AI計算開發服務
8月30日,阿里云宣布正式推出全棧智能計算解決方案“飛天智算平臺”,并啟動兩座超大規模智算中心,以公共云和專有云兩種模式,為各類科研、公共服務和企業機構提供強大的智能計算服務,可將計算資源利用率提高3倍以上,AI訓練效率提升11倍,推理效率提升6倍。
本文引用地址:http://www.104case.com/article/202208/437837.htm
飛天智算平臺已在阿里內部廣泛應用,支撐達摩院前沿AI和電商智能技術發展,并服務了小鵬汽車、深勢科技、上汽集團、中國氣象局、南方電網等機構和企業,支撐自動駕駛、新藥研發、氣象預測、工業能源等行業大幅提升AI訓練效率。
據了解,該平臺提供基于阿里云磐久基礎設施的融合算力和大數據AI一體化平臺整體解決方案,可以運行在X86、GPU、ARM等多種芯片類型的服務器上,實現“一云多芯”,并以最高10倍IO優化和5倍通信性能優化,實現90%的千卡并行計算效率。
綠色技術方面,飛天智算在技術減排、能源結構優化、區域布局優化、供應鏈減碳以及資源利用優化五個方面來降低單位算力的碳排放。在技術減排方面,通過液冷、電源技術以及智能運維等方式降低能耗,PUE最低可達1.09。
同時,開發人員可以在平臺上進行數據存儲、數據治理、數據分析、模型開發、模型訓練與推理的工作。并提供了預訓練模型,以及語音,圖像、自然語言處理、決策等領域的模型能力,以方便開發者更好的加速AI應用的開發。
目前,該平臺正在支撐建設兩座超大規模智算中心。其中,張北智算中心建設規模為12 EFLOPS(每秒1200億億次浮點運算)AI算力,將超過谷歌的9 EFLOPS和特斯拉的1.8 EFLOPS,成為全球最大的智算中心。烏蘭察布智算中心建設規模為3 EFLOPS(每秒300億億次浮點運算)AI算力,位于“東數西算”內蒙古樞紐節點。
阿里云智能全球銷售總裁蔡英華表示,智算不僅在于規模大,更是需要綠色、高效并且具備產業實踐。計算是一個龐大的復雜系統,沒有體系化的核心技術能力,堆硬件是堆不出算力的,更無法帶來實際的產業價值。
據了解,智能計算不同于通用型計算,需要海量數據對AI模式進行訓練,算力被損耗在數據遷移、同步等環節,千卡以上規模的算力輸出最低往往僅有40%左右。這導致了智能算力成本高昂,制約了產業發展。阿里云通過體系化的技術創新,改變了智能計算的損耗難題,將千卡并行計算效率提升至90%以上。
例如,在通信技術上,阿里云采用高性能自研Solar-RDMA網絡,實現端對端最低2微秒延遲,配合阿里云自研的無阻塞通信技術,讓計算過程中的數據交換速度最高提升5倍。同時,自然風冷、液冷等綠色技術的應用,讓智算中心的能耗降低,PUE最低可達1.09。
在AI開發層,阿里云提供大數據+AI一體化平臺支撐開發與運維全流程。尤其在模型訓練環節,提供分布式訓練框架,可以對分布式策略進行自動組合和調優,將訓練效率提升了11倍以上。此外,阿里云為用戶提供了一站式的通用推理優化工具,對算法模型進行量化、剪枝、稀疏化、蒸餾等操作,可將推理效率提升6倍以上。
不久前,小鵬汽車基于飛天智算在烏蘭察布建設智算中心“扶搖”,算力規模達600PFLOPS,是國內最大的自動駕駛智算中心,將自動駕駛模型訓練提速近170倍。毫末智行基于飛天智算,實現128卡并行效率超96%,使自動駕駛模型訓練成本降低62%,訓練速度提升110%,讓模型迭代周期大幅縮短。
在生命科學領域,深勢科技采用飛天智算平臺之后,將集群性能優化提升超過100%,讓分子動力學仿真模擬訓練效率提升了5倍。在工業領域,智己汽車運用高性能計算將工業仿真的效率提升了25%,智能駕駛訓練效率提升了70%,加速了新車型的研發上市。山東德州電力通過AI進行復核預測,準確率達到了98%,耗時從1小時縮短至幾分鐘。
在城市治理領域,四川成宜高速通過數字孿生進行車路協同優化使事故率降低60%。重慶水務通過遙感數據與仿真推演實現水利調度預測準確性高達95%;南方電網與中國氣象局利用智算能力提升氣象預報的準確性與穩定性。
此外,飛天智算還支撐了阿里巴巴的人工智能實踐,支撐阿里AI日均1萬億次調用,服務全球10億人。其中,拍立淘訓練速度提升了200倍,10億張圖片全量訓練時間從2.5個月縮短到8小時。達摩院大模型M6僅使用512張GPU,在10天內就完成了10萬億參數模型訓練,能耗僅為GPT-3在同等參數規模下的1%。
評論