Habana攜超強AI芯片入局,向CPU、GPU大鱷亮劍
初創公司以色列Habana Labs從隱身變為高調,近日在京舉辦新聞發布會,首席商務官Eitan Medina介紹了兩款AI芯片及解決方案,分別用于推理和訓練,適合數據中心、自動駕駛等應用,競爭目標直指用AI領域最高性能的CPU和英偉達GPU,號稱性能同比高三四倍,延遲更低,且擴展性超強,集成度更高。
照片:Habana首席商務官Eitan Medina
Habana的AI芯片推出周期為9個月,2018年9月宣布推理芯片Goya,2019年6月宣布訓練處理器Gaudi。
該公司盡管2016年成立,已有兩輪投資,第二輪投資由Intel等參與,現在有約1.2億美元資金,主要用于招募眾多優秀的DSP、處理器人才。公司已有一百余人,大部分為開發人員。公司開始做軟件和算法,積累兩年后,于2018年9月推出第一代芯片Goya。兩代芯片皆采用16 nm工藝,在臺積電流片。
1 Goya:高性能的AI推理處理器
Goya有基于PCIe的卡,用于服務器的推理和預測。通過和CPU、英偉達GPU相比,Goya性能有3倍的優勢,功耗和延遲也很低,可以實時處理圖片。
迄今,Goya仍是市場上最強性能的產品。3片Goya卡相當于8片Tesla(特斯拉)V100 GPU,169個CPU服務器。
那么,為何Habana的芯片性能領先?通常有兩種方式可以保證領先,一種是架構,另一種靠工藝。Goya屬于前者,依靠架構。首先,不像GPU,Goya是完全針對AI和全可編程設計的,并且有Tensor(張量)處理核心(TPC)。
AI的性能主要體現在兩方面:計算能力和延遲。batch size直接影響了處理器性能。在數據中心中,GPU的batch size要定得很大,否則會影響性能。為了實現大的batch size,需要把很大數量的數據讀到內存中,這帶來了延遲。Goya可以用較小的batch size,甚至一張圖片即可,因此延遲低,這特別適合自動駕駛這類實時性強的應用。
推理的一個重要指標是精度。在整形化(quantization)方面,Goya由于很強的算法團隊,2018年在國際學報上曾發布了四篇論文。
在生態方面,很多客戶過去是在GPU和CPU上做的算法,現在轉到Goya也很容易,Habana公司有軟件堆棧(SynapseAI),支持客戶在不同處理器(GPU、CPU、FPGA等)上的訓練,然后在Goya上運行。
很多人不相信Habana這家小公司,但實際上Goya產品非常成熟,有很多客戶采用,例如facebook開源了Glow,并在官網上認可了Goya,因為Goya為Glow機器學習編譯器實現后端開源。另外,Goya把驅動提供給了Linux,獲得了Linux的支持。
盡管現在很多客戶在用CPU和GPU,但是正在尋找更好的處理器,因此Goya還可以給客戶提供定制化的產品,因此要給客戶最大權限的開放。
總之,Goya讓客戶在CPU和GPU上實現AI的推理和預測工作,可以容易地移植到Goya上。過去90%的推理和預測是在CPU和GPU上做的,現在有了專用的AI推理處理器。
2 Gaudi:處理能力強大4倍的AI訓練處理器
Gaudi性能是最新的英偉達GPU的4倍,且在很小的batch size情況下實現的。
支持RDMA是AI訓練芯片的下一代發展方向。為此,AI訓練處理器的領頭羊——英偉達已于2019年3月收購了Habana的老鄉——以色列Mellanox公司,以獲得RDMA技術,使之可以運行在以太網環境中。Gaudi更進一步,集成了RDMA over Converged Ethernet(即RoCE v2)功能,從而讓AI系統能夠使用標準以太網擴展至任何規模。不僅如此,Gaudi的獨特之處是集成了10個RDMA,而英偉達需要外接一個PCIe switch(如下圖)。
Gaudi有芯片、卡(子卡和PCIe卡)及系統方案,通過PCIe,可以做垂直及橫向擴展,使性能倍增。例如,Habana推出了一款名為HLS-1的8-Gaudi系統,與英偉達DCX-1(注:英偉達已出DCX-2)比較,基于Gaudi的HLS-1系統在擴展性、總線效率等方面最高的。
應用案例,可以16個Gaudi芯片并用;或通過數據并行化和層級化處理提高處理效率,因此可以建立1千片Gaudi芯片的系統。在AI中,除了數據的并行化處理之外,還有模型的并行化處理,把大模型分成多個小模型,挑戰是之間的通訊,由于Gaudi有很多通訊接口,因此保證了通訊帶寬。而英偉達GDX-2沒有這么強的能力,因為英偉達的通訊接口有限,且采用了私有的協議。而Gaudi采用了內置的RDMA方案,可以靈活擴展,例如2千個芯片連接。因此,可以單機或幾百芯片互聯,進行大型模型的訓練,可謂沒有應用的邊界。而傳統CPU很難超過16個互聯。
另外建議客戶不要用私有協議互聯,而在通用協議下,這樣可以在AI生態圈里選擇更多的處理器。
評論