國內AI芯片百家爭鳴,何以抗衡全球技術寡頭
對標谷歌 TPU——比特大陸算豐
本文引用地址:http://www.104case.com/article/201804/377915.htm作為比特幣獨角獸的比特大陸,在 2015 年開始涉足人工智能領域,其在 2017 年發布的面向 AI 應用的張量處理器算豐 Sophon BM1680,是繼谷歌 TPU 之后,全球又一款專門用于張量計算加速的專用芯片(ASIC),適用于 CNN / RNN / DNN 的訓練和推理。

BM1680 單芯片能夠提供 2TFlops 單精度加速計算能力,芯片由 64 NPU 構成,特殊設計的 NPU 調度引擎(Scheduling Engine)可以提供強大的數據吞吐能力,將數據輸入到神經元核心(Neuron Processor Cores)。BM1680 采用改進型脈動陣列結構。2018 年比特大陸將發布第 2 代算豐 AI 芯片 BM1682,計算力將有大幅提升。
百家爭鳴——百度、地平線及其他
在 2017 年的 HotChips 大會上,百度發布了XPU,這是一款 256 核、基于 FPGA 的云計算加速芯片,用于百度的人工智能、數據分析、云計算以及無人駕駛業務。在會上,百度研究員歐陽劍表示,百度設計的芯片架構突出多樣性,著重于計算密集型、基于規則的任務,同時確保效率、性能和靈活性的最大化。
歐陽劍表示:“FPGA 是高效的,可以專注于特定計算任務,但缺乏可編程能力。傳統 CPU 擅長通用計算任務,尤其是基于規則的計算任務,同時非常靈活。GPU 瞄準了并行計算,因此有很強大的性能。XPU 則關注計算密集型、基于規則的多樣化計算任務,希望提高效率和性能,并帶來類似 CPU 的靈活性。
在 2018 年百度披露更多關于 XPU 的相關信息。

2017 年 12 月底,人工智能初創企業地平線發布了中國首款全球領先的嵌入式人工智能芯片——面向智能駕駛的征程(Journey)1.0 處理器和面向智能攝像頭的旭日(Sunrise)1.0 處理器,還有針對智能駕駛、智能城市和智能商業三大應用場景的人工智能解決方案。“旭日 1.0”和 “征程 1.0” 是完全由地平線自主研發的人工智能芯片,具有全球領先的性能。
為了解決應用場景中的問題,地平線將算法與芯片做了強耦合,用算法來定義芯片,提升芯片的效率,在高性能的情況下可以保證它的低功耗、低成本。具體芯片參數尚無公開數據。

除了百度和地平線,國內研究機構如中國科學院、北京大學和清華大學也有人工智能處理器相關的成果發布。
北京大學聯合商湯科技等提出一種基于 FPGA 的快速 Winograd 算法,可以大幅降低算法復雜度,改善 FPGA 上的 CNN 性能。論文中的實驗使用當前最優的多種 CNN 架構(如 AlexNet 和 VGG16),從而實現了 FPGA 加速之下的最優性能和能耗。在 Xilinx ZCU102 平臺上達到了卷積層平均處理速度 1006.4 GOP/s,整體 AlexNet 處理速度 854.6 GOP/s,卷積層平均處理速度 3044.7 GOP/s,整體 VGG16 的處理速度 2940.7 GOP/s。

中國科學院計算機體系結構國家重點實驗室在頂級會議 HPCA2017 上提出了一種基于數據流的神經網絡處理器架構,以便適應特征圖、神經元和突觸等不同層級的并行計算,為了實現這一目標,該團隊對單個處理單元 PE 進行重新設計,使得操作數可以直接通過橫向或縱向的總線從片上存儲器獲取,而非傳統 PE 只能從上至下或從左至右由相鄰單元獲取。該芯片采用了 TMSC 65nm 工藝,峰值性能為 490.7 GOPs/W。

評論