博客專欄

        EEPW首頁 > 博客 > 時代落在英偉達身上的是粒什么沙,國產GPU的機會又在哪?

        時代落在英偉達身上的是粒什么沙,國產GPU的機會又在哪?

        發(fā)布人:AI科技大本營 時間:2022-09-17 來源:工程師 發(fā)布文章

        天道好輪回,蒼天饒過誰。近日英偉達稱,他們被要求停止向中國出口兩種用于數據中心的GPU A100和H100,AMD也表示,已經收到新的要求,MI250出口到中國將會受限。A100,MI250等高端型號的GPU最主要特點就是可以提供雙精度FP64類型的算力,而國產GPU一般在FP16也就是半精度數據處理方面不差,在FP32類型的處理能力上表現(xiàn)就一般了,F(xiàn)P64幾乎是缺失的狀態(tài)。

        這里的16,32是指輸入變量的位數,比如FP16是指一個由16個二進制位所表示的變量,也就是說FP32與FP64的差距是2的32次方(42億)倍,這一方面將對我國人工智能領域的發(fā)展帶來一定影響,另一方面也會制約我國勘探、氣象、生物醫(yī)****等對于數據精度要求較高領域的發(fā)展速度,甚至很可能是之前EDA禁令的后手組合,不過無論這個政策的本意如何,現(xiàn)在這顆時代的沙卻讓英偉達非常受傷。


        圖片

        被誤傷的英偉達


        8月25日英偉達公布了的二季度的財報和三季度的指引。從財報來看,二季度公司收入67億美元,同比增長3%,環(huán)比下降19%,大大低于英偉達5月份預測的81億美元。當季GAAP下每股攤薄收益為0.26美元,比去年同期下降72%,比上一季度下降59%;調整后每股收益為0.51美元,較上年同期下降51%,較上一季度下降63%,公司游戲部門收入已經大幅下滑,并且悲觀預計公司營收第三季度還將同比下降17%,導致其股價在盤后交易中下跌約5%。而在限制令出臺后,人們也越來越多擔心,此前支撐英偉達業(yè)績高速增長的數據中心業(yè)務未來將持續(xù)降溫,因此英偉達在上周又跌了近5%。

        不過英偉達的業(yè)績墜落,主要還是因為顯卡的供需關系出現(xiàn)逆轉,由于以比特幣為代表的數字貨幣價格一蹶不振,導致GPU顯卡的最大買方-“礦廠”大規(guī)模去產能,轉手成為賣方,這其中最明顯的信號就是自發(fā)布以來一直溢價銷售的RTX30系列GPU顯卡,在8月份瞬間打折也賣不出去了。

        這次A100的限制令又將對英偉達的數據中心業(yè)務產生影響,因此英偉達的股價可能還難言底部。不過英偉達雖然很受傷,但是這對于限制令的初衷來說明顯屬于誤傷,真正的目標還是人工智能和需要高精度數據模擬的工業(yè)軟件。


        圖片

        人工智能的影響-精益求精的訓練,不求甚解的推理


        最近經常能夠看到計算機專業(yè)的結業(yè)生在社交平臺吐槽大廠的面試、筆試題難度卷出天際,但實際入職后所從事的工作,卻偏向于重復勞動式的搬磚,在我拿到今年某大廠算法崗的筆試題之后,的確印證了這種情況,但這種現(xiàn)象也說明了人們在學校里學習時對于精細度要求很高,但真正走向工作當中雖然會急劇上升,但實際對于知識掌控精細度與全面度的要求卻下降了。

        類比在人工智能方面,可以做以下解讀,一般來說人工智能分為訓練和推理兩個階段,其中訓練可以類比于人類的學習行為,一般在學習的過程中都要打破沙鍋問到底,力求精益求精;而推理則類比于所學知識的落地,一般都要留有模糊空間,乃至不求甚解的效果可能也不差。雖然這個類比不完全吻合,但是基本的道理是沒有差很多的,也就是模型訓練時對精度的要求往往比AI推理時對精度的要求高得多。

        從目前AI的發(fā)展趨勢來看,也的確有著“大力出奇跡”的跡象,比如谷歌科學家直接在T5的論文指出:“越大的模型往往表現(xiàn)更好。這表現(xiàn)擴大規(guī)模可能仍然是實現(xiàn)更好性能的方式。”這一方面表現(xiàn)為的人工智能模型的參數規(guī)模越來越大,現(xiàn)在沒有個上千億參數的模型簡直都不好意思和人打招呼,比如那個會自動藝術創(chuàng)作的DALL.3參數規(guī)模突破1500億;

        另一方面也是業(yè)界對于模型參數的精度要求越來越高,業(yè)界也越來越依賴高精度算力的處理能力提升。但是憑心而論很多模型都是精度要求過剩的,只要費心優(yōu)化模型,這個限制令對于AI方面的影響尚不至于無解。


        圖片

        核心打擊方向-工業(yè)軟件


        如果說人工智能方面降低精度還不會傷肋動骨,但是對于很多對于精度要求很高的領域來說這個限制令的打擊可能就難以承受了。其實早在芯片禁令之前,最早被西方列入限制清單的就是以MATLAB為首的工業(yè)軟件,而我們工業(yè)軟件差距最大的部分就在于仿真與模擬。這方面一是要長時間的經驗積累,另一方面對于算力精度的要求也比較高,精度下降往往意味著失之毫厘差以千里,對于醫(yī)療、氣象、勘探等領域的工業(yè)軟件來說尤其如此。

        而且筆者認為這次高端GPU的禁令很可能是之前EDA禁令的手續(xù)組合拳,EDA從本質上講就是工業(yè)軟件,美國限制EDA的使用本質上限制了我國自研先進制程的芯片的制造進程。而且我們看到目前國際EDA三巨頭都紛紛推出自己的AI FOR EDA產品,從公開資料上看新思科技推出的DSO.ai,就在探索搜索空間、觀察設計隨時間的演變情況,同時調整設計選擇、技術參數和工作流程,雖然這些AI FOR EDA的產品代碼都不開源,但是筆者認為這些AI技術實際對于精度的要求肯定不低。


        圖片

        精度優(yōu)化-曲線救國的方向


        正如前文所說,我國國產的GPU往往在雙精度類型FP64方面,目前都沒有什么突破性進展,這在之前A100沒有限制之前還無所謂,但目前限制來了,針對半精度FP64乃至8位整數類型(int8)的專門優(yōu)化工作已經勢在必行。

        據筆者所知這方面業(yè)界已經有所探討,以深度神經網絡為例,神經元可以抽象為對于輸入數據乘以權重以表示信號強度乘積加總,再由ReLU、Sigmoid等應用激活函數調節(jié),本質是將輸入數據與權重矩陣相乘,并輸入激活函數,對于有三個輸入數據和兩個全連接神經元的單層神經網絡而言,需要把輸入和權重進行六次相乘,經典CNN中無論GEMM的矩陣乘法運算還是卷積的乘加計算都是使用fp32也就是用32位字長的數字來表示的,在這種情況下如果我們可以使用int 8來作為輸入表示此以過程,其計算量至少可以下降75%。尤其在圖像處理的場景下,通常由fp32到int8的轉換,精度損失是低于1%的。因此在針對int8類型的計算加速也就是業(yè)界都在探討的話題。

        這方面英特爾酷睿12代中的VNNI指令集很好的完成了這個加速的過程,比如火山引擎在VNNI的優(yōu)化下int8上實現(xiàn)了從人臉照片到三維模型的圖像映射。騰訊通過一個FP32向int8的轉換以及VNNI的加持,實現(xiàn)了一個可以實時生成用戶3D頭像的模型,在精度降低1%的情況下,性能還提升了4.23倍。另外英特爾和阿里云在Ice Lake上也針對自然語言處理的Transformer模型進行了深度優(yōu)化,通過VNNI的加速實現(xiàn)了3倍的性能提升。

        而且針對FP32向int8的轉換工作,英特爾提供一款名為LPOT的開源工具,使用LPOT用戶基本上不需要寫代碼,就可以直接將TensorFlow的模型,從FP32換成int8,同時保證非常高的精確性,這里推薦給大家。


        圖片

        寫在最后


        無論是高精度GPU還是EDA是一種需要長時間積累才能取得突破的領域,而我們在IT基礎設施領域的研發(fā)力量太薄弱了,以EDA為例,國內所有EDA廠商的研發(fā)人員加在一起可能都不到2000人,還不如Synopsys一家的開發(fā)力量強,想突破一要增加研發(fā)人員,二要沉下心來積累,結硬寨打硬仗,不要試圖走捷徑。


        *博客內容為網友個人發(fā)布,僅代表博主個人觀點,如有侵權請聯(lián)系工作人員刪除。



        關鍵詞: AI

        相關推薦

        技術專區(qū)

        關閉
        主站蜘蛛池模板: 会昌县| 孟州市| 凯里市| 阿拉善左旗| 玛纳斯县| 丹阳市| 同仁县| 娄烦县| 广东省| 平昌县| 东城区| 延寿县| 玉山县| 黎平县| 深泽县| 莫力| 天祝| 元谋县| 靖远县| 正宁县| 三原县| 潼南县| 道孚县| 河南省| 永康市| 文化| 扶绥县| 婺源县| 乌鲁木齐县| 那曲县| 漳平市| 霍城县| 茌平县| 皋兰县| 怀宁县| 龙门县| 芒康县| 哈密市| 临漳县| 抚顺市| 泉州市|