新聞中心

        EEPW首頁 > 智能計算 > 新品快遞 > 陳巍談芯:最新發布的壁仞GPU BR100參數深度對比和優勢分析

        陳巍談芯:最新發布的壁仞GPU BR100參數深度對比和優勢分析

        作者:陳巍談芯 時間:2022-09-01 來源:知乎專欄 收藏

        從專業視角來看的技術亮點,包括算力、能效比、多GPU互連、多實例GPU。架構上做了優化,特別是做了近存計算/存算一體優化,芯片可圈可點,專利壁壘和生態上的挑戰才剛剛開始。

        本文引用地址:http://www.104case.com/article/202209/437903.htm

        清晰性能對比表在文末

        作者: 陳巍 博士 存算一體/GPU架構和AI專家,高級職稱。曾任AI企業首席科學家、國內首個3D NAND設計團隊負責人。

        無利益相關,歸納一下已公開的可能弱項和亮點。

        1,可能的弱項

        (這里僅僅說可能,因為具體技術細節還需要由壁仞公開)

        1)對于通用計算生態的支持有待觀察

        畢竟針對AI計算進行了流處理器優化,因此有可能犧牲部分通用計算能力來強化與AI相關的矩陣計算。這種優化是合理的但也可能導致客戶量減少。以致于有業內人士將之形容為“大號的AI芯片”或者“昇騰的友商”??梢哉f看起來是介于傳統GPGPU和AI芯片之間的一個形態,技術混血。

        而且GPU之所以能成為主流的AI計算芯片,與GPU對AI的通用計算支持關系很大。畢竟絕大部分場景,除了AI計算外,還有很多非AI計算。生態是任何GPU芯片的根本。一般來說同樣算力的CUDA 核(通用流處理器的核心)面積和功耗是大于AI核的,所以不排除壁仞團隊縮減通用流式處理器的硬件算子支持能力來提升AI算力的可能性。(當然這類操作對AI專用場景的芯片也是合理的)

        對于同為清華電子系的夏晶晶老師所說的:”全盤放棄FP16,梭哈BF16,部分BF16無法收斂的網絡用低一檔性能的FP32“,尊重其觀點,我暫時持保留意見:)

        就我在AI企業擔任首席科學家期間,我看到的大部分Inference的model使用的是FP16定型,這也就意味著,對于大部分AI煉丹師和企業,FP16目前是其能夠reuse其寶貴算法資產的底褲。如果未來遷移到其他AI芯片,也是以FP16為準。當然以后這個底褲可能會變為BF16,但這一遷移過程可能意味著已部署模型的重訓練,幾乎足以抵消算力提升帶來的優勢,甚至意味著AI企業管理層對煉丹師們的極大不解:”為什么都是支持16位浮點,部署換到必須要重新訓練模型“。

        我不清楚BR100的主架構師犧牲FP16這個業內使用最多的數據類型的最關鍵考量是什么,希望不是為了討好投資人,畢竟這一舉措有可能因此失去大量的潛在客戶。

        2)算力遠大于PCIe帶寬導致的算力利用率風險

        我們看到BR100的內部算力帶寬已經明顯超過PCIe5/HBM2e的帶寬,所以絕大部分數據可能都要在GPU內流轉,這很可能導致在大部分情況下,GPU需要等待從PCIe和HBM2e傳回的數據。這樣再加上較大的片上SRAM,可能會導致有效算力的性價比稍低。因此BLink互連對這類大算力計算卡就變得尤為重要,通過互連來彌補數據帶寬的不足。

        3)專利風險

        這也是國內GPU企業所要面臨的共同問題。絕大部分的優化,包括架構,都是北美和國內那些AI芯片企業已經使用過的技術。當然,這些技術應用在GPU中,還是要做很多努力和創新的。但這也意味著,如果真的能跟NV抗衡,很可能受到北美的專利攻擊。

        2,亮點梳理

        祝賀壁仞團隊取得的突破。

        歸納一下BR100已公開的技術亮點(1-5)

        1)標稱算力突破。使用TSMC N7工藝達到了NVIDIA 使用更先進的N4工藝的標稱算力。這應是 壁仞團隊技術+數據流并行+Chiplet技術 的勝利。因為采用了數據流架構,估計有效算力比率跟NVIDIA比不會差。

        至于稀疏化嘛,相當于只算模型權重中大的一半,通常會導致精度下降,不如模型壓縮效果好,實際的云計算用的少。個人認為稀疏化的主要適用場景是對計算精度要求不高的端側場景,在云計算領域,稀疏化算力的實用意義不大。稀疏化算力做到非稀疏化算力的20倍都沒啥問題,客戶不用標再高也沒意義,所以不必糾結于與稀疏化算力的比較。

        2)能效比超過同工藝GPU A100 78.8%。非常不錯的成績,這應是 壁仞團隊技術+近存計算技術的勝利。(近存計算是存算一體技術的一種)。

        3)支持多GPU互連。這個是多GPU級聯計算大模型的關鍵。

        4)支持多GPU實例。這是GPU上云虛擬化的關鍵。我和耿云川博士帶的團隊也完成了存算一體架構下多實例的設計,所以很清楚這一工作需要面對的挑戰。

        5)支持國密安全規范。這是進入國產自主可控計算領域的關鍵點之一。

        下面,軟件生態的挑戰將是國產GPU面對的關鍵挑戰,祝各個國產GPU玩家都能取得好成績。

        3,與NVIDIA H100/A100對比表

        4,延申閱讀





        評論


        相關推薦

        技術專區

        關閉
        主站蜘蛛池模板: 镇远县| 当阳市| 新密市| 伊金霍洛旗| 奇台县| 琼结县| 汾西县| 西和县| 江西省| 电白县| 镇坪县| 洛南县| 汾西县| 新建县| 泰兴市| 漳州市| 汕头市| 郁南县| 定结县| 孝昌县| 高密市| 深州市| 高阳县| 东乡族自治县| 旅游| 乐业县| 怀来县| 道孚县| 南平市| 昌都县| 平陆县| 桑植县| 城步| 阳信县| 平利县| 巨鹿县| 正镶白旗| 宜黄县| 柳江县| 喀什市| 嘉义县|