新聞中心

        EEPW首頁 > 智能計算 > 市場分析 > 3nm賽道,擠滿了ASIC芯片

        3nm賽道,擠滿了ASIC芯片

        作者: 時間:2025-03-13 來源:半導體產業縱橫 收藏

        最近,市場關注的兩家 ASIC 企業都發布了自家的財報。

        本文引用地址:http://www.104case.com/article/202503/468044.htm

        博通 2025 財年第一季度財報顯示,營收 149.16 億美元,同比增長 25%,凈利潤 55.03 億美元,同比增長 315%。其中,第一季度與 AI 有關的收入同比增長 77% 至 41 億美元。

        Marvell 預計第一財季銷售額約為 18.8 億美元,同比增長 27%。其中,AI 業務收入達 7 億美元左右,主要是亞馬遜等客戶定制 ASIC 等產品需求增長的帶動。

        ASIC,越發豐富

        今年以來,大模型的更迭越發的激烈。DeepSeek 研究團隊再放大招,公開 NSA 算法。同日,馬斯克發布 Grok 3 模型,號稱拳打 DeepSeek 腳踢 OpenAI。

        DeepSeep 之風正盛,將全球科技產業的重心從訓練推向推理階段。由于 DeepSeek 是 MOE 模型,能夠實現更低的激活比。算力、內存、互聯原有平衡發生劇變,新算力架構機會再次進入同一起跑線。

        這種條件下,定制化芯片 ASIC 似乎越來越適合 AI 時代。

        ASIC 芯片的主要根據運算類型分為了 TPU、DPU 和 NPU 芯片,分別對應了不同的基礎計算功能,也有不同的優勢。

        TPU

        先來看 TPU。TPU 的核心是矩陣乘法單元,它采用脈動陣列架構,這意味著數據以類似心臟跳動的方式在芯片內流動。這種架構允許高度并行的乘法和加法操作,使得 TPU 能夠在每個時鐘周期內處理大量的矩陣運算。

        如果把 TPU 比作一個工廠,這個工廠的任務是把兩堆數字(矩陣)相乘。每個工人(脈動陣列的小格子)只需要做簡單的乘法和加法,然后把結果傳給下一個工人。這樣,整個工廠就能高效地完成任務,而且速度比普通的工廠(比如 CPU 或 GPU)快很多。

        TPU 的優勢是能夠高效處理大規模矩陣運算,支持神經網絡的訓練和推理任務。所以,更加適合用在數據中心的 AI 訓練和推理任務,如自然語言處理、計算機視覺和語音識別。

        DPU

        其次來看 DPU。DPU 能夠處理大量的網絡數據包,包括接收、分類、轉發和過濾等。它通過硬件加速引擎(如網絡處理引擎)來加速網絡操作,減少 CPU 在網絡處理上的負載。

        DPU 就像是一個快遞中心,它負責接收包裹(數據),快速分揀,然后把包裹送到正確的地方。它有自己的小助手(加速器),這些小助手很擅長處理特定的任務,比如快速識別包裹的地址或者檢查包裹是否完好。這樣,DPU 就能讓整個快遞系統(數據中心)運行得更高效。

        DPU 的優勢是可以卸載 CPU 的部分任務,減少 CPU 的負擔。優化了數據傳輸路徑,從而提高系統的整體效率。所以,它的應用場景是數據中心的網絡加速、存儲管理、安全處理等。

        NPU

        再來看 NPU。NPU 是專門為神經網絡計算設計的芯片,采用「數據驅動并行計算」的架構。它能夠高效執行大規模矩陣運算,特別是卷積神經網絡(CNN)中的卷積操作。

        如果把 NPU 比作一個廚房,這個廚房有很多廚師(計算單元),每個廚師都能同時做自己的菜(處理數據)。比如,一個廚師負責切菜,一個廚師負責炒菜,另一個廚師負責擺盤。這樣,整個廚房就能同時處理很多道菜,效率非常高。NPU 就是這樣,通過并行處理,讓神經網絡的計算變得更快。

        NPU 的優勢就是執行 AI 任務時功耗較低,適合邊緣設備。并且,專為神經網絡設計,適合處理深度學習任務。所以,NPU 的應用場景是人臉識別、語音識別、自動駕駛、智能相機等需要進行深度學習任務的領域。

        簡而言之,TPU 適合深度學習、DPU 適合數據中心的數據管理、NPU 通過并行計算快速完成神經網絡任務,適合各種 AI 應用。

        最近,還出現了 LPU,一種專門為處理語言任務而設計的芯片。它的推出就是專門針對語言處理優化的架構和指令集,能夠更高效地處理文本、語音等數據,從而加速大語言模型的訓練和推理過程。

        摩根士丹利預測 AI ASIC 的總可用市場將從 2024 年的 120 億美元增長到 2027 年的 300 億美元,期間英偉達的 AI GPU 存在強烈的競爭。

        現在,在 ASIC 賽道上的玩家,已經越來越多。

        擁擠的 ASIC 賽道

        3nm ASIC 芯片的賽道上擠滿了大廠。

        亞馬遜一直在致力于自研芯片以降低數據中心成本。

        2022 年,AWS 發布了 Trainium 1 和 Inferentia 2 芯片。當時,Trainium1 在訓練方面表現不是很好,更加適合 AI 推理工作。

        之后,AWS 又發布了當前的 Trainium 2,采用 5nm 工藝。單個 Trainium 2 芯片提供 650 TFLOP/s 的 BF16 性能。Trn2 實例的能效比同類 GPU 實例高出 25%,Trn2 UltraServer 的能效比 Trn1 實例高三倍。

        去年 12 月,亞馬遜宣布要推出全新 Trainium3,采用的是 3nm 工藝。與上代 Trainium2 相比,計算能力增加 2 倍,能源效率提升 40%,預計 2025 年底問世。

        據了解,在 AWS 的 3nm Trainium 項目中,世芯電子(Alchip)和 Marvell 展開了激烈的競爭。

        世芯電子(Alchip)是第一家宣布其 3nm 設計和生產生態系統準備就緒的 ASIC 公司,支持臺積電的 N3E 工藝。Marvell 則在 Trainium 2 項目中已經取得了顯著進展,并有望繼續參與 Trainium 3 的設計。

        當前的競爭焦點在于:后端設計服務和 CoWoS 產能分配上。看誰能夠在 Trainium 項目爭取到更多的份額。

        之前我們提到的 TPU,以谷歌的 TPU 最具有代表性。谷歌的 TPU 系列芯片從 v1 到最新的 Trillium TPU。TPU 為 Gemini 2.0 的訓練和推理提供了 100% 的支持。據谷歌這邊說,Trillium 的早期客戶 AI21 Labs 認為是有顯著改進的。AI21 Labs 首席技術官 Barak Lenz 表示:「Trillium 在規模、速度和成本效益方面的進步非常顯著。」現在谷歌的 TPU v7 正在開發階段,同樣采用的是 3nm 工藝,預計量產時間是在 2026 年。

        據產業鏈相關人士透露,谷歌 TPU 芯片去年的生產量已經達到 280 萬到 300 萬片之間,成為全球第三大數據中心芯片設計廠商。

        從合作對象來說,谷歌和博通始終是在深度合作的。谷歌從 TPU v1 開始,就和博通達成了深度合作,它與博通共同設計了迄今為止已公布的所有 TPU,而博通在這方面的營收也因谷歌水漲船高。

        微軟在 ASIC 方面也在發力。Maia 200是微軟為數據中心和 AI 任務定制的高性能加速器,同樣采用 3nm 工藝,預計在 2026 年進入量產階段,至于現在 Maia 100,也是專為在 Azure 中的大規模 AI 工作負載而設計。支持大規模并行計算,特別適合自然語言處理(NLP)和生成式 AI 任務。從現在的信息來看,這款產品微軟選擇和 Marvell 合作。

        LPU 與 GPU 對比

        LPU 與 GPU 對比

        早在今年 1 月就有消息傳出,美國推理芯片公司Groq 已經在自己的 LPU 芯片上實機運行 DeepSeek,效率比最新的 H100 快上一個量級,達到每秒 24000token。值得關注的是,Groq 曾于 2024 年 12 月在沙特阿拉伯達曼構建了中東地區最大的推理集群,該集群包括了 19000 個 Groq LPU。

        Open AI首款 AI ASIC 芯片即將完成,會在未來幾個月內完成其首款內部芯片的設計,并計劃送往臺積電進行制造,以完成流片(taping out)。最新消息是,OpenAI 會在 2026 年實現在臺積電實現量產的目標。

        ASIC 真的劃算嗎?

        谷歌、AWS、Open AI 都在加大對自研 ASIC 的投入。那么,ASIC 真的劃算嗎?

        先從性能上來看,ASIC 是為特定任務定制的芯片,其核心優勢在于高性能和低功耗。在同等預算下,AWS 的 Trainium 2 可以比英偉達的 H100 GPU 更快速完成推理任務,且性價比提高了 30%~40%。Trainium3 計劃于 2025 年下半年推出,計算性能提高 2 倍,能效提高 40%。

        并且,GPU 由于架構的特性,一般會在 AI 計算中保留圖形渲染、視頻編解碼等功能模塊,但在 AI 計算中這些模塊大部分處于閑置狀態。有研究指出,英偉達 H100 GPU 上有大約 15% 的晶體管是未在 AI 計算過程中被使用的。

        從成本上來看,ASIC 在大規模量產時,單位成本顯著低于 GPU。ASIC 在規模量產的情況下可以降至 GPU 的三分之一。但一次性工程費用 NRE(Non-Recurring Engineering)非常高。

        以定制一款采用 5nm 制程的 ASIC 為例,NRE 費用可以高達 1 億至 2 億美元。然而一旦能夠大規模出貨,NRE 費用就可以很大程度上被攤薄。

        此前有業內人士分析,中等復雜程度的 ASIC 盈虧平衡點在 10 萬片左右,這對于很多廠商來說已經是遙不可及。

        但對于大規模部署的云計算大廠或 AI 應用提供商,ASIC 的定制化優勢能夠顯著降低運營成本,從而更快地實現盈利。

        算力走向推理,ASIC 的需求只多不少

        在溫哥華 NeurIPS 大會上,OpenAI 聯合創始人兼前首席科學家 Ilya Sutskever 曾作出「AI 預訓練時代將終結」的判斷。

        巴克萊的一份報告預計,AI 推理計算需求將快速提升,預計其將占通用人工智能總計算需求的 70% 以上,推理計算的需求甚至可以超過訓練計算需求,達到后者的 4.5 倍。

        英偉達 GPU 目前在推理市場中市占率約 80%,但隨著大型科技公司定制化 ASIC 芯片不斷涌現,這一比例有望在 2028 年下降至 50% 左右。

        不過,在博通的觀察中,AI 訓練仍然是會占據主流。博通 CEO 陳福陽最近表示:「公司把推理作為一個獨立的產品線,推理與訓練芯片的架構非常不同。公司預計三個客戶未來需求市場總量將達 600 億~900 億美元,這個需求總量既包含了訓練,又包含了推理,但其中訓練的部分更大。」

        對于第二季度來講,博通對于 ASIC 的預期仍舊保持樂觀。預計第二季度博通的 AI 半導體收入將繼續保持強勁增長勢頭,達到 44 億美元。

        Marvell 在電話會議上,同樣也展示了對于 ASIC 的信心。透露其定制的ARM CPU,將在客戶的數據中心中得到更廣泛的應用。并且定制的人工智能 XPU,其表現也非常出色,未來將有大量的量產。



        關鍵詞: ASIC芯片

        評論


        技術專區

        關閉
        主站蜘蛛池模板: 五莲县| 西平县| 井陉县| 青田县| 明水县| 城步| 电白县| 邢台县| 九龙县| 旅游| 龙泉市| 日照市| 老河口市| 类乌齐县| 军事| 木里| 轮台县| 兴海县| 南溪县| 海南省| 永康市| 东光县| 清苑县| 改则县| 灵山县| 建平县| 陇西县| 武穴市| 太仆寺旗| 鸡泽县| 西充县| 开鲁县| 三亚市| 微博| 进贤县| 南木林县| 运城市| 南汇区| 兴业县| 宜宾市| 沐川县|