新聞中心

        EEPW首頁 > 智能計算 > 市場分析 > 自研AI服務器芯片,競爭升級

        自研AI服務器芯片,競爭升級

        作者: 時間:2024-04-30 來源:半導體產業縱橫 收藏

        有越來越多的互聯網和 IT 設備大廠開始自研 AI 服務器芯片,最近,這一風潮吹到了蘋果公司,據悉,該智能設備龍頭正在開發用于 AI 服務器的定制芯片。

        本文引用地址:http://www.104case.com/article/202404/458241.htm

        與微軟和谷歌等競爭對手相比,蘋果在推出生成式 AI 方面進展較慢,不過,蘋果公司 CEO 庫克稱,AI 已經在蘋果產品的幕后發揮作用,此前有媒體報道,蘋果計劃使用 AI 來提高搜索存儲在蘋果設備上的數據的能力。

        今年 2 月,庫克在年度股東大會上表示,使用蘋果 AI 技術的功能包括 Vision Pro 的手部跟蹤工具和 Apple Watch 的心率警報。他還表示,MacBook 中的芯片能夠運行 AI。

        庫克表示,今年晚些時候,將與大家分享如何在生成式 AI 領域開辟新天地。蘋果公司通常在 6 月份的年度開發者大會上宣布新的軟件產品和功能。

        知名分析師郭明錤在 2023 年 10 月發布的一份報告顯示,預計蘋果在 2023 和 2024 年分別采購 2000–3000 臺、1.8 萬–2 萬臺 AI 服務器,分別占同期全球 AI 服務器出貨量的 1.3% 和 5%。估算蘋果在 2023 和 2024 年需要分別支出約 6.2 億和 47.5 億美元,用于 AI 服務器采購。

        基于蘋果產品的功能需求,以及龐大的 AI 服務器資本支出,再結合該公司自研芯片的歷史,相信其自研 AI 服務器芯片是早晚的事,特別是蘋果放棄造車,將資金和資源重點投入到 AI 技術和產品研發上,自研 AI 服務器芯片就更加順理成章了。

        AI 服務器芯片的重要性

        據統計,2024 年,全球服務器出貨量約 1365.4 萬臺,其中,各家 ODM 的出貨以 AI 服務器最為強勁。分析師指出,2024 年,AI 服務器出貨年增長率和占比都將達到兩位數,這主要得益于生成式 AI 市場的增長。

        預計生成式 AI 市場規模將從 2022 年的 400 億美元增長到 2032 年的 1.3 萬億美元,年復合增長率高達 41.7%。由于全球生成式 AI 市場商機與增長潛力巨大,對訓練 AI 系統的軟硬件需求量很大,使得市場對 AI 服務器及相關芯片的需求不斷增長。

        AI 大模型迭代速度越來越快,廠商對智能算力的投入大幅增加,支持存儲和訓練的高端 AI 服務器的需求激增,2023 和 2024 年,大模型訓練所需數據量激增,AI 大模型廠商需要的是能夠支持存儲和訓練的高端 AI 服務器,因此,各服務器廠商都在升級芯片規格、擴大卡組數量。

        與傳統服務器相比,AI 服務器在多個方面有所不同。硬件方面,AI 服務器采用異構形式,內存容量更大,可滿足不同場景需求;卡的數量方面,由于 AI 服務器需要大量計算,至少配置 4 個 GPU 卡,有的需要 8 個;系統結構方面,AI 服務器在散熱、拓撲等方面進行了專門設計,以實現穩定運行。

        自研 AI 服務器芯片熱潮

        根據應用場景不同,AI 服務器可分為深度學習訓練型和智能應用推理型;根據計算模塊結構不同,AI 服務器可分為 CPU+GPU、CPU+ASIC、CPU+FPGA 等,其中,最常見的是 CPU+多塊 GPU 組合模式。

        雖然 AI 服務器計算系統主要由 CPU 和 GPU 組成,但就目前而言,GPU 占據了較大市場份額,CPU 份額相對較小。在這種情況下,GPU 廠商的行業地位就很凸出了。然而,雖然市場很大,但能夠提供高性能 GPU 的廠商卻很少,目前,能夠形成一定市場規模的廠商只有 3 家:英偉達,AMD 和英特爾。

        基于這種市場供求關系,對 AI 服務器具有很大需求量的互聯網和 IT 設備大廠紛紛開始自研相關芯片,如亞馬遜 AWS,谷歌,Meta,微軟和蘋果。

        亞馬遜 AWS 自研芯片始于 2015 年,當時收購了 Annapurna Labs,2018 年,AWS 推出了基于 Arm 架構的 Graviton 處理器,這是其首款自研服務器芯片。2020 年,AWS 發布了 Graviton2。2023 年 12 月,AWS 推出了 Graviton4 和 Trainium2,Graviton4 的性能比 Graviton2 提升了 30%,Trainium2 在 AI 訓練速度上提升了 4 倍。

        2016 年,谷歌推出了自研的 AI 張量處理單元(TPU),這些專為機器學習設計的芯片為谷歌云平臺上提供了 AI 加速能力,2022 年前后,谷歌開始研發基于 Arm 架構的服務器 CPU,2024 年 4 月,谷歌發布了首款自研 Arm 構架 CPU——Axion,并宣布該芯片已經在內部使用。

        2020 年,微軟開始為其 Azure 云服務定制芯片,2023 年 11 月,微軟推出了兩款自研芯片——Maia100 和 Cobalt100。Maia100 是一款專為大語言模型訓練和推理而設計的芯片,采用臺積電 5nm 制程,Cobalt100 是一款基于 Arm 架構的 128 核服務器 CPU。

        今年 4 月初,Meta 發布了新一代 AI 訓練和推理加速器 MTIA,其計算和內存帶寬是上一代產品的兩倍多,最新版本芯片有助于驅動 Facebook 和 Instagram 上的排名和推薦廣告模型。

        自研 AI 芯片的好處

        互聯網和 IT 設備大廠自研 AI 芯片的核心動機是降低成本。當然,自研芯片的前提是自身有很大的需求量,否則自研沒有意義。這些大廠的巨量規模能夠分攤芯片研發成本,隨著產量的增加,單位芯片的成本會降低。通過自研,這些大廠可以直接控制芯片的設計和生產成本,從而減少對外部供應商的依賴。這種成本控制能力使它們能夠更有效地管理運營支出,提高整體利潤率。自研芯片還可以優化供應鏈管理,減少中間環節,從而降低采購成本和物流成本。此外,自研芯片可以根據云服務的具體需求進行定制,避免不必要的功能和性能過剩,進一步降低生產成本。

        通過自研芯片,這些大廠能夠掌握更多的議價權和定價權,避免成為英特爾、英偉達等傳統芯片商的「打工仔」。這不僅有助于提升利潤空間,還能夠在價格競爭中保持靈活性,根據市場情況調整定價策略。

        自研芯片還可以幫助這些大廠完善軟硬件生態系統,它們能夠根據自家的業務需求和特點定制芯片,從而實現硬件與軟件之間的無縫對接和優化。自研芯片還可以保持技術創新,隨著云計算、大數據、人工智能的快速發展,數據中心面臨的工作負載越來越多樣化,自研芯片使這些大廠能夠快速響應市場變化,及時推出符合新需求的產品和服務。

        自研 AI 服務器芯片的難度有多大?

        AI 服務器芯片屬于超大規模集成電路,除了需要大量資金投入,其設計和制造的難度都很大,需要能夠精準把握技術路線選擇,另外,在團隊建設,以及與晶圓代工廠合作方面,需要具備業界頂級水平,才能把芯片做好。

        AI 服務器需要訓練和推理兩類處理器和系統,如何規劃技術發展路線是關鍵,也就是說,是發展訓練,還是推理,或是兼而有之,是不同的技術路線,這要考慮到市場現狀及未來的發展情況。

        訓練芯片主要用于 AI 算法訓練,即在云端將一系列經過標記的數據輸入算法模型進行計算,不斷調整、優化算法參數,直至算法識別準確率達到較高水平。推理芯片主要用于 AI 算法推理,將在云端訓練好的算法模型進行裁剪、優化變「輕」之后,進入應用階段,輸入數據直接得出識別結果。

        不同用途(訓練和推理)、不同應用場景(端-邊-云)對 AI 芯片有著不同的要求。訓練芯片追求的是高性能(高吞吐率)、低功耗,推理芯片追求的是低延時(完成推理過程所需要的時間盡可能短)、低功耗。「端-邊-云」這 3 個環節對 AI 芯片的要求也不同,在端和邊上進行的大部分是 AI 推理,大部分的訓練是在云和數據中心進行的,訓練過程對時延沒有什么要求,需要保證 AI 芯片在盡可能保證較高算力的情況下,功耗盡量低。

        目前,英偉達 GPU 主導的 AI 訓練市場最為火熱,然而,隨著 AI 應用的深入展開,巨大的推理芯片市場會逐漸展現出來,該市場比我們目前看到的要大得多,沒有任何一家廠商的芯片能夠滿足這個市場需求。這就是前文提到的亞馬遜、谷歌、微軟,甚至英偉達自研 CPU 的原因所在。

        有統計顯示,AI 芯片市場包括約 15% 的訓練,45% 的數據中心推理和 40% 的邊緣推理。在這樣的行業背景下,大廠自研芯片,必須找準方向,權衡好中短期和中長期應用需求,分配好訓練芯片和推理芯片的研發投入。

        芯片研發團隊建設也很重要。

        技術團隊搭建,是一個長期積累的過程,需要時間,難度不小,因此,多家互聯網大廠對芯片設計外包服務的依賴度較高,這恐怕只能解決短期、少量需求問題,長期來看,還需要技術積累和芯片團隊建設。

        下面看一下自研芯片大廠與晶圓代工廠的合作關系。

        AI 服務器芯片采用的都是最先進制程工藝,這方面,考慮到三星電子的先進制程(4nm 和 3nm)良率遲遲提升不上去,臺積電幾乎是唯一的晶圓代工廠選擇。

        根據專門研究半導體公司的金融分析師 Dan Nystedt 的估計,2023 年,蘋果公司占臺積電收入的 25%(175.2 億美元)。

        2023 年,臺積電的前 10 名客戶占其收入的 91%,高于 2022 年的 82%,這些公司包括聯發科、AMD、高通、博通、索尼和 Marvell。可以看出,沒有一家互聯網大廠,除了蘋果,都是 IC 設計大廠。

        多年來,蘋果一直是臺積電的頭號客戶,而且,在未來多年內將一直是臺積電的第一大客戶。據悉,蘋果自研的 AI 服務器芯片將采用臺積電的 3nm 制程工藝,將在 2025 下半年生產,那時,臺積電的 3nm 制程將升級到「N3E」版本。

        對于互聯網和 IT 設備大廠來說,自研的 AI 服務器芯片,必須找到足夠好的晶圓代工廠生產,要想保持長期、穩定發展,就必須對晶圓代工廠的制程工藝有足夠的了解。這方面,與谷歌、亞馬遜和微軟相比,蘋果具有先天優勢,因為該智能設備巨頭是臺積電多年的第一大客戶,雙方有深入了解,能夠更好地把握好芯片生產規模、良率、成本,可以實現無縫過渡。

        芯片設計服務商機無限

        如前文所述,互聯網大廠自研 AI 服務器芯片,由于研發難度很大,這些大廠短時間內又難以形成有足夠技術和經驗積累的團隊,因此,選擇外包,找芯片設計服務合作伙伴就成為了不二選擇。

        例如,谷歌開發的兩種 Arm 服務器 CPU,其中一款代號為「Maple」,是基于 Marvell 的技術。

        另外,谷歌自研的 TPU 用于取代英偉達的 GPU,谷歌設計的芯片藍圖,都由博通進行物理實現。物理實現是將邏輯電路轉換為有物理連接的電路圖的過程,博通繪制好物理版圖后,再送到臺積電流片,流片成功后的芯片正式進入制造環節,整個過程都需要博通深度參與。

        數據中心中成百上千個高性能處理器共同運作,它們之間的通信就成為了大問題,這也是當下數據中心性能損耗的主要來源。

        博通是通信巨頭,最善于解決通信帶寬問題,在全球 50GB/s 的 SerDes 市場中,博通占據了 76% 的份額,其 SerDes 接口通過將低速并行數據轉換為高速串行數據,然后在接收端轉換回并行數據。通過這樣的操作,數據可以從一個 TPU 高速轉移到另一個 TPU,大大提升了傳輸效率。

        有了博通的幫助,谷歌自研芯片的項目進展速度明顯加快了,TPU 從設計開始,僅用 15 個月就部署進了數據中心。

        隨著大模型市場競爭快速展開,谷歌大幅增加了 TPU 設計服務訂單,使博通一躍成為僅次于英偉達的 AI 芯片廠商,Semianalysis 預估,AI 芯片會在 2024 年給博通帶來 80 億~90 億美金的營收。

        不止谷歌,Meta、亞馬遜、微軟等大廠都在加大自研 AI 服務器芯片的投入力度,找芯片設計服務外包合作伙伴的需求只增不減,此時,以博通、Marvell 為代表的芯片設計服務公司的商機會越來越多。



        關鍵詞: AI服務器

        評論


        技術專區

        關閉
        主站蜘蛛池模板: 勐海县| 元江| 西充县| 阿城市| 和田市| 吴旗县| 定陶县| 乌兰县| 甘南县| 古蔺县| 新河县| 华容县| 龙州县| 三穗县| 永登县| 平泉县| 屏东市| 闵行区| 汾西县| 铅山县| 鄱阳县| 青浦区| 图片| 岚皋县| 湄潭县| 伊川县| 黎城县| 浪卡子县| 遵义县| 呼玛县| 乃东县| 泰安市| 宕昌县| 临邑县| 普兰县| 托克托县| 荆州市| 遂宁市| 融水| 杭州市| 获嘉县|