新聞中心

        EEPW首頁 > EDA/PCB > 市場分析 > Chiplet,至關重要

        Chiplet,至關重要

        作者:techspot 時間:2025-01-06 來源:半導體產業縱橫 收藏

        雖然小芯片 () 已經存在了幾十年,但如今它們已成為芯片制造領域最熱門的趨勢,為從個人電腦到服務器、手機和可穿戴設備等數百萬臺設備提供動力。

        本文引用地址:http://www.104case.com/article/202501/466013.htm

        雖然小芯片已經存在了幾十年,但其使用在歷史上僅限于特定的專業應用。然而,如今它們處于技術的最前沿,為全球數百萬臺臺式電腦、工作站、服務器、游戲機、手機甚至可穿戴設備提供支持。

        短短幾年間,大多數領先的芯片制造商都已采用小芯片技術來推動創新。現在很明顯,小芯片即將成為行業標準。讓我們來探索一下是什么讓它們如此重要,以及它們如何塑造技術的未來。

        什么是

        芯片組是分段式處理器。它不是將每個部分整合到單個芯片中(稱為單片方法),而是將特定部分制造為單獨的芯片。然后使用復雜的連接系統將這些單獨的芯片安裝到單個封裝中。

        這種安排使得受益于最新制造方法的部件尺寸縮小,提高了工藝效率,并使其能夠容納更多的組件。

        硅科學

        要充分理解處理器制造商為何轉向使用小芯片,我們必須首先深入研究這些設備是如何制造的。CPU 和 GPU 最初是由超純硅制成的大圓盤,直徑通常略小于 12 英寸(300 毫米),厚度為 0.04 英寸(1 毫米)。

        硅片經過一系列復雜的工序,形成多層不同的材料層——絕緣體、電介質和金屬。這些層的圖案是通過一種稱為光刻的工藝創建的,其中紫外線照射到放大的圖案(掩模版)上,然后通過透鏡縮小到所需的尺寸。

        這種圖案以一定的間隔在晶圓表面重復出現,最終每個圖案都會變成一個處理器。由于芯片是矩形的,而晶圓是圓形的,因此圖案必須與光盤的周邊重疊。這些重疊部分最終會被丟棄,因為它們沒有功能。

        完成后,使用探針對每個芯片進行測試。電氣檢查結果會根據一系列標準告知工程師處理器的質量。這個初始階段稱為芯片分級,有助于確定處理器的「等級」。

        例如,如果芯片要用作 CPU,則每個部件都應正常工作,在特定電壓下在一定范圍的時鐘速度內運行。然后根據這些測試結果對每個晶圓部分進行分類。

        完成后,晶圓被切割成可供使用的單個部件,即「芯片」。然后,這些芯片被安裝到類似于專用主板的基板上。處理器在準備分發之前還要經過進一步的封裝(例如,使用散熱器)。

        整個過程可能需要數周的制造時間,臺積電和三星等公司對每片晶圓收取的費用很高,根據所使用的工藝節點,費用在 3,000 美元到 20,000 美元之間。

        「工藝節點」是用來描述整個制造系統的術語。從歷史上看,它們以晶體管的柵極長度命名。然而,隨著制造技術的進步和元件尺寸的不斷縮小,命名不再遵循芯片的任何物理方面,現在它只是一種營銷工具。

        盡管如此,每個新的工藝節點都比其前身帶來好處。它可能生產成本更低、在相同時鐘速度下消耗更少的功率(反之亦然),或者密度更高。后一個指標衡量給定芯片面積內可以容納多少個組件。在下圖中,您可以看到 GPU(PC 中最大、最復雜的芯片)多年來的發展情況……

        工藝節點的改進為工程師提供了一種提高產品功能和性能的方法,而無需使用大而昂貴的芯片。然而,上圖只展示了部分情況,因為并非處理器的每個方面都能從這些進步中受益。

        芯片內的電路可分為以下幾大類:

        • 邏輯——處理數據、數學和決策

        • 內存——通常是 SRAM,用于存儲邏輯數據

        • 模擬——管理芯片與其他設備之間的信號的電路

        不幸的是,雖然隨著工藝節點技術的每一次重大進步,邏輯電路的體積都在不斷縮小,但模擬電路卻幾乎沒有變化,而 SRAM 也開始達到極限。

        雖然邏輯仍然占據芯片的最大部分,但近年來,當今 CPU 和 GPU 中的 SRAM 數量已顯著增加。例如,AMD 在其 Radeon VII 顯卡(2019 年)中使用的 Vega 20 芯片總共具有 5 MB 的 L1 和 L2 緩存。僅僅兩代 GPU 之后,為 Radeon RX 6000 系列(2020 年)提供支持的 Navi 21 芯片就包含超過 130 MB 的組合緩存——顯著增加了 25 倍。

        隨著新一代處理器的開發,我們可以預計這些成本將繼續增加,但由于內存的縮小幅度不如邏輯的縮小幅度,在同一工藝節點上制造所有電路的成本效益將越來越低。

        在理想情況下,人們會設計一個芯片,其中模擬部分在最大和最便宜的節點上制造,SRAM 部分在小得多的節點上制造,邏輯部分則保留給絕對尖端技術。不幸的是,這在實踐中無法實現。不過,還有另一種方法。

        分而治之

        1995 年,英特爾推出了 Pentium II,這是其原始 P5 處理器的繼任者。它與當時其他處理器的不同之處在于隱藏在塑料外殼下的設計:一塊電路板容納兩個芯片。主芯片包含所有處理邏輯和模擬系統,而一個或兩個獨立的 SRAM 模塊用作二級緩存。

        雖然主芯片由英特爾制造,但緩存來自外部供應商。這種方法在 20 世紀 90 年代中后期成為臺式電腦的標準配置,直到半導體制造技術的進步使得邏輯、內存和模擬系統能夠完全集成到單個芯片中。

        英特爾奔騰 II – 中央處理器在中間,緩存芯片在右邊。

        雖然英特爾繼續嘗試在同一封裝中集成多個芯片,但它在很大程度上堅持所謂的單片處理器方法,即一個芯片可以實現所有功能。對于大多數處理器而言,不需要多個芯片,因為制造技術足夠精湛(且價格合理),可以保持簡單。

        然而,其他公司對采用多芯片方法更感興趣,其中最著名的是 IBM。2004 年,人們可以購買 POWER4 服務器 CPU 的 8 芯片版本,該版本包含四個處理器和四個緩存模塊,全部安裝在同一機箱內(稱為多芯片模塊或 MCM 方法)。

        大約在這個時候,「異構集成」一詞開始出現,部分原因是 DARPA 所做的研究工作。異構集成旨在將處理系統的各個部分分開,在最適合每個部分的節點上單獨制造,然后將它們組合到同一個封裝中。

        如今,這種技術更廣為人知的名字是系統級封裝 (SiP),自誕生之日起就一直是智能手表配備芯片的標準方法。例如,Apple Watch Series 1 就在一個結構內安裝了一個 CPU、一些 DRAM 和 NAND 閃存、多個控制器和其他組件。

        Apple S1 SiP 的 X 光照片。來源:iFixit

        通過將不同的系統全部放在一個芯片上(稱為 SoC 或片上系統)可以實現類似的設置。但是,這種方法無法利用不同的節點價格,也無法以這種方式制造每個組件。

        對于技術供應商來說,將異構集成用于小眾產品是一回事,但將其用于大多數產品組合又是另一回事。這正是 AMD 對其處理器系列所做的。2017 年,這家半導體巨頭推出了單芯片 Ryzen 臺式機 CPU,并推出了 Zen 架構。僅僅幾個月后,AMD 就推出了兩條多芯片產品線:Threadripper 和 EPYC,后者的配置最多可達四個芯片。

        兩年后,隨著 Zen 2 的推出,AMD 全面擁抱了 HI、MCM、SiP(隨便你怎么稱呼它們)。他們將大部分模擬系統從處理器中移出,并將它們放入單獨的芯片中。這些芯片采用更簡單、更便宜的工藝節點制造,而其余邏輯和緩存則采用更先進的工藝節點。因此,小芯片成為了流行的流行詞。

        越小越好

        為了準確理解 AMD 選擇這個方向的原因,讓我們來看看下面的圖片。它展示了 Ryzen 5 系列的兩款較舊的 CPU——左側的 2600 采用所謂的 Zen+ 架構,右側的 3600 采用 Zen 2 架構。

        兩種型號的散熱器均已拆除,照片是使用紅外攝像機拍攝的。2600 的單個芯片內有 8 個內核,但此特定型號禁用了其中兩個內核。

        來源:Fritzchen Fritz

        3600 也是如此,但在這里我們可以看到封裝中有兩個芯片——頂部的核心復合芯片 (CCD),包含核心和緩存,底部的輸入/輸出芯片 (IOD) 包含所有控制器(用于內存、PCI Express、USB 等)和物理接口。

        由于兩款 Ryzen CPU 都安裝在同一個主板插槽中,因此兩張圖片基本上是按比例繪制的。從表面上看,3600 中的兩個芯片的總面積似乎比 2600 中的單個芯片要大,但外表可能具有欺騙性。

        如果我們直接比較包含核心的芯片,就會清楚舊型號中模擬電路占用了多少空間——所有藍綠色都圍繞著金色核心和緩存。然而,在 Zen 2 CCD 中,只有極小的芯片區域專用于模擬系統;它幾乎完全由邏輯和 SRAM 組成。

        Zen+ 芯片面積為 213 平方毫米,由 GlobalFoundries 使用其 12nm 工藝節點制造。對于 Zen 2,AMD 保留了 GlobalFoundries 為 125 平方毫米 IOD 提供的服務,但利用臺積電更先進的 N7 節點為 73 平方毫米 CCD 提供服務。

        Zen+(上)與 Zen 2 CCD(下)

        新款芯片的總面積更小,L3 緩存也增加了一倍,支持更快的內存和 PCI Express。不過,小芯片方法的最大優點是 CCD 的緊湊尺寸使 AMD 能夠在封裝中再裝一個。這一發展催生了 Ryzen 9 系列,為臺式電腦提供 12 核和 16 核型號。

        更妙的是,通過使用兩個較小的芯片而不是一個大芯片,每個晶圓可以產生更多的芯片。以 Zen 2 CCD 為例,單個 12 英寸(300 毫米)晶圓可以比 Zen+ 型號多產生 85% 的芯片。

        從晶圓上切下的切片越小,發現制造缺陷的可能性就越小(因為它們往往隨機分布在光盤上),因此考慮到所有這些因素,小芯片方法不僅使 AMD 能夠擴展其產品組合,而且成本效益更高——相同的 CCD 可用于多種型號,每個晶圓可生產數百個 CCD!

        但如果這種設計選擇如此有利,為什么英特爾不這樣做呢?為什么我們沒有看到它被用在其他處理器上,比如 GPU 上?

        跟隨領先

        為了回答第一個問題,英特爾也在逐步采用小芯片技術。他們推出的第一款使用小芯片的消費級 CPU 架構名為 Meteor Lake。不過,英特爾的方法有些獨特,所以讓我們來探索一下它與 AMD 的方法有何不同。

        這一代處理器使用術語「tile」而不是「chiplet」,將之前的單片設計分成四個獨立的芯片:

        • 計算塊:包含所有核心和 L2 緩存

        • GFX 模塊:容納集成 GPU

        • SoC 模塊:集成 L3 緩存、PCI Express 和其他控制器

        • IO 塊:容納內存和其他設備的物理接口

        SoC 與其他三個塊之間存在高速、低延遲連接,并且它們都連接到另一個稱為中介層的芯片。該中介層為每個芯片供電,并包含它們之間的走線。然后將中介層和四個塊安裝到另一塊板上,以便封裝整個組件。

        與英特爾不同,AMD 不使用任何特殊的安裝芯片,而是擁有自己獨特的連接系統(稱為 Infinity Fabric)來處理芯片數據交易。電力傳輸通過一個相當標準的封裝進行,AMD 使用的芯片也更少。那么為什么英特爾會這樣設計呢?

        AMD 的方法面臨的一個挑戰是,它不太適合超移動、低功耗領域。這就是為什么 AMD 仍然在該領域使用單片 CPU 的原因。英特爾的設計允許他們混合搭配不同的芯片以滿足特定需求。例如,經濟實惠的筆記本電腦的預算型號可以在任何地方使用小得多的芯片,而 AMD 為每個用途只提供一種尺寸的芯片。

        英特爾系統的缺點是生產起來復雜且成本高昂(這導致了不同類型的問題)。然而,這兩家 CPU 公司都完全致力于小芯片概念。一旦制造鏈的每個部分都圍繞它進行設計,成本就會降低。

        說到 GPU,與芯片的其余部分相比,它們包含的模擬電路相對較少。但是,內部的 SRAM 數量一直在穩步增加。這一趨勢促使 AMD 在 Radeon 7000 系列中利用其芯片專業知識,其中 Radeon RX 7900 GPU 具有多芯片設計。這些 GPU 包括一個用于核心和 L2 緩存的大型芯片,以及五到六個較小的芯片,每個芯片包含一個 L3 緩存和一個內存控制器。

        通過將這些組件移出主芯片,工程師能夠顯著增加邏輯數量,而無需依賴最新、最昂貴的工藝節點來保持芯片尺寸可控。雖然這項創新可能有助于降低總體成本,但它并沒有顯著擴大 AMD 圖形產品組合的廣度。

        目前,英偉達和 Intel 的消費級 GPU 尚未顯示出采用 AMD 芯片方案的跡象。兩家公司都依賴臺積電完成所有制造任務,似乎滿足于生產超大芯片,并將成本轉嫁給消費者。

        盡管如此,據悉,兩家公司都在積極探索和實施基于芯片的架構,并將其應用于部分 GPU 設計中。例如,英偉達的 Blackwell 數據中心 GPU 采用芯片設計,其中兩個大型芯片通過每秒 10 TB 的高速互連連接,可有效充當單個 GPU。

        利用 實現「摩爾定律」

        無論這些變化何時發生,基本事實是它們必須發生。盡管半導體制造技術取得了巨大進步,但每個元件的縮小程度還是有一定限度的。

        為了繼續提高芯片性能,工程師基本上有兩種途徑——增加更多邏輯,并增加支持邏輯所需的內存,以及提高內部時鐘速度。關于后者,普通 CPU 多年來在這方面并沒有顯著改變。AMD 的 FX-9590 處理器(2013 年推出)在某些工作負載下可以達到 5 GHz,而其當前型號的最高時鐘速度為 5.7 GHz(使用 Ryzen 9 9950X)。


        英特爾最高主頻的消費級 CPU 是酷睿 i9-14900KS,雙核最高睿頻可達 6.2 GHz。這款「特別版」處理器保持著臺式機 CPU 中開箱即用主頻最快的記錄。

        然而,電路和 SRAM 的數量有所變化。前面提到的 AMD FX-9590 有 8 個內核(和 8 個線程)和 8 MB 的 L3 緩存,而 9950X 擁有 16 個內核、32 個線程和 64 MB 的 L3 緩存。英特爾的 CPU 在內核和 SRAM 方面也有類似的擴展。

        英偉達的首款統一著色器 GPU 是 2006 年推出的 G80,它在一個面積為 484 平方毫米的芯片上包含 6.81 億個晶體管、128 個內核和 96 KB 的二級緩存。快進到 2022 年,AD102 推出時,它現在在 608 平方毫米的芯片面積內包含 763 億個晶體管、18,432 個內核和 98,304 KB 的二級緩存。

        1965 年,仙童半導體公司聯合創始人戈登·摩爾 (Gordon Moore) 發現,在芯片制造的早期,芯片內部元件的密度每年都會翻一番,而最低生產成本是固定的。這一觀察結果被稱為摩爾定律,后來根據制造趨勢被解釋為「芯片中晶體管的數量每兩年翻一番」。

        近六十年來,摩爾定律一直相當準確地代表著半導體行業的進步。CPU 和 GPU 的邏輯和內存的巨大進步很大程度上得益于工藝節點的不斷改進,隨著時間的推移,組件變得越來越小。然而,無論出現什么新技術,這種趨勢都不可能永遠持續下去。

        像 AMD 和英特爾這樣的公司并沒有等待這些物理極限被達到,而是采用了小芯片技術,探索將這些模塊化組件組合起來的創新方法,以支持日益強大的處理器的創造。

        幾十年后,普通 PC 可能會配備手掌大小的 CPU 和 GPU。但是,剝開散熱器,你會發現許多微型芯片——不是三四個,而是幾十個,它們都巧妙地平鋪和堆疊在一起。小芯片的主導地位才剛剛開始。



        關鍵詞: Chiplet

        評論


        技術專區

        關閉
        主站蜘蛛池模板: 高淳县| 乌兰察布市| 汉寿县| 星座| 塔城市| 古浪县| 晋江市| 桑日县| 伊金霍洛旗| 新河县| 潮安县| 察雅县| 靖江市| 泉州市| 嘉祥县| 舞钢市| 勐海县| 安岳县| 东莞市| 临清市| 临邑县| 金门县| 军事| 西畴县| 建始县| 四会市| 衢州市| 葵青区| 临高县| 齐河县| 海林市| 铜川市| 荣成市| 东城区| 安化县| 阿拉尔市| 宁津县| 江达县| 霸州市| 西乌珠穆沁旗| 东乌|