未來的芯片將比以往任何時候都更熱
5多年來,在摩爾定律似乎不可避免的推動下,工程師們設法每兩年將他們可以封裝到同一區域中的晶體管數量增加一倍。但是,當該行業追求邏輯密度時,一個不需要的副作用變得更加突出:熱量。
本文引用地址:http://www.104case.com/article/202504/469840.htm在當今的 CPU 和 GPU 等片上系統 (SoC) 中,溫度會影響性能、功耗和能效。隨著時間的推移,過多的熱量會減慢關鍵信號在處理器中的傳播,并導致芯片性能的永久下降。它還會導致晶體管泄漏更多電流,從而浪費功率。反過來,增加的功耗會削弱芯片的能源效率,因為執行完全相同的任務需要越來越多的能量。
問題的根源在于另一條定律的終結:Dennard 縮放。該定律指出,隨著晶體管線性尺寸的縮小,電壓應降低,以使給定區域的總功耗保持不變。Dennard 縮放在 2000 年代中期有效地結束了,當時在不影響晶體管整體功能的情況下,任何進一步降低電壓都是不可行的。因此,雖然邏輯電路的密度繼續增長,但功率密度也隨之增長,產生熱量作為副產品。
隨著芯片變得越來越緊湊和強大,高效的散熱對于保持其性能和使用壽命至關重要。為了確保這種效率,我們需要一種工具,可以預測新的半導體技術(制造晶體管、互連和邏輯單元的工藝)如何改變熱量的產生和去除方式。我和 Imec 的研究同事已經開發出了這一點。我們的仿真框架使用行業標準和開源的電子設計自動化 (EDA) 工具,并通過我們的內部工具集進行增強,以快速探索半導體技術與使用它構建的系統之間的交互。
到目前為止,結果是不可避免的:熱挑戰隨著每個新技術節點的增加而增加,我們需要新的解決方案,包括設計芯片和系統的新方法,如果它們有任何希望能夠處理熱量的話。
冷卻的極限
傳統上,SoC 是通過將空氣吹過連接到其封裝的散熱器來冷卻的。一些數據中心已經開始使用液體代替,因為它比氣體吸收更多的熱量。液體冷卻劑(通常是水或水基混合物)可能適用于最新一代高性能芯片,例如 Nvidia 的新型 AI GPU,據報道,該芯片的功耗高達 1,000 瓦。但是,風扇和液體冷卻器都無法與即將推出的較小節點技術相媲美。
熱量從芯片中去除時,會遵循一條復雜的路徑,但其中 95% 通過散熱器排出。 IMEC 公司
以納米片晶體管和互補場效應晶體管 (CFET) 為例。領先的芯片制造商已經轉向納米片器件,將當今鰭式場效應晶體管中的鰭片換成一堆水平半導體片。CFET 將這種架構發揮到了極致,垂直堆疊更多的片材并將它們分成兩個器件,從而將兩個晶體管置于與一個晶體管大致相同的封裝中。專家預計半導體行業將在 2030 年代引入 CFET。
在我們的工作中,我們研究了即將推出的納米片 A10 版本(指 10 埃或 1 納米的節點)和名為 A5 的 CFET 版本,IMEC 預計該版本將在 A10 之后出現兩代。對我們測試設計的模擬表明,A5 節點的功率密度比 A10 節點高 12% 到 15%。這種增加的密度反過來將導致在相同工作電壓下預計溫升 9 °C。
互補場效應晶體管將納米片晶體管相互堆疊,從而提高密度和溫度。為了在與納米片晶體管(A10 節點)相同的溫度下工作,CFET(A5 節點)必須在降低的電壓下運行。 IMEC 公司
9 度可能看起來并不多。但是,在數十萬到數百萬個芯片封裝在一起的數據中心中,這可能意味著穩定運行和熱失控之間的區別 — 即可怕的反饋回路,其中溫度升高會增加漏電功率,溫度會增加漏電功率,依此類推,直到最終安全機制必須關閉硬件以避免永久性損壞。
研究人員正在尋找基本液體和空氣冷卻的先進替代方案,以幫助緩解這種極端高溫。例如,微流體冷卻使用蝕刻在芯片中的微小通道來使液體冷卻劑在設備內循環。其他方法包括射流撞擊,包括將氣體或液體高速噴射到芯片表面,以及浸入式冷卻,將整個印刷電路板浸入冷卻劑浴中。
但是,即使這些新技術開始發揮作用,僅依靠冷卻器來釋放額外的熱量也可能是不切實際的。對于移動系統來說尤其如此,它們受到尺寸、重量、電池電量的限制,并且需要不烹飪用戶。與此同時,數據中心面臨著不同的限制:由于冷卻是整個建筑的基礎設施費用,因此每次新芯片到來時都更新冷卻設置的成本太高且破壞性太強。
性能與熱量
幸運的是,冷卻技術并不是阻止薯條油炸的唯一方法。各種系統級解決方案可以通過動態適應不斷變化的熱條件來控制熱量。
一種方法是將熱傳感器放在芯片周圍。當傳感器檢測到令人擔憂的溫度升高時,它們會發出工作電壓和頻率降低的信號,從而降低功耗,以抵消發熱。但是,雖然這樣的方案解決了散熱問題,但它可能會顯著影響芯片的性能。例如,芯片在炎熱的環境中可能總是工作不佳,任何曾經將智能手機放在陽光下的人都可以證明這一點。
另一種稱為熱沖刺的方法對于多核數據中心 CPU 特別有用。它是通過運行一個核心直到它過熱,然后在第一個核心冷卻時將作轉移到第二個核心來完成的。此過程可以最大程度地提高單個線程的性能,但當工作必須在多個內核之間遷移以執行較長的任務時,可能會導致延遲。熱疾跑還會降低芯片的整體吞吐量,因為芯片的某些部分在冷卻時總是會被禁用。
因此,系統級解決方案需要在熱量和性能之間取得謹慎的平衡。為了有效地應用它們,SoC 設計人員必須全面了解功率在芯片上的分配方式和熱點出現的位置、傳感器的放置位置、何時觸發電壓或頻率降低,以及芯片的某些部分需要多長時間才能冷卻。然而,即使是最好的芯片設計師,很快也需要更多創造性的熱量管理方法。
利用芯片的背面
一個有前途的追求包括在晶圓的底面或背面添加新功能。該策略主要旨在提高功率傳輸和計算性能。但它也可能有助于解決一些熱量問題。
新技術可以降低需要輸送到多核處理器的電壓,以便芯片在以可接受的頻率運行時保持最小電壓。背面供電網絡通過降低電阻來實現這一點。背面電容器可降低瞬態電壓損耗。背面集成穩壓器允許不同的內核根據需要在不同的最小電壓下工作。IMEC 公司
Imec 預見了幾種背面技術,這些技術可能允許芯片在較低的電壓下工作,從而減少它們產生的熱量。路線圖上的第一項技術是所謂的后端供電網絡 (BSPDN),它的作用正如其名:它將電力線從芯片的前端移動到后端。所有先進的 CMOS 代工廠都計劃在 2026 年底之前提供 BSPDN。早期的演示表明,它們通過使電源更靠近晶體管來降低電阻。電阻越小,電壓損失就越小,這意味著芯片可以在降低的輸入電壓下運行。當電壓降低時,功率密度會下降,溫度也會下降。
通過改變散熱路徑中的材料,背面輸電技術可以使芯片上的熱點更加熱。 IMEC 公司
在 BSPDN 之后,制造商也可能會開始在背面添加具有高儲能容量的電容器。在高性能 SoC 中,由印刷電路板和芯片封裝中的電感引起的大電壓擺幅可能特別成問題。背面電容器應該有助于解決這個問題,因為它們更靠近晶體管,使其能夠更快地吸收電壓尖峰和波動。因此,這種安排將使芯片能夠在比單獨使用 BSPDN 更低的電壓和溫度下運行。
最后,芯片制造商將推出背面集成穩壓器 (IVR) 電路。該技術旨在通過更精細的電壓調整進一步降低芯片的電壓要求。例如,用于智能手機的 SoC 通常具有 8 個或更多計算內核,但芯片上沒有空間讓每個內核都有自己的分立式穩壓器。相反,一個片外穩壓器通常一起管理四個內核的電壓,而不管所有四個內核是否面臨相同的計算負載。另一方面,IVR 將通過專用電路單獨管理每個內核,從而提高能源效率。將它們放在背面可以節省正面的寶貴空間。
目前尚不清楚背面技術將如何影響熱管理;需要演示和模擬來繪制效果圖。添加新技術通常會增加功率密度,芯片設計人員需要考慮熱后果。例如,在放置背面 IVR 時,如果 IVR 均勻分布,或者如果它們集中在特定區域(例如每個內核和內存緩存的中心),熱問題是否會得到改善?
最近,我們表明,背面供電可能會引入新的熱問題,即使它解決了舊的熱問題。原因是創建 BSPDN 時留下的硅層越來越薄。在正面設計中,硅襯底的厚度可以達到 750 微米。由于硅導熱性好,因此這個相對笨重的層通過橫向分散晶體管的熱量來幫助控制熱點。然而,添加背面技術需要將襯底減薄至約 1 μm,以便從背面接觸晶體管。夾在兩層電線和絕緣體之間,這種細長的硅片無法再有效地將熱量轉移到兩側。因此,來自過度活躍晶體管的熱量可以被困在局部并被迫向上流向冷卻器,從而加劇熱點。
我們對 80 核服務器 SoC 的仿真發現,BSPDN 可以將熱點溫度升高多達 14 °C。 設計和技術調整(例如增加背面金屬的密度)可以改善這種情況,但我們需要更多的緩解策略來完全避免這種情況。
為 “CMOS 2.0” 做準備
BSPDN 是 Imec 稱之為 CMOS 2.0 的硅邏輯技術新范式的一部分。這個新興時代還將看到先進的晶體管架構和專用邏輯層。這些技術的主要目的是優化芯片性能和電源效率,但它們也可能提供熱優勢,包括改善散熱。
在當今的 CMOS 芯片中,單個晶體管將信號驅動到附近和遠處的元件,從而導致效率低下。但是,如果有兩個驅動器層呢?一層將處理長線并使用專用晶體管緩沖這些連接;另一個將僅處理 10 μm 以下的連接。因為第二層中的晶體管將針對短連接進行優化,所以它們可以在較低的電壓下工作,這又會降低功率密度。不過,具體多少仍不確定。
未來,芯片部件將在自己的硅片上制造,使用適合每個芯片的工藝技術。然后,它們將被 3D 堆疊以形成比僅使用一種工藝技術構建的 SoC 功能更好的 SoC。但工程師們必須仔細考慮熱量如何流經這些新的 3D 結構。 IMEC 公司
顯而易見的是,解決該行業的熱量問題將是一項跨學科的努力。任何一項技術(無論是熱界面材料、晶體管、系統控制方案、封裝還是冷卻器)都不太可能單獨解決未來芯片的熱問題。我們將需要他們所有人。借助良好的仿真工具和分析,我們可以開始了解每種方法的應用量以及應用時間。盡管 CMOS 2.0 技術的熱優勢(特別是背面功能化和專用邏輯)看起來很有希望,但我們需要確認這些早期預測并仔細研究其影響。例如,對于背面技術,我們需要準確了解它們如何改變熱量的產生和消散,以及這是否會產生比解決的更多的新問題。
芯片設計人員可能會傾向于采用新的半導體技術,因為以后可以在軟件中處理不可預見的熱問題。這可能是真的,但只是在一定程度上。過于依賴軟件解決方案會對芯片的性能產生不利影響,因為這些解決方案本質上是不精確的。例如,修復單個熱點可能需要降低較大區域的性能,否則該區域不會過熱。因此,SoC 和用于構建它們的半導體技術必須齊頭并進。
好消息是,越來越多的 EDA 產品正在為高級熱分析添加功能,包括在芯片設計的早期階段。專家們還呼吁采用一種新的芯片開發方法,稱為系統技術協同優化。STCO 旨在通過全面考慮系統、物理設計和工藝技術來消除它們之間僵化的抽象界限。深度專家需要走出自己的舒適區,與其他芯片工程領域的專家合作。我們可能還不知道如何解決該行業日益嚴峻的熱挑戰,但我們樂觀地認為,通過正確的工具和協作,可以做到這一點。
評論