Chiplets帶來芯片供電新問題
在 Chiplet 的推廣應用中,供電和電源管理正成為關鍵挑戰,這極大地增加了設計的復雜性,迫使芯片制造商權衡各種取舍,而這些取舍可能會對半導體的性能、可靠性以及整體成本產生重大影響。
本文引用地址:http://www.104case.com/article/202503/468175.htm功率問題是每一個芯片和芯片粒設計都要考慮的因素,盡管具體情況會因應用場景而有所不同。系統供應商和處于技術前沿的芯片制造商已經在使用芯片粒來提升性能和電源效率,汽車行業也將其視為為消費者提供不同選擇的一種方式。然而,雖然在單片式系統級芯片中,大多數與功率相關的問題都已被充分理解,但在由異構芯片粒組成的組件中,要考慮到所有可能的相互作用,這就將這些問題提升到了一個全新的高度。
「如今有很多人在嘗試和使用人工智能,他們能夠做更復雜精密的事情,這意味著需要更多的功率,」Rambus 公司的研究員兼杰出發明家 Steven Woo 表示,「在很多方面,這些人工智能架構正變得更加節能。只是對于更先進的人工智能,想要進行的計算量大幅增加,使得節能效果相形見絀,所以無法滿足需求。想要設備變得更節能,但這還不夠。必須想辦法獲取更多的功率。模型越來越大,越來越精確。計算變得更加復雜,硬件也越來越精密。但很多問題最終都歸結為如何為所有這些設備供電,以及如何對其進行散熱。」
隨著晶體管密度的增加,這些問題也相應地變得更具挑戰性。由于靜態隨機存取存儲器。
無法擴展到最新的工藝節點,以及專用處理元件的使用越來越多,過去能集成在一個光罩尺寸的平面系統級芯片中的組件,現在正分散到各種芯片粒中。系統級芯片由此被分解,然后重新聚合為一個由高密度芯片粒組成的異構組件,這為大幅提升性能打開了大門。但這也增加了這些設備的總功率需求。
「我們已經在應對每個系統級芯片幾百瓦的高功率水平,而在芯片粒系統中,系統級芯片的密集堆疊又顯著放大了這一功率水平,」Fraunhofer IIS 自適應系統工程部門高效電子業務負責人 Andy Heinig 指出,「必須在更低的電源電壓下維持這種供電,這意味著絕對偏差正變得越來越小。與此同時,在芯片粒系統中,實現諸如電容器這類合適的穩定技術也變得越來越困難。目前,建立一個統一的電源仿真或驗證也非常復雜,因為芯片與封裝之間的接口尚未充分標準化。例如,在描述電流或負載方面沒有統一的要求。」
為了給所有這些計算元件騰出空間,芯片制造商正越來越多地在垂直方向上堆疊存儲器和邏輯元件。如今,這些設計大多涉及某種類型的中介層,但在未來幾年,隨著芯片制造商專注于提高電源效率,這種情況可能會發生改變。
「在 2.xD 系統中,像通用芯片互聯這樣的高密度芯片間接口會增加封裝層數,或者增加對中介層的需求,」Arm 公司的研究員兼系統集成與開發高級總監 Javier DeLaCruz 解釋道,「這使得封裝球側或印刷電路板上的電容和電壓調節效果變差,進而促使人們需要將這些元件集成到中介層或封裝基板中。我們看到這推動了更先進的封裝技術的發展。」
這些封裝存在的問題之一是它們的尺寸。「基板越大,就需要越堅固,這通常意味著在積層式基板中要有更厚的核心層,」德拉克魯茲說,「由于鍍通孔(PTH)的過孔密度降低,以及由此產生的電感增加,這個更厚的核心層加大了通過封裝實現充足供電的難度。」
三維集成電路通過更薄的基板和金屬層解決了其中一些問題。但更高的電流,再加上每單位更多的電壓域,可能會導致電源完整性問題,并增加寄生效應。
堆疊帶來的電源問題
大多數與功率相關的問題都已被充分理解并記錄在案,但在由異構芯片粒組成的組件中,它們可能會以獨特的方式相互作用。芯片粒數量越多,材料和電介質越薄,工作負載的計算密集程度越高,對功率的影響就越大。將功率輸送到所需位置變得更加困難,由于散熱不足導致的加速老化效應,數據路徑可能會中斷,而且特定工作負載產生的熱梯度可能會以意想不到的方式影響性能和功耗。
一種效應可能會對另一種效應產生重大影響,而在三維集成電路中,要跟蹤并緩解這種情況尤其具有挑戰性。「電遷移在本質上與在單個芯片上沒有什么不同,」Ansys 公司的產品營銷總監 Marc Swinnen 說,「只是它在芯片粒系統中是個更大的問題。但主要問題還是電壓降,因為電源網絡并非相互獨立。它不像點對點的信號線路。電源網格是覆蓋整個芯片的完整網格。然后,另一個芯片有一個網格,中介層也有一個網格,所有這些網格在成百上千個點上相互連接。你不能孤立地分析其中一個,再孤立地分析另一個,然后簡單地把它們相加。事情不是這樣的。網格非常復雜,因為連接點太多了。一個信號點總是從一個驅動器連接到多個負載,但電源可能是從多個驅動器連接到多個負載,而且它們都相互交織在一起。這意味著,要準確得到電壓降,唯一的方法是將所有芯片、中介層和封裝的整個網格一起進行協同仿真。你可以這樣做,但這需要耗費大量時間和大量內存等等。當你在三維集成電路中有十幾個芯片以及所有這些組件時,更好的方法是使用降階模型。」
現在有一些商用工具可以對芯片進行分析,對電源網格進行研究,然后生成一個芯片電源模型(CPM),該模型可以捕捉到關于芯片行為和電源網格所需的信息。「你可以有多個芯片電源模型,」Swinnen 說,「每個芯片有一個,中介層有一個,封裝也有一個,然后可以將它們作為封裝、中介層和芯片的協同仿真一起進行模擬。這就是電源完整性的難點所在。它需要進行協同仿真。你不能進行分割然后各個擊破。那樣是行不通的。」
新挑戰催生新方法
在由異構芯片粒組成的組件中設計供電網絡,其復雜程度要比單個系統級芯片高得多。單個芯片上的問題在很大程度上是一個空間布局問題,隨著工藝節點的不斷縮小,導線密度不得不增加。這也是采用背面供電的主要原因。對于芯片粒來說,需要連接并完美對齊的凸點和硅通孔可能會讓人望而生畏。
「必須連接在一起的芯片凸點數量會直接影響供電,而連接電源和接地所需的凸點數量則會直接影響芯片的最高溫度,」Synopsys 的技術產品管理總監 Keith Lanier 說,「從電源的角度來看,真正影響你能否連接好所有元件,以及能否滿足每個芯片的散熱要求的,是凸點的數量、凸點的大小以及凸點的間距。」隨著更多計算元件被添加到設計中,這個問題變得更加困難。「未來,隨著情況變得越來越復雜,手動完成這項工作將變得越來越困難,比如進行多種不同組合的嘗試,『讓我們試試這樣會怎樣,讓我試試這個間距,再試試那個』。
當開始需要分析更多相互作用的元件時,在沒有某種人工智能或機器學習的幫助下,僅靠人類自己來完成這項工作將變得越來越困難。你需要能夠查看之前設計的數據,查看大量分析運行的數據。這是如今面臨的另一個挑戰,而在過去無需考慮這些。」
其他人也表示認同。「在系統級芯片設計中,只有一個封裝,而且這個封裝是專門為那個系統級芯片設計的,所以這是一個簡單的系統,」Cadence 公司 Voltus 產品管理組總監 Rajat Chaudhry 說,「對于一個系統級芯片,電源是通過封裝提供的,它可以是引線鍵合封裝或倒裝芯片封裝。現在,在芯片粒系統中,你有多種類型的封裝,所以必須從供電復雜性更高的角度來思考。電源可能通過中介層傳輸,所以現在你必須開始考慮中介層的因素。或者也可能是真正的堆疊式三維集成電路。甚至可能通過不同的芯片傳輸。你必須考慮到這些因素。所以,最大的考慮因素之一是早期規劃變得非常關鍵。在過去的設計方式中,你知道有一個可以開始設計的封裝,假設你在設計的電源引腳上會得到某種穩定的電源供應,然后就可以開始設計了。現在,你有多個芯片粒,你必須為整個系統建立早期模型。」
理想情況下,這個模型要能夠進行各種假設性的權衡。「哪種技術或多芯片封裝方式能夠滿足你試圖實現的目標的限制條件呢?這是最大的變化之一,」喬杜里說,「現在最重要的事情之一是盡早確定,『你是不是差得很遠?還是在可接受的范圍內?從電源完整性的角度來看,你真的能讓這個系統正常工作嗎?』從方法學的角度來看,你需要早期規劃工具,通過這些工具你可以非常簡單地進行指定,快速搭建一個模型,并通過這個模型進行優化循環。你可以了解需要多少微凸點,或者如果你要通過中介層,需要多少硅通孔。」
在如此復雜的情況下,權衡取舍變得至關重要。「你需要一種方法,通過這種方法,你可以在早期搭建一個比較符合實際情況的模型,」他說,「隨后可以進行設計探索,當選擇了某個方案后,確定它是否滿足你的限制條件。然后,隨著設計過程的深入,就要開始考慮對每個單獨的芯片粒進行更詳細、更精確的分析。當你設計一個單獨的芯片粒時,以前我們有一個簡單的封裝,而且我們知道如何對其進行建模。現在會有不同的影響因素。現在,中介層、其他芯片粒、它們的電源供應、噪聲,所有這些都會影響這個單個的芯片粒,所以隨著設計的不斷完善,就可以開始考慮其他芯片粒對單個芯片粒的影響。」Chaudhry 繼續說道。
電源建模
對整個芯片粒平面進行建模也變得具有挑戰性,因為需要建模的元件變得非常龐大。因此,可能需要具備分層建模能力,以便開始構建其余芯片粒的模型。「你設計一個芯片粒,然后你可以采用自下而上和自上而下的方法。你可以采用自上而下的方法,在板級層面、芯片粒的邊界處,查看從頂層看到的電壓情況。然后你可以分解問題,更詳細地對單個芯片粒進行建模,并從更高層次的仿真中獲取邊界電壓,對其進行建模并進行分析。這意味著芯片粒設計者將從系統層面的角度,使用邊界值進行他們的分析。」他說。
那么從電源的角度來看,發生了哪些變化呢?「二三十年來,人們知道該怎么做,」西門子 EDA 公司的產品專家(Subramanian Lalgudi 指出,「有一個芯片,有一個封裝,還有一個電路板。不同的元件會產生不同的諧振。芯片與封裝電感一起提供去耦電容。封裝主要呈感性。從芯片的角度來看,它會引起諧振。人們想要降低的就是這種諧振的峰值。封裝電容和電路板電感之間也存在諧振,那些為實現電源完整性而進行設計的人必須處理連接到地的去耦電容,這些電容將針對封裝上的電源平面以及一直到穩壓器的電路板進行設計。」
這種方法在基本層面上是可行的,但在復雜設計中,當供電的完整性可能受到多個芯片粒的影響時,它就開始失效了。「實際上,你歸為一類的每個電路本身就是一個分布式的大型結構,」拉爾古迪說,「作為一個經驗法則,這樣做是可以的,但對于更精細的設計,人們必須對分布式空間進行建模,而不僅僅是歸為一類。而且與信號完整性不同,在電源完整性方面沒有真正的標準。我們知道輸入應該是什么樣的,輸出應該是什么樣的。每個人都在談論互操作性。一旦有了標準,每個人都會遵循輸入和輸出的規范。除了傳輸介質內部發生的事情之外,您不需要知道其他任何東西。只要發射器能夠傳輸并滿足那個規格,就成功了。」
電源完整性
然而,在電源完整性方面,沒有明確的標準方法。「在信號完整性處理過程中,你只需要驗證發射器、接收器以及它們之間的互連情況,」拉爾古迪解釋道,「你不需要擔心芯片粒的其他部分會發生什么,電源分配網絡會發生什么,封裝中會發生什么。只要互連進入封裝然后再出來,你就需要對其進行建模。我把這稱為局部仿真,意思是不需要擔心是在一個處理器和高帶寬存儲器(HBM)之間進行通信,還是在處理器和處理器之間進行通信。只需要擔心那兩個東西。只關注那個基本的東西,關注互操作性,關注信號。但在電源完整性方面,我需要解決的是全局問題。需要對整個系統進行建模,這在內存、運行時間以及我能夠仿真的內容方面都增加了復雜性。」
芯片粒給電源完整性帶來了新的問題。「通常當你考慮電源時,你考慮的是高頻電源噪聲,」Ansys 公司的 Swinnen 說,「當晶體管的開關動作從電源獲取電流時,你會在電源上得到一個高頻紋波,這也被稱為電源噪聲。本質上這就是電壓降。當紋波達到最大值時,就是最大電壓降。但這一切都是假設在高頻情況下,所以就像晶體管的開關速度一樣。你可以構建一個針對此進行優化的模型。但也存在低頻電源噪聲。我們說的不是千兆赫茲或幾百兆赫茲。我們說的是像 100 赫茲這樣的頻率,在這個頻率下,由于不同系統之間的諧振效應,電源會從一側波動到另一側。這個模塊開啟,那個模塊開啟,這個開啟,那個開啟,你會在不同元件之間看到這種電源的波動。在單片式芯片上你不會看到這種情況,因為它太小了,而且所有元件都緊密相連。但在分布式、分解式系統中,你會看到這些電源諧振效應,也會看到低頻電源噪聲。實際上,你構建的高頻模型通常不適合進行低頻分析,反之亦然。所以在某些時候,你也需要構建一個低頻模型來處理低頻電源噪聲。」
越南 Mixel 公司總經理 Tony Nguyen 解釋說,與傳統的單片式集成電路相比,芯片粒中的電源完整性帶來了獨特的挑戰。「這些挑戰源于多芯片粒系統中復雜的互連、異構集成以及供電限制。」
主要挑戰包括:
電阻壓降:芯片間接口需要許多信號凸點來連接芯片,這占用了用于電源的凸點和布線資源。這在資源非常有限的情況下找到最小化電壓降的解決方案方面帶來了巨大挑戰。隨著芯片粒之間的數據傳輸速度不斷提高,這個挑戰變得更大。
電源分配網絡的復雜性:芯片粒之間共享的電源軌會引入額外的噪聲耦合,并可能產生熱點。芯片粒的電源分配網絡包括芯片上、中介層/橋接內部以及封裝基板——所有這些都是影響電源完整性的關鍵因素,需要進行精確建模。這種復雜程度與傳統的單片式集成電路完全不同。大型電子設計自動化(EDA)供應商正在大力投資開發能夠對多層、復雜的電源分配網絡進行建模和分析的三維集成電路工具。
回流路徑不連續性和寄生效應:不同芯片粒之間電源和接地平面的不連續性會增加阻抗。互連(例如微凸點、混合鍵合、硅通孔(TSV)或中介層)產生的寄生電感和電容會顯著影響信號質量。然而,由于技術發展速度很快,要獲得這些組件的正確模型具有挑戰性。
去耦電容的放置:解決電源完整性問題的一個有效方法是使用去耦電容。對于芯片粒系統來說,板載電容效果不佳,因為它離有源電路太遠。由于在一個小尺寸區域內有數百個輸入輸出(IO)端口,去耦電容靠近電路放置至關重要。然而,由于芯片粒接口處空間有限,去耦電容的分布非常受限。
電源模式轉換和動態負載:不同的芯片粒可能有不同的電源狀態,這會導致功耗不均以及動態電壓調節方面的挑戰。高速開關組件會產生瞬態電流,必須仔細管理。
熱致電源完整性問題:基于芯片粒的設計中更高的功率密度會導致熱點出現,從而影響電源完整性。溫度升高會改變電阻和載流子遷移率,進一步加劇電壓降。芯片粒系統的熱建模非常復雜,因為它取決于設計、材料、封裝技術、頂層芯片技術以及芯片粒之間的工作活動。
制造可變性和工藝不匹配:對于芯片粒系統,整個系統的變化會引入更多的差異。凸點高度、鍵合質量和中介層電阻的變化可能會導致電源分布不對稱。此外,不同代工廠生產的芯片粒之間的工藝差異可能會進一步影響電源完整性性能。
這也會影響芯片粒之間的互連。「系統級封裝架構師的一個關鍵目標是以最節能的方式在芯片粒之間傳輸數據,這需要快速開啟接口來傳輸數據,然后再將其關閉,」Eliyan 公司戰略營銷副總裁 Kevin Donnelly 說,「芯片粒架構師和設計師需要明白,開啟和關閉接口會在短時間內產生大的電流尖峰,需要進行仔細的電源完整性分析,以確保電流變化率轉換不會影響數據傳輸質量。」
為了緩解芯片粒設計中的電源完整性挑戰,Nguyen 表示,架構師和設計師應該考慮以下幾點:
電源分配網絡設計與分析:在設計流程的前期要特別關注電源分配網絡的結構和特性。使用先進的仿真工具進行電源分配網絡分析。花精力對模型進行建模、關聯和優化,以便在所有設計階段都能很好地了解電源分配網絡的質量。常見的錯誤是在設計過程
去耦策略:作為 PDN 分析的一部分,盡早制定良好的策略來分配片上和封裝級去耦電容也至關重要。需要盡早研究和優化片上去耦電容與有源電路的布局之間的權衡。盡可能使用內插器集成或基于硅互連織物的電容器。
電源軌分區:避免在高噪聲和低噪聲小芯片之間共享電源軌。為不同的小芯片實現單獨的電源域或隔離的電源島。
噪聲隔離和濾波:考慮實施片上低壓差穩壓器,以本地調節功率和過濾噪聲。使用適當的濾波技術來抑制共享電源路徑中的高頻噪聲。
動態電源管理:實施自適應電壓調節或動態電壓和頻率調節,以實現節能運行。確保電源狀態平穩轉換,以防止瞬態感應電壓下降。
熱感知設計:這是小芯片系統的新設計意識,所有工程師和架構師都需要注意。共同設計熱完整性和電源完整性,以防止局部加熱影響電源性能。優化小芯片放置以平衡熱量分配和功率分配。
制造可變性考慮因素:考慮不同小芯片之間的電阻、電容和電感的變化。與 OSAT 和代工廠密切合作,以獲得高質量的凸塊、互連、混合鍵合模型。管理小芯片之間的變異差異。
硅驗證:執行廣泛的制造后驗證,以確保保持電源完整性。盡可能包括外部/內部探針或單獨的測試圖案,以便能夠觀察和提取交叉芯片連接、電源布線的特性。在硅啟動期間。
「通過在設計過程的早期解決這些問題,小芯片架構師和設計人員可以增強電源完整性并確保多小芯片系統的可靠性能,」他補充道。
結論
在基于小芯片的設計中規劃功耗相關效應比使用平面 SoC 要困難得多,并且需要在設計過程的一開始就進行。
「具有單獨仿真的經典方法面臨的問題是,必須對每個級別的潛在正電容效應和穩定電容效應進行良好建模,」Fraunhofer 的 Heinig 說,并指出這需要芯片封裝接口的精確規范或協同仿真。「由于封裝密度較低,因此必須降低每個芯片的電容百分比,這涉及到非常精確設計的電源網格。這在對封裝和芯片中的電網進行全面仿真時效果最佳。
或者換句話說,它需要更廣泛的系統級方法。「小芯片的設計不能孤立地完成其集成所需的封裝和 PCB 解決方案類型,」Arm 的 DeLaCruz 說。「考慮到這些小芯片系統將趨向于在新興節點中至少有一個小芯片,因為功率密度和由此產生的復雜性隨著每個節點的縮小而增加,這一點尤其正確。小芯片設計人員需要考慮甚至測量代表性系統,以便為使用小芯片的其他方充分提供所需的集成指導。
評論