博客專欄

        EEPW首頁 > 博客 > 芯片,太耗電了

        芯片,太耗電了

        發布人:旺材芯片 時間:2024-08-11 來源:工程師 發布文章

        圖片

        處理器和數據中心架構正在發生變化,以滿足運行 AI 和大型語言模型 (LLM) 的服務器的更高電壓需求。


        曾經,服務器運行時耗電量只有幾百瓦。但在過去幾十年里,由于需要處理的數據量大幅增加,以及用戶要求更快處理數據,情況發生了巨大變化。NVIDIA 的Grace Blackwell芯片消耗 5 到 6 千瓦,這大約是過去服務器功耗的 10 倍。


        功率是電壓乘以電流。“如果我需要 5 千瓦,我可以在 120 伏的標準電壓下實現,” Rambus的杰出發明家 Steven Woo 說道。“但我需要 40 安培的電流,這是很大的電流。”


        這類似于你在五金店購買的那種電線。“超大電流電線有很多不同的直徑,而且非常粗,”Woo 說。“以前大家都認為服務器的功率可能是 1 或 2 千瓦,對于 120 伏電壓,你只需提供 10 安培的電流。現在,由于功率需求高得多,如果我將電壓保持在 120 伏,我必須提供四倍甚至更高的電流,但電線無法承受這么大的電流。它們會熔化。”


        如果不能提高電流,那么另一個選擇就是提高電壓。“電流乘以電壓必須等于 5 千瓦,”Woo 指出。“如今服務器的電壓為 48 伏,而以前是 12 伏。現在 NVIDIA 正在討論 48 伏,他們將電壓提高了四倍,這使得他們能夠在保持電流不變的情況下將功率提高四倍。”


        這種變化反映在電源上。西門子 EDA 嵌入式電路板系統部市場開發經理 Rod Dudzinski 指出:“我們看到客戶在構建大型數據中心時,尋求不同的途徑來提供運行機架式系統所需的電力。一些數據中心公司正在借鑒高性能電源模塊和相關電力電子產品的理念和概念來實現這一目標,例如高效的電源轉換為熱效率再到終身可靠性。到 2025 年,傳統數據中心的功耗預計將增加 50%,因此,電路板級電源轉換效率和功率密度對于系統架構師來說是首要考慮因素,應將其作為減少系統中每個 PCB 配電網絡 (PDN) 損耗的手段。”


        類似的變化也反映在 EDA 中。Movellus 戰略營銷副總裁 Lee Vick 表示,數據中心電源領域正在發生的事情與 EDA 領域正在發生的事情有相似之處。“在芯片設計領域,我們過去的情況是,通過 EDA 工具流程單獨制作晶體管,但這些工具是一系列不同的工具——布局工具、時序工具、布線工具。最終,我們不得不轉向一個集成這些工具、集成流程和集成數據的世界,以滿足現代世界的性能需求。現在,即使是 EDA 公司也不會止步于設計,因為你必須管理芯片的生命周期,從設計到測試和制造,一直到現場,在那里他們會對設備進行檢測并捕獲遙測數據,以反饋到設計過程中并改進測試。這是一個完整的生命周期。這是一個完全集成的垂直流程(即使它在時間框架上是水平的),這是至關重要的。”


        類似的趨勢也適用于數據中心的電力。“以前,當你設計芯片時,你會有一個電力預算,”維克說。“或者,如果你是一名工程師,你被賦予一個模塊來設計,你會有一個針對該特定模塊的電力預算,你不敢超出這個預算。但這就是你需要關心的一切——輸入和輸出。現在情況已經不同了。在數據中心,我們看到需求已經遠遠超出了子集或芯片,擴展到主板、機架、數據中心層面。當你談論對全球范圍內有意義的能源需求時,是時候將所有這些都付諸實施了。”


        這里的連鎖反應很重要,而不僅僅是必須將功耗降至最低。“每個人都必須將功耗降至最低,”他說。“有限制,有需求,有變化正在發生,你必須能夠對它們做出反應。另一個關鍵的事情是,我們已經遠遠超越了假設,超越了‘這是未來的事情’的夸張。在最近的 DAC 上,我們有一個小組,討論的是管理千瓦功率預算。我們有來自 IC 設計、EDA、IP 和系統設計的行業專家。所有這些部分都發揮了作用。這不是 IP 提供商、芯片設計師或 EDA 公司可以單獨解決的問題。這需要每個人共同努力。同樣,在數據中心,我們必須改善分配和冷卻,這只會在宏觀層面增加能耗。但現代數據中心的芯片和芯片內部的大量芯片和計算元件的規模只會加劇這種情況。”


        Ansys首席應用工程師 Ashutosh Srivastava認為,這種情況是雙向的,因為芯片設計會導致功耗激增,因為最新的 AI 芯片(包括 GPU)在進行更大、更快的計算時會消耗更多能量。在某些情況下,每臺服務器的功耗超過 2 千瓦。“與此同時,芯片架構師也在尋求設計一種芯片來優化功耗而不影響性能,因為它們的運行成本會更高——不僅是電力成本,還有冷卻基礎設施。”


        此外,數據中心的上游配電也正在發生變化,以適應更大的電力需求,其中包括將機架中的分布式總線電壓從舊的 12V 更改為 48V。Srivastava 表示:“通過將電壓提高 4 倍,電流減少了 4 倍,傳導損耗減少了 16 倍。機架中的每個轉換器也經過重新設計,以提高效率。通過轉換器的放置,可以優化與芯片直接供電相關的功率損耗。將芯片的電源直接堆疊在頂部有助于減少這種功率損耗。”




        新數據中心考慮因素




        數據中心設計的另一個重要考慮因素是其位置。“通常,這些數據中心位于城市地區,因此數據中心的能源效率不高——與人口的電力需求競爭可能會限制其容量,”Srivastava 說。“因此,一些地區禁止建造新的數據中心,如果情況緊急,數據中心將需要減少其電力負荷,以便為社區的其他重要區域供電。這意味著要么制造節能的計算硬件,要么尋找替代電源。這導致了另一種趨勢,大型數據中心現在正在考慮建造自己的發電廠來提供所需的電力,尤其是來自可持續和可靠來源的電力。這可能采用傳統的太陽能或風能與儲能相結合的形式,甚至正在開發中的小型模塊化核反應堆 (SMR)。”


        數據中心的電源管理是一項不斷發展的挑戰。Cadence 產品工程總監 Mark Fenton 表示: “IT 負載在一天中可能會發生很大波動,受到各種應用程序需求的影響。” “機柜的功率是一組復雜的變化變量——其當前用電量、未來項目的預算容量以及最大設計限制。反過來,電力分配和容量可以在多個數據中心之間共享。”


        例如,在共置環境中,用戶不斷調整對共享系統的需求,幾乎不了解 IT 已安裝或即將安裝的內容。“新的 GPU 工作負載表現出不同的功率行為,通常會導致大量且幾乎瞬時的功率峰值,”Fenton 說。“這些波動對數據中心電力基礎設施構成了重大的故障風險,這是一個主要問題。為了優化效率并最大限度地利用可用功率,利用三相電源是有益的。但平衡相位以防止效率低下至關重要。”




        電壓轉換中的功率損耗




        數據中心的電壓轉換涉及多個轉換和調節階段,這可能導致嚴重的功率損耗。“如果我的服務器現在有 48 伏電壓,那么問題在于芯片本身仍然需要在 12 伏或 5 伏,甚至 1 伏電壓下運行,”Rambus 的 Woo 說道。“這意味著必須降低電壓。但每次降低電壓時,都會損失一些功率,因此效率會開始下降。這是因為轉換電壓水平需要功率,所以這是一個大問題。轉換不同的電壓會消耗大量功率。”


        這意味著數據中心基礎設施必須將建筑公用設施電源轉換為機架級的單相或三相電源。“電壓可能會從 13.8 kV(中壓)降至 480 V 或 208 V(低壓),隨后降至 240 V 或 120 V,”Fenton 說。“部分負載下的效率往往更高,而且由于大多數電源采用 2N 冗余供電,因此系統的很大一部分在這些部分負載條件下運行。”


        Ansys 高級應用工程師 Steve Chwirka 指出,損耗始于將公用電源從 480V 交流電降壓的大型變壓器。“這種新的較低交流電壓通過多種類型的電纜和 PDU(配電單元)進行分配,這些 PDU 基本上是非常大的母線。所有這些都會導致系統中的傳導損耗。有幾種電源轉換級別也與功率損耗有關。其中包括不間斷電源 (UPS),它在故障條件下為機架供電,時間剛好夠備用發電機啟動。主要的轉換發生在機架上,交流電壓轉換為高壓直流,然后通過電源單元 (PSU) 轉換為較低的直流電壓。這個直流電壓現在要經過幾個級別的轉換,才能到達實際的芯片。”


        在每個級別,功率損耗量都不同。從公用設施輸入到芯片,Chwirka 對功率損耗進行了一些估算。“電力變壓器是非常高效的機器,損耗僅為 1% 到 2%。UPS 系統的效率會根據其設計和負載條件而有所不同。提供最高級別保護的在線 UPS 系統的效率通常為 90% 到 95% 之間。因此,它們會損耗 5% 到 10% 的電力。PDU 也有一些固有損耗。這些損耗會導致大約 1% 到 2% 的額外損耗。現代 PSU 的效率通常為 80% 到 95% 之間。這意味著在從交流轉換為直流的過程中可能會損耗 5% 到 20% 的功率。額外的轉換器(有時稱為中間總線轉換器 (IBS))將機架的 48 V DC 轉換為 8 到 12 V DC,效率可高達 98% 左右。由于尺寸限制,芯片所需的低電壓的最終轉換效率比IBC略低。”




        關于電力輸送你需要知道什么




        在設計數據中心環境時需要考慮很多因素,其中最重要的事情之一就是高電壓周圍的基礎設施。“如果高電壓進入系統,你需要知道如何將電壓降低到你需要的水平,”Woo 指出。“可能是一些外部電路在進行降壓。有一些片上方法可以在小范圍的電壓上進行電壓管理。最重要的是真正了解你的芯片將消耗多少電量,并了解這些電量來自哪里。這通常是一個系統級問題。還有關于老化的問題,因為有時芯片升溫時會發生膨脹。制造芯片的不同材料的膨脹速率都不同,如果進行熱循環(即在高溫和低溫之間頻繁切換),這可能會導致開裂和其他可靠性問題。”


        架構也有影響。Ansys 研究員 Norman Chang 解釋說,隨著 3D-IC 芯片組越來越大,芯片架構師需要考慮將電源垂直分配到芯片組,例如 Tesla D1 Dojo 芯片中的電源系統設計。“架構師還需要考慮熱分布,因為通過系統技術協同優化,3D-IC 中放置了數十個芯片,”他說。“3D-IC 中的模擬/混合信號設計需要放置在對峰值計算工作負載產生的熱/應力變化不太敏感的位置。


        最終,數據中心電力輸送方面的挑戰將落入芯片和系統架構師的視野。Movellus 的 Vick 表示:“作為一名計算機架構師,我非常注重數字化和處理器。后來我開始為硬 IP 公司工作,他們會問‘你們的供電有多少個脈沖?’我會說‘我不知道。電源就在那里。它總是干凈的,你不必擔心。’但實施和集成等因素很重要——你的電源有多干凈,以及你如何布線。我們在架構層面看到的一件事是,當你集成電路的模擬部分時,無論是電源調節、傳感器還是時鐘,你必須將模擬電壓運行到傳統數字區域這一簡單事實可能會嚴重破壞你的設計。假設我有一大塊消耗大量能源的數字邏輯。我想看看電網上發生了什么。我想看看是否出現了信號下降。但你卻想讓我把一個模擬傳感器塞進所有這些數字門海的中間。這很難做到。”


        將模擬設計遷移到數字設計可以讓你更自由地進行更多儀表操作并了解正在發生的事情。“這是超出模塊功能范圍的一個例子,”維克說。“哦,當然,這與實施有很大關系,所以我們正在從深奧的東西轉向現實世界,現實世界的實施很重要。這不是我是否可以設計這個東西,或者我是否可以獲得最佳的 TOPS/watt 數字。我可以在實際設計中實際實現它嗎?我能處理嘈雜的電源嗎?我能否處理不再設計得足夠堅固以承受我扔給它的任何東西的電網,因為如果你設計那樣,你將失去競爭力。所需的裕度和過度設計量表明我再也無法承受那樣的設計,這意味著現在我的電網本身受到與我的邏輯相同的設計約束。它正行駛在那條崎嶇的邊緣,有時它會出現偏移,會出現掙扎,我必須從硬件和軟件的角度來考慮這個問題,而不是假設有無限的清潔能源。”

        來源:半導體行業觀察

        --End--


        *博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。



        關鍵詞: 芯片

        相關推薦

        技術專區

        關閉
        主站蜘蛛池模板: 油尖旺区| 延长县| 龙口市| 项城市| 石家庄市| 湘阴县| 清新县| 文山县| 陇南市| 连山| 永春县| 宜阳县| 宁安市| 乌兰察布市| 馆陶县| 通渭县| 鹤峰县| 临漳县| 布拖县| 仙游县| 靖边县| 溆浦县| 疏附县| 荆州市| 固阳县| 潼南县| 佛学| 奉化市| 临沧市| 左权县| 浏阳市| 万宁市| 云林县| 左云县| 锡林郭勒盟| 望城县| 永兴县| 福清市| 五常市| 积石山| 松桃|