HBM,爆炸式增長
高帶寬內(nèi)存(HBM)是下一代 DRAM(動(dòng)態(tài)隨機(jī)存取存儲(chǔ)器)技術(shù),可實(shí)現(xiàn)超高速和寬數(shù)據(jù)傳輸。
HBM 的核心創(chuàng)新在于其獨(dú)特的 3D 堆疊結(jié)構(gòu),其中多個(gè) DRAM 芯片(4 層、8 層甚至 12 層)使用先進(jìn)的封裝技術(shù)垂直堆疊。3D 結(jié)構(gòu)使 HBM 能夠以比 GDDR 等傳統(tǒng)內(nèi)存解決方案高得多的帶寬(數(shù)據(jù)傳輸速率)運(yùn)行。
可以這樣想:HBM 不是將所有內(nèi)存芯片并排布置在平板上,而是將它們像多層建筑一樣堆疊起來。這種垂直集成與復(fù)雜的電氣連接相結(jié)合,為數(shù)據(jù)創(chuàng)造了一條高速公路,從而能夠更快、更高效地與處理器進(jìn)行通信。
HBM 3D 結(jié)構(gòu)(來源:Semiconductor Engineering)
為什么高帶寬內(nèi)存(HBM)對(duì) AI 至關(guān)重要?
根據(jù) IDTechEx 的報(bào)告,全球 HBM 市場(chǎng)將在未來十年內(nèi)增長 15 倍。這種爆炸式增長的核心在于高帶寬內(nèi)存(HBM)以超高帶寬和低延遲為圖形處理單元(GPU)提供海量數(shù)據(jù)流的獨(dú)特能力。
GPU 與中央處理器
CPU(中央處理器)托管少數(shù)針對(duì)順序、邏輯復(fù)雜的任務(wù)進(jìn)行了優(yōu)化的復(fù)雜內(nèi)核,而 GPU 則擁有數(shù)千個(gè)旨在并行處理數(shù)據(jù)的簡(jiǎn)單內(nèi)核。每個(gè) CPU 核心都具有強(qiáng)大的單線程性能和復(fù)雜的控制邏輯。然而,現(xiàn)代 AI 訓(xùn)練和推理涉及處理數(shù) TB 的參數(shù)和中間激活,遠(yuǎn)遠(yuǎn)超出了幾個(gè) CPU 內(nèi)核可以有效處理的范圍。
GPU 專為圖形渲染和視頻編碼而設(shè)計(jì),因此它們可以同時(shí)或并行處理大量相對(duì)簡(jiǎn)單的計(jì)算。這種大規(guī)模并行架構(gòu)使 GPU 成為 AI 訓(xùn)練和推理的完美之選,這涉及以相對(duì)規(guī)則的計(jì)算模式(一次進(jìn)行數(shù)百萬次乘加運(yùn)算)處理大量數(shù)據(jù)集。這就是為什么 GPU 成為 AI 加速器的核心芯片。
CPU 與 GPU 的比較(來源:Layerstack)
內(nèi)存帶寬決定 GPU 速度
內(nèi)存帶寬是指內(nèi)存子系統(tǒng)每單位時(shí)間(通常為每秒)可以傳輸?shù)臄?shù)據(jù)總量。它直接測(cè)量處理器(如 CPU 或 GPU)從連接的內(nèi)存(DRAM)讀取數(shù)據(jù)或?qū)⒔Y(jié)果寫入其的速度。
例如,如果內(nèi)存系統(tǒng)每秒可以可靠地傳輸 100GB 的數(shù)據(jù),則其帶寬為 100GB/s。您可以使用以下公式粗略估計(jì)帶寬:
內(nèi)存帶寬(GB/s)= [總線寬度(位)× 有效傳輸速率(GT/s) ] ÷ 8
Bus Width (bit)(總線寬度(位)):內(nèi)存接口一次可以并行傳輸多少位數(shù)據(jù)。更寬的公交車就像在數(shù)據(jù)高速公路上擁有更多的車道。例如,HBM2E 的接口寬度可以達(dá)到 1024 位或更高,遠(yuǎn)遠(yuǎn)超過 GDDR6 的 32 位。
有效傳輸速率(Hz / GT/s):每秒數(shù)據(jù)傳輸作數(shù)。現(xiàn)代高速內(nèi)存(如 GDDR、HBM)通常使用雙倍數(shù)據(jù)速率(DDR)或四倍數(shù)據(jù)速率(QDR)技術(shù),在時(shí)鐘信號(hào)的上升沿和下降沿傳輸數(shù)據(jù)。
為了實(shí)現(xiàn)更高的內(nèi)存帶寬,您需要高有效傳輸速率(數(shù)據(jù)「運(yùn)行速度快」)和寬總線寬度(許多「數(shù)據(jù)通道」)。
為什么 HBM 的 Ultra-Wide Bus 解決了內(nèi)存瓶頸
在 AI 應(yīng)用程序中,模型的參數(shù)可能為數(shù)百 GB 甚至 TB。在計(jì)算過程中,GPU 經(jīng)常與內(nèi)存交換大量參數(shù)和中間結(jié)果(激活、梯度)。
傳統(tǒng)系統(tǒng)將內(nèi)存分層到緩存(SRAM)→主內(nèi)存(DRAM)→存儲(chǔ)(SSD/HDD)中,但由于內(nèi)存壁問題和處理器利用率不足,當(dāng)今的 AI 和 HPC 工作負(fù)載暴露了這種層次結(jié)構(gòu)的限制。為了防止強(qiáng)大的 GPU 受到數(shù)據(jù)供應(yīng)的瓶頸(即避免「饑餓」的 GPU),該行業(yè)正在重新劃分內(nèi)存堆棧:
封裝內(nèi) HBM:共同封裝的 3D 堆疊 DRAM 距離 GPU 芯片僅幾英寸。
CXL 池內(nèi)存:跨加速器共享 DDR 池。
基于 NAND 的內(nèi)存:SLC 優(yōu)化存儲(chǔ)和 TLC/QLC,適用于較冷的數(shù)據(jù)層。
高帶寬內(nèi)存(HBM)具有更高的吞吐量,可以同時(shí)處理來自各個(gè)內(nèi)核的多個(gè)內(nèi)存請(qǐng)求。例如,HBM3E 通過結(jié)合高速接口技術(shù),將其數(shù)據(jù)「高速公路」(總線寬度)大幅擴(kuò)大到 1,024 甚至 2,048 位,從而使每個(gè)堆棧的速度達(dá)到 1,225 GB/s。
HBM 使用 3D 存儲(chǔ)芯片陣列,垂直堆疊并使用硅通孔(TSV)并聯(lián)連接。(來源: TOP500)
最新一代 HBM3E 使用帶有微凸塊和底部填充的熱壓縮來堆疊 DRAM 芯片,然而,SK 海力士、三星和美光等制造商正在過渡到更先進(jìn)的封裝技術(shù),例如 HBM4 及更高版本的銅-銅混合鍵合,以增加輸入/輸出、降低功耗、改善散熱、減小電極尺寸等。
視頻隨機(jī)存取存儲(chǔ)器(VRAM)的作用
專為 GPU 設(shè)計(jì)的高速內(nèi)存稱為 VRAM(視頻隨機(jī)存取存儲(chǔ)器)。在當(dāng)今的高端 AI 和計(jì)算中,HBM 是占主導(dǎo)地位的 VRAM 解決方案。
VRAM 是 GPU 的專用內(nèi)存緩沖區(qū),用于存儲(chǔ)關(guān)鍵數(shù)據(jù)以便快速訪問。(來源: Ms.Code)
典型的顯卡(或 AI 加速器)由一個(gè) GPU 芯片與 VRAM 模塊(通常是多個(gè) HBM 堆棧)緊密耦合組成。
以下是 GPU 執(zhí)行計(jì)算時(shí)的典型數(shù)據(jù)流:
數(shù)據(jù)加載:用于計(jì)算的初始數(shù)據(jù)通過 PCIe 等接口從速度較慢、較大的 CPU 系統(tǒng)內(nèi)存(RAM)傳輸?shù)?GPU 的專用高速 VRAM (HBM)。
并行計(jì)算:GPU 的眾多計(jì)算內(nèi)核從高速 VRAM (HBM)讀取必要的數(shù)據(jù)段并執(zhí)行密集的并行計(jì)算(例如,矩陣乘法、卷積)。
結(jié)果暫存:計(jì)算的中間或最終結(jié)果快速寫回 VRAM (HBM)進(jìn)行臨時(shí)存儲(chǔ)。
數(shù)據(jù)輸出/保存:處理后的數(shù)據(jù)最終從 VRAM (HBM)傳輸回 CPU 系統(tǒng)內(nèi)存(RAM)進(jìn)行進(jìn)一步處理或存儲(chǔ),或者在某些情況下(如圖形輸出),直接從 VRAM 輸出到顯示接口。
在圖像識(shí)別、自然語言處理(NLP)和大型語言模型(LLM)訓(xùn)練/推理等 AI 任務(wù)中,模型涉及數(shù)十億甚至數(shù)萬億個(gè)參數(shù)。計(jì)算在很大程度上依賴于 GPU 內(nèi)核和 VRAM 之間持續(xù)、高速的數(shù)據(jù)交換。
因此,VRAM 的性能,尤其是其高速讀寫海量數(shù)據(jù)的能力,直接決定了 GPU 整體計(jì)算效率的上限。如果 GPU 核心急需的數(shù)據(jù)(指令、參數(shù)、中間結(jié)果)由于內(nèi)存帶寬不足或高延遲而無法按時(shí)交付,則計(jì)算單元將卡頓,浪費(fèi)寶貴的計(jì)算能力并妨礙最佳性能(形成「內(nèi)存墻」或內(nèi)存瓶頸)。
這就是為什么 HBM 憑借其出色的高帶寬(滿足數(shù)據(jù)吞吐量需求)和低延遲(減少內(nèi)核等待時(shí)間)已成為 NVIDIA H100 和 AMD MI300X 等高性能 AI 專用 GPU 不可替代的內(nèi)存解決方案。
近距離觀察 HBM:3D 結(jié)構(gòu)
HBM 的核心創(chuàng)新在于其獨(dú)特的「3D」結(jié)構(gòu)。HBM 不是傳統(tǒng)的平面存儲(chǔ)芯片,而是像摩天大樓一樣垂直堆疊多個(gè)標(biāo)準(zhǔn) DRAM 芯片(稱為 DRAM 芯片)。然后,這些芯片通過密集的硅通孔(TSV)在垂直方向上電氣互連。
每個(gè) DRAM 芯片都使用極薄的粘合劑材料進(jìn)行粘合,最初通過微凸塊在各層之間互連。
HBM 高性能的關(guān)鍵在于三個(gè)相互關(guān)聯(lián)的核心技術(shù)要素:
堆棧:垂直堆疊多層 DRAM 芯片可實(shí)現(xiàn)單位面積存儲(chǔ)容量的指數(shù)級(jí)增長(例如,8 層堆棧提供的容量是單個(gè)芯片的 8 倍),節(jié)省空間并實(shí)現(xiàn)更大的容量。
TSV(硅通孔):在堆疊的 DRAM 芯片內(nèi)蝕刻小孔,并填充導(dǎo)電材料以形成垂直通道(直徑僅為 5-10 微米)。這種高密度、短距離的垂直布線直接連接上下層的信號(hào)、電源和接地線,實(shí)現(xiàn)了傳統(tǒng)平面布線無法實(shí)現(xiàn)的極寬總線寬度(超過 1024 位)。
中介層:一種精密的硅或有機(jī)襯底,可同時(shí)承載 GPU 芯片和 HBM 堆棧。它使用其表面和內(nèi)部高密度布線(走線寬度/間距低至微米級(jí))在極短的距離內(nèi)將 HBM 堆棧的超寬接口與 GPU 芯片的高速 I/O 端口互連。
下圖說明了 GDDR 和 HBM 之間的基本結(jié)構(gòu)差異。
GDDR 和 HBM 的區(qū)別(來源: PC Perspective)
GDDR 的工作原理是什么?
多個(gè)獨(dú)立的 DRAM 芯片(單個(gè)組件)在 BGA 封裝中平面排列,并安裝在 PCB 基板上的 GPU 芯片周圍。
每個(gè) DRAM 組件都需要獨(dú)立、相對(duì)較長的 PCB 走線才能連接到 GPU。這不僅會(huì)占用寶貴的 PCB 面積,增加電路板尺寸和成本,而且長走線會(huì)帶來顯著的信號(hào)傳輸延遲、信號(hào)完整性(SI)挑戰(zhàn)(如反射和串?dāng)_)和更高的驅(qū)動(dòng)功耗。總線寬度受物理可路由通道數(shù)的限制(通常最大為 256 位或 384 位)。
HBM 是如何工作的?
預(yù)先垂直堆疊的 HBM 模塊(包含多個(gè) DRAM 芯片)與 GPU 芯片并排放置在相同的高密度中介層襯底上。
堆疊結(jié)構(gòu)本身大大節(jié)省了平面空間(利用 Z 軸)。因此,靠近 GPU(在同一中介層上)導(dǎo)致極短的互連布線長度(毫米級(jí)甚至更短)和其他優(yōu)勢(shì),包括:
超高空間利用率
海量存儲(chǔ)容量
超寬總線寬度(通過 TSV 和轉(zhuǎn)接板實(shí)現(xiàn))
超低信號(hào)延遲
出色的信號(hào)完整性
顯著降低通信功耗
綜上所述,HBM 通過 3D 堆疊 DRAM 封裝并與 GPU 在 2.5D 中介層上緊密集成,完美克服了傳統(tǒng) GDDR 的物理限制,從而在帶寬和革命性的能效方面實(shí)現(xiàn)了數(shù)量級(jí)的提升。
硅通孔(TSV)技術(shù)在高帶寬存儲(chǔ)器(HBM)中的重要性
在高帶寬存儲(chǔ)器(HBM)的堆疊結(jié)構(gòu)中,硅通孔(TSV)技術(shù)在實(shí)現(xiàn) DRAM 芯片之間的垂直互連方面發(fā)揮著至關(guān)重要的作用。
TSV 是蝕刻在硅芯片中的微孔(通常直徑為 5-50 微米),并填充有銅等導(dǎo)電材料,形成垂直電通道。這些互連具有幾個(gè)關(guān)鍵優(yōu)勢(shì):
超短互連:TSV 允許信號(hào)、電源和接地線直接垂直穿透硅芯片,在相鄰 DRAM 層之間提供盡可能短的電氣連接路徑(約 50-100 微米)。這繞過了傳統(tǒng)上使用的較長的引線鍵合或倒裝芯片互連方法,這些方法需要圍繞芯片邊緣進(jìn)行布線。
高密度互連:芯片內(nèi)密集封裝了數(shù)千到數(shù)十萬個(gè) TSV,與平面封裝方法相比,HBM 實(shí)現(xiàn)了更高的互連密度和并行通道數(shù)。這支持超寬總線寬度,例如 1024 位或 2048 位,這對(duì)于高帶寬至關(guān)重要。
高速、低功耗運(yùn)行:較短的垂直連接路徑可顯著降低信號(hào)傳輸延遲,最大限度地減少信號(hào)衰減和失真,并降低驅(qū)動(dòng)互連所需的功率。與具有較長封裝引線或 PCB 走線的傳統(tǒng) DRAM 芯片布置相比,基于 TSV 的垂直互連可提供更快、更高效和低功耗的信號(hào)傳輸。
這種先進(jìn)的垂直互連結(jié)構(gòu)是 HBM 能夠同時(shí)提供高存儲(chǔ)密度、超高帶寬和低功耗的基礎(chǔ)。
中介層在高帶寬存儲(chǔ)器(HBM)中的作用
HBM 堆棧和 GPU 芯片不直接焊接到普通 PCB 上。相反,它們被共同集成到稱為中介層的精確中間襯底上。中介層本質(zhì)上是具有超精細(xì)布線能力(走線寬度/間距低至 1 微米或更小)的無源硅襯底或高級(jí)有機(jī)襯底。
中介層在 HBM 系統(tǒng)中起著至關(guān)重要的作用:
Bearing Platform: 它為 GPU 芯片和 HBM 堆棧芯片提供了一個(gè)物理安裝平臺(tái)。
超高密度互連:其核心價(jià)值在于能夠在其表面和內(nèi)部制造大量(數(shù)千到數(shù)萬個(gè))非常窄間距(微米級(jí))的金屬跡線(再分布層- RDL)。這些痕跡就像高架公路或密集的高速道路網(wǎng)絡(luò)。
連接橋:它使用這些超密集走線在非常短的距離(幾毫米到幾十毫米)內(nèi)以低損耗精確連接 HBM 堆棧的超寬接口(球柵陣列,通常包含數(shù)千個(gè)觸點(diǎn))與 GPU 芯片的巨大高速 I/O 端口(微凸塊陣列)。
同樣,HBM 實(shí)現(xiàn)超高帶寬的關(guān)鍵不僅僅是提高數(shù)據(jù)傳輸?shù)摹竼瓮ǖ浪俣取梗〞r(shí)鐘頻率),而是通過使用 TSV 和中介層共同創(chuàng)建數(shù)量驚人的「并行數(shù)據(jù)通道」(即超寬總線寬度),從而能夠一次傳輸大量數(shù)據(jù)。
HBM 設(shè)計(jì)面臨的主要挑戰(zhàn)是什么?
自第一代 HBM 以來,該技術(shù)已經(jīng)發(fā)展了六代,包括 HBM2、HBM2E、HBM3、HBM3E 和計(jì)劃中中的 HBM4。隨著 2025 年 HBM3E 量產(chǎn)競(jìng)爭(zhēng)的白熱化,下一代 HBM4 的競(jìng)爭(zhēng)已經(jīng)開始。
在這種持續(xù)的技術(shù)升級(jí)中,封裝技術(shù)越來越成為競(jìng)爭(zhēng)的焦點(diǎn),尤其是在散熱瓶頸變得更加明顯的情況下。如果堆疊芯片的積熱不能得到有效控制,將直接導(dǎo)致性能下降、壽命縮短和功能異常。這使得熱管理以及容量和帶寬成為高級(jí)內(nèi)存開發(fā)的三個(gè)核心指標(biāo)之一。
作為 HBM 高速技術(shù)的基石,TSV (Through-Silicon Via)技術(shù)通過在 DRAM 芯片上蝕刻數(shù)千個(gè)微孔來構(gòu)建垂直電極通道,就像「HBM 摩天大樓」中連接樓層的「高速電梯」一樣。
然而,隨著 HBM3E 中的堆疊層躍升至 12 層,散熱壓力和翹曲問題帶來了雙重挑戰(zhàn)。為了保持總厚度,DRAM 芯片需要比 8 層 HBM3 薄 40%,而減薄過程引入了與結(jié)構(gòu)變形相關(guān)的新技術(shù)障礙。
要突破堆疊超過 12 層的物理限制,混合鍵合技術(shù)可能成為必然選擇。雖然該解決方案可以實(shí)現(xiàn)微米級(jí) 3D 互連,但預(yù)計(jì)包裝成本會(huì)增加 30% 以上。
從 HBM4 到 HBM8 的長期路線圖
未來 HBM 的 I/O 數(shù)量將增加三倍,HBM5、HBM7 和 HBM8 將增加三倍,同時(shí)堆棧層、單層容量和引腳速率也將得到改進(jìn)。此外,鍵合技術(shù)將從目前的微凸塊過渡到銅對(duì)銅直接鍵合方法(混合鍵合)。然而,隨著這種代際演變的發(fā)生,HBM 堆棧產(chǎn)生的熱量將逐漸增加,需要增強(qiáng)的熱管理。
HBM 路線圖(來源: KAIST Teralab)
HBM4:集成 LPDDR 控制器
在傳統(tǒng)的 HBM 堆棧中,通常具有定制的 DRAM 芯片。
HBM4(來源:KAIST Teralab)
然而,在 HBM4 中,HBM 基礎(chǔ)芯片有望集成一個(gè) LPDDR 控制器,為 HBM 存儲(chǔ)系統(tǒng)增加一個(gè)額外的層,并有效利用傳統(tǒng)配置中未使用的容量和帶寬資源。
HBM5:面向 AI 工作負(fù)載的 NMC 簡(jiǎn)介
遷移到 HBM5 后,內(nèi)存堆棧預(yù)計(jì)將包含 NMC (Near-Memory Computing)模塊。這種集成將降低 HBM 和 AI xPU 之間的帶寬要求,改善計(jì)算定位,并提高整體系統(tǒng)性能和能效。
HBM5(來源:KAIST Teralab)
HBM6: 雙塔結(jié)構(gòu)和 NMC 集成
目前,每個(gè) HBM 堆棧都由一個(gè) Base Die 和一個(gè)單塔結(jié)構(gòu)的 DRAM 堆棧組成。
然而,對(duì)于 HBM6,預(yù)計(jì)一個(gè)大型 Base Die 將支持兩個(gè) DRAM 堆棧,形成雙塔物理設(shè)計(jì)。
HBM6(來源:KAIST Teralab)
此外,NMC 單元將位于堆棧下方。這一代還將看到從當(dāng)前的硅中介層/Silicon Bridge 連接過渡到硅玻璃復(fù)合中介層,以促進(jìn)多個(gè) GPU 模塊的集成。
HBM7: 多層存儲(chǔ)系統(tǒng)和嵌入式冷卻
對(duì)于 HBM7,預(yù)計(jì)有兩大發(fā)展:引入由 HBM 和 HBF(高帶寬閃存)組成的多級(jí)存儲(chǔ)系統(tǒng),以及在 DRAM 堆棧中集成多功能橋接,以提高信號(hào)質(zhì)量并增加更多功能。
HBM7(來源:KAIST Teralab)
此外,還將引入嵌入式冷卻系統(tǒng),以解決這些系統(tǒng)的高性能功能產(chǎn)生的熱量。
HBM8: 增強(qiáng)型芯片復(fù)合材料和集成冷卻
HBM8 增加了一種復(fù)雜的芯片復(fù)合材料,它不僅利用了 HBM 內(nèi)存封裝的正面,而且還在背面集成了存儲(chǔ)擴(kuò)展。此外,熱管理將緊密集成到結(jié)構(gòu)中,以應(yīng)對(duì)日益增長的熱量挑戰(zhàn)。
HBM8(來源:KAIST Teralab)展望未來:HBM 在 AI 計(jì)算中的未來
盡管高帶寬內(nèi)存(HBM)在 AI 計(jì)算中發(fā)揮著不可替代的作用,但高成本仍然是廣泛采用的重大障礙。
為了克服這一挑戰(zhàn),該行業(yè)可能會(huì)尋求兩條可能的途徑:
「HBM-Lite」的開發(fā): 此版本旨在通過簡(jiǎn)化當(dāng)前的 HBM 架構(gòu)來優(yōu)化成本,而不會(huì)為要求較低的應(yīng)用犧牲關(guān)鍵性能。
混合存儲(chǔ)架構(gòu):一種分層方法,在系統(tǒng)級(jí)別將 HBM 與傳統(tǒng)內(nèi)存類型(如 DDR5 和 GDDR7)相結(jié)合。在這種設(shè)置中,HBM 將管理「熱數(shù)據(jù)」——需要快速處理的高優(yōu)先級(jí)信息——而 DDR5/GDDR7 將處理「冷數(shù)據(jù)」,即不常訪問的信息。這種混合策略可以提供靈活的解決方案,從而有效滿足特定需求。對(duì)于高端 AI 訓(xùn)練,完整的 HBM 架構(gòu)將確保所需的吞吐量。對(duì)于邊緣推理,混合解決方案將優(yōu)化總擁有成本(TCO),平衡性能與經(jīng)濟(jì)性。
KAIST 的長期路線圖強(qiáng)調(diào)了 HBM 令人興奮的未來,在內(nèi)存架構(gòu)、AI 工作負(fù)載和散熱解決方案方面不斷進(jìn)步。隨著這些創(chuàng)新的展開,HBM 將不斷發(fā)展以滿足高帶寬、低延遲應(yīng)用不斷增長的需求,確保其在下一代計(jì)算的前沿地位。
評(píng)論