新聞中心

EEPW首頁 > 網(wǎng)絡(luò)與存儲(chǔ) > 市場(chǎng)分析 > HBM，爆炸式增長

HBM，爆炸式增長

作者：medium 時(shí)間：2025-07-08 來源：半導(dǎo)體產(chǎn)業(yè)縱橫

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫查詢

高帶寬內(nèi)存（HBM）是下一代 DRAM（動(dòng)態(tài)隨機(jī)存取存儲(chǔ)器）技術(shù)，可實(shí)現(xiàn)超高速和寬數(shù)據(jù)傳輸。

HBM 的核心創(chuàng)新在于其獨(dú)特的 3D 堆疊結(jié)構(gòu)，其中多個(gè) DRAM 芯片（4 層、8 層甚至 12 層）使用先進(jìn)的封裝技術(shù)垂直堆疊。3D 結(jié)構(gòu)使 HBM 能夠以比 GDDR 等傳統(tǒng)內(nèi)存解決方案高得多的帶寬（數(shù)據(jù)傳輸速率）運(yùn)行。

可以這樣想：HBM 不是將所有內(nèi)存芯片并排布置在平板上，而是將它們像多層建筑一樣堆疊起來。這種垂直集成與復(fù)雜的電氣連接相結(jié)合，為數(shù)據(jù)創(chuàng)造了一條高速公路，從而能夠更快、更高效地與處理器進(jìn)行通信。

HBM 3D 結(jié)構(gòu)（來源：Semiconductor Engineering）

為什么高帶寬內(nèi)存（HBM）對(duì) AI 至關(guān)重要？

根據(jù) IDTechEx 的報(bào)告，全球 HBM 市場(chǎng)將在未來十年內(nèi)增長 15 倍。這種爆炸式增長的核心在于高帶寬內(nèi)存（HBM）以超高帶寬和低延遲為圖形處理單元（GPU）提供海量數(shù)據(jù)流的獨(dú)特能力。

GPU 與中央處理器

CPU（中央處理器）托管少數(shù)針對(duì)順序、邏輯復(fù)雜的任務(wù)進(jìn)行了優(yōu)化的復(fù)雜內(nèi)核，而 GPU 則擁有數(shù)千個(gè)旨在并行處理數(shù)據(jù)的簡(jiǎn)單內(nèi)核。每個(gè) CPU 核心都具有強(qiáng)大的單線程性能和復(fù)雜的控制邏輯。然而，現(xiàn)代 AI 訓(xùn)練和推理涉及處理數(shù) TB 的參數(shù)和中間激活，遠(yuǎn)遠(yuǎn)超出了幾個(gè) CPU 內(nèi)核可以有效處理的范圍。

GPU 專為圖形渲染和視頻編碼而設(shè)計(jì)，因此它們可以同時(shí)或并行處理大量相對(duì)簡(jiǎn)單的計(jì)算。這種大規(guī)模并行架構(gòu)使 GPU 成為 AI 訓(xùn)練和推理的完美之選，這涉及以相對(duì)規(guī)則的計(jì)算模式（一次進(jìn)行數(shù)百萬次乘加運(yùn)算）處理大量數(shù)據(jù)集。這就是為什么 GPU 成為 AI 加速器的核心芯片。

CPU 與 GPU 的比較（來源：Layerstack）

內(nèi)存帶寬決定 GPU 速度

內(nèi)存帶寬是指內(nèi)存子系統(tǒng)每單位時(shí)間（通常為每秒）可以傳輸?shù)臄?shù)據(jù)總量。它直接測(cè)量處理器（如 CPU 或 GPU）從連接的內(nèi)存（DRAM）讀取數(shù)據(jù)或?qū)⒔Y(jié)果寫入其的速度。

例如，如果內(nèi)存系統(tǒng)每秒可以可靠地傳輸 100GB 的數(shù)據(jù)，則其帶寬為 100GB/s。您可以使用以下公式粗略估計(jì)帶寬：

內(nèi)存帶寬（GB/s）= [總線寬度（位）× 有效傳輸速率（GT/s） ] ÷ 8

Bus Width （bit）（總線寬度（位））：內(nèi)存接口一次可以并行傳輸多少位數(shù)據(jù)。更寬的公交車就像在數(shù)據(jù)高速公路上擁有更多的車道。例如，HBM2E 的接口寬度可以達(dá)到 1024 位或更高，遠(yuǎn)遠(yuǎn)超過 GDDR6 的 32 位。
有效傳輸速率（Hz / GT/s）：每秒數(shù)據(jù)傳輸作數(shù)。現(xiàn)代高速內(nèi)存（如 GDDR、HBM）通常使用雙倍數(shù)據(jù)速率（DDR）或四倍數(shù)據(jù)速率（QDR）技術(shù)，在時(shí)鐘信號(hào)的上升沿和下降沿傳輸數(shù)據(jù)。
為了實(shí)現(xiàn)更高的內(nèi)存帶寬，您需要高有效傳輸速率（數(shù)據(jù)「運(yùn)行速度快」）和寬總線寬度（許多「數(shù)據(jù)通道」）。

為什么 HBM 的 Ultra-Wide Bus 解決了內(nèi)存瓶頸

在 AI 應(yīng)用程序中，模型的參數(shù)可能為數(shù)百 GB 甚至 TB。在計(jì)算過程中，GPU 經(jīng)常與內(nèi)存交換大量參數(shù)和中間結(jié)果（激活、梯度）。

傳統(tǒng)系統(tǒng)將內(nèi)存分層到緩存（SRAM）→主內(nèi)存（DRAM）→存儲(chǔ)（SSD/HDD）中，但由于內(nèi)存壁問題和處理器利用率不足，當(dāng)今的 AI 和 HPC 工作負(fù)載暴露了這種層次結(jié)構(gòu)的限制。為了防止強(qiáng)大的 GPU 受到數(shù)據(jù)供應(yīng)的瓶頸（即避免「饑餓」的 GPU），該行業(yè)正在重新劃分內(nèi)存堆棧：

封裝內(nèi) HBM：共同封裝的 3D 堆疊 DRAM 距離 GPU 芯片僅幾英寸。
CXL 池內(nèi)存：跨加速器共享 DDR 池。
基于 NAND 的內(nèi)存：SLC 優(yōu)化存儲(chǔ)和 TLC/QLC，適用于較冷的數(shù)據(jù)層。

高帶寬內(nèi)存（HBM）具有更高的吞吐量，可以同時(shí)處理來自各個(gè)內(nèi)核的多個(gè)內(nèi)存請(qǐng)求。例如，HBM3E 通過結(jié)合高速接口技術(shù)，將其數(shù)據(jù)「高速公路」（總線寬度）大幅擴(kuò)大到 1,024 甚至 2,048 位，從而使每個(gè)堆棧的速度達(dá)到 1,225 GB/s。

HBM 使用 3D 存儲(chǔ)芯片陣列，垂直堆疊并使用硅通孔（TSV）并聯(lián)連接。（來源： TOP500）

最新一代 HBM3E 使用帶有微凸塊和底部填充的熱壓縮來堆疊 DRAM 芯片，然而，SK 海力士、三星和美光等制造商正在過渡到更先進(jìn)的封裝技術(shù)，例如 HBM4 及更高版本的銅-銅混合鍵合，以增加輸入/輸出、降低功耗、改善散熱、減小電極尺寸等。

視頻隨機(jī)存取存儲(chǔ)器（VRAM）的作用

專為 GPU 設(shè)計(jì)的高速內(nèi)存稱為 VRAM（視頻隨機(jī)存取存儲(chǔ)器）。在當(dāng)今的高端 AI 和計(jì)算中，HBM 是占主導(dǎo)地位的 VRAM 解決方案。

VRAM 是 GPU 的專用內(nèi)存緩沖區(qū)，用于存儲(chǔ)關(guān)鍵數(shù)據(jù)以便快速訪問。（來源： Ms.Code）

典型的顯卡（或 AI 加速器）由一個(gè) GPU 芯片與 VRAM 模塊（通常是多個(gè) HBM 堆棧）緊密耦合組成。

以下是 GPU 執(zhí)行計(jì)算時(shí)的典型數(shù)據(jù)流：

數(shù)據(jù)加載：用于計(jì)算的初始數(shù)據(jù)通過 PCIe 等接口從速度較慢、較大的 CPU 系統(tǒng)內(nèi)存（RAM）傳輸?shù)?GPU 的專用高速 VRAM （HBM）。
并行計(jì)算：GPU 的眾多計(jì)算內(nèi)核從高速 VRAM （HBM）讀取必要的數(shù)據(jù)段并執(zhí)行密集的并行計(jì)算（例如，矩陣乘法、卷積）。
結(jié)果暫存：計(jì)算的中間或最終結(jié)果快速寫回 VRAM （HBM）進(jìn)行臨時(shí)存儲(chǔ)。
數(shù)據(jù)輸出/保存：處理后的數(shù)據(jù)最終從 VRAM （HBM）傳輸回 CPU 系統(tǒng)內(nèi)存（RAM）進(jìn)行進(jìn)一步處理或存儲(chǔ)，或者在某些情況下（如圖形輸出），直接從 VRAM 輸出到顯示接口。

在圖像識(shí)別、自然語言處理（NLP）和大型語言模型（LLM）訓(xùn)練/推理等 AI 任務(wù)中，模型涉及數(shù)十億甚至數(shù)萬億個(gè)參數(shù)。計(jì)算在很大程度上依賴于 GPU 內(nèi)核和 VRAM 之間持續(xù)、高速的數(shù)據(jù)交換。

因此，VRAM 的性能，尤其是其高速讀寫海量數(shù)據(jù)的能力，直接決定了 GPU 整體計(jì)算效率的上限。如果 GPU 核心急需的數(shù)據(jù)（指令、參數(shù)、中間結(jié)果）由于內(nèi)存帶寬不足或高延遲而無法按時(shí)交付，則計(jì)算單元將卡頓，浪費(fèi)寶貴的計(jì)算能力并妨礙最佳性能（形成「內(nèi)存墻」或內(nèi)存瓶頸）。

這就是為什么 HBM 憑借其出色的高帶寬（滿足數(shù)據(jù)吞吐量需求）和低延遲（減少內(nèi)核等待時(shí)間）已成為 NVIDIA H100 和 AMD MI300X 等高性能 AI 專用 GPU 不可替代的內(nèi)存解決方案。

近距離觀察 HBM：3D 結(jié)構(gòu)

HBM 的核心創(chuàng)新在于其獨(dú)特的「3D」結(jié)構(gòu)。HBM 不是傳統(tǒng)的平面存儲(chǔ)芯片，而是像摩天大樓一樣垂直堆疊多個(gè)標(biāo)準(zhǔn) DRAM 芯片（稱為 DRAM 芯片）。然后，這些芯片通過密集的硅通孔（TSV）在垂直方向上電氣互連。

每個(gè) DRAM 芯片都使用極薄的粘合劑材料進(jìn)行粘合，最初通過微凸塊在各層之間互連。

HBM 高性能的關(guān)鍵在于三個(gè)相互關(guān)聯(lián)的核心技術(shù)要素：

堆棧：垂直堆疊多層 DRAM 芯片可實(shí)現(xiàn)單位面積存儲(chǔ)容量的指數(shù)級(jí)增長（例如，8 層堆棧提供的容量是單個(gè)芯片的 8 倍），節(jié)省空間并實(shí)現(xiàn)更大的容量。
TSV（硅通孔）：在堆疊的 DRAM 芯片內(nèi)蝕刻小孔，并填充導(dǎo)電材料以形成垂直通道（直徑僅為 5-10 微米）。這種高密度、短距離的垂直布線直接連接上下層的信號(hào)、電源和接地線，實(shí)現(xiàn)了傳統(tǒng)平面布線無法實(shí)現(xiàn)的極寬總線寬度（超過 1024 位）。
中介層：一種精密的硅或有機(jī)襯底，可同時(shí)承載 GPU 芯片和 HBM 堆棧。它使用其表面和內(nèi)部高密度布線（走線寬度/間距低至微米級(jí)）在極短的距離內(nèi)將 HBM 堆棧的超寬接口與 GPU 芯片的高速 I/O 端口互連。

下圖說明了 GDDR 和 HBM 之間的基本結(jié)構(gòu)差異。

GDDR 和 HBM 的區(qū)別（來源： PC Perspective）

GDDR 的工作原理是什么？

多個(gè)獨(dú)立的 DRAM 芯片（單個(gè)組件）在 BGA 封裝中平面排列，并安裝在 PCB 基板上的 GPU 芯片周圍。

每個(gè) DRAM 組件都需要獨(dú)立、相對(duì)較長的 PCB 走線才能連接到 GPU。這不僅會(huì)占用寶貴的 PCB 面積，增加電路板尺寸和成本，而且長走線會(huì)帶來顯著的信號(hào)傳輸延遲、信號(hào)完整性（SI）挑戰(zhàn)（如反射和串?dāng)_）和更高的驅(qū)動(dòng)功耗。總線寬度受物理可路由通道數(shù)的限制（通常最大為 256 位或 384 位）。

HBM 是如何工作的？

預(yù)先垂直堆疊的 HBM 模塊（包含多個(gè) DRAM 芯片）與 GPU 芯片并排放置在相同的高密度中介層襯底上。

堆疊結(jié)構(gòu)本身大大節(jié)省了平面空間（利用 Z 軸）。因此，靠近 GPU（在同一中介層上）導(dǎo)致極短的互連布線長度（毫米級(jí)甚至更短）和其他優(yōu)勢(shì)，包括：

超高空間利用率
海量存儲(chǔ)容量
超寬總線寬度（通過 TSV 和轉(zhuǎn)接板實(shí)現(xiàn)）
超低信號(hào)延遲
出色的信號(hào)完整性
顯著降低通信功耗

綜上所述，HBM 通過 3D 堆疊 DRAM 封裝并與 GPU 在 2.5D 中介層上緊密集成，完美克服了傳統(tǒng) GDDR 的物理限制，從而在帶寬和革命性的能效方面實(shí)現(xiàn)了數(shù)量級(jí)的提升。

硅通孔（TSV）技術(shù)在高帶寬存儲(chǔ)器（HBM）中的重要性

在高帶寬存儲(chǔ)器（HBM）的堆疊結(jié)構(gòu)中，硅通孔（TSV）技術(shù)在實(shí)現(xiàn) DRAM 芯片之間的垂直互連方面發(fā)揮著至關(guān)重要的作用。

TSV 是蝕刻在硅芯片中的微孔（通常直徑為 5-50 微米），并填充有銅等導(dǎo)電材料，形成垂直電通道。這些互連具有幾個(gè)關(guān)鍵優(yōu)勢(shì)：

超短互連：TSV 允許信號(hào)、電源和接地線直接垂直穿透硅芯片，在相鄰 DRAM 層之間提供盡可能短的電氣連接路徑（約 50-100 微米）。這繞過了傳統(tǒng)上使用的較長的引線鍵合或倒裝芯片互連方法，這些方法需要圍繞芯片邊緣進(jìn)行布線。
高密度互連：芯片內(nèi)密集封裝了數(shù)千到數(shù)十萬個(gè) TSV，與平面封裝方法相比，HBM 實(shí)現(xiàn)了更高的互連密度和并行通道數(shù)。這支持超寬總線寬度，例如 1024 位或 2048 位，這對(duì)于高帶寬至關(guān)重要。
高速、低功耗運(yùn)行：較短的垂直連接路徑可顯著降低信號(hào)傳輸延遲，最大限度地減少信號(hào)衰減和失真，并降低驅(qū)動(dòng)互連所需的功率。與具有較長封裝引線或 PCB 走線的傳統(tǒng) DRAM 芯片布置相比，基于 TSV 的垂直互連可提供更快、更高效和低功耗的信號(hào)傳輸。

這種先進(jìn)的垂直互連結(jié)構(gòu)是 HBM 能夠同時(shí)提供高存儲(chǔ)密度、超高帶寬和低功耗的基礎(chǔ)。

中介層在高帶寬存儲(chǔ)器（HBM）中的作用

HBM 堆棧和 GPU 芯片不直接焊接到普通 PCB 上。相反，它們被共同集成到稱為中介層的精確中間襯底上。中介層本質(zhì)上是具有超精細(xì)布線能力（走線寬度/間距低至 1 微米或更小）的無源硅襯底或高級(jí)有機(jī)襯底。

中介層在 HBM 系統(tǒng)中起著至關(guān)重要的作用：

Bearing Platform：它為 GPU 芯片和 HBM 堆棧芯片提供了一個(gè)物理安裝平臺(tái)。
超高密度互連：其核心價(jià)值在于能夠在其表面和內(nèi)部制造大量（數(shù)千到數(shù)萬個(gè)）非常窄間距（微米級(jí)）的金屬跡線（再分布層- RDL）。這些痕跡就像高架公路或密集的高速道路網(wǎng)絡(luò)。
連接橋：它使用這些超密集走線在非常短的距離（幾毫米到幾十毫米）內(nèi)以低損耗精確連接 HBM 堆棧的超寬接口（球柵陣列，通常包含數(shù)千個(gè)觸點(diǎn)）與 GPU 芯片的巨大高速 I/O 端口（微凸塊陣列）。

同樣，HBM 實(shí)現(xiàn)超高帶寬的關(guān)鍵不僅僅是提高數(shù)據(jù)傳輸?shù)摹竼瓮ǖ浪俣取梗〞r(shí)鐘頻率），而是通過使用 TSV 和中介層共同創(chuàng)建數(shù)量驚人的「并行數(shù)據(jù)通道」（即超寬總線寬度），從而能夠一次傳輸大量數(shù)據(jù)。

HBM 設(shè)計(jì)面臨的主要挑戰(zhàn)是什么？

自第一代 HBM 以來，該技術(shù)已經(jīng)發(fā)展了六代，包括 HBM2、HBM2E、HBM3、HBM3E 和計(jì)劃中中的 HBM4。隨著 2025 年 HBM3E 量產(chǎn)競(jìng)爭(zhēng)的白熱化，下一代 HBM4 的競(jìng)爭(zhēng)已經(jīng)開始。

在這種持續(xù)的技術(shù)升級(jí)中，封裝技術(shù)越來越成為競(jìng)爭(zhēng)的焦點(diǎn)，尤其是在散熱瓶頸變得更加明顯的情況下。如果堆疊芯片的積熱不能得到有效控制，將直接導(dǎo)致性能下降、壽命縮短和功能異常。這使得熱管理以及容量和帶寬成為高級(jí)內(nèi)存開發(fā)的三個(gè)核心指標(biāo)之一。

作為 HBM 高速技術(shù)的基石，TSV （Through-Silicon Via）技術(shù)通過在 DRAM 芯片上蝕刻數(shù)千個(gè)微孔來構(gòu)建垂直電極通道，就像「HBM 摩天大樓」中連接樓層的「高速電梯」一樣。

然而，隨著 HBM3E 中的堆疊層躍升至 12 層，散熱壓力和翹曲問題帶來了雙重挑戰(zhàn)。為了保持總厚度，DRAM 芯片需要比 8 層 HBM3 薄 40%，而減薄過程引入了與結(jié)構(gòu)變形相關(guān)的新技術(shù)障礙。

要突破堆疊超過 12 層的物理限制，混合鍵合技術(shù)可能成為必然選擇。雖然該解決方案可以實(shí)現(xiàn)微米級(jí) 3D 互連，但預(yù)計(jì)包裝成本會(huì)增加 30% 以上。

從 HBM4 到 HBM8 的長期路線圖

未來 HBM 的 I/O 數(shù)量將增加三倍，HBM5、HBM7 和 HBM8 將增加三倍，同時(shí)堆棧層、單層容量和引腳速率也將得到改進(jìn)。此外，鍵合技術(shù)將從目前的微凸塊過渡到銅對(duì)銅直接鍵合方法（混合鍵合）。然而，隨著這種代際演變的發(fā)生，HBM 堆棧產(chǎn)生的熱量將逐漸增加，需要增強(qiáng)的熱管理。

HBM 路線圖（來源： KAIST Teralab）

HBM4：集成 LPDDR 控制器

在傳統(tǒng)的 HBM 堆棧中，通常具有定制的 DRAM 芯片。

HBM4（來源：KAIST Teralab）

然而，在 HBM4 中，HBM 基礎(chǔ)芯片有望集成一個(gè) LPDDR 控制器，為 HBM 存儲(chǔ)系統(tǒng)增加一個(gè)額外的層，并有效利用傳統(tǒng)配置中未使用的容量和帶寬資源。

HBM5：面向 AI 工作負(fù)載的 NMC 簡(jiǎn)介

遷移到 HBM5 后，內(nèi)存堆棧預(yù)計(jì)將包含 NMC （Near-Memory Computing）模塊。這種集成將降低 HBM 和 AI xPU 之間的帶寬要求，改善計(jì)算定位，并提高整體系統(tǒng)性能和能效。

HBM5（來源：KAIST Teralab）

HBM6：雙塔結(jié)構(gòu)和 NMC 集成

目前，每個(gè) HBM 堆棧都由一個(gè) Base Die 和一個(gè)單塔結(jié)構(gòu)的 DRAM 堆棧組成。

然而，對(duì)于 HBM6，預(yù)計(jì)一個(gè)大型 Base Die 將支持兩個(gè) DRAM 堆棧，形成雙塔物理設(shè)計(jì)。

HBM6（來源：KAIST Teralab）

此外，NMC 單元將位于堆棧下方。這一代還將看到從當(dāng)前的硅中介層/Silicon Bridge 連接過渡到硅玻璃復(fù)合中介層，以促進(jìn)多個(gè) GPU 模塊的集成。

HBM7：多層存儲(chǔ)系統(tǒng)和嵌入式冷卻

對(duì)于 HBM7，預(yù)計(jì)有兩大發(fā)展：引入由 HBM 和 HBF（高帶寬閃存）組成的多級(jí)存儲(chǔ)系統(tǒng)，以及在 DRAM 堆棧中集成多功能橋接，以提高信號(hào)質(zhì)量并增加更多功能。

HBM7（來源：KAIST Teralab）

此外，還將引入嵌入式冷卻系統(tǒng)，以解決這些系統(tǒng)的高性能功能產(chǎn)生的熱量。

HBM8：增強(qiáng)型芯片復(fù)合材料和集成冷卻

HBM8 增加了一種復(fù)雜的芯片復(fù)合材料，它不僅利用了 HBM 內(nèi)存封裝的正面，而且還在背面集成了存儲(chǔ)擴(kuò)展。此外，熱管理將緊密集成到結(jié)構(gòu)中，以應(yīng)對(duì)日益增長的熱量挑戰(zhàn)。

HBM8（來源：KAIST Teralab）展望未來：HBM 在 AI 計(jì)算中的未來

盡管高帶寬內(nèi)存（HBM）在 AI 計(jì)算中發(fā)揮著不可替代的作用，但高成本仍然是廣泛采用的重大障礙。

為了克服這一挑戰(zhàn)，該行業(yè)可能會(huì)尋求兩條可能的途徑：

「HBM-Lite」的開發(fā)：此版本旨在通過簡(jiǎn)化當(dāng)前的 HBM 架構(gòu)來優(yōu)化成本，而不會(huì)為要求較低的應(yīng)用犧牲關(guān)鍵性能。
混合存儲(chǔ)架構(gòu)：一種分層方法，在系統(tǒng)級(jí)別將 HBM 與傳統(tǒng)內(nèi)存類型（如 DDR5 和 GDDR7）相結(jié)合。在這種設(shè)置中，HBM 將管理「熱數(shù)據(jù)」——需要快速處理的高優(yōu)先級(jí)信息——而 DDR5/GDDR7 將處理「冷數(shù)據(jù)」，即不常訪問的信息。這種混合策略可以提供靈活的解決方案，從而有效滿足特定需求。對(duì)于高端 AI 訓(xùn)練，完整的 HBM 架構(gòu)將確保所需的吞吐量。對(duì)于邊緣推理，混合解決方案將優(yōu)化總擁有成本（TCO），平衡性能與經(jīng)濟(jì)性。

KAIST 的長期路線圖強(qiáng)調(diào)了 HBM 令人興奮的未來，在內(nèi)存架構(gòu)、AI 工作負(fù)載和散熱解決方案方面不斷進(jìn)步。隨著這些創(chuàng)新的展開，HBM 將不斷發(fā)展以滿足高帶寬、低延遲應(yīng)用不斷增長的需求，確保其在下一代計(jì)算的前沿地位。

關(guān)鍵詞： HBM

評(píng)論

焦點(diǎn)

更多>>

技術(shù)專區(qū)

關(guān)閉

新聞中心

HBM，爆炸式增長

評(píng)論

相關(guān)推薦

技術(shù)專區(qū)

HBM，爆炸式增長