博客專欄

EEPW首頁(yè) > 博客 > 英偉達(dá)新核彈GPU：4nm制程800億晶體管，20張即可承載全球互聯(lián)網(wǎng)流量，全新Hopper架構(gòu)太炸了

英偉達(dá)新核彈GPU：4nm制程800億晶體管，20張即可承載全球互聯(lián)網(wǎng)流量，全新Hopper架構(gòu)太炸了

發(fā)布人：傳感器技術(shù) 時(shí)間：2022-03-24 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

發(fā)布文章

他來了他來了，老黃帶著英偉達(dá)的最新一代GPU來了。

之前大家猜的5nm錯(cuò)了，一手大驚喜，老黃直接上了臺(tái)積電4nm工藝。

新卡取名H100，采用全新Hopper架構(gòu)，直接集成了800億個(gè)晶體管，比上一代A100足足多了260億個(gè)。

內(nèi)核數(shù)量則飆到了前所未有的16896個(gè)，達(dá)到上一代A100卡的2.5倍。

浮點(diǎn)計(jì)算和張量核心運(yùn)算能力也隨之翻了至少3倍，比如FP32就達(dá)到了達(dá)到60萬(wàn)億次/秒。

特別注意的是，H100面向AI計(jì)算，針對(duì)Transformer搭載了優(yōu)化引擎，讓大模型訓(xùn)練速度直接×6。

（可算知道5300億參數(shù)的威震天-圖靈背后的秘訣了。）

作為一款性能爆炸的全新GPU，不出意外，H100將與前輩V100、A100一樣成為AI從業(yè)者心心念念的大寶貝。

不過不得不提，它的功耗也爆炸了，達(dá)到了史無(wú)前例的700W，重回核彈級(jí)別。

關(guān)于自研的Grace CPU，這次大會(huì)也公布了更多細(xì)節(jié)。

沒想到，老黃從庫(kù)克那里學(xué)來一手1+1=2，兩塊CPU“粘”在一起組成了CPU超級(jí)芯片——Grace CPU Superchip。

Grace CPU采用最新Arm v9架構(gòu)，兩塊總共擁有144個(gè)核心，擁有1TB/s的內(nèi)存帶寬，比蘋果最新M1 Ultra的800GB/s還高出一截。

基于全新CPU、GPU基礎(chǔ)硬件，這次發(fā)布會(huì)也帶來了下一代企業(yè)級(jí)AI基礎(chǔ)設(shè)施DXG H100、全球最快AI超算Eos。

當(dāng)然，英偉達(dá)作為真正的元宇宙先驅(qū)，也少不了Omniverse上的新進(jìn)展。

下面具體來看看。

首款Hopper架構(gòu)GPU，性能暴增

作為上一代GPU架構(gòu)A100（安培架構(gòu)）的繼承者，搭載了全新Hopper架構(gòu)的H100有多突飛猛進(jìn)？

話不多說，先上參數(shù)：

老黃可謂下血本，先是直接采用了臺(tái)積電4nm工藝，晶體管一口氣集成了800億個(gè)。

要知道，上一代A100還只是7nm架構(gòu)，這次發(fā)布會(huì)出來前，外界不少聲音猜測(cè)老黃會(huì)用5nm制程，結(jié)果一發(fā)布就給大家來了個(gè)大驚喜。

最恐怖的是CUDA核心直接飆升到了16896個(gè)，直接達(dá)到了A100的近2.5倍。（要知道從V100到A100的時(shí)候，核心也不過增加那么一絲絲）

這次可不能感慨老黃刀法精準(zhǔn)了。

再看浮點(diǎn)運(yùn)算和INT8/FP16/TF32/FP64的張量運(yùn)算，性能基本全部提升3倍不止，相比來看，前兩代的架構(gòu)升級(jí)也顯得小打小鬧。

這也使得H100的熱功耗（TDP）直接達(dá)到了前所未有的700w，英偉達(dá)“核彈工廠”名副其實(shí)（手動(dòng)狗頭）。

話又說回來，這次H100也是首款支持PCle 5.0和HBM3的GPU，數(shù)據(jù)處理速度進(jìn)一步飛升——內(nèi)存帶寬達(dá)到了3TB/s。

這是什么概念？

老黃在發(fā)布會(huì)上神秘一笑：只需要20個(gè)H100在手，全球互聯(lián)網(wǎng)流量我有。

整體參數(shù)細(xì)節(jié)究竟如何，與前代A100和V100對(duì)比一下就知道了：

△圖源@anandtech

值得一提的是，Hopper架構(gòu)的新GPU和英偉達(dá)CPU Grace名字組在一起，就成了著名女性計(jì)算機(jī)科學(xué)家Grace Hopper的名字，這也被英偉達(dá)用于命名他們的超級(jí)芯片。

Grace Hopper發(fā)明了世界上第一個(gè)編譯器和COBOL語(yǔ)言，有“計(jì)算機(jī)軟件工程第一夫人”之稱。

訓(xùn)練3950億參數(shù)大模型僅1天

當(dāng)然，Hopper的新特性遠(yuǎn)不止體現(xiàn)在參數(shù)上。

這次，老黃特意在發(fā)布會(huì)上著重提到了Hopper首次配備的Transformer引擎。

嗯，專為Transformer打造，讓這類模型在訓(xùn)練時(shí)保持精度不變、性能提升6倍，意味著訓(xùn)練時(shí)間從幾周縮短至幾天。

怎么表現(xiàn)？

現(xiàn)在，無(wú)論是訓(xùn)練1750億參數(shù)的GPT-3 （19小時(shí)），還是3950億參數(shù)的Transformer大模型（21小時(shí)），H100都能將訓(xùn)練時(shí)間從一周縮短到1天之內(nèi)，速度提升高達(dá)9倍。

推理性能也是大幅提升，像英偉達(dá)推出的5300億 Megatron模型，在H100上推理時(shí)的吞吐量比A100直接高出30倍，響應(yīng)延遲降低到1秒，可以說是完美hold住了。

不得不說，英偉達(dá)這波確實(shí)突入了Transformer陣營(yíng)。

在此之前，英偉達(dá)一系列GPU優(yōu)化設(shè)計(jì)基本都是針對(duì)卷積架構(gòu)進(jìn)行的，接近要把“I love 卷積”這幾個(gè)字印在腦門上。

要怪只怪Transformer最近實(shí)在太受歡迎。（手動(dòng)狗頭）

當(dāng)然，H100的亮點(diǎn)不止如此，伴隨著它以及英偉達(dá)一系列芯片，隨后都會(huì)引入NVIDIA NVLink第四代互連技術(shù)。

也就是說，芯片堆堆樂的效率更高了，I/O帶寬更是擴(kuò)展至900GB/s。

這次，老黃還著重提到了GPU的安全性，包括實(shí)例之間具有隔離保護(hù)、新GPU具有機(jī)密計(jì)算功能等。

當(dāng)然，數(shù)學(xué)計(jì)算能力也提升了。

這次H100上新的DPX指令可以加速動(dòng)態(tài)規(guī)劃，在運(yùn)算路徑優(yōu)化和基因組學(xué)在內(nèi)的一系列動(dòng)態(tài)規(guī)劃算法時(shí)速度提升了7倍。

據(jù)老黃介紹，H100會(huì)在今年第三季度開始供貨，網(wǎng)友調(diào)侃“估計(jì)也便宜不了”。

目前，H100有兩個(gè)版本可選：

一個(gè)就是功率高達(dá)700W的SXM，用于高性能服務(wù)器；另一個(gè)是適用于更主流的服務(wù)器PCIe，功耗也比上一代A100的300W多了50W。

4608塊H100，打造全球最快AI超算

H100都發(fā)布了，老黃自然不會(huì)放過任何一個(gè)搭建超級(jí)計(jì)算機(jī)的機(jī)會(huì)。

基于H100推出的最新DGX H100計(jì)算系統(tǒng)，與上一代“烤箱”一樣，同樣也是配備8塊GPU。

不同的是，DGX H100系統(tǒng)在FP8精度下達(dá)到了32 Petaflop的AI性能，比上一代DGX A100系統(tǒng)整整高了6倍。

各GPU之間的連接速度也變得更快，900GB/s的速度接近上一代的1.5倍。

最關(guān)鍵的是，這次英偉達(dá)還在DGX H100基礎(chǔ)上，搭建了一臺(tái)Eos超級(jí)計(jì)算機(jī)，一舉成為AI超算界的性能TOP 1——

光就18.4 Exaflops的AI計(jì)算性能，就比日本的“富岳”（Fugaku）超級(jí)計(jì)算機(jī)快了4倍。

這臺(tái)超算配備了576個(gè)DGX H100系統(tǒng)，直接用了4608塊H100。

即使是傳統(tǒng)科學(xué)計(jì)算，算力也能達(dá)到275 Petaflops （富岳是442 Petaflops），躋身前5的超算是沒什么問題。

“拼裝”CPU，跑分成了TOP1

本次GTC大會(huì)，老黃仍然“提了幾嘴”超級(jí)服務(wù)器芯片Grace。

它在去年4月份的GTC大會(huì)就已經(jīng)有所亮相，和當(dāng)時(shí)一樣，老黃表示：有望2023年可以開始供貨，反正今年是不可能碰上了。

不過，Grace的性能倒是值得一提，有了“驚人進(jìn)展”。

它被用在兩個(gè)超級(jí)芯片中：

一個(gè)是Grace Hopper超級(jí)芯片，單MCM，由一個(gè)Grace CPU和一個(gè)Hopper架構(gòu)的GPU組成。

一個(gè)是Grace CPU超級(jí)芯片，由兩個(gè)Grace CPU組成，通過NVIDIA NVLink-C2C技術(shù)互連，包括144個(gè)Arm核心，并有著高達(dá)1TB/s的內(nèi)存帶寬——帶寬提升2倍的同時(shí)，能耗“只要”500w。

很難不讓人聯(lián)想到蘋果剛發(fā)的M1 Ultra，看來片間互連技術(shù)的進(jìn)展，讓“拼裝”成了芯片行業(yè)一大趨勢(shì)。

Grace超級(jí)芯片在SPECrate?2017_int_base基準(zhǔn)測(cè)試中的模擬性能達(dá)到了740分，是當(dāng)前DGX A100 搭載的CPU的1.5倍（460分）。

Grace超級(jí)芯片可以運(yùn)行在所有的NVIDIA計(jì)算平臺(tái)，既可作為獨(dú)立的純CPU系統(tǒng)，也可作為 GPU加速服務(wù)器，利用NVLink-C2C技術(shù)搭載一塊至八塊基于Hopper架構(gòu)的GPU。

（嗯，剛說完，老黃的芯片堆堆樂就堆上了。）

值得一提的是，英偉達(dá)對(duì)第三方定制芯片開放了NVLink-C2C。

它是一種超快速的芯片到芯片、裸片到裸片的互連技術(shù)，將支持定制裸片與NVIDIA GPU、CPU、DPU、NIC 和SOC之間實(shí)現(xiàn)一致的互連。

或許，任天堂新掌機(jī)可以期待一波？

連工業(yè)也要在元宇宙里搞

當(dāng)然，除了上述內(nèi)容之外，這次英偉達(dá)也透露了不少與工業(yè)應(yīng)用相關(guān)的案例。

而無(wú)論是自動(dòng)駕駛、還是包括虛擬工廠的數(shù)字孿生等場(chǎng)景，都與計(jì)算機(jī)渲染和仿真技術(shù)有著密不可分的關(guān)系。

英偉達(dá)認(rèn)為，工業(yè)上同樣能通過在虛擬環(huán)境中模擬的方式，來增加AI訓(xùn)練的數(shù)據(jù)量，換而言之就是“在元宇宙里搞大訓(xùn)練”。

例如，讓AI智能駕駛在元宇宙里“練車”，利用仿真出來的數(shù)據(jù)搞出半真實(shí)環(huán)境，增加一些可能突發(fā)故障的環(huán)境模擬：

又例如，搞出等比例、與現(xiàn)實(shí)環(huán)境中材料等參數(shù)完全一樣的“數(shù)字工廠”，在建造前先提前開工試運(yùn)行，以及時(shí)排查可能出現(xiàn)問題的環(huán)境。

除了數(shù)字孿生，數(shù)字資產(chǎn)的生產(chǎn)也是元宇宙早期建設(shè)階段需要著重考慮的部分。

在這方面，英偉達(dá)推出了隨時(shí)隨地能在云端協(xié)作的Omniverse Cloud。

最有意思的是，這次發(fā)布會(huì)上還演示了一套AI驅(qū)動(dòng)虛擬角色系統(tǒng)。

現(xiàn)實(shí)中3天，虛擬角色在元宇宙里靠強(qiáng)化學(xué)習(xí)苦練10年功夫。

等練成一身本領(lǐng)，出來無(wú)論到游戲還是動(dòng)畫里都是個(gè)好“動(dòng)作演員”。

用它生成動(dòng)畫無(wú)需再綁定骨骼、k幀，用自然語(yǔ)言下指令即可，就像導(dǎo)演和真人演員一樣溝通，大大縮短開發(fā)流程。

要論元宇宙基建還得看老黃啊。

Venturebeat對(duì)此評(píng)價(jià)稱，“這些案例給元宇宙賦予了真正的意義”。

那么，你看好英偉達(dá)的omniverse前景嗎？

更多詳情，可以戳完整演講地址（帶中字哦）：
https://www.nvidia.cn/gtc-global/keynote/?nvid=nv-int-bnr-223538&sfdcid=Internal_banners

參考鏈接：
[1]https://www.anandtech.com/show/17327/nvidia-hopper-gpu-architecture-and-h100-accelerator-announced
[2]https://venturebeat.com/2022/03/22/nvidia-gtc-how-to-build-the-industrial-metaverse/

來源：量子位

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關(guān)鍵詞： 英偉達(dá)

焦點(diǎn)

更多>>

技術(shù)專區(qū)

關(guān)閉

博客專欄

英偉達(dá)新核彈GPU：4nm制程800億晶體管，20張即可承載全球互聯(lián)網(wǎng)流量，全新Hopper架構(gòu)太炸了

相關(guān)推薦

技術(shù)專區(qū)

英偉達(dá)新核彈GPU：4nm制程800億晶體管，20張即可承載全球互聯(lián)網(wǎng)流量，全新Hopper架構(gòu)太炸了