博客專欄

        EEPW首頁 > 博客 > AI性能突破1Eflop!英偉達DGX GH200發布:256個GH200芯片,144TB共享內存!

        AI性能突破1Eflop!英偉達DGX GH200發布:256個GH200芯片,144TB共享內存!

        發布人:傳感器技術 時間:2023-05-31 來源:工程師 發布文章

        5月29日,AI芯片大廠NVIDIA(英偉達)CEO黃仁勛在COMPUTEX 2023展前發布會上,正式發布了全新的GH200 Grace Hopper超級芯片,以及基于NVIDIA NVLink Switch System 驅動的擁有256個GH200超級芯片的NVIDIA DGX GH200超級計算機,旨在助力開發面向生成式AI語言應用、推薦系統和數據分析工作負載的巨型、下一代模型。

        黃仁勛表示:“生成式AI、大型語言模型和推薦系統是現代經濟的數字引擎。DGX GH200 AI超級計算機集成了NVIDIA最先進的加速計算和網絡技術來拓展AI的前沿。”

        GH200超級芯片:整合了Grace CPU和H100 GPU,擁有2000億個晶體管

        GH200超級芯片使用NVIDIA NVLink-C2C芯片互連,將基于Arm的NVIDIA Grace CPU與NVIDIA H100 Tensor Core GPU整合在了一起,以提供CPU+GPU一致性內存模型,從而不再需要傳統的CPU至GPU PCIe連接。與最新的PCIe Gen5技術相比,這也將GPU和CPU之間的帶寬提高了7倍,將互連功耗減少了5倍以上,并為DGX GH200超級計算機提供了一個600GB的Hopper架構GPU構建模塊。

        圖片

        具體來說, GH200超級芯片,是將 72 核的Grace CPU、H100 GPU、96GB 的 HBM3 和 512 GB 的 LPDDR5X 集成在同一個封裝中,擁有高達 2000 億個晶體管。這種組合提供了 CPU 和 GPU 之間驚人的數據帶寬,高達 900G / s,為某些內存受限的工作負載提供了巨大的優勢。

        圖片

        黃仁勛表示,GH200 Grace Hopper超級芯片已全面投產,將可為運行復雜的AI和高性能計算工作負載提供動力。

        NVIDIA DGX GH200:AI性能突破1 Exaflop

        NVIDIA此前的 DGX A100 系統只能將八個 A100 GPU 聯合起來作為一個單元,面對生成式人工智能大模型對于算力的爆炸式增長,NVIDIA的客戶迫切需要更大、更強大的系統。DGX GH200就是為了提供最大的吞吐量和可擴展性而設計的。

        圖片

        DGX GH200通過定制的NVLink Switch System(包含 36 個 NVLink 開關)將256個GH200超級芯片和高達144TB的共享內存連接成一個單元,避免標準集群連接選項(如 InfiniBand 和以太網)的限制,這種新的互連方式使DGX GH200系統中的256個H100 GPU作為一個整體協同運行,使其成為了專為最高端的人工智能和高性能計算工作負載而設計的系統和參考架構。可支持數萬億參數AI大模型訓練。

        圖片DGX GH200相比上代DGX A100的共享內存容量提升了近500倍

        在 DGX GH200 系統中,GPU 線程可以使用 NVLink 頁表尋址來自 NVLink 網絡中其他 Grace Hopper 超級芯片的對等 HBM3 和 LPDDR5X 內存。NVIDIA Magnum I/O加速庫優化 GPU 通信以提高效率,增強所有 256 個 GPU 的應用程序擴展。 

        圖片

        包含 256 個 GPU 的 NVIDIA DGX GH200與NVLink系統的拓撲結構

        DGX GH200系統的每個Grace Hopper Superchip 都與一個NVIDIA ConnectX-7網絡適配器和一個NVIDIA BlueField-3 NIC配對DGX GH200 擁有 128 TBps 對分帶寬和 230.4 TFLOPS 的 NVIDIA SHARP 網內計算,可加速 AI 中常用的集體操作,并通過減少集體操作的通信開銷,將 NVLink 網絡系統的有效帶寬提高一倍。ConnectX-7 適配器還可以互連多個DGX GH200 系統,以擴展到超過256GPU的更大的解決方案。

        黃仁勛表示,DGX GH200 是“巨型 GPU”,這也是NVIDIA第一次使用 NVLink Switch 拓撲結構來構建整個超級計算機集群,這種結構提供了比前一代系統高出10倍的GPU到GPU帶寬,以及7倍的CPU到GPU的帶寬。它還設計了提供比競爭對手高出 5 倍的互連功耗效率和高達 128 TB / s 的對分帶寬該系統有 150 英里(約 241.4公里)的光纖,并且重達 4 萬磅(約18.14噸),但是呈現出來就像一個單一的 GPU。

        具體性能方面,得益于DGX GH200高達144TB的共享內存,使得其對于受 GPU內存大小瓶頸影響的AI和HPC應用程序的性能有了極大的提升。例如具有 TB 級嵌入式表的深度學習推薦模型 (DLRM)、TB 級圖形神經網絡訓練模型或大型數據分析工作負載中,使用 DGX GH200 可實現 4 至 7 倍的加速。這表明 DGX GH200 是更高級的 AI 和 HPC 模型的更好解決方案,這些模型需要海量內存來進行 GPU 共享內存編程。

        圖片

        △大內存 AI 工作負載的性能比較

        憑借256個GH200超級芯片的加持,DGX GH200 的“AI 性能”也達到了 1 exaflop(一百萬萬億次)級別。

        在軟件工具方面,DGX GH200超級計算機還配備了NVIDIA軟件,可為最大的AI和數據分析工作負載提供一個交鑰匙式全棧解決方案。NVIDIA Base Command軟件提供AI工作流程管理、企業級集群管理和多個加速計算、存儲和網絡基礎設施的庫,以及為運行AI工作負載而優化的系統軟件。


        此外還包含NVIDIA AI Enterprise,即NVIDIA AI平臺的軟件層。它提供100多個框架、預訓練模型和開發工具,以簡化生成式AI、計算機視覺、語音AI等生產AI的開發和部署。

        谷歌云、Meta和微軟將首批采用

        據介紹,谷歌云、Meta和微軟將有望成為首批通過接入DGX GH200系統,來探索其用于生成式AI工作負載的能力的公司。NVIDIA還打算將DGX GH200設計作為藍圖提供給云服務提供商和其他超大規模企業,以便他們能夠進一步根據他們自己的基礎設施進行定制。

        圖片

        谷歌云計算副總裁Mark Lohmeyer表示:“構建先進的生成式模型需要創新的AI基礎設施。Grace Hopper超級芯片的全新NVLink和共享內存解決了大規模AI的關鍵瓶頸,我們期待它在谷歌云以及我們的生成式AI計劃中發揮強大的能力。”

        Meta基礎設施、AI系統及加速平臺副總裁Alexis Bj?rlin表示:“隨著AI模型規模越來越大,它們需要可擴展的強大基礎設施,以滿足不斷增長的需求。NVIDIA的Grace Hopper設計看起來能夠讓研究人員探索新的方法來解決他們面臨的最巨大挑戰。”

        微軟Azure基礎設施企業副總裁Girish Bablani表示, “在以往訓練大型AI模型是一項資源和時間密集型任務。DGX GH200 所具備的處理TB級數據集的潛力使得開發人員能夠在更大的規模和更快的速度下進行高級別的研究。”

        全新NVIDIA Helios超級計算機年底推出

        NVIDIA正在打造自己的基于DGX GH200的AI超級計算機,以支持研發團隊的工作。據介紹,這臺名為NVIDIA Helios的超級計算機將配備四個DGX GH200系統。每個都將通過NVIDIA Quantum-2 InfiniBand 400 Gb / s 網絡互連,以提高訓練大型AI模型的數據吞吐量。Helios將包含1024個Grace Hopper超級芯片,預計將于今年年底上線。

        NVIDIA MGX 系統

        NVIDIA DGX 面向最高端市場的AI系統,HGX 系統則是面向超大規模數據中心,此次NVIDIA還新推出了介于這兩者之間的的NVIDIA MGX 系統。

        NVIDIA 表示,其OEM合作伙伴在為 AI 中心設計服務器時面臨著新的挑戰,這些挑戰可能會減慢設計和部署的速度。NVIDIA 的全新 MGX 參考設計架構旨在加速這一過程,可以將開發時間縮短2/3至僅需6個月,開發成本也可以減少3/4。

        圖片

        據介紹,MGX 系統由模塊化設計組成,涵蓋了 NVIDIA 的 CPU 和 GPU、DPU 和網絡系統的所有方面,但也包括基于通用 x86 和 Arm 處理器的設計,擁有100 多種參考設計。NVIDIA 還提供風冷和液冷設計選項,以適應各種應用場景。

        圖片

        ASRock Rack(永擎)、華碩、GIGABYTE(技嘉和碩、QCT、超微(Supermicro)都將使用 MGX 參考架構來開發將于今年晚些時候和明年初上市的系統。

        Spectrum-X網絡平臺

        在發布會上,NVIDIA還推出了一個全新的加速網絡平臺Spectrum-X,致力于提高基于以太網AI云的性能與效率。

        NVIDIA Spectrum-X是將NVIDIA Spectrum-4以太網交換機與NVIDIA BlueField-3 DPU緊密結合,取得了1.7倍的整體AI性能和能效提升,同時可在多租戶環境中提供一致、可預測的性能。


        Spectrum-X為基于以太網的網絡帶來了高性能 AI 集群功能,為將 AI 更廣泛地部署到超大規模基礎設施中提供了新的選擇。Spectrum-X 平臺還可以與現有的基于以太網的堆棧完全互操作,并提供令人印象深刻的可擴展性,單個交換機上最多 256 個 200 Gb/s 端口,或兩層葉脊拓撲中的 16,000 個端口。

        Spectrum-X還提供NVIDIA加速軟件和軟件開發套件(SDK),使開發人員能夠構建軟件定義的云原生AI應用。

        NVIDIA表示,這種端到端的功能交付,可以減少基于transformer的大規模生成式AI模型的運行時間,助力網絡工程師、AI數據科學家和云服務商及時取得更好的結果,并更快做出明智的決策。

        目前,Nvidia Spectrum-X 平臺及其相關組件,包括 400G LinkX 光學器件,現已上市。全球頭部超大規模云服務商正在采用NVIDIA Spectrum-X,包括領先的云創新企業。

        作為NVIDIA Spectrum-X參考設計的藍圖和測試平臺,NVIDIA正在構建一臺超大規模生成式AI超級計算機,命名為Israel-1。它將被部署在NVIDIA以色列數據中心,由基于NVIDIA HGX平臺的戴爾PowerEdge XE9680服務器,BlueField-3 DPU和Spectrum-4交換機等打造而成。

        用生成式AI激活游戲角色生命

        在游戲領域,生成式 AI 未來有望使得游戲玩家能夠與游戲角色進行互動,并極大提高游戲的沉浸感。對此,英偉達宣布推出面向游戲的AI模型代工服務—Avatar Cloud Engine(ACE)for Game。

        圖片

        英偉達曾在2020年推出NVIDIA Omniverse,這一款基于NVIDIA RTX和皮克斯Universal Scene Description(USD)的圖形和仿真模擬平臺型產品,可以實現3D設計協作以及可擴展的多GPU實時逼真仿真。

        ACE for Games則是在NVIDIA Omniverse的基礎上,讓發人員可以使用它來構建和部署用于語音、對話和動畫的自定義 AI 模型,從而使得游戲中的角色可以像真人一樣與玩家對話。主要包括了三大模塊:

        一是NVIDIA NeMo大型語言模型(LLM)。這一模型使用專有數據構建、自定義和部署語言模型,根據游戲故事的世界觀及人物背景來定制調整LLM,并且通過NeMo Guardrails來保護對話的安全性和效果。

        二是NVIDIA Riva,這一模塊主要用于自動語音識別(ASR)及文本轉語音,以啟用實時語音對話。

        三是NVIDIA Omniverse Audio2Face,主要用于配合語音音軌,實時為游戲角色創建臉部表情動畫。例如,Audio2Face搭配用于虛幻引擎5的Omniverse Connector,開發者可以直接將臉部動畫添加到MetaHuman(虛幻引擎旗下用于創作逼真人類角色的框架)的角色上。

        英偉達表示,開發者可以整合整套“ACE 游戲開發版”解決方案,或是單獨使用自己需要的組件。

        NVIDIA開發者與性能技術部門副總裁John Spitzer表示:“生成式AI將徹底改變玩家與游戲人物之間的互動方式,并極大地提高游戲沉浸感。基于我們在AI領域的專業知識,加上幾十年來與游戲開發者合作的經驗,NVIDIA正率先在游戲中使用生成式AI。”

        黃仁勛也演示了生成式 AI 合成語音,通過對真人聲音的模仿合成,可以讓虛擬人“化身”講任何一種語言。黃仁勛表示,AI將成為電子游戲的未來。

        生成式AI助力數字化的智能工廠

        目前全球各地的電子制造商正在使用新的綜合參考工作流程來推進其工業數字化進程。這套流程將融合NVIDIA的生成式AI、3D協作、仿真模擬和自主機器技術。

        依托龐大的合作伙伴網絡,這套工作流程可幫助制造商使用一系列NVIDIA技術來規劃、建造、運營和優化其工廠。這些技術包括:可連接頂尖計算機輔助設計(CAD)應用以及生成式AI應用程序接口(API)和先進框架的NVIDIA Omniverse ;用于仿真和測試機器人的NVIDIA Isaac Sim 應用;以及可用于自動光學檢測的NVIDIA Metropolis視覺AI框架。

        黃仁勛在現場演示時表示:“全球最大的行業所制造的都是實物,如果能先以數字化的方式制造這些產品,就可以節省大量成本。NVIDIA使電子產品制造商能夠輕松構建和運營虛擬工廠,并實現制造和檢查工作流程的數字化,這大大提高了質量和安全性,同時減少了最后一刻的意外和延誤。”

        據介紹,富士康工業互聯網、宣鼎、和碩、廣達和緯創正在使用新的參考工作流程來優化其工作間和裝配線的運營,同時降低生產成本。

        比如,富士康工業互聯網正在與NVIDIA Metropolis生態合作伙伴一起實現電路板質控檢測點重要環節的自動化;宜鼎正在使用NVIDIA Metropolis實現產線光學檢測流程的自動化,實現降本提效。


        NVIDIA還正在與數家領先的工具制造和服務提供商一同在各個工作流程層面建立統一的全棧架構。

        在系統層面,NVIDIA IGX Orin 提供了一個將工業級硬件與企業級軟件和支持相結合的一體化邊緣AI平臺。IGX滿足了邊緣計算獨特的耐久性和低功耗要求,同時提供了開發和運行AI應用所需的高性能。

        制造商合作伙伴包括凌華科技、研華、安提國際、Dedicated Computing、Prodrive Technologies和Yuan正在為工業和醫療市場開發由IGX驅動的系統,這些系統能夠為實際生產帶來數字化優勢。

        在平臺層面,Omniverse與全球領先的3D、模擬和生成式AI提供商相連接,這個開放的開發平臺可以讓團隊在他們喜愛的應用之間建立互操作性,比如來自Adobe、Autodesk和西門子的應用。

        黃仁勛演示了Omniverse如何通過連接ChatGPT和Blender GPT等各種AI助手來簡化3D工作流程和Python應用開發。NVIDIA Omniverse Cloud平臺即服務(PaaS)已上線微軟Azure,能夠向企業客戶提供Omniverse軟件應用的全棧套件和NVIDIA OVX基礎架構,其具備Azure云服務的規模和安全性。

        在應用層面,Isaac Sim使企業能夠構建并優化部署AI機器人。制造商可以與工業自動化公司READY Robotics合作,在將機器人部署到現實世界之前,在仿真中對機器人任務進行編程。SoftServe和FS Studio等仿真技術合作伙伴通過構建基于數字孿生的仿真,為客戶縮短開發時間。

        NVIDIA Metropolis中的一系列工廠自動化AI工作流程使工業方案商和制造商能夠開發、部署和管理降本提效的定制化質量控制解決方案。包括凌華科技、安提國際、德勤、Quantiphi和西門子在內的龐大合作伙伴生態正在幫助推廣這些解決方案。

        買的越多,省的越多

        黃仁勛在演講中指出,隨著加速計算和生成AI的興起,標志著計算的革新,我們正處于一個全新計算時代的轉折點,加速計算和AI已經被世界上幾乎所有的運算和云端公司所接受。

        “每一個計算時代,你都可以從事之前無法做到的事情,人工智能時代顯然也能為我們賦予這樣的能力。”比如,編程門檻變得極低。我們填補了數字鴻溝,現在,所有人都是程序員——你只需要對著電腦說話即可。黃仁勛說,“由于如此便于使用,所以進步的速度飛快,這會影響幾乎每個行業。

        根據NVIDIA公布的數據顯示,目前已有40000家大公司和15000家初創公司使用英偉達技術。其中,有超過1600家生成式AI公司采用了NVIDIA技術。2022 年NVIDIA CUDA 軟件下載量更達2500 萬次。另外,加速計算服務、軟體與系統促進誕生出新的商業模式,且讓現有模式更具效率。

        除了前面介紹的生成式AI對于游戲、智能制造等方面的助力之外,生成式AI也正為價值7000億美元的數字廣告行業帶來了新機遇基于NVIDIA AI和Omniverse的突破性引擎可以將來自領先軟件制造商的創3D和AI工具連接在一起,以大規模革新品牌內容和體驗。比如,全球最大的營銷服務機構英國WPP集團正與英偉達合作,在Omniverse Cloud上構建首個生成式AI廣告引擎

        為了更生動的展示生成式AI 的能力,黃仁勛還把發布會變成大型卡拉OK現場,讓AI以其隨口說出的四句話為歌詞,進行編曲創作出一首歌,并邀請現場與會者跟他一起唱出AI做的歌曲引發全場熱情。

        黃仁勛還在發布會上對比了使用 GPU 和 CPU 建設數據中心的差異。他聲稱,同樣的投資,客戶可以使用更少的 GPU 建設一個能夠處理更大數據量的數據中心,功耗也更低。

        “買的越多,省的越多(The more you buy, the more you save)。”黃仁勛說道。

        編輯:芯智訊-浪客劍  



        *博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。



        關鍵詞: AI性能

        技術專區

        關閉
        主站蜘蛛池模板: 贵德县| 苏尼特右旗| 湘阴县| 姜堰市| 巴马| 宜春市| 阿克| 安庆市| 墨脱县| 延庆县| 平和县| 固镇县| 随州市| 遂川县| 明溪县| 阳泉市| 河北省| 福贡县| 会东县| 沙洋县| 枝江市| 西乡县| 谢通门县| 云南省| 区。| 沙坪坝区| 逊克县| 凯里市| 兰西县| 蒲城县| 明光市| 台山市| 鹿泉市| 通州市| 宜州市| 边坝县| 八宿县| 临沧市| 昌都县| 呈贡县| 西乡县|