博客專欄

        EEPW首頁 > 博客 > AMD王宏強:700億參數大模型單個GPU部署,做好AI軟件和生態實現“開箱即用”丨GACS 2023

        AMD王宏強:700億參數大模型單個GPU部署,做好AI軟件和生態實現“開箱即用”丨GACS 2023

        發布人:芯東西 時間:2023-10-09 來源:工程師 發布文章
        從云到端五大產品線全面擁抱AI,AI正成為AMD的新大招。

        編輯 |  GACS9月14日-15日,2023全球AI芯片峰會(GACS 2023)在深圳市南山區圓滿舉行。在首日主題演講中的AI芯片架構創新專場,AMD人工智能事業部高級總監王宏強分享了主題為《AMD Pervasive Al:從數據中心、邊緣、客戶端到終端,Al無所不在》的主題演講。AMD人工智能事業部高級總監王宏強談道,AMD在單個GPU能做到上千T的浮點算力規模,通過多節點橫向擴展,更是能達到每秒百億億次浮點計算能力(EFLOPS),并提供額外的超大內存容量及帶寬,可實現700億參數級大模型在單個GPU上的部署,并達到更高的TCO(總擁有成本)。王宏強也特別強調了AMD AI軟件的易用性以及強大的開放軟件生態的重要性,它是釋放這些創新硬件性能的關鍵。AMD通過統一AI軟件實現跨平臺AI部署,以開放和模塊化的方式構建軟件解決方案,從而擁抱更高層次的抽象,并與最重要的生態系統(PyTorch, ONNX, HuggingFace, Open AI Trito, Open XLA等)合作對接推動開箱即用的用戶體驗。以下為王宏強的演講實錄:尊敬的各位嘉賓,各位同行,下午好!我很榮幸今天有機會參加芯東西舉辦的AI峰會上,這也是AMD第一次在線下參加芯東西舉辦的AI峰會。今天我將與大家分享AI無所不在,無限可能的人工智能變革時代。人工智能領域正在快速變化。處理如此大量數據的計算能力對于人工智能的發揮至關重要。
        01.從云到端,全產品線看向AI,AMD瞄準1500億美元AI芯片市場


        人工智能(AI)正在快速地變化、快速地發展,特別是隨著ChatGPT的推出。所以要處理如此大量的AI計算,我們需要有非常強大的AI處理能力硬件平臺和開放的AI軟件生態系統。AMD是非常專注于異構計算的一個公司,我們將很大一部分投入放在研發處理AI的平臺上,從數據中心,邊緣,到端,這種全產品線的AI加速解決平臺。同時,我們也非常致力于專注發展開放的AI軟件生態系統。在AMD,非常有幸的是我們有很多產品線,我們可以為不同的市場來服務。比如說,在數據中心的云端,我們有強大的EPYC處理器,用我們平常說的最多的一句話是“它是比強者更強的CPU”,從96核到128核的CPU,都已經陸續推出,它們可以用來做通用AI。

        同時,我們也有MI GPU,可以用于數據中心的AI推理和訓練。我們也有用于工業、醫療、科學、自動駕駛等應用的嵌入式平臺。我們的客戶群非常地廣泛,有數千個嵌入式的客戶使用我們這些產品。我們也推出了消費級的帶有AI功能的Ryzen AI PC端加速平臺。AMD也正是看到這些傳統的算法和應用正在被人工智能所替代,特別是AIGC,它讓AI變得普遍存在,甚至在各個行業、各個應用中都可以利用它來為我們人類提供一些更加便利、更加豐富的生活,帶來更加安全的駕駛,這些都是需要AI技術和平臺來作為支撐。AI最終將變得非常普遍,無所不在,人工智能技術將會是在整個產業界、行業一個絕對性的大趨勢,引領整個社會的變革。整個AI市場,也是極速地在增長,所以它的機會是無限可能。預計到2027年,在整個AI市場中,芯片市場就將達到1500億美元,所以這也是各家企業逐鹿的一個戰略重地。
        02.AI需求多樣化對芯片架構提出挑戰,AMD推出多樣針對性架構創新


        隨著這些多樣化的人工智能應用的發展,越來越明顯的是沒有一種單一的架構或者產品可以去適應所有應用的需求。因為各種需求不一樣,有的是需要很高的計算能力,有的需要很大的內存,有的可能需要一個更低的延時或者是更低的功耗。

        比如在筆記本中,功耗就成為一個非常關鍵的因素。而在云中,有超高的算力的需求、內存的需求,需要數千萬億次的計算來滿足計算負載。比如訓練一些大模型,是需要上千個GPU節點才可能完成,這些都是需要我們提供強大的計算,存儲的支撐來滿足。例如自動駕駛,它對延遲的需求是非常嚴格的,比如你需要在毫秒級的時間范圍里做出一個響應,比如對路況的判斷、有沒有行人、路標的檢測、要做一系列決策來達到自動駕駛的安全性。這些可能需要上百TOPS的算力,同時還要求一個相對比較低的功耗。在端側,像筆記本電腦這些,對于算力能耗比很關注,電池的消耗是非常關鍵的一個因素。比如我們在Teams、Zoom上開會,就會利用筆記本電腦端側的AI功能,讓會議系統變得更加智能化。在AMD,我們針對這些不同的需求進行了架構的創新。一方面,我們高性能的旗艦CDNA架構,建立在之前多代GPU的基礎上。業界有說道:AMD其實是中國GPU的“黃埔軍校”。可見,AMD在GPU上還是有很多技術上的積累和創新的。為行業提供最高性能的AI計算解決方案,并為最大的超級計算機提供支持,以在單個計算上適應最大的人工智能推理工作負載。GPU它提供了一個靈活的編程模型來運行通用workloads,單個計算節點或者GPU來算,我們甚至可以做到數千TOPS的能力。我們也可以橫向的擴展,使用多個節點,達到千萬億次浮點運算的能力。另外一方面,我們有XDNA架構,它是基于AI引擎的處理架構,它也是一個并行的陣列數據流處理架構,我們有可以提供一個非常高速的、低延時的實時處理,因為它采用的是數據流的架構來優化。上午有同行分享到Chiplet,XDNA就是AMD產品線里非常重要的一個Chiplet,也是重要的一個計算單元,因為它可以擴展到不同的平臺里面。比如在終端,邊緣測嵌入式器件里面,可以集成AI引擎的Chiplet。

        這些平臺是基于Chiplet的架構,所以可以根據算力需求去集成相應數量的AI Engine,達到提供這種可擴展計算的能力。同時,我們可以與CPU、與傳統FPGA還有存儲器集成在一起,做一個異構計算平臺,來滿足各種計算的需求。甚至可以在器件里面去集成RDNA架構的獨立的顯卡iGPU,在一個APU里面。
        03.五大產品線多點出擊,700億參數大模型單個GPU部署


        我們接下來就看一下基于這些架構的產品示例。AMD的戰略,是要為業界、為同行提供最廣泛的計算產品的組合,以滿足人工智能這種普遍性的、多樣性的需求。在這方面,我們也取得了非常大的進展,我們有陸續的推出這些產品。這些(見PPT),都是我們已經推出來的產品。在數據中心,我們有基于CDNA架構的Instinct數據中心GPU,它可以滿足AIGC,這些生成式AI的workload的訓練或推理。EPYC處理器,有遠超于同行的CPU核心數,目前我們可以達到128個核心數,這些都為通用AI提供了強大計算平臺。基于Radeon架構的GPU,它可以通過AI技術增強游戲體驗變得更好。Versal AI Edge產品系列,主要目標市場是為嵌入式或者邊緣側的應用。對端側的應用,今年5月份,我們推出了Ryzen AI,這個產品是集成了CPU、XDNA AI Engine的IPU,還有RDNA的iGPU集成在一個異構計算平臺里,可以用來滿足電腦市場這些AI推理的需求。這個產品已經發貨,已經有超過35個PC系列里,集成了Ryzen AI這款產品。接下來我們具體看一下,這些產品如何去滿足這些多樣化的AI市場需求。AMD的Instinct GPU主要是用在數據中心,它是專為生成式AI而設計的GPU。它將CDNA 3與業界領先的HBM3相結合,采用業界領先的2.5D/3D Chiplet結構構建,它提供高達數千TOPS的計算能力,并提供額外的,超大的內存容量,我們對大模型有優勢,因為我們可以直接在內存中運行更大的模型,減少所需的GPU數量顯著提高性能,尤其是推理性能。

        這個產品可以支持700億參數的模型在單個GPU上做部署,是因為它有更大的內存容量及帶寬。業界其他的GPU不能做到700億參數的模型在同一個GPU里部署,可能需要兩個GPU來實現。請繼續關注,我們將在今年晚些時候分享有關該產品的更多信息。我們剛剛講的是在數據中心這一側。其實終端AI也在快速發生變化。今年早些時候,我們推出了Ryzen AI系列,這個產品是基于我們XDNA的核心引擎作為基礎AI推理及運算,在一個APU封裝里面集成了CPU、iGPU。投入到市場以來,其受到業界ISV,OEM的追捧,有35個筆記本電腦已經利用到這個產品來提供AI解決方案。

        AMD Ryzen AI的專用AI硬件開啟個人電腦新時代,電腦首先會被AI化,Windows12即將發布,將全面基于AI(ChatGPT)技術。據行業專業人士分析:“AI將改變電腦的每一個應用、每一個體驗!今天買電腦,推薦買AI電腦!
        04.AI不止于硬件,軟件開發和生態系統建設是重中之重


        我們剛剛講了很多硬件相關的,與支持這些創新硬件的架構創新一樣,我們需要強大的AI軟件及生態來使能發揮這些創新硬件們的性能。

        首先AI軟件開發穩步提高了硬件編程的抽象級別。已經從用以前匯編或C編寫的代碼->線性代數庫或卷積庫等庫->PyTorch/TensorFlow 等框架→轉向位于框架之上的更高級別的API,獲得最佳的開箱即用體驗。

        隨著AI軟件越來越有能力釋放硬件的巨大進步,人工智能創新也出現了巨大的加速。2018年以來,Transformer掀起了一場革命,出現了諸如ChatGPT推出等分水嶺時刻。開放生態系統中也發生了大量此類創新:更大的模型、或更小的模型、模型得到微調、模型是多模式的、模型之間甚至相互交互,模型變得更加高效、模型與人類目標保持一致,模型變得值得信賴可靠。

        隨著創新的加速,我們既看到了挑戰,也看到了絕佳的機遇。我們正在以開放和模塊化的方式構建我們的軟件解決方案,以擁抱更高層次的抽象并與開放生態系統緊密協作。在AMD,我們擁有三個軟件平臺:用于GPU平臺的ROCm、用于XDNA AI引擎平臺的Vitis AI以及用于EPYC CPU平臺的zenDNN。AMD正在進行大量投資,以確保我們的客戶在從更高抽象級別進行編譯時獲得最佳的開箱即用體驗 。AMD也在開發統一的AI軟件用于AMD所有平臺,從而達到簡化使用的用戶體驗。

        我們正在這樣做,我們正在取得的巨大進展,而且還通過與最重要的生態系統參與者合作,像PyTorch這樣的框架和像Hugging Face這樣的模型中心。舉個具體的例子,基于我們與PyTorch的廣泛合作,PyTorch 2.0在第0天就支持ROCm 5。與Hugging Face的合作正在幫助我們在所有AMD平臺上運行各種AI模型。

        這是我們GPU的軟件開發棧,它是在GPU上做AI開發、運行和調整 AI模型和算法所需的一整套庫、編譯器和Runtime工具。AMD ROCm堆棧的很大一部分是開放的。我們的驅動程序、Runtime、調試器和分析器等工具以及我們的庫都是開放的。ROCm 5擁有一整套優化,可提供具有競爭力的性能……算法和內核(例如flashattention)、新的降低精度的數據類型,以及新興工具(例如Triton)。我們將ROCm連接到開放生態系統方面取得了重大進展,包括PyTorch等框架和Hugging Face等模型中心。以幫助客戶在AMD GPU平臺上快速移植、優化和部署其AI模型。

        對用戶來講,他最關心的是從不同的GPU平臺或者說友商的GPU平臺如何遷移到AMD的GPU上?AMD提供與NVIDIA等效的庫功能,由框架調用,在框架層面開發的用戶可以獲得“即插即用”的兼容軟件體驗。像基礎模型構建者這樣高度復雜的用戶通常擁有一定數量的自定義內核代碼,需要與AMD AI軟件工程結合進行聯合優化。HipiFY工具可讓您非常快速地實現功能等效。致力于這些定制內核的性能優化。AMD已經與客戶成功做到了這一點,并展示了在聯合優化后達到與NVIDIA同等性能的能力。與此同時,AMD不斷優化和改進我們的庫。

        這里是Mosaic實現無縫遷移至AMD GPU的成功案例,基于PyTorch 2.0和ROCm 5,ROCm直接替代CUDA,RCCL替代NCCL,Infinity Fabric替代節點內的NVSwitch。從而實現大模型訓練在AMD MI250加速器上開箱即用,零代碼更改和高性能。

        我們來看一下AMD在的client側AI軟件解決方案。自從我們今年早些時候宣布該產品以來,ISV和用戶開發人員都非常希望在我們的AI平臺上開發應用的需求為了滿足這一巨大的興趣,我們在今年早些時候與 微軟Build活動中表示,我們在微軟的ONNX Runtime框架下提供我們的工具。這使得開發人員可以使用ONNX中熟悉的API進行模型部署。現在我們眼見為實,我給大家演示一下在AMD GPU平臺,Ryzen AI平臺上跑各種大模型。

        這是在我們MI GPU上實現一個Stable Diffusion的推理,可以很快地圖文生成,在毫秒級里達到這個目標。

        展示我們在Ryzen AI筆記本電腦上實現多個AI應用時,提供有保證的QoS, 無抖動性能。同時實現人臉檢測、深度估計、場景檢測。這與其他需要以分時方式共享AI計算資源的AI架構不同。

        另外,我們今天也提到,AI已經從云到端,甚至是混合式AI。我們的解決方案,不僅可以在云上去做這些大模型,我們也可以在端側、在我們的筆記本里面去做這些大模型。這個例子就是我們用MI系列GPU,實現了一個700億參數的大模型,實現圖文生成圖文。這個是讓它寫一個有關舊金山的詩文。在我們端側,我們是跑的是OPT模型,實現文字生成。

        我們基于Radeon架構,不僅可以實現3D渲染,同時可以做AI的訓練或者推理,快速平穩地進行加速。AMD會繼續地加大AI的投入,將強大的AI處理能力的產品引入云、邊緣和端,并且我們致力于與廣大AI開發者,社區一道提供開放的AI軟件生態系統,與廣大AI開發者、用戶,同超越,共成就。這就是我今天與各位分享的所有內容,感謝大家寶貴的時間。以上是王宏強演講內容的完整整理。


        *博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。



        關鍵詞: 大模型

        技術專區

        關閉
        主站蜘蛛池模板: 延津县| 赤城县| 惠州市| 宁夏| 晋中市| 忻州市| 西安市| 永康市| 岱山县| 金昌市| 阳山县| 金川县| 和静县| 天镇县| 调兵山市| 洛宁县| 泗水县| 黄平县| 小金县| 大英县| 会同县| 苍溪县| 祁东县| 新田县| 灌阳县| 汶川县| 宝应县| 涿鹿县| 邵阳市| 呼和浩特市| 全椒县| 柯坪县| 沙洋县| 班戈县| 铅山县| 米脂县| 定襄县| 肇源县| 全南县| 布尔津县| 虎林市|