新聞中心

        EEPW首頁 > 智能計算 > 業界動態 > 英特爾AI解決方案為最新Meta Llama 3.1模型提供加速

        英特爾AI解決方案為最新Meta Llama 3.1模型提供加速

        作者: 時間:2024-07-25 來源:EEPW 收藏

        為了推動“讓AI無處不在”的愿景,在打造AI軟件生態方面持續投入,并為行業內一系列全新AI模型提供針對AI硬件的軟件優化。今日,宣布公司橫跨數據中心、邊緣以及客戶端AI產品已面向Meta最新推出的大語言模型(LLM)Llama 3.1進行優化,并公布了一系列性能數據。

        本文引用地址:http://www.104case.com/article/202407/461396.htm

        繼今年4月推出Llama 3之后,Meta于7月24日正式發布了其功能更強大的AI大模型Llama 3.1。Llama 3.1涵蓋多個不同規模及功能的全新模型,其中包括目前可獲取的、最大的開放基礎模型——Llama 3.1 405B(4050億參數)。目前,英特爾豐富的AI產品組合已支持上述最新模型,并通過開放生態系統軟件實現針對性優化,涵蓋PyTorch及英特爾? PyTorch擴展包(Intel? Extension for PyTorch)、DeepSpeed、Hugging Face Optimum庫和vLLM等。此外,企業AI開放平臺(OPEA)亦為這些模型提供支持,OPEA這一全新的開放平臺項目是由LF AI & Data基金會發起,旨在聚合生態之力,推動創新,構建開放、多供應商的、強大且可組合的生成式

        Llama 3.1多語言大模型組合包含了80億參數、700億參數以及4050億參數(文本輸入/文本輸出)預訓練及指令調整的生成式AI模型。其每個模型均支持128k長文本和八種不同的語言。其中,4050億參數的Llama 3.1模型在基本常識、可操作性、數學、工具使用和多語言翻譯方面具有行業領先的能力。同時,該模型亦幫助開發者社區解鎖諸如合成數據生成和模型蒸餾(Model Distillation)等全新功能。

        以下內容展示了英特爾的部分AI產品組合運行Llama 3.1模型的初步性能結果,包括英特爾?至強?處理器、搭載英特爾?酷睿? Ultra處理器和英特爾銳炫?顯卡的AI PC產品。

        運行Llama 3.1時展現出卓越性能

        作為通用計算的基石,英特爾?至強?處理器為全球用戶提供強大算力,現已通過各大云服務商面市。英特爾至強處理器在其每個核心中均內置了英特爾?高級矩陣擴展(AMX)AI引擎,可將AI性能提升至新水平。根據基準測試,在第五代英特爾至強平臺上以1K token輸入和128 token輸出運行80億參數的Llama 3.1模型,可以達到每秒176 token的吞吐量,同時保持下一個token延遲小于50毫秒。圖1展示了運行支持128k長文本的80億參數Llama 3.1模型時,下一個token延遲可低于100毫秒。

        1721899088697700.png

        圖1 基于第五代英特爾?至強?可擴展處理器的Llama 3.1推理延遲

        由英特爾?酷睿? Ultra處理器和英特爾銳炫?顯卡驅動的AI PC可為客戶端和邊緣提供卓越的設備端AI推理能力。憑借諸如英特爾酷睿平臺上的NPU,以及銳炫顯卡上英特爾? Xe Matrix Extensions加速等專用的AI硬件,在AI PC上進行輕量級微調和應用定制比以往更加容易。對于本地研發,PyTorch及英特爾PyTorch擴展包等開放生態系統框架可幫助加速。而對于應用部署,用戶則可使用英特爾OpenVINO?工具包在AI PC上進行高效的模型部署和推理。AI工作負載可無縫部署于CPU、GPU以及NPU上,同時實現性能優化。

        1721899125222684.png

        圖2 在配備內置英特爾銳炫?顯卡的英特爾?酷睿? Ultra 7 165H AI PC上,Llama 3.1推理的下一個token延遲

        1721899146130801.png

        圖3 在使用英特爾銳炫?A770 16GB限量版顯卡的AI PC上,Llama 3.1推理的下一個token延遲

        利用Llama 3.1和OPEA部署企業RAG解決方案

        英特爾AI平臺和解決方案能夠有助于企業部署AI RAG。作為OPEA的發起成員之一,英特爾正幫助引領行業為企業AI打造開放的生態系統,同時,OPEA亦助力Llama 3.1模型實現性能優化。

        基于可組合且可配置的多方合作組件,OPEA為企業提供開源、標準化、模塊化以及異構的RAG流水線(pipeline)。此次測試中,微服務部署于OPEA藍圖的每一支細分領域中,包括防護(Guardrail)、嵌入(Embedding)、大模型、數據提取及檢索。端到端RAG流水線通過Llama 3.1進行大模型的推理及防護,使用BAAI/bge-base-en-v1.5模型進行嵌入,基于Redis向量數據庫,并通過Kubernetes(K8s)系統進行編排。

        1721899172964796.png

        圖4 基于Llama 3.1的端到端RAG流水線,由英特爾Gaudi 2加速器和至強處理器提供支持

        目前,英特爾AI PC及數據中心AI產品組合和解決方案已面向全新Llama 3.1模型實現優化,OPEA亦在基于英特爾至強等產品上全面啟用。未來,英特爾將持續投入軟件優化,支持更多全新的模型與用例。

        產品與性能信息

        英特爾至強處理器:在第五代英特爾?至強?可擴展處理器上測量,使用:2個英特爾至強Platinum 8593Q、64核、超線程開啟、睿頻開啟、NUMA 4、512GB(16x32GB DDR5 5600 MT/s [5600 MT/s])、BIOS 3B07.TEL2P1、微碼0x21000200、三星SSD 970 EVO Plus 2TB、CentOS Stream 9、5.14.0-437.el9.x86_64、使用PyTorch和IPEX 2.4運行的模型。英特爾于2024年7月22日進行測試。

        英特爾?酷睿? Ultra:在搭載英特爾酷睿Ultra 7 165H平臺的微軟Surface Laptop 6上進行測量,使用32GB LPDDR5 7467Mhz總內存、英特爾顯卡驅動程序101.5762、IPEX-LLM 2.1.0b20240718、Windows 11 Pro版本22631.3593、性能電源策略與核心隔離啟用。英特爾銳炫?顯卡僅適用于部分H系列英特爾?酷睿? Ultra處理器驅動的系統,且雙通道配置中系統內存至少為16GB。需要OEM支持,請咨詢OEM或零售商了解系統配置詳情。英特爾于2024年7月18日進行測試。

        英特爾銳炫? A系列顯卡:使用英特爾酷睿i9-14900K、華碩ROG MAXIMUS Z790 HERO主板、32GB (2x 16GB) DDR5 5600Mhz和Corsair MP600 Pro XT 4TB NVMe SSD,對英特爾銳炫A770 16GB限量版顯卡進行測量。軟件配置包括英特爾顯卡驅動程序101.5762、IPEX-LLM 2.1.0b20240718、Windows 11 Pro版本22631.3593、性能電源策略與核心隔離禁用。英特爾于2024年7月18日進行測試。

        免責聲明

        性能因使用情況、配置和其他因素而異。欲了解更多信息,請訪問性能指數網站。性能結果基于截至所示日期的測試,可能無法反映所有公開可用的更新。請參閱備份以了解配置詳情。沒有任何產品或組件是絕對安全的。您的成本和結果可能會有所不同。英特爾技術可能需要啟用硬件、軟件或激活服務。

        AI免責聲明

        AI功能可能需要購買軟件、訂閱或由軟件/平臺提供商啟用,或者可能有特定的配置或兼容性要求。結果可能會有所不同。



        評論


        相關推薦

        技術專區

        關閉
        主站蜘蛛池模板: 西丰县| 天门市| 新河县| 静乐县| 房产| 邵阳市| 甘南县| 道孚县| 肃北| 永城市| 九龙城区| 扬州市| 麻栗坡县| 保德县| 图片| 阿尔山市| 田林县| 鄄城县| 大悟县| 濮阳县| 慈溪市| 威宁| 黎平县| 阳谷县| 翁牛特旗| 乌什县| 溆浦县| 霍林郭勒市| 唐山市| 东方市| 安新县| 罗甸县| 盘山县| 博白县| 通州区| 西丰县| 常山县| 武定县| 桐梓县| 阿克陶县| 孙吴县|