新聞中心

        EEPW首頁 > 新聞縱覽 > 英特爾第一時間深度優化Qwen3大模型,升級AI PC能力賦能多樣化場景

        英特爾第一時間深度優化Qwen3大模型,升級AI PC能力賦能多樣化場景

        作者: 時間:2025-04-30 來源: 收藏

        為持續推動尖端AI模型的創新發展,英特爾始終與業界領先的創新力量保持深度協作。我們欣然宣布,全新升級的英特爾AI解決方案已全面覆蓋PC客戶端、邊緣計算、智能駕艙等場景,在第一時間為Qwen3系列大模型的發布提供技術支撐。

        本文引用地址:http://www.104case.com/article/202504/470052.htm

        全新Qwen3系列大模型的五大亮點:

        1. 稀疏MoE模型深度優化,端側高效部署Qwen3

        2. 首次在NPU上Day 0支持大模型,提供更好的性能和功耗表現

        3. 端側微調,提升模型智能,優化用戶體驗

        4. 動態稀疏注意力賦能Qwen3長上下文窗口,解鎖端側Agent新應用

        5. 擁抱開源生態,Day 0支持魔搭社區Ollama

        在本次阿里巴巴開源的新一代通義千問Qwen3系列模型中,最為引人注目的是 30B 參數規模的 MoE混合專家模型 (Mixture of Experts)(Qwen3-30B-MOE-A3B)。該模型憑借其先進的動態可調混合專家架構,在有效提升計算效率方面表現出色, 使其在本地設備(客戶端和邊緣設備)上具備廣闊的應用前景。然而,其在部署環節存在較大難度,且對系統整體資源的消耗依然較高。為應對這些挑戰,英特爾與阿里緊密合作,針對 MoE 模型展開了全面的技術適配工作。通過實施多種優化策略,基于OpenVINOTM工具套件成功地將 Qwen 模型高效部署于英特爾硬件平臺之上。具體而言,在 ARL-H 64G內存的系統上部署的 30B 參數規模MoE模型,實現了33.97 token/s 1的吞吐量,而且相較于同等參數規模的稠密模型,取得了顯著的性能提升。英特爾采用的軟件優化策略涵蓋了針對稀疏混合專家模型架構(Sparse MoE)的算子融合,針對3B 激活MOE模型定制化的調度和訪存優化以及針對不同專家之間的負載均衡, 這些技術能夠助力更多MOE模型在英特爾平臺上實現高效部署。

        此次發布的 Qwen3系列模型主要集中于中小參數量的稠密架構 LLM,參數規模涵蓋 0.6B 至 32B,能夠適配更廣泛的硬件資源,滿足多樣化的使用場景需求。英特爾的 CPU、GPU、 NPU 架構全面適配 Qwen 系列模型,為模型的部署進行優化,使用英特爾OpenVINOTM工具套件和PyTorch社區工具都可以為全系列 Qwen 模型在英特爾酷睿Ultra平臺 (酷睿Ultra 100系列/200系列) 和英特爾銳炫? A系列顯卡和B系列顯卡上的部署實現卓越性能表現。

        值得一提的是,英特爾首次在 NPU上對模型發布提供第零日(Day 0)支持,體現了英特爾和開源生態更加深入的合作,針對不同模型參數量和應用場景提供更多樣化的、更有針對性的平臺支持。針對從0.6B到高達8B的中小參數量模型全面支持,吞吐量最高達到36.68 token/s 2,借助英特爾Lunar Lake NPU平臺和英特爾OpenVINOTM工具套件,可以在保持低能耗的同時,又可以獲得優異性能。

        同時,在酷睿Ultra 的iGPU平臺上,英特爾持續為模型帶來卓越的性能。針對小尺寸的模型,在FP16精度下,最高達到66 token/s2,針對中小尺寸模型,在INT4精度下,最高達到35.83 token/s 2。開發者可以根據適合的使用場景,找到精度和性能的最佳組合。在英特爾銳炫B系列顯卡更強大算力加持下,Qwen3-8B模型可實現 70.67 token/s3 ,開發者能夠即刻領略到最新模型與英特爾卓越平臺能力的超強組合,暢享前沿科技帶來的高效與便捷。

        作為生成式AI模型中的輕量級選手,0.6B 參數量的小型 LLM 具備靈活高效的部署優勢以及快速迭代更新的能力。然而,在實際應用落地過程中,人們常常對其知識的深度與廣度以及處理復雜任務的能力存在顧慮。通過借助特定的數據集對這些小型 LLM 進行端側微調(Fine-tune),可以提升模型智能,優化用戶體驗。為此,基于Unsloth和Hugging Face參數高效微調框架(Parameter-Efficient Fine-Tuning, PEFT),英特爾構建了一套完整的端側解決方案,使模型變得更加智能,AI PC應用也真正變成用戶的貼心智能小助手。


        00:00/00:40480P倍速

        借助這個方案,在Qwen3 0.6B模型的多語言能力,可以更好的發揮作用,這里就是一個用多語言對圖片進行查詢的實例

        在本次發布的 Qwen3 模型中,我們注意到其 LLM 長上下文能力得到了顯著提升。面對有限的算力資源,如何有效利用模型的長上下文能力,避免計算資源消耗呈指數級增長,進而拓展 LLM 在客戶端的應用場景,英特爾已給出解決方案。基于動態稀疏注意力,在保證近乎無損精度的前提下,我們可以使長上下文窗口處理速度成倍提升。采用該方案后,Qwen3-8B 模型在英特爾LNL 平臺上可實現 32K 的上下文長度。



        這樣的長上下文能力,解鎖了更多端側Agent新應用。結合Qwen3更強的Agent和代碼能力,以及對MCP協議的加強支持,使得基于端側大模型調用MCP服務來開發各種AI PC Agent首次成為可能。視頻展示了,在英特爾AI PC上,基于Qwen3-8B模型調用必優科技ChatPPT.cn MCP服務自動生成PPT的過程。


        00:00/00:49480P倍速


        英特爾持續擁抱開源生態,英特爾優化版Ollama也第一時間支持了包括MoE 模型在內的Qwen3 系列模型,使開發者可以在英特爾客戶端平臺 (如英特爾酷睿Ultra AI PC,英特爾銳炫A/B 系列顯卡)上,利用 Ollama框架來搭建基于Qwen3系列模型的智能應用。優化版Ollama還 提供了基于魔搭的模型下載源設置,使得本地開發者可以從魔搭社區更高效下載和部署安裝包及模型。

        英特爾在車端艙內對新發布的Qwen3 系列模型,也已經順滑匹配。基于英特爾車載軟硬件解決方案(含第一代英特爾AI增強軟件定義汽車(SDV) SOC、剛剛在上海車展發布的第二代SDV SoC NPU,以及英特爾銳炫?車載獨立顯卡),英特爾能讓Qwen3系列模型很快就有機會上車部署,從而充分發揮車端的本地算力。其中,率先在汽車行業內采用了多節點芯粒架構的第二代SDV SOC,其生成式和多模態AI性能,相比上一代,最高可提升十倍4,這讓汽車AI體驗,如艙內的實時對話、自然語言交互和復雜指令的響應等,都充滿AI的靈性。

        快速上手指南 (Get Started)

        下面將以Qwen3-8B為例,介紹如何利用OpenVINO?的Python API在英特爾平臺(GPU, NPU)上運行Qwen3系列模型。 也可以參考下面的完整示例:

        https://github.com/openvinotoolkit/openvino_notebooks/tree/latest/notebooks/llm-chatbot

        https://github.com/openvinotoolkit/openvino.genai/tree/master/samples/python/text_generation

        第一步,環境準備

        基于以下命令可以完成模型部署任務在Python上的環境安裝。

        第二步,模型下載和轉換

        在部署模型之前,我們首先需要將原始的PyTorch模型轉換為OpenVINOTM的IR靜態圖格式,并對其進行壓縮,以實現更輕量化的部署和最佳的性能表現。通過Optimum提供的命令行工具optimum-cli,我們可以一鍵完成模型的格式轉換和權重量化任務。

        optimum-cli使用方法可以參考:

        https://docs.openvino.ai/2024/learn-openvino/llm_inference_guide/genai-model-preparation.html

        此外我們建議使用以下參數對運行在NPU上的模型進行量化,以達到性能和精度的平衡。

        第三步,模型部署

        OpenVINOTM目前提供兩種針對大語言模型的部署方案,如果您習慣于Transformers庫的接口來部署模型,并想體驗相對更豐富的功能,推薦使用基于Python接口的Optimum-intel工具來進行任務搭建。如果您想嘗試更極致的性能或是輕量化的部署方式,GenAI API則是不二的選擇,它同時支持Python和C++兩種編程語言,安裝容量不到200MB。

        · Optimum-intel部署示例

        · GenAI API部署示例

        這里可以修改device name的方式將模型輕松部署到NPU上。


        · 此外Ollama package on Modelscope(https://www.modelscope.cn/models/Intel/ollama/summary) is ready to download now

        1. 性能數據通過在 SKU1平臺上使用OpenVINO 框架 2025.1.0 版本進行測試。計算任務由集成顯卡(iGPU)完成。這些測試評估了在 INT4混合精度設置下 ,處理1K input 時的內存占用、首個token延遲和平均吞吐量。每次測試在預熱階段后執行 3 次,選取中間值作為報告數據。(Sku1: Brand: Intel, OEM: n/a, Model: CSRD(Reference Design), CPU: Core Ultra 9-285H, Memory: 64GB LPDDR5-8400MHz, Storage: 1TB, OS: Windows 11, OS Version: 24H2 (26100.3775), Graphics: Intel Arc 140T GPU, Graphics Driver Version: 32.0.101.6737, Resolution: 2880 x 1800 200% DPI, NPU Driver Version: 32.0.100.3967, PC BIOS: -, Screen Size: 15", Power Plan: Balanced, Power Mode (Win 11 Feature): Best Performance, Power App Setting (OEM's Power App): -, VBS: OFF, Defender: Running, Long Duration Package Power Limit (W): 65, Short Duration Power Limit (W): 70, Key Software Version: Openvino 2025.2.0-dev20250427, Openvino-genai 2025.2.0.0-dev20250427, Openvino-tokenizers 2025.2.0.0-dev20250427, Transformers 4.49.0)

        2. 性能數據通過在SKU2平臺上使用OpenVINO框架2025.1.0版本進行測試,計算任務由集成顯卡(iGPU)或神經處理單元(NPU)完成。測試評估了INT4混合精度、INT8通道權重精度及FP16精度設置下,處理1K input 時的內存占用、首個 token 延遲和平均吞吐量。每次測試在預熱階段后執行 3 次,選取中間值作為報告數據。(Sku2: Brand: Intel, OEM: Lenovo, Model: Yoga Air 15s ILL9, CPU: Core Ultra 7-258V, Memory: 32GB LPDDR5-8533MHz, Storage: WD PC SN740 1TB, OS: Windows 11, OS Version: 24H2 (26100.3624), Graphics: Intel Arc 140V GPU, Graphics Driver Version: 32.0.101.6737, Resolution: 2880 x 1800 200% DPI, NPU Driver Version: 32.0.100.3967, PC BIOS: NYCN66WW, Screen Size: 15", Power Plan: Balanced, Power Mode (Win 11 Feature): Best Performance, Power App Setting (OEM's Power App): Extreme Performance, VBS: OFF, Defender: Running, Long Duration Package Power Limit (W): 30, Short Duration Power Limit (W): 37, Key Software Version: Openvino 2025.2.0-dev20250427, Openvino-genai 2025.2.0.0-dev20250427, Openvino-tokenizers 2025.2.0.0-dev20250427, Transformers 4.49.0)

        3. 性能數據通過在 SKU3 上使用 OpenVINO 框架 2025.1.0 版本進行測試,計算任務在獨立顯卡上完成。測試評估了在 INT4混合精度、INT8量化和 FP16 精度設置下,處理1K input時的內存占用、首個token延遲和平均吞吐量。每次測試在預熱階段后執行三次,選取中間值作為報告數據。(Sku3: Brand: Intel, Model: Desktop, CPU: Core i7-14700K, Memory: 32GB DDR5-5600MHz, Storage: SAMSUNG 980 PRO 1TB, OS: Windows 11, OS Version: 24H2 (26100.3775), Graphics: Intel Arc B580 GPU(vRAM=12GB), Graphics Driver Version: 32.0.101.6737, Resolution: 2560 x 1440, NPU Driver Version: n/a, PC BIOS: 2801, VBS: OFF, Defender: Running, Long Duration Package Power Limit (W): -, Short Duration Power Limit (W): -, Key Software Version: Openvino 2025.2.0-dev20250427, Openvino-genai 2025.2.0.0-dev20250427, Openvino-tokenizers 2025.2.0.0-dev20250427, Transformers 4.49.0)

        4. 性能因使用情況、配置和其他因素而異。 欲了解更多信息,請訪問intel.com/performanceindex。基于對第二代英特爾AI增強SDV SoC GPU+NPU與MBL i7-13800HAQ CPU+GPU(關閉睿頻)的內部預測,AI性能最高可提升十倍。




        關鍵詞:

        評論


        相關推薦

        技術專區

        關閉
        主站蜘蛛池模板: 桂林市| 金塔县| 疏附县| 航空| 顺平县| 延长县| 上饶县| 大连市| 光山县| 岐山县| 锡林浩特市| 江山市| 同德县| 永年县| 东乡| 康乐县| 轮台县| 定州市| 清河县| 柞水县| 饶平县| 宣城市| 天峻县| 昂仁县| 南乐县| 大兴区| 剑川县| 嫩江县| 合阳县| 瑞昌市| 桑日县| 上栗县| 安塞县| 海安县| 定结县| 朝阳区| 铜山县| 河源市| 贡觉县| 哈巴河县| 阳春市|