玄鐵基于RISC-V的AI大模型部署優化實踐
7月18日,第五屆RISC-V中國峰會在上海進入分論壇環節。作為未來電子產業最龐大的應用范疇之一,人工智能是不可回避的話題。人工智能的飛速發展,正以年均超過100%的算力需求增長驅動底層架構的革新,“開放、靈活、可定制”的RISC-V已成為構建自主AI算力基石的戰略支點。人工智能分論壇邀請各方企業探討RISC-V架構如何利用其開源、開放、可擴展的特性,實現AI計算架構的革新,以及RISC-V架構在AI軟硬件的最新進展和應用落地情況。
阿里巴巴達摩院高級開發工程師徐鵬在現場分享了玄鐵AI大模型部署優化實踐。作為國內高性能RISC-V處理器IP開發的先鋒,玄鐵團隊一直引領著國內RISC-V架構在AI應用部署技術前沿,徐鵬介紹,截至2025年3月底,“魔搭社區”開源數量超過5.2萬個,與此同時“千問模型家族”及其衍生模型數量超過10萬家。不僅傳統模型的數量龐大,大模型也在各行各業內涌現出了一些定制化的需求。玄鐵在積極推動Vector和AME的推進。目前RISC-V社區當前的Vector已經ready,AME也在快速推進中。基于以上的業務需求和更新,對上層軟件棧提出了更高的要求。
具體到玄鐵處理器AI能力演進,早在2019玄鐵開始進行Vector0.7.1,接下來是Vector1.0,再然后是大位寬PyTorch以及AME單元,最近玄鐵更新了第二代AME單元。玄鐵硬件持續演進PyTorch和AME加速單元,提升計算能力,補充數據類型支持,特殊操作函數加速,針對性強化LLM場景。下圖是玄鐵相關的業務需求和硬件生態,玄鐵AI部署工具集HHB。玄鐵AI工具集包含三個層次,包括了HHB AICompiler和HHB-onnxruntime和HHB-XTorch。
玄鐵另一個重要的工作是PyTorch擴展。做好PyTorch的支持,一方面可以使用戶能夠無痛的切換到RISC-V硬件上,第二個方面可以復用PyTorch目前已經成熟的軟件生態、拓展RISC-V的AI能力。具體到玄鐵XTorch上,玄鐵針對大模型、MoE模型提供系列算子融合,端到端性能提升了11.2%。同時在這個層次也方便用戶部署,提供了大模型的良好能力的一些主流良好算法。例如:AWQ、GPTQ等,也提供q80等多粒度、多精度的量化能力支持。具體看一下XTorch如何加速大模型推理的。下圖作為典型的一個使用Transformer進行大模型推理的范式。最簡單的流程下,我們只需要插入兩行代碼使能XTorch就可以實現最原生的PyTorch加速。右邊是XTorch內部的一些工作,像針對MoE的算子融合,還有其他的一些常規算子融合和模型優化能力。
第三個工作進展是玄鐵運行時引擎和玄鐵算子庫。玄鐵NN庫是支持靜態圖和動態圖的推理,支持目前大模型中需要用到的FP8、FP4等多數據類型、新數據類型的一些量化推理。在計算任務進入玄鐵NN運行之后,會將整個計算任務拆分成一個一個的算子任務去進行適合于在單個核心上運算的,玄鐵提供線程間的負載均衡來形成極致的多核推理。同時,玄鐵在進行大模型的推理過程之中,會將單個大模型計算任務去視為同一個計算流,然后通過整體的整個計算流的全局態的分析,最大程度的運行硬件的并行能力,通過One Graph推理方式端到端性能提升20.5%。底層會將Matrix和Vector抽象成流數據單元,一次性編排所有的計算任務和通信任務,相較于傳統的執行方式能夠更大的消減硬件的等待時間。
玄鐵團隊的優勢是可以做軟硬件協同優化,可以利用并行能力加速Softmax計算,硬件會根據需求分析、最終形成了reduce dup系列指令,最終形成Softmax、通過閉環加速有了8倍提升。在Vector方面大模型用到的編碼會使用到sigmoid、sin的操作,玄鐵硬件會專門的去做函數加速。例如sigmoid和silu算子都會有5倍的提升。針對GEMM加速效果相較于FP16、相較于競品來說,提升了3倍左右。
評論