SemiDynamics詳細介紹了一體化 RISC-V NPU
西班牙的 SemiDynamics 開發了一種完全可編程的神經處理單元 (NPU) IP,它結合了 CPU、向量和張量處理,可為大型語言模型和 AI 推薦系統提供高達 256 TOPS 的吞吐量。
本文引用地址:http://www.104case.com/article/202505/470145.htmCervell NPU 基于 RISC-V 開放指令集架構,可從 8 個內核擴展到 64 個內核。這使設計人員能夠根據應用的要求調整性能,從緊湊型邊緣部署中 1GHz 的 8 TOPS INT8 到數據中心芯片中高端 AI 推理中的 256 TOPS INT4。
這是繼 12 月推出的一體化架構之后發布的,本白皮書中對此進行了詳細介紹。
“Cervell 專為 AI 計算的新時代而設計,在這個時代,現成的解決方案是不夠的。作為 NPU,它提供從邊緣推理到大型語言模型的所有功能所需的可擴展性能。但真正讓它與眾不同的是它的構建方式:完全可編程,由于開放式 RISC-V ISA 沒有鎖定,并且可以深度定制到指令級別。結合我們的 Gazillion Misses 內存子系統,Cervell 消除了傳統的數據瓶頸,并為芯片設計人員提供了強大的基礎,以構建差異化的高性能 AI 解決方案,“Semidynamics 首席執行官 Roger Espasa 說。
Cervell NPU 專為加速矩陣密集型作而設計,可實現更高的吞吐量、更低的功耗和實時響應。通過將 NPU 功能與標準 CPU 和矢量處理集成到統一架構中,設計人員可以消除延遲并最大限度地提高各種 AI 任務(從推薦系統到深度學習管道)的性能。
Cervell 內核與 Gazillion Misses 內存管理子系統緊密集成。這支持多達 128 個同步內存請求,消除了超過 60 字節/周期的持續數據流的延遲停頓。此外,還可以大規模并行訪問片外內存,這對于大型模型推理和稀疏數據處理至關重要。
這可以保持完整的管道飽和,即使在推薦系統和深度學習等帶寬密集型應用程序中也是如此。
該內核是完全可定制的,能夠添加標量或矢量指令,配置暫存器存儲器和自定義 I/O FIFO,并定義存儲器接口和同步方案,以提供面向未來的差異化 AI 硬件。
這種 RTL 級別的深度定制,包括插入客戶定義的指令,使公司能夠將唯一的 IP 直接集成到解決方案中,保護其 ASIC 投資免受模仿,并確保設計針對功耗、性能和面積進行全面優化。開發模型包括早期 FPGA drop 和并行驗證,以減少開發時間和風險。
Configuration | INT8 @ 1GHz | INT4 @ 1GHz | INT8 @ 2GHz | INT4 @ 2GHz |
C8 | 8 TOPS | 16 TOPS | 16 TOPS | 32 TOPS |
C16 | 16 TOPS | 32 TOPS | 32 TOPS | 64 TOPS |
C32 | 32 TOPS | 64 TOPS | 64 TOPS | 128 TOPS |
C64 | 64 TOPS | 128 TOPS | 128 TOPS | 256 TOPS |
評論