新聞中心

        EEPW首頁 > 智能計算 > 業界動態 > 邊緣視覺 AI 的理想平臺

        邊緣視覺 AI 的理想平臺

        作者: 時間:2021-06-18 來源:電子產品世界 收藏

        Kria K26 SOM

        本文引用地址:http://www.104case.com/article/202106/426416.htm

        Kria K26 SOM 專門為滿足當前和未來市場對視覺 AI 和視頻分析的需求而設計。尺寸僅有手掌大小,Kria SOM 搭載基于 Zynq? UltraScale+? MPSoC 架構的自適應 SoC 以及支持該 SoC 所需的所有基本組件(如存儲器和電源)。

        量產部署的定制也簡便易行。Kria SOM 搭配一款簡單的專為最終用戶設計的載卡,該卡集成了用戶終端系統具體使用的連接組件和附加組件。

        在評估和開發方面,賽靈思提供了一款入門套件。套件包含與視覺型載卡搭配的 Kria K26 SOM。通過將預定義視覺硬件平臺、構建在 Yocto 或 Ubuntu 上的高度可靠且綜合全面的軟件協議棧與預構建視覺型加速應用相結合,為開發者提供了一個運用賽靈思技術構建系統的前所未有的方法。詳細介紹請參閱賽靈思白皮書:借助 Kria SOM 實現嵌入式設計簡化[參考資料 6]和 Kria KV260 視覺 AI 入門套件用戶指南[參考資料7]。本白皮書的結論以 KV260 視覺 AI 入門套件為依據。參見圖 2。

        image.png

        圖2 KV260 視覺 AI 入門套件

        將 K26 SOM 用作邊緣設備

        智能應用除了要求亞微秒級的時延,還需要具備私密性、低功耗、安全性和低成本。以 Zynq MPSoC 架構為基礎,Kria K26 SOM 提供了業界一流的單位功耗性能和更低的總體擁有成本,使之成為邊緣設備的理想選擇。Kria SOM 具備硬件可配置能力,也就是說在 K26 上實現的解決方案是可擴展,同時具備未來兼容能力的。

        原始計算能力

        就在邊緣設備上部署解決方案而言,硬件必須擁有充足的算力,才能處理先進 ML 算法工作負載。我們可以使用各種深度學習處理單元 (DPU) 配置對 Kria K26 SOM 進行配置,還能根據性能要求,將最適用的配置集成到設計內。例如,運行在 300MHz 的 DPU B3136 的峰值性能是 0.94TOPS。運行在 300MHz 的 DPU B4096 的峰值性能是 1.2TOPS,幾乎是 Jetson Nano 公布的峰值性能 472GFLOPS[參考資料 8]的差不多 3 倍。

        支持更低精度的數據類型

        深度學習算法正在以極快的速度演進發展,INT8、二進制、三進制等更低精度的數據類型和定制數據正在進入使用。GPU 廠商難以滿足當前的市場需求,因為他們必須修改/調整他們的架構,才能適應并支持定制的或者更低精度的數據類型。Kria K26 SOM 支持全系列數據類型精度,如 PF32、INT8、二進制和其他定制數據類型。此外,根據 Mark Horowitz(雅虎創始者、斯坦福大學工程學院教授、計算機科學教授)提供的數據點[參考資料 9],以較低精度數據類型進行的運算功耗更低,比如在 INT8 上進行的運算的功耗比在 FP32 上進行的運算低一個數量級。參見圖3。

        image.png

        圖3 運算的能耗成本

        圖3 所列數值依據臺積電 45nm工藝并被證明可以準確地縮放到更小的工藝節點。因此,Kria SOM 通過可重配置能力,允許適配任何數據類型,這是一個重大優勢。

        低時延與低功耗

        一般情況下,對于任何實現在多核 CPU、GPU 或者任何 SoC 上的應用設計而言,功耗可在總體上按如下估算大致進行劃分[參考資料 9]:

        ●   核心 = 30%

        ●   內部存儲器(L1、L2、L3)= 30%

        ●   外部存儲器(DDR)= 40%

        這就是 GPU 功耗高的主要原因。為了改善軟件可編程能力,GPU 架構需要頻繁訪問外部 DDR。這種做法非常低效,有時候會對高帶寬設計要求構成瓶頸。相反,Zynq MPSoC 架構具有高能效。它的可重配置能力便于開發者設計的應用減少或不必訪問外部存儲器。這不僅有助于減少應用的總功耗,也通過降低端到端時延改善了響應能力。圖4 所示的是一種典型的汽車應用架構,其中 GPU 與各個模塊的通信都通過 DDR 實現,而 Zynq MPSoC 器件采用的是在設計上避免訪問任何DDR 的高效率流水線。

        1624242320746514.png

        圖4 典型 GPU 與 Zynq MPSoC 架構

        靈活性

        與數據流固定的 GPU 不同,賽靈思硬件提供了靈活性用來專門地重新配置數據路徑,從而實現最大吞吐量并降低時延。此外,可編程的數據路徑也降低了對批處理的需求,而批處理是 GPU 的一個重大不足,需要在降低時延或提高吞吐量之間做出權衡取舍。Kria SOM 靈活的架構已在稀疏網絡中展示出巨大潛力。稀疏網絡是當前 ML 應用中最熱門的趨勢之一。另一個重要特性(能進一步提高 Kria SOM 靈活性的特性)是任意 I/O 連接。它讓 K26 SOM 在無需主機 CPU 的情況下就可以連接到任何設備、網絡或存儲設備。




        關鍵詞:

        評論


        相關推薦

        技術專區

        關閉
        主站蜘蛛池模板: 滕州市| 大邑县| 夏津县| 天长市| 左权县| 施秉县| 大埔县| 积石山| 梓潼县| 旬阳县| 金坛市| 麻城市| 菏泽市| 芦溪县| 徐州市| 绥宁县| 平顶山市| 从化市| 瑞昌市| 运城市| 河源市| 德化县| 苏尼特左旗| 中江县| 如皋市| 江安县| 景德镇市| 阿克陶县| 南宁市| 高雄县| 阿鲁科尔沁旗| 龙胜| 灵寿县| 夏津县| 湖北省| 林口县| 星子县| 县级市| 礼泉县| 西宁市| 会宁县|