新聞中心

        EEPW首頁 > 智能計算 > 業界動態 > 邊緣視覺 AI 的理想平臺

        邊緣視覺 AI 的理想平臺

        作者: 時間:2021-06-18 來源:電子產品世界 收藏

        深度學習模型性能比較

        本文引用地址:http://www.104case.com/article/202106/426416.htm

        本白皮書引用英偉達公布的 Jetson Nano 和 Jetson Tx2 的時延性能優化值和吞吐量性能優化值[參考資料10],并測量了賽靈思 AI 模型庫中提供的復雜性相似的等效模型的性能。在用 B3136 DPU 和 B4096 DPU 配置的 KV260 入門套件上執行這些模型,獲取性能數值。賽靈思平臺上的所有模型均以 INT8 量化,以改善功耗并提高帶寬效率。英偉達 Jetson Nano 和英偉達 Jetson Tx2 的性能數值以 FP16 精度報告,因為這些英偉達器件不支持較低精度的 INT8 [參考資料 11]。但賽靈思和英偉達性能應用均使用綜合數據作為輸入,在報告中并不包括預處理和后處理時間。參見表2。

        表 2:深度學習模型性能比較

         

        編號

        模型

        圖像大小

        賽靈思 K26 B3136 DPU

        賽靈思 K26 B4096 DPU

        英偉達 Jetson   Nano

        英偉達 Jetson   TX2

        FPS

        (時延優化)(1)

        FPS

        (吞吐量優化)(2)

        FPS

        (延遲優化)

        FPS

        (吞吐量優化)

        FPS

        (時延優化)

        FPS

        (吞吐量優化)

        FPS

        (時延優化)

        FPS

        (吞吐量優化)

        1

        Inception V4

        299x299

        19

        19.1

        30.3

        30.4

        11

        13

        24

        32

        2

        VGG-19

        224x224

        17.9

        17.9

        17.4

        17.4

        10

        12

        23

        29

        3

        Tiny Yolo V3

        416x416

        88.2

        92.6

        148.0

        161.3

        48

        49

        107

        112

        4

        ResNet-50

        224x224

        49

        49.1

        75.6

        75.9

        37

        47

        84

        112

         

        5

        SSD

        Mobilenet-   V1

        300x300

        129.6

        133.4

         

        192.1

         

        200.4

         

        43

         

        48

         

        92

         

        109

        6

        SSD

        ResNet34

        1200x1200

        1.6

        1.6

        2.5

        2.5

        1

        1

        3

        2

        說明:

        1.K26 SOM 完成時延優化后可執行一個線程。

        2.K26 SOM 完成吞吐量優化后可執行兩個線程。

        3.請聯系您當地的賽靈思銷售代表,獲取賽靈思 ML 性能包說明。

        根據表 2 所列信息,所有模型在 K26 SOM 上的性能數值均優于英偉達 Jetson Nano。而且對于 SSD Mobilenet-V1 等部分模型,吞吐量則為 Jetson Nano 的四倍以上,為 Jetson Tx2 的兩倍左右。參見圖 5,從中可以很容易地看到顯著的吞吐量提升。

        1624242354435317.png

        圖5 FPS 測量(時延優化)

        功耗測量

        邊緣設備提供最佳性能這點非常重要,但同時必須降低能耗。本白皮書在研究中測量了英偉達和賽靈思 SOM 模塊在執行表 2 所列的具體模型時發生的峰值功率。但是,SSD ResNet34 模型的功耗測量不包括在內,因為 Jetson 基準測試庫不包含此模型。[參考資料 10]峰值功率數值是在所有三種器件上的時延優化模式下執行比較時取得的。對于英偉達 Jetson Nano 和 TX2,每 30 秒從 INA3221x

        驅動程序的 sysfs 節點獲取一次讀數;對于賽靈思 K26 SOM,每 10 秒從 ina260-adc 驅動程序獲取一次讀數。參見表 3。

        表3 峰值功率測量(單位:瓦)

        編號

        模型

        賽靈思 K26 SOM B3136 DPU

        賽靈思 K26   SOM B4096 DPU

        英偉達 Jetson Nano

        英偉達 Jetson TX2

        1

        Inception V4

        8.09

        10.10

        7.40

        11.20

        2

        VGG-19

        8.55

        11.28

        8.10

        13.10

        3

        Tiny Yolo V3

        8.26

        11.08

        7.80

        12.30

        4

        ResNet-50

        7.47

        9.28

        7.70

        11.70

        5

        SSD Mobilenet-V1

        7.67

        9.29

        7.30

        10.80

        為了更準確地理解功耗優勢,請參看圖 6 所示的單位功耗性能。很明顯,K26 SOM 優于 Jetson Nano 3.5 倍,優于 Jetson TX2 2.4 倍。

        image.png

        圖6 FPS/瓦

        剪枝優勢

        賽靈思提供 AI 優化工具,能進一步增強運行在 K26 SOM 上的各種神經網絡的性能。本白皮書中提供的比較數據,到目前為止均是在未經優化或剪枝的原始模型上取得的。大多數神經網絡通常都有過度參數化的情況,存在可以優化的相當嚴重的冗余。賽靈思的 AI 優化器是一種行業領先的模型壓縮技術。該工具可在幾乎不影響精度的情況下,將模型復雜性最多降低 50 倍。

        本白皮書引用了賽靈思研究部所做的案例研究中的一個例子[參考資料12]。這是一個擁有 117 千兆次運算 (Gops) 的非常復雜的 SSD + VGG 模型,它使用賽靈思 AI優化器工具經多次迭代進行優化。圖7 所示的是使用 AI 優化器工具為模型剪枝帶來的好處。作為基線,該模型運算量為 117Gops,運行在用兩個 B4096 DPU 配置的 Zynq UltraScale+ MPSoC 上,最高 FPS 為 18。經過數次剪枝迭代,數據顯示復雜性明顯下降,FPS 相應增加,但未對精度 (mAP) 造成任何影響。在第 11 次迭代時,復雜性降低了 10 倍, 即復雜性從 117Gops 降低到 11.6Gops;性能提高 5 倍,即性能從 18FPS 提高到 103FPS;精度僅下降 1.1%,即從 61.55mAP 下降到 60.4mAP。

        image.png

        圖7 剪枝結果

        到這里,我們已經對 Kria K26 SOM 與 GPU 的原始性能對比做了介紹。了解這種原始性能在實際用例中的意義至關重要。實際用例結構復雜,涉及流水線中的其他模塊,如任何 AI-ML 應用所需的預處理和后處理組件。在這類應用中,最大吞吐量由流水線中性能最低的組件決定。

        下面章節里的性能比較以兩種器件的實際用例為基礎。

        實際應用的性能比較

        為了分析實際用例,我們選擇了一種準確檢測和識別車輛牌照的基于機器學習的應用。賽靈思已經與在智慧城市視頻分析解決方案領域居于行業領先地位的 Uncanny Vision 合作,旨在為市場提供世界一流的汽車牌照(車牌)識別 (ANPR) 解決方案。這種應用已得到世界上眾多城市的廣泛采用,用于智慧城市的建設中。ANPR 的主要應用包括自動收費管理系統、高速公路監測系統、停車場門禁和安全門門禁。ANPR應用是一種基于 AI 的流水線,內含視頻解碼、圖像預處理、機器學習(檢測)和 OCR 字符識別。參見圖8。

        1624242449834690.png

        圖8 ALPR 應用的處理模塊

        ANPR AI 盒應用一般從現貨 IP 攝像頭攝入一個到多個 H.264 或 H.265 編碼的 RTSP 流并進行解碼(解壓縮)。解碼的視頻幀在被機器學習算法攝入前,先進行預處理(通常是縮放、剪裁、色彩空間轉換和歸一化)。就高性能商用 ANPR 實現方案而言,通常需要多級 AI 流水線。第一個網絡的作用是檢測和定位幀內的車輛。這項操作中還結合了跨多幀追蹤車輛軌跡的算法和選擇最佳幀曝光,為OCR 優化圖像畫質的算法。通常先剪裁和縮放車輛感興趣區域 (ROI),然后饋入負責定位車牌的次級檢測網絡。與車牌 ROI 有關的像素經過剪裁和縮放,最終被饋送到負責實現 OCR 預測的最后一個神經網絡。最后一級提供的元數據預測是壓印或印刷在車牌上或是以其他方式可見的字母數字字符。為了進行比較,已商業化地部署在 GPU 和 CPU 上的 Uncanny Vision 的 ANPR 應用,為實現在 Kria KV260 視覺 AI 入門套件上的部署進行了優化。結果證明,將 Uncanny Vision 算法在 Kria SOM 上進行部署后,打破了每流 100 美元的價格壁壘,而且性能是 Uncanny Vision 以前使用的商品化同類 SOM 產品的 2-3 倍。盡管賽靈思沒有專門為運行在英偉達 SOM 上的 Uncanny Vision 算法進行基準測試,但表4 體現的是將 Uncanny Vision 行業領先的 ANPR 算法部署在 Kria SOM 上后,與英偉達用 Deepstream-SDK[參考資料13]完成的“車牌識別”的公開數據的比較。

        表4 ANPR 應用的性能比較

        硬件(模塊)

        英偉達 Jetson Nano

        英偉達 Jetson TX2 4GB

        英偉達 Jetson TX2 NX

        賽靈思 Kria K26C SOM

        價格

        129 美元

        299 美元

        199 美元

        250 美元

        Fps

        8(1)

        23(1)

        未公布,預計是TX2

        33

        流數量

        (假定每流10fps)

         

        ~1

         

        2

         

        未公布,預計是TX2

         

        3

        每流價格

        129 美元

        150 美元

        100 美元

        83 美元

        最大功耗(僅SOM)

        10W(2)

        15W(2)

        未公布,預計是TX2

        15W(3)

        每流功耗

        10

        7.5

        7.5

        5

        說明:

        1.來源:https://developer.nvidia.com/deepstream-sdk

        2.英偉達的功耗值是其 SOM 的最大額定功耗。來源:https://developer.nvidia.com/embedded/jetson-modules

        3.僅 K26 SOM 的最大額定功耗。

        這些數據說明,Uncanny Vision 的 ANPR 流水線在針對 KV260 入門套件進行優化后,實現了超過 33fps 的吞吐量,顯著優于英偉達基準測試中 Jetson Nano 的 8pfs 和 Jetson Tx2 的 23fps。這種前所未有的性能水平為ANPR 集成商和 OEM 廠商提供了優于競爭對手的開發靈活性。每多安裝一個 AI 盒都會直接影響安裝成本,還不考慮相關的布線和導管成本。根據安裝的具體情況,設計師可以犧牲幀率來換取更大的每盒處理流數。對于停車場安裝(如停停走走、攔車桿和自由通行),推斷和捕獲幀率通常要達到 10fps 才可滿足要求,還能可靠地采集車牌元數據。這便于設計師將多個攝像頭流聚合到單個 AI 盒,從而節省

        每個閘門的總體資本支出 (CAPEX) 和運營成本 (OPEX)。在高速應用中,如高速公路收費和執法,較高的幀率確保能夠準確可靠地檢測和識別高速行駛中的車輛。在 33fps 的吞吐量下,與當今市場上有可比性的競爭解決方案相比,K26 SOM 能夠更加可靠地為識別和證據搜集提供支持。

        大多數 ANPR 系統都需要在環境嚴苛的條件下高可靠性運行。I 級的 K26 SOM 專為嚴酷環境開發,

        支持 –40°C 至 100°C 的工作溫度范圍和行業領先的三年質保。在采用 K26I SOM 后,與市場上原有解決方案相比,ANPR 系統的總體擁有成本顯著降低。

        Uncanny Vision 的 ANPR 應用說明,K26 SOM 不僅在標準性能比較中表現極其優異,并且在為開發者提供加速整體 AI 和視覺流水線所需的原始性能時,效率也更高。通過對比,在標準的基準測試領域之外,競爭解決方案傾向于提供較低效率水平,而且功耗較高。




        關鍵詞:

        評論


        相關推薦

        技術專區

        關閉
        主站蜘蛛池模板: 江油市| 贺兰县| 巍山| 甘孜县| 阳江市| 尚义县| 开原市| 会理县| 松滋市| 绥江县| 惠安县| 壶关县| 灵台县| 临颍县| 内江市| 南充市| 桂东县| 诏安县| 南昌市| 玉屏| 尖扎县| 巴塘县| 太仆寺旗| 吉木萨尔县| 岳西县| 武山县| 易门县| 永修县| 旅游| 界首市| 城步| 花垣县| 平利县| 萝北县| 炉霍县| 石渠县| 台中市| 社会| 全椒县| 措勤县| 萨迦县|