博客專欄

        EEPW首頁 > 博客 > AI計(jì)算平臺(tái)設(shè)計(jì)方案:901-基于3U VPX的圖像數(shù)據(jù)AI計(jì)算平臺(tái)

        AI計(jì)算平臺(tái)設(shè)計(jì)方案:901-基于3U VPX的圖像數(shù)據(jù)AI計(jì)算平臺(tái)

        發(fā)布人:Hexiaoyan91 時(shí)間:2024-04-07 來源:工程師 發(fā)布文章

        一、產(chǎn)品概述

              設(shè)備基于3U VPX的導(dǎo)冷結(jié)構(gòu),集成FPGA接口預(yù)處理卡,GPU板卡、飛騰ARM處理卡,實(shí)現(xiàn)光纖、差分電口或者Camera link的圖像接入,F(xiàn)PGA信號(hào)預(yù)處理,GPU AI計(jì)算,飛騰ARM的采集管理存儲(chǔ)。

        二、系統(tǒng)組成

              系統(tǒng)組成包括:3U VPX機(jī)箱電源、3U VPX背板、 1塊3U VPX V7采集處理板、1塊3U VPX AGX orin GPU計(jì)算主板、1塊3U VPX飛騰處理器計(jì)算板。901-02[1].jpg

        2.1基于XC7V690T的3U VPX信號(hào)處理板(274)274-01[1].jpg

          本板卡系我司自主研發(fā)的基于3U VPX導(dǎo)冷架構(gòu)的信號(hào)處理板,適用于高速圖像處理等。芯片采用工業(yè)級(jí)設(shè)計(jì)。該處理板包含1片Xilinx公司的Virtex7系列FPGA-XC7V690T-2FFG1761I。板載兩組64位寬DDR3,每組容量4GB,一個(gè)HPC FMC接口。VPX接口連接4組x4 GTH,24組LVDS,一路RS422,一路1000Base-T。板卡的電氣與機(jī)械設(shè)計(jì)依據(jù)VPX標(biāo)準(zhǔn)(VITA 46.0),支持導(dǎo)冷,能夠滿足用戶在特殊環(huán)境下的使用需求。

        274-02[1].jpg

        板卡功能

        參數(shù)內(nèi)容

        主處理器

        Xilinx XC7V690T-2FFG1761I

        板卡標(biāo)準(zhǔn)

        VPX VITA 46.0

        電氣規(guī)范

        PCIe 2.0,3.0 X4

        FMC接口

        FMC  ANSI/VITA 57.1 – 2008 ,ASP-134486-01
             HPC中LA,HA,HB全部接口和DP0~DP7 8路高速接口

        板載緩存

        兩組DDR3,每組512Mx64bit(4GB), MT41K512M8RH-125-IT

        加載Flash

        BPI加載模式,BPI Flash 2Gb

        VPX接口

        P1: GTX x16, 支持PCIe、SRIO協(xié)議
        P2: LVDS x24,一路RS422,一路1000Base-T

        仿真器接口

        1x 6Pin JTAG接口,間距2.54mm

        LED

        兩個(gè),電源狀態(tài)指示燈,F(xiàn)PGA狀態(tài)指示燈(可編程)

        復(fù)位方式

        外復(fù)位

        板卡尺寸

        100mm x 160mm x20mm

        板卡重量

        (含散熱片)

        板卡供電

        +12V@4A

        板卡功耗

        48W

        工作溫度

        Industrial  -20℃到+70℃ 

        光纖收發(fā)子卡、2711子卡、Cameralink子卡

        901-03[1].jpg 

        2.2 基于3U VPX的AGX Orin GPU計(jì)算主板(735)   、


        901-15[1].jpg

            Jetson AGX Orin 采用 NVIDIA Ampere 架構(gòu) GPU 和 Arm Cortex-A78AE CPU,以及新一代深度學(xué)習(xí)和視覺加速器。高速 IO、204GB/s 的內(nèi)存帶寬以及 32GB 的 DRAM 能夠饋送多個(gè)并發(fā) AI 應(yīng)用程序管道。采用 Jetson AGX Orin,您現(xiàn)在可以部署更大型、更復(fù)雜的模型,解決自然語言理解、3D 感知和多傳感器融合等問題。Jetson Orin算力高達(dá)275 TOPS,是上一代多個(gè)并發(fā) AI推理管道性能的8倍,加上支持多個(gè)傳感器高速接口,可為新時(shí)代機(jī)器人提供理想的解決方案.

        735-02[1].gif

        GPU

        2048-core NVIDIA Ampere architecture GPU with
             64 Tensor Cores

        CPU

        12-core Arm Cortex-A78AE v8.2 64-bit CPU
             3MB L2 + 6MB L3

        顯存

        64GB 256-bit LPDDR5   204.8GB/s

        存儲(chǔ)

        64GB eMMC 5.1

        DLA最大頻率

        1.6 GHz

        AI性能

        275 TOPS

        DL加速器

        2x NVDLA v2

        視頻加速器

        1x PVA v2

        視頻編碼

        2x 4K60 (H.265), 4x 4K30 (H.265)  
             8x 1080p60 (H.265), 16x 1080p30 (H.265)

        視頻解碼

        1x 8K30 (H.265), 3x 4K60 (H.265), 7x 4K30 (H.265)
             11x 1080p60 (H.265),22x 1080p30 (H.265)

        PCle

        x8 PCle Gen4

        顯示接口

        HDMI

        網(wǎng)絡(luò)

        RJ45 接口 (高達(dá)1 GbE) 

        2.3 3U VPX飛騰處理器刀片計(jì)算機(jī)

        825-01[1].jpg

        2.3.1 產(chǎn)品概述 

             該產(chǎn)品是一款基于國產(chǎn)飛騰FT2000 4核或騰銳D2000 8核的高性能3U VPX刀片式計(jì)算機(jī)。產(chǎn)品提供了4個(gè)x4 PCIe 3.0總線接口,同時(shí)可配置為1個(gè)x16或2個(gè)x8 PCIe3.0接口,因此具有很強(qiáng)的擴(kuò)展性,極大地滿足多負(fù)載多節(jié)點(diǎn)的應(yīng)用需求。產(chǎn)品結(jié)構(gòu)完全符合VITA 46.0規(guī)范,有很強(qiáng)的可靠性、可維護(hù)性、可管理性,并與軍用計(jì)算機(jī)的抗振動(dòng)、抗沖擊、抗寬溫環(huán)境急劇變化等惡劣環(huán)境特性進(jìn)行完美融合。

        2.3.2 功能指標(biāo) 

         ● 3U 5HP VPX規(guī)格。 

         ● 支持FT-2000/4 四核處理器和騰銳D2000 八核處理器 

            FT-2000/4標(biāo)準(zhǔn)版,2.6GHz,16W 

            騰銳D2000/8標(biāo)準(zhǔn)版,2.3GHz,25W 

         ● 板載16GB雙通道DDR4內(nèi)存,頻率2400MHz。 

         ● 支持2個(gè)VGA接口,最大分辨率1920x1080@60Hz;其中1路VGA為后出接口。 

         ● 支持4個(gè)x4 PCIe3.0接口,可配置成1個(gè)x16 PCIe 3.0或2個(gè)x8 PCIe 3.0。 

         ● 前面板支持1路10/100/1000Mbps網(wǎng)絡(luò)接口,后出2路10/100/1000Mbps網(wǎng)絡(luò)信號(hào),其中1路后出網(wǎng)口與前面板網(wǎng)口二選一切換。 

         ● 板載1個(gè)mSATA接口,支持SATA3.0;后出2路SATA3.0信號(hào),用于擴(kuò)展存儲(chǔ)。 

         ● 前面板支持2個(gè)USB3.0接口;后出2路USB3.0接口信號(hào)。 

         ● 提供2路RS232后出串口,其中1路可選RS422/RS485模式。 

         ● 提供1路RS232后出CPU管理串口。 

         ● 前面板帶復(fù)位按鍵和LED指示燈。 

         ● 單板管理功能(可選功能)。 

         ● 支持銀河麒麟、UOS、Centos、ubuntu、VxWorks系統(tǒng)。 

        (本項(xiàng)目使用ubuntu操作系統(tǒng))

        三、軟件開發(fā)內(nèi)容

        3.1光纖收發(fā)整體流程設(shè)計(jì)901-04[1].gif


        2路QSFP+光纖接口,一路作為發(fā)送端口,一路作為接收端口,每路接口作為4個(gè)X1通道互不影響。
            接收端:數(shù)據(jù)流從光纖接收端進(jìn)來,存到FPGA的DDR中,然后通過PCIE導(dǎo)入到GPU中。
            發(fā)送端:數(shù)據(jù)存在飛騰主板中,飛騰通過PCIE寫入FPGA的DDR中,F(xiàn)PGA取走數(shù)據(jù),通過光纖發(fā)送端口發(fā)送出去。
            GPU接收的數(shù)據(jù)通過千兆網(wǎng)發(fā)送到飛騰主板中。


        3.2 TLK2711收發(fā)整體流程設(shè)計(jì)

        901-05[1].gif


         4路TLK2711接口,2路作為發(fā)送端口,2路作為接收端口,每路接口互不影響。
            接收端:數(shù)據(jù)流從TLK2711接收端進(jìn)來,存到FPGA的DDR中,然后通過PCIE導(dǎo)入到GPU中。
            發(fā)送端:數(shù)據(jù)存在飛騰主板中,飛騰通過PCIE寫入FPGA的DDR中,F(xiàn)PGA取走數(shù)據(jù),通過TLK2711發(fā)送端口發(fā)送出去。
            GPU接收的數(shù)據(jù)通過千兆網(wǎng)發(fā)送到飛騰主板中。
        3.3 FPGA流程框架



        901-06[1].gif

        901-07[1].gif

            如圖所示,F(xiàn)PGA程序可以大體劃分為PCIe端點(diǎn)控制器XDMA、DDR3讀寫控制以及TLK2711收發(fā)控制三部分。FPGA與PC的PCIe通信采用Xilinx的XDMA IP,邏輯模塊間采用AXI總線互聯(lián)方式。XDMA0數(shù)據(jù)鏈路為飛騰主板主控?cái)?shù)據(jù)鏈路,XDMA1數(shù)據(jù)鏈路為Orin_GPU卡主控?cái)?shù)據(jù)鏈路。
              Orin_GPU卡主控?cái)?shù)據(jù)鏈路:tlk2711子卡的接收端口接收到圖像數(shù)據(jù)緩存到第一組ddr3中,大小為4GB,對(duì)0-4GB的ddr3空間讀寫,gpu把圖像數(shù)據(jù)讀出并作處理。鏈路數(shù)據(jù)流向分為數(shù)據(jù)發(fā)送(FPGA-PC)(這里飛騰主板和Orin_GPU卡都稱為PC):
              數(shù)據(jù)接收過程描述(FPGA-PC):圖像數(shù)據(jù)以1.6Gbps線速率通過rxp接口,wr_fifo把16bit數(shù)據(jù)位寬轉(zhuǎn)化為128bit數(shù)據(jù)位寬,fdma_ctrl的寫ddr3模塊把數(shù)據(jù)寫入到0-4GB的地址空間,通過定義的寄存器信號(hào)告訴主機(jī)軟件取出對(duì)應(yīng)地址空間的數(shù)據(jù),通過dma的C2H通道直接寫入主機(jī)內(nèi)存。
              飛騰主板主控?cái)?shù)據(jù)鏈路:飛騰主板把圖像處理結(jié)果寫入板卡第二組ddr3中,fpga邏輯讀出ddr3中的數(shù)據(jù)通過tlk2711子卡的發(fā)送端口發(fā)送出去。(這里飛騰主板和Orin_GPU卡都稱為PC)。
              數(shù)據(jù)發(fā)送過程描述(PC-FPGA):為了實(shí)現(xiàn)數(shù)據(jù)發(fā)送,主機(jī)軟件從主機(jī)內(nèi)存固定位置讀出圖像處理數(shù)據(jù)發(fā)送到DMA的H2C通道,寫入到板載第二組DDR3的0-4GB的空間,主機(jī)軟件通過寄存器通知fdma_ctrl的讀ddr3模塊取出對(duì)應(yīng)地址ddr3的數(shù)據(jù),通過rd_fifo把數(shù)據(jù)128bit位寬變化到16bit后,給到tlk2711子卡的發(fā)送模塊,最后數(shù)據(jù)以1.6Gbps的線速率通過txp口發(fā)送出去。
        3.4 軟件PCIE讀流程


        901-08[1].gif

          軟件啟動(dòng)開始接收,軟件通過寄存器使能FPGA開始接收數(shù)據(jù)(光纖或者TLK2711數(shù)據(jù)),軟件開始輪詢FPGA寫入完成寄存器,當(dāng)讀到FPGA完成標(biāo)志,說明FPGA已經(jīng)寫入數(shù)據(jù),軟件讀取DDR中數(shù)據(jù),完成一次讀取數(shù)據(jù)交互流程。
        之后重復(fù)單次流程,直到數(shù)據(jù)接收完整。
        3.5 軟件PCIE寫流程

        901-09[1].gif

             軟件啟動(dòng)開始發(fā)送數(shù)據(jù)(光纖或者TLK2711數(shù)據(jù)),軟件把數(shù)據(jù)寫入DDR中, 通過寄存器使能FPGA開始發(fā)送,軟件開始輪詢FPGA讀取完成寄存器,當(dāng)讀到FPGA完成標(biāo)志,說明FPGA已經(jīng)把DDR的數(shù)據(jù)取走,這樣就完成一次寫入數(shù)據(jù)交互流程。之后重復(fù)單次流程,直到數(shù)據(jù)發(fā)送完整。
        3.6飛騰GPU數(shù)據(jù)交互

        901-10[1].gif

        在背板設(shè)計(jì)中,飛騰主板和GPU千兆網(wǎng)互聯(lián)和RS232互聯(lián)。考慮傳輸速度,使用千兆網(wǎng)進(jìn)行傳輸。使用TCP/IP協(xié)議,飛騰處理器為TCP服務(wù)端,GPU為TCP客戶端主動(dòng)進(jìn)行鏈接請(qǐng)求。

        901-11[1].gif

        3.7 客戶端界面

        901-12[1].jpg

          客戶端具有狀態(tài)信息顯示,控制四通道光纖數(shù)據(jù)發(fā)送或者雙通道TLK2711接口數(shù)據(jù)發(fā)生功能。上位機(jī)自動(dòng)識(shí)別FPGA子卡類型,切換操作界面。
              
        四通道光纖子卡界面

        901-13[1].jpg

        雙通道TLK2711子卡界面

        901-14[1].jpg

        *博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。




        技術(shù)專區(qū)

        關(guān)閉
        主站蜘蛛池模板: 双柏县| 开鲁县| 板桥市| 万全县| 乾安县| 河北省| 漠河县| 东平县| 南陵县| 五台县| 贵南县| 太保市| 平泉县| 合江县| 佛山市| 集安市| 大姚县| 嵊州市| 合作市| 广德县| 盐池县| 正蓝旗| 眉山市| 饶阳县| 金门县| 伊通| 奉新县| 简阳市| 龙井市| 连州市| 西安市| 江阴市| 青岛市| 西峡县| 登封市| 阳信县| 郑州市| 梅河口市| 内丘县| 北川| 宜州市|