博客專欄

        EEPW首頁 > 博客 > 大模型來了,自動駕駛還遠嗎?關鍵看“眼睛”(2)

        大模型來了,自動駕駛還遠嗎?關鍵看“眼睛”(2)

        發布人:AI科技大本營 時間:2023-05-22 來源:工程師 發布文章
        局部注意力

        典型方法如BEVFormer(其原理圖如圖8所示),該方法預先生成稠密的空間位置(含不同的高度,且不隨訓練更新),每個位置投影到各圖片后,會和投影位置局部的數個像素塊發生交互來提取特征(基于Deformable DETR),相比于DETR3D,每個3D點可以提取到更多的特征。圖片圖 8:BEVFormer網絡原理圖[6]全局注意力典型方法如PETR,該方法強調保持2D目標檢測器DETR的框架,探索3D檢測需要做哪些適配。PETR同樣利用稀疏的3D點(來自object queries)來“搜索”圖像特征,但不像DETR3D或BEVFormer把3D點投影回圖片,而是基于標準的attention模塊,每個3D點會和來自全部圖片的所有像素交互。

        • 3D點云目標檢測方法

        點云能提供豐富的場景3D信息,廣泛被自動駕駛企業所采用。根據神經網絡對點云輸入的不同表示,可將點云目標檢測分為基于體素的方法,如SECOND、VoxelNet等;基于柱體的方法,如PointPillar等;以及基于點的方法,如PointRCNN等;基于點的方法往往計算量大,推理速度較慢,車端部署往往需要平衡速度和精度,SECOND和PointPillar是當前較為流行的方法,圖9展示了PointPillar的網絡架構。而依據檢測頭的不同,又可分為anchor-based方法和anchor-free的方法,PointPillar以及SECOND均為anchor-based方法。Anchor-free方法以CenterPoint為代表,其思想是直接預測目標的中心點,而無需生成預描框,圖10展示了其網絡架構。圖片圖9:PointPillar網絡架構[7]圖片圖10:CenterPoint網絡架構[8]

        • 多傳感器融合方法

        單模態目標檢測往往受限于傳感器的特性,目前自動駕駛領域中廣泛采用多模態,即多傳感器融合的技術方案。基于Frustum視錐的檢測器F-PointNet,首先在2D圖像上提取2D框,以此過濾出視錐區域的點云,再利用PointNet網絡進行分類和位置預測,此方法依賴2D檢測器的精度,并且速度較慢。多傳感器融合(MV3D)利用了圖像、點云俯視圖,以及點云平視距離圖(Range Image)作為輸入,分別對三種視圖提取特征,并在俯視圖上生成3D Proposal,利用3D Proposal提取對應的其他模態的特征圖,最終將三種模態的特征融合,在融合后的特征層預測目標位置。其網絡架構如圖11所示。圖片圖11:MV3D網絡架構[9]MV3D類方法在特征融合階段各個模態的維度不盡相同,如圖像特征為二維特征,而點云特征為三維,使得特征融合較為困難。近年來,基于BEV視圖的融合方案逐漸流行,其基本思想是將各個模態的特征轉換到BEV空間進行融合,BEV融合方法在多傳感器融合方面占據了主導地位。目前依據網絡架構不同,BEV融合方法主要可分為兩類,一類是基于DETR-based方法,代表工作如FUTR3D等,圖12展示了FUTR3D的網路架構;另一類是BEV-based方法如BEVFusio等,圖13給出了BEVFusion的網絡架構。圖片圖12:FUTR3D網絡架構[10]圖片圖13:BEVFusion網絡架構[11]圖片目標跟蹤在自動駕駛感知任務中,我們除了需要預測目標的位置、分類等信息外,還需要給出目標的速度和運動方向,即對目標進行連續的跟蹤。當前目標跟蹤主要有兩種技術方案,一種是以卡爾曼濾波技術為基礎,首先對目標進行關聯,再利用卡爾曼濾波器預測目標的速度方向。另一種是以深度學習網絡為基礎,通過連續幀時序網絡來預測目標的速度、方向。


        *博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。



        關鍵詞: AI

        相關推薦

        技術專區

        關閉
        主站蜘蛛池模板: 梓潼县| 峨眉山市| 东至县| 浦北县| 平潭县| 平顺县| 泸州市| 石景山区| 石狮市| 团风县| 钟山县| 敦煌市| 武安市| 九龙城区| 上犹县| 枣强县| 台东市| 临沧市| 白朗县| 南丹县| 诏安县| 桃园县| 德阳市| 绥滨县| 梁河县| 义乌市| 镇安县| 勃利县| 曲松县| 万荣县| 方城县| 五原县| 田林县| 镇宁| 鞍山市| 上栗县| 博白县| 锦屏县| 成都市| 武威市| 威信县|