大模型來了,自動駕駛還遠嗎?關鍵看“眼睛”(1)
感知系統架構與方法
目標的檢測與跟蹤是感知系統的兩大基礎任務,主要利用不同傳感器數據輸入,完成對周圍障礙物的檢測與跟蹤,并將結果傳遞給下游規劃控制模塊完成預測、決策、規劃、控制等任務。下圖1簡要描述了此類任務的架構。
圖1:感知系統架構簡圖
主流傳感器介紹自動駕駛感知領域中常見的傳感器主要有3類:攝像頭、激光雷達,以及毫米波雷達。每種傳感器都有其優缺點,也影響了不同公司對技術路線的選擇。其中,攝像頭圖像數據能以低廉的成本實現高分辨率的成像,能夠提供豐富的紋理信息,例如國內某造車新勢力車型搭載的攝像頭分辨率達到了800萬像素。但攝像頭對光照比較敏感,夜晚或者極端天氣下的圖像往往對感知任務帶來比較大的挑戰。另外,圖像僅能提供2D信息,無法直接得到深度信息。在產業界,純視覺技術路線以特斯拉為代表。相對攝像頭,激光雷達往往比較稀疏,機械激光雷達垂直分辨率通常僅為32線、64線、128線不等,雖然固態、半固態激光雷達在不斷提升分辨率,但相較圖像來說仍然比較稀疏。其優勢是能夠提供深度信息,即給出每個激光點的距離值,這一信息對于目標檢測任務來說至關重要,因為目標檢測任務需要得到周圍交通參與者精確的位置信息。激光雷達也存在受限的應用場景,其對于雨、雪、霧等極端天氣,甚至灰塵比較敏感,難于穿透水珠、雪花、灰塵等,容易形成噪點,對于此類場景下的感知帶來不小的挑戰。目前,國內造車新勢力中已經廣泛應用固態、半固態激光雷達。毫米波雷達和激光雷達類似,同樣能探測目標的位置及速度。和激光雷達相比,由于其波長較長,能夠穿透微小顆粒,因此對極端天氣等不是很敏感,在雨、雪、霧等天氣條件下仍能產生不錯的效果。但受其原理影響,毫米波雷達對靜態障礙物檢測效果較差,分辨率也較低。目前,除特斯拉以純視覺技術路線為主外,主流自動駕駛感知架構采用多傳感器融合的方案,充分利用不同傳感器的優勢來提升感知精度。
主流目標檢測方法介紹下面從2D、3D目標檢測任務入手,介紹當前主流方法。2D目標檢測2D目標檢測是從圖像中預測目標位置及類別的任務。2D目標檢測網絡可分為兩個流派,即一階段和二階段網絡。所謂一階段網絡是直接在特征層預測目標的分類與位置,以YOLO系列為代表,其中YOLOV7網絡取得了速度和精度的平衡,圖2為YOLOV1的網絡架構。二階段網絡以RCNN系列為代表,其思想是通過RPN網絡生成候選區,再在候選區上進一步預測目標的分類和位置,圖3展示了Fast-RCNN網絡架構。二階段網絡由于需要首先生成候選區,其計算量往往較大,速度較慢,但能獲得更高的精度。在自動駕駛領域,2D檢測廣泛應用于紅綠燈檢測、車道線檢測等任務中。
圖2:YOLOV1網絡架構[1]
圖3:Fast-RCNN網絡架構[2]3D檢測任務3D目標檢測任務利用傳感器輸入預測目標的3D位置信息、尺寸、方向及速度,對下游規劃控制模塊的避障、預測決策至關重要。根據傳感器輸入的不同,可將其分為單模態和多模態方法。單模態只依靠一種傳感器輸入完成檢測任務,如直接在2D圖像上預測3D目標的純視覺方法,以及在三維激光點云上完成檢測的方法。多模態通過輸入多種傳感器數據,如圖像、激光點云、毫米波點云,在網絡層進行特征融合,完成3D目標檢測任務。
- 單目3D目標檢測
隨著標注方法的升級,目標的表示由原來的2D框對角點表示進化成了3D坐標系下bounding box(邊界框)的表示 ,不同緯度表示了3D框的位置、尺寸、以及地面上的偏航角。有了數據,原本用于2D檢測的深度神經網絡,也可以依靠監督學習用于3D目標框檢測。焦距適中的相機,FOV是有限的,想要檢測車身一周目標,就要部署多個相機,每個相機負責一定FOV范圍內的感知。最終將各相機的檢測結果通過相機到車身的外參,轉換到統一的車輛坐標系下。但在有共視時,會產生冗余檢測,即有多個攝像頭對同一目標做了預測(圖4展示了多相機俯視圖),現有方法如FCOS3D[3],會在統一的坐標系下對所有檢測結果做一遍NMS,有重合的目標框僅留下一個分類指標得分最高。圖4:多相機俯視示意圖[13]
- 統一多視角相機的3D目標檢測
自下而上的方法自下而上的方法,手頭的信息看到哪算哪。圖5來自CaDNN這篇文章,很好地描述了這一類方法,包括Lift、BEVDet、BEVDepth。這類方法預測每個像素的深度分布,有的方法為隱式預測,有的方法利用LiDAR點云當監督信號(推理時沒有LiDAR)。將多相機生成的深度圖轉換成車身四周的“點云”數據,有了點云就可以利用現有的點云3D目標檢測器了(如PointPillars, CenterPoint)。圖 5:CaDNN網絡原理圖[4]自上而下的方法此類方法先確定關注的地方,如特斯拉所采用的方法(如圖6所示),簡單來說就是先確定空間中要關注的位置,由這些位置去各個圖像中“搜集”特征,然后做判斷。根據“搜集”方式的不同衍生出了下面幾種方法:
圖6 特斯拉自上而下的方法[12]關鍵點采樣如DETR3D(網絡架構如圖7所示),由一群可學習的3D空間中離散的位置(包含于object queries),根據相機內外參轉換投影到圖片上,來索引圖像特征,每個3D位置僅對應一個像素坐標(會提取不同尺度特征圖的特征)。
圖 7:DETR3D網絡架構[5]
*博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。