史上最全綜述:3D目標檢測算法匯總!(1)
來源:自動駕駛之心
1摘要
近年來,自動駕駛因其減輕駕駛員負擔、提高行車安全的潛力而受到越來越多的關注。在現代自動駕駛系統中,感知系統是不可或缺的組成部分,旨在準確估計周圍環境的狀態,并為預測和規劃提供可靠的觀察結果。
3D目標檢測可以智能地預測自動駕駛車輛附近關鍵3D目標的位置、大小和類別,是感知系統的重要組成部分。本文回顧了應用于自動駕駛領域的3D目標檢測的進展。首先,我們介紹了3D目標檢測的背景并討論了該任務中的一些挑戰。
其次,我們從模型和傳感器輸入方面對3D目標檢測的進展進行了全面調查,包括基于LiDAR、基于相機和多模態檢測方法。我們還對每一類方法的潛力和挑戰進行了深入分析。此外,我們系統地研究了3D目標檢測在駕駛系統中的應用。
最后,我們對3D目標檢測方法進行了性能分析,并進一步總結了多年來的研究趨勢,展望了該領域的未來方向。
自動駕駛,旨在使車輛智能地感知周圍環境,并在很少或無需人力的情況下安全行駛,近年來取得了快速發展。
自動駕駛技術已廣泛應用于自動駕駛卡車、無人駕駛出租車、送貨機器人等多種場景,能夠減少人為錯誤,提高道路安全。作為自動駕駛系統的核心組成部分,車輛感知通過各種傳感器輸入幫助自動駕駛汽車了解周圍環境。
感知系統的輸入一般是多模態數據(來自攝像頭的圖像數據、來自LiDAR的點云、高精地圖等),并且會預測道路上關鍵要素的幾何和語義信息。高質量的感知結果可作為軌跡預測和路徑規劃等后續步驟的可靠依據。
為了全面了解駕駛環境,感知系統涉及到許多視覺任務,例如目標檢測和跟蹤、車道線檢測、語義和實例分割等。在這些感知任務中,3D目標檢測是車輛感知系統中最不可或缺的任務之一。
3D目標檢測旨在預測3D空間中關鍵目標的位置、大小和類別,例如機動車、行人、騎自行車的人等。與僅在圖像上生成2D邊界框并忽略目標與本車的實際距離信息的2D目標檢測相比,3D目標檢測側重于對真實世界3D坐標系中目標的定位和識別。
3D目標檢測在現實世界坐標中預測的幾何信息可以直接用于測量本車與關鍵目標之間的距離,并進一步幫助規劃行駛路線和避免碰撞。
3D目標檢測方法隨著深度學習技術在計算機視覺和機器人領域的發展而迅猛發展。現有的3D目標檢測方法都試圖從特定方面解決3D目標檢測問題,例如從特定傳感器類型,數據表示等,與其他類別的方法缺乏系統的比較。
因此綜合分析各種類型的3D目標檢測方法的優缺點,可以為相關研究人員提供一些參考。基于此目的,本文全面回顧了自動駕駛應用中的3D目標檢測方法,并對不同方法進行深入分析和系統比較。
與現有的綜述文章[5, 139, 215]相比,本文廣泛涵蓋了該領域的最新進展,例如基于深度圖像的3D目標檢測、自/半/弱監督3D目標檢測、端到端自動駕駛系統中的3D目標檢測等。
與之前僅關注點云[88、73、338]、單目圖像[297、165]和多模態輸入[ 284]相比,我們的論文系統地研究了來自所有傳感器類型和大多數應用場景的3D目標檢測方法。
這項工作的主要貢獻可以總結如下:
- 我們從不同的角度全面回顧了3D目標檢測方法,包括來自不同傳感器輸入的檢測(基于LiDAR、基于攝像頭和多模態)、時間序列檢測、標簽高效檢測、以及3D目標檢測在駕駛系統中的應用。
- 我們從結構和層次上總結了3D目標檢測方法,對這些方法進行了系統分析,并為不同類別方法的潛力和挑戰提供了有價值的見解。
- 對3D目標檢測方法的綜合性能和速度進行分析,確定多年來的研究趨勢,并為3D目標檢測的未來方向提供深刻的見解。
本文的結構安排如下:首先,第2節中介紹了3D目標檢測問題的定義、數據集和評價指標。然后,我們回顧和分析了基于LiDAR傳感器(第3節)、相機(第4節)和多模態數據輸入(第5節)。
接下來,我們在第6節中介紹利用時空數據的檢測方法,并在第7節中使用較少有標簽數據的方法。我們隨后在第8節中討論3D目標檢測在駕駛系統中的應用。
最后,我們進行速度和性能分析,對研究趨勢進行了探討,并在第9節中展望3D目標檢測的未來方向。分層結構的分類如下圖所示。
3背景
1、定義
3D目標檢測是通過輸入傳感器數據,預測3D目標的屬性信息的任務。如何表示3D目標的屬性信息是關鍵,因為后續的預測和規劃需要這些信息。
大部分情況下,3D目標被定義為一個立方體,(x,y,z)是立方體的中心坐標,l,w,h是長寬高信息,delta是航向角,比如立方體在地平面的偏航角,class是3D目標的類別。
vx、vy描述3D目標在地面上沿x軸和y軸方向的速度。在工業應用中,一個3D目標的參數可以進一步簡化為鳥瞰圖上一個長方體的4個角位置。
2、傳感器輸入
許多類型的傳感器都可以為3D目標檢測提供原始數據,相機和LiDAR(激光雷達)傳感器是兩種最常采用的傳感器類型。相機價格便宜且易于使用,并且可以從某個角度捕捉場景信息。
相機產生圖像W×H×3用于3D目標檢測,其中W和H是一幅圖像的寬高,每個像素有3個RGB通道。盡管價格便宜,但相機在用于3D目標檢測方面存在內在限制。首先,相機只捕捉外觀信息,不能直接獲取場景的3D結構信息。
另一方面,3D目標檢測通常需要在3D空間中進行準確定位,而從圖像估計的3D信息(例如深度)通常具有較大的誤差。此外,基于圖像的檢測很容易受到極端天氣和時間條件的影響。在夜間或霧天從圖像中檢測目標比在晴天檢測要困難得多,這樣的自動駕駛系統無法保證魯棒性。
作為替代解決方案,LiDAR傳感器可以通過****一束激光束,然后測量其反射信息來獲得場景的細粒度3D結構信息。一個LiDAR傳感器在一個掃描周期內****光束并進行多次測量可以產生一個深度圖像,每個深度圖的像素有3個通道,分別為球坐標系中的深度r、方位角α和傾角φ。
深度圖像是激光雷達傳感器獲取的原始數據格式,可以通過將球坐標轉換為笛卡爾坐標進一步轉換為點云。一個點云可以表示為N×3,其中N表示一個場景中的點數,每個點有3個xyz坐標通道。
附加功能,例如反射強度,可以附加到每個點或深度圖像素。深度圖像和點云都包含由LiDAR傳感器直接獲取的準確3D信息。因此,與相機相比,LiDAR傳感器更適合檢測3D空間中的目標,并且LiDAR傳感器也更不易受時間和天氣變化的影響。
然而,LiDAR傳感器比攝像頭貴得多,這限制了在駕駛場景中的大規模應用。3D目標檢測圖解,見下圖:
旨在在圖像上生成2D邊界框的2D目標檢測是計算機視覺中的一個基本問題。3D目標檢測方法借鑒了2D目標檢測方法的許多設計范式:proposal generation and refinement、anchors、NMS 等。
然而,從多方面來看,3D目標檢測方法并不是2D目標檢測方法對3D空間的簡單適配。
- 3D目標檢測方法必須處理多樣化的數據。點云檢測需要新的算子和網絡來處理不規則的點數據,而點云和圖像的檢測需要特殊的融合機制。
- 3D目標檢測方法通常利用不同的投影視圖來生成目標預測結果。與從****圖檢測目標的2D目標檢測方法相反,3D方法必須考慮不同的視圖來檢測3D目標,例如鳥瞰圖、點視圖、柱面視圖等。
- 3D目標檢測對目標在3D空間的準確定位有很高的要求。分米級的定位誤差可能導致對行人和騎自行車的人等小目標的檢測失敗,而在2D目標檢測中,幾個像素的定位誤差可能仍然保持較高的IoU指標(預測值和真值的IoU)。因此,不論是利用點云還是圖像進行3D目標檢測,準確的3D幾何信息都是必不可少的。
4、與室內3D目標檢測對比
室內3D目標檢測也是3D目標檢測的一個分支,室內數據集比如SUN RGB-D [247],利用RGB-D和3D標注信息重建房間結構,包括門、窗、床、椅子等。室內場景中的3D目標檢測也是基于點云或圖像。然而,與室內3D目標檢測相比,駕駛場景中存在獨特的挑戰。
- 自動駕駛場景的檢測范圍遠大于室內場景。駕駛場景中的3D目標檢測通常需要預測很大范圍內的3D目標,例如Waymo[250]中為150m×150m×6m,而室內3D目標檢測通常以房間為單位,而其中[54]大多數單人房間小于10m×10m×3m。那些在室內場景中工作的時間復雜度高的方法在駕駛場景中可能無法表現出好的適應能力。
- LiDAR和RGB-D傳感器的點云分布不同。在室內場景中,點在掃描表面上分布相對均勻,大多數3D目標在其表面上可以接收到足夠數量的點。而在駕駛場景中,大多數點落在LiDAR傳感器附近,而那些遠離傳感器的3D目標僅接收到少量點。因此,駕駛場景中的方法特別需要處理3D目標的各種點云密度,并準確檢測那些遙遠和稀疏的目標。
- 駕駛場景中的檢測對推理延遲有特殊要求。駕駛場景中的感知必須是實時的,以避免事故。因此,這些方法需要及時高效,否則它們將無法落地。
數據集
自動駕駛3D目標檢測相關數據集較多,具體見下表。主要的數據集建立需要繼續干以下四件事:
- 增大數據規模。
- 增加數據多樣性,不只有白天夜晚,還要包括陰天、雨天、雪天、霧天等。
- 增加標注類別,除了常用的機動車、行人、非機動車等,還應包括動物,路上的障礙物等。
- 增加多模態數據,不只有點云和圖像數據,還有高精地圖、雷達數據、遠程激光雷達、熱成像數據等。
未來的數據集應該包括感知、預測、規劃、建圖等一整套數據,這樣可以為端到端的自動駕駛系統服務,而不僅僅是考慮一個3D目標檢測任務。
評價標準
針對3D目標檢測的評價,一種是將2D任務的AP指標擴展到3D,比如KITTI就包括 AP-3D、AP-BEV指標,分別用到預測值與真值的3D-IoU、BEV-IoU來衡量。其它比如基于中心距離的匹配,或者匈牙利匹配等。
另一種則通過下游任務來衡量,只有對下游任務(運動規劃)有幫助的檢測方法,才能在實際應用中確保駕駛安全。包括PKL[230]和SDE[56]等工作。
不同評價指標的利弊。基于AP的評價指標[80,15,250]自然繼承了2D檢測的優勢。然而,這些指標忽略了檢測對駕駛安全的影響,而這在現實應用中至關重要。
例如,在AP計算中,本車附近的目標漏檢和本車遠一點的目標漏檢可能都只是一個漏檢,但在實際應用中,近處的目標漏檢實質上比遠處的目標漏檢更危險。
因此,從安全駕駛的角度來看,基于AP的指標可能不是最優選擇。PKL[203]和SDE[56]通過考慮下游任務中檢測的影響,部分解決了這個問題,但在對這些影響建模時將引入額外的挑戰。
PKL[203]需要一個預先訓練的運動規劃器來評估檢測性能,但預先訓練的規劃器也有固有誤差,可能會使評估過程不準確。SDE[56]需要重構目標邊界,這通常是復雜和具有挑戰性的。
*博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。
物聯網相關文章:物聯網是什么