史上最全綜述:3D目標檢測算法匯總!(5)
自動駕駛中的端到端學習
3D目標檢測是感知系統的關鍵組成部分,3D目標檢測器的性能將對跟蹤、預測和規劃等下游任務產生深遠影響。因此,從系統的角度來看,3D目標檢測模型與其他感知任務以及下游任務聯合訓練,將是更好的自動駕駛解決方案。
一個挑戰是如何將所有駕駛任務包含在一個統一框架中,并以端到端的方式聯合訓練這些任務。
聯合感知和預測。很多方法通過感知和跟蹤3D目標,然后以端到端的方式預測它們的未來軌跡。FaF[160]是一項開創性工作,它提出使用單個3D卷積聯合預測3D目標檢測、跟蹤和軌跡預測。
這種設計范式被許多論文改進,例如[21]利用地圖信息,[125]引入交互式 Transformer,[350]設計時空交互式網絡,[298]提出時空金字塔網絡,[138]循環執行所有任務,[204]涉及將定位任務引入系統。
聯合感知、預測和規劃。很多工作努力將感知、預測和規劃納入一個統一的框架。與聯合感知和預測方法相比,整個系統可以通過將運動規劃添加到端到端流程中,并從規劃反饋信息中得到收益。
很多方法提出來改善這個框架,例如[229]引入語義占用圖以產生可解釋的中間表示,[290]將空間注意力納入框架,[341]提出深度結構化網絡,[22]提出無地圖方法,[53] 產生一組不同的未來軌跡。
一個完整的端到端自動駕駛系統應該是這樣子的:自動駕駛車輛接受傳感器輸入,在一個循環中依次執行感知、預測、規劃和運動控制,最終給駕駛系統提供轉向和速度信號。
[12]首先介紹了這個想法,并用卷積神經網絡實現了基于圖像的端到端驅動系統。[302]提出了一種具有多模式輸入的端到端架構。[51]和[106]提出分別通過條件模仿學習和深度強化學習來學習端到端自動駕駛系統。具體的端到端的自動駕駛示意如下圖所示。
3D目標檢測仿真
3D目標檢測模型通常需要大量數據進行訓練。雖然可以在現實世界場景中收集數據,但現實世界的數據通常會受到長尾分布的影響。
例如,交通事故或極端天氣的場景很少被采集到,但對于訓練強大的3D目標檢測器非常重要。模擬仿真是解決長尾數據分布問題的一種很有前途的方案,因為我們可以為那些罕見但關鍵的場景創建人造數據。模擬的一個公開挑戰是如何創建更真實的人造數據。視覺模擬。很多方法在駕駛場景中生成逼真的合成圖像。這些方法的想法包括利用圖形引擎[1, 226]、利用紋理映射面元[320]、利用真實世界數據[47]和學習可控神經模擬器[108]。
激光雷達模擬。除了生成合成圖像,許多方法試圖通過模擬生成LiDAR點云。一些方法[69, 188, 71]通過模擬現實世界的效果提出了新穎的點云渲染機制。一些方法[169]利用真實世界的實例來重建3D場景。其他論文側重于安全關鍵場景[267]或惡劣天氣條件下[89]的模擬。
駕駛模擬。許多論文試圖建立一個交互式駕駛模擬平臺,虛擬車輛可以在其中感知虛擬環境并與虛擬環境交互,最終規劃車輛路徑。CARLA[61]是一個開創性的自動駕駛開源模擬器。
其他論文利用圖形引擎[232]或開發數據驅動方法[4]進行駕駛模擬。還有一些工作模擬交通流[253、252]或通過模擬測試車輛的安全性[296]。
基于學習的3D的目標檢測方法容易受到攻擊,比如給傳感器輸入中添加一些噪聲或目標,就可能造成3D目標檢測器失效,造成漏檢,如何更好的防御攻擊是個問題。
許多論文提出通過對抗性機器學習攻擊傳感器并欺騙目標檢測器。這些方法針對不同的目標,例如LiDAR檢測器[18, 294, 257, 248, 366],多模態檢測器[19, 259],協作感知模型[258],車輛軌跡[130] 等。
他們提出了不同的技術來欺騙檢測器,包括在道路上添加對抗性障礙物[18]、在車輛上放置真實的樣本[294]、在對抗性位置放置任意目標[366]、利用對抗性紋理網格[259]、放棄臨界值[294],和利用被遮擋的點云模式[248]等。
協同3D目標檢測
現有的3D目標檢測方法主要基于本車單車,但是只用單車會造成無法解決目標遮擋和遠處目標的稀疏性問題。于是很多研究提出,利用多車協同方案。
本車與其它車或基礎設施進行通信,根據其它代理(車或基礎設施)反饋的信息提高感知精度。協同感知的一個挑戰是如何適當地平衡精度提高和通信帶寬要求。協同3D目標檢測方法融合來自多個代理的信息以提高3D目標檢測器的性能。
融合的信息可以是來自其他代理的原始輸入[33, 345],其通信帶寬消耗很小,并且對于檢測非常有效,也可以是壓縮的特征圖 [32, 276, 260, 129],其通信帶寬成本不可忽略,但檢測效果通常會更好。還有一些論文研究何時與其他代理通信[150]以及與哪個代理通信[151]。
研究趨勢
3D目標檢測的評價指標從原來的2D的AP已經逐漸變為AP-3D和AP-BEV,更好的衡量3D檢測效果。基于LiDAR的方法在數據集的選擇上也從KITTI逐漸變為更大和更多樣的nuScenes和WaymoOpen數據集。部署依然很難,因為很多方法為了提高性能,并沒有太在乎推理時間,造成實時性較差。
目前來看,基于LiDAR的方法中,基于體素和點體素的方法性能有較大提升。基于柱體的方法運行快,效率高,但性能比基于體素的差。基于Range和BEV的方法不錯,推理時間也可以接受。基于點的檢測器效果好,但是推理速度受采樣和處理算子的影響較大。
基于相機的3D目標檢測方法中,雙目比單目好,多相機的研究也是前景廣泛。多模態比單模態效果好,但引入了額外的計算開銷,前融合方法更嚴重。現在很多方法只用了前視圖和對應點云進行融合,而在nuScenes上提供了多視圖圖像、點云和高精地圖,模型可以得到更好的結果。
從系統級別來看,以速度和精度為主導因素,則基于LiDAR和多模態的方法是最佳解決方案;如果以成本為最重要因素,那么基于相機的方法可能是最佳選擇。
未來展望
數據集不能只用閉集,類別只有那些常見的目標(機非人等),后續也應該關注一些現實世界中稀有類及未標注的類別,開放世界目標檢測值得關注。
3D目標檢測的可解釋性研究。深度學習作為黑盒,可解釋性較差,但為了更加穩健的使用3D目標檢測器,并知道如何避免一些意外情況,需要理解和解釋現有3D目標檢測器的一些行為。
硬件系統的優化設計同樣重要,如何讓基于LiDAR和多模態的檢測器高效的在移動端硬件上跑起來,需要設計新的硬件架構來方便模型部署。
端到端的3D目標檢測算法未來是個趨勢,畢竟單獨去優化3D目標檢測器,對下游任務(預測和規劃)不一定是最優的。
下面的表是一個匯總。
本文全面回顧和分析了自動駕駛3D目標檢測的各個方面。從3D目標檢測的問題定義、數據集和評估指標開始,然后介紹了基于各種傳感器的3D目標檢測方法,包括基于LiDAR、基于相機和多模態3D目標檢測方法。進一步研究了利用時態數據的3D目標檢測,具有標簽高效的學習,以及它在自動駕駛系統中的應用。最后,總結了近年來的研究趨勢,展望了未來3D目標檢測的研究方向。
[1] Mao, J., Shi, S., Wang, X., & Li, H. (2022). 3D Object Detection for Autonomous Driving: A Review and New Outlooks.ArXiv, abs/2206.09474.
*博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。