大模型來了,自動駕駛還遠嗎?關鍵看“眼睛”(4)
數據閉環的目的是形成場景數據到算法的閉環,達到快速提升感知性能的目的。其涉及到多個方面,例如如何挖掘高價值場景數據,如何提升標注效率,以及模型的快速部署驗證等。圍繞這個目標,馭勢數據閉環體系可概括為以下幾個方面:基于主動學習的數據挖掘、自動標注、半監督訓練、云端訓練部署體系等幾個方面,圖24總結了數據閉環體系的基本框架:圖 24:馭勢數據閉環框架基于主動學習的數據挖掘數據閉環的首要任務是如何發現corner case場景。為解決這個問題,我們提出了基于主動學習的方法來識別系統未很好理解的場景。其基本思想是用不確定性來衡量模型的檢測效果,篩選出不確定性高的目標場景。我們從不確定度和類別均衡兩個維度來衡量場景的不確定性。其中不確定度包含類別的不確定度以及位置的不確定度。圖25和圖26展示了利用主動學習系統篩選出來的異常數據幀:
圖25:主動學習數據挖掘:目標框錯誤
圖26:主動學習數據挖掘:低得分目標自動標注點云數據的標注成本非常昂貴,同時標注周期也很長,影響模型的迭代效率。為此,我們提出了一種自動化的標注方法,使得標注效率成倍提升,大大縮短了模型迭代周期,同時節省了成本。其自動標注流程如圖27所示。
圖 27:自動標注流程圖
- 首先,我們利用時序大模型來尋找目標框,完成預標注;
- 其次,利用貼邊算法來修正模型預標注框;
- 最后,標注員對預標注結果進行檢查、修正,形成最終的標注結果。
通過效率評估,我們發現自動標注可提升標注效率達到人工標注的5-10倍,同時得到近似的模型精度。標注效率得到顯著提升,圖28展示了自動標注的效果。圖28:自動標注效果圖半監督訓練自動、半自動標注工具能夠顯著提升標注效率,但大規模的數據標注仍然需要消耗不小的人力成本。因此,我們也在探索半監督、無監督的訓練方法。我們期望能夠利用少量的數據標注,對模型進行半監督的訓練,同時模型精度能夠達到全量數據標注的水平。圖29描述了半監督訓練的框架。
圖 29:半監督訓練框架
- 第一步,我們標注少量的數據,并用該少量標注數據訓練Student網絡和Senior Teacher網絡。
- 第二步,用少量數據迭代后的Student2網絡在Teacher網絡,以及Sensor Teacher的監督下使用未標注的數據進行半監督訓練。
我們通過量化分析,發現通過半監督訓練的網絡精度能夠獲得和全量數據標注差不多的效果。并且通過半監督方法,可以進一步降低標注成本。圖30紅色框為標注Ground Truth結果,綠色框為經過半監督訓練后預測的結果,可以看到半監督訓練的預測結果基本上和Ground Truth一致。圖30:半監督訓練預測結果和真值對比長尾問題案例在開放道路中不可避免地遇到各種各樣的corner case,灑水車便是其中之一。灑水車產生的大量水霧在激光雷達點云上會產生大量的噪點,同時也會對攝像頭成像產生巨大干擾。我們通過數據閉環積累了大量數據,通過多傳感器融合、以及數據增強手段有效解決了此類問題。圖31展示了當無人車穿越灑水車的場景,感知系統穩定感知到了左前方的灑水車,并成功穿越了水霧。
圖31:灑水車識別案例此外,極端天氣下的訓練數據往往難于獲取。為此,我們提出了一種數據增強策略,來模擬雨、雪、霧天的數據。圖32是在正常點云數據中引入數據增強后模擬的雨天數據。
圖 32:雨天數據增強效果經過量化評估發現,在引入極端天氣數據增強后,模型在極端天氣數據上提升非常明顯。如圖33所示,在雨天數據上,引入數據增強后模型可正確檢測出目標(紅色框),而未引入數據增強模型則發生漏檢(黃色框)。
圖 33:引入數據增強后的模型檢測效果
總結與展望自動駕駛感知技術無論是純視覺技術路線還是多傳感器融合技術路線都在朝著特征前融合、端到端大模型以及打造高效數據閉環的方向發展,也取得了長足進步。相信隨著深度學習技術的發展以及算力不斷提升,感知問題會得到更好的解決,推動自動駕駛向全天候、全無人的目標邁進。參考文獻[1] You Only Look Once: Unified, Real-Time Object Detection[2] Fast R-CNN[3] FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection[4] Categorical Depth Distribution Network for Monocular 3D Object Detection[5] DETR3D: 3D Object Detection from Multi-view Images via 3D-to-2D Queries[6] BEVFormer: Learning Bird’s-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers[7] PointPillars: Fast Encoders for Object Detection from Point Clouds[8] Center-based 3D Object Detection and Tracking[9] Multi-View 3D Object Detection Network for Autonomous Driving[10] FUTR3D: A Unified Sensor Fusion Framework for 3D Detection[11] BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird’s-Eye View Representation[12] Tesla AI Day 2021, https://www.youtube.com/watch?v=j0z4FweCy4M&t=2900s[13]BEVDepth: Acquisition of Reliable Depth for Multi-view 3D Object Detection
*博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。