博客專欄

        EEPW首頁 > 博客 > 清華大學&英偉達最新|Occ3D:通用全面的大規模3D Occupancy預測基準(2)

        清華大學&英偉達最新|Occ3D:通用全面的大規模3D Occupancy預測基準(2)

        發布人:計算機視覺工坊 時間:2023-05-20 來源:工程師 發布文章
        數據集統計

        基于上述半自動標注pipeline,作者生成了兩個3D占用預測數據集,Occ3D Waymo和Occ3D nuScenes。Occ3D Waymo包含798個用于訓練的序列,202個用于驗證的序列。它有14個已知的目標類和一個額外的GO類。Occ3D nuScenes包含600個用于訓練的場景和150個用于驗證的場景。它有16個GO類。下表1將作者提出的Occ3D數據集與現有數據集在各個方面進行了比較。

        圖片

        粗略到精細占用模型

        為了解決具有挑戰性的3D占用預測問題,作者提出了一種新的基于transformer的模型,稱為粗略到精細占有(CTF-Occ)網絡。作者將在本節中詳細介紹模型設計。

        總體架構

        下圖4顯示了CTF-Occ網絡架構圖。

        圖片

        首先,利用圖像主干網絡從多視圖圖像中提取2D圖像特征。然后,3D體素通過交叉注意力操作將聚集的2D圖像特征queries到3D空間中。作者的方法涉及使用金字塔體素編碼器,該編碼器通過增量標注選擇和空間交叉注意力以從粗到細的方式逐步改進體素特征表示。這種方法提高了空間分辨率,并細化了目標的詳細幾何結構,最終實現了更準確的3D占用預測。此外,作者使用了一個隱式占用****,它允許任意分辨率的輸出。

        粗略到精細體素編碼器

        與3D目標檢測相比,3D占用預測任務涉及對更復雜的目標幾何結構進行建模。為了說明這一點,作者的方法在不壓縮高度的情況下預先服務于3D體素空間。最初,作者采用形狀為H×W×L的可學習體素嵌入來將多視圖圖像特征聚合到3D網格空間中。然后,作者堆疊多個CTF體素編碼器,以實現多尺度交互。每個金字塔級別的每個體素編碼器由三個組件組成:增量標注選擇模塊、體素空間交叉注意力模塊和卷積特征提取器。

        增量token選擇: 如前所述,預測3D占用任務需要詳細的幾何表示,但如果所有3D體素標注都用于與多視圖圖像中的感興趣區域交互,這可能會導致顯著的計算和內存成本。考慮到場景中大多數3D體素網格都是空的,作者提出了一種增量標注選擇策略,該策略在交叉注意力計算中選擇性地選擇前景和不確定的體素標注。這種策略能夠在不犧牲精度的情況下實現快速高效的計算。具體地,在每個金字塔級別的開始,每個體素token被饋送到二元分類器中,以預測該體素是否為空。作者使用二進制真值占用圖作為監督來訓練分類器。在作者的方法中,選擇K個最不確定的體素標注用于后續的特征細化。有三種方法可以定義K個最不確定的體素:概率接近0.5的體素,得分最高的K個非空體素,或具有特定百分比的兩種體素的組合。消融研究表明,在早期選擇前景體素是一種更理想的選擇。

        空間交叉注意力: 在金字塔的每個級別,作者首先選擇前K個體素標注,然后聚合相應的圖像特征。特別地,作者應用空間交叉注意力來進一步細化體素特征。3D空間交叉注意力定義為:

        圖片

        其中i,j是相機視圖和參考點的索引。對于每個選定的體素標注查詢,投影實現以獲得第i個圖像上的第j個參考點。F表示第i個相機視圖的特征。作者計算與位于p=(x,y,z)處的查詢對應的參考點的真實世界位置(x′,y′,z′)為:

        圖片

        其中H,W,L是當前金字塔級別的3D網格空間形狀,s是體素網格的大小。

        卷積特征提取器: 一旦作者將可變形的交叉注意力應用于相關的圖像特征,就開始更新前景體素標注的特征。然后,使用一系列堆疊卷積來增強整個3D體素特征圖中的特征交互。在當前級別結束時,作者使用三重線性插值對3D體素特征進行上采樣。整個過程可以描述為:

        圖片

        隱式占用****

        CTF體素編碼器生成體素化特征輸出,然后將體素特征輸入到多個MLP中,以獲得最終的占用預測′,其中C′是語義類的數量。此外,作者介紹了一種隱式占用****,它可以通過利用隱式神經表示提供任意分辨率的輸出。隱式****被實現為MLP,該MLP通過兩個輸入輸出語義標簽:體素編碼器提取的體素特征向量和體素內部的3D坐標。該過程可以描述為

        圖片

        損失函數

        為了優化占用預測,作者使用OHEM[30]損失進行模型訓練,,其中表示第k類的損失權重、標簽和預測結果。此外,作者使用二進制體素掩碼來監督每個金字塔級別中的二進制分類頭。二進制體素掩碼是通過使用處理每個空間分辨率si下的尾數占用標簽來生成的,并且第i級中的二進制分類頭的輸出表示為pi。二元分類的損失定義為,其中i表示第i個金字塔級。最后,總損失為

        實驗實驗設置

        數據集: Occ3D Waymo總共包含1000個公開可用的序列,其中798個場景用于訓練,202個場景用于驗證。場景范圍沿X軸和Y軸設置為-40米至40米,沿Z軸設置為-5米至7.8米。Occ3D nuScenes包含700個訓練場景和150個驗證場景。X軸和Y軸的占用范圍定義為-40米至40米,Z軸為-1米至5.4米。作者選擇0.4m的體素大小在兩個數據集上進行實驗。

        架構: 作者使用在FCOS3D[36]上預訓練的ResNet-101[13]作為圖像主干,對于Occ3D Waymo,圖像大小被調整為(640×960),對于Occ3D nuScenes,圖像大小調整為(928×1600)。除了z軸的分辨率外,作者對兩個數據集采用了相同的CTF-Occ網絡架構設置。體素嵌入的形狀是(200×200),具有256個通道。體素嵌入將首先通過四個編碼器層,而不進行token選擇。Occ3D Waymo數據集有三個金字塔級,每個級的z軸分辨率分別為8、16和32。Occ3D nuScenes數據集的每個階段的z軸分辨率分別為8和16(對于兩個金字塔階段)。每個階段包含一個SCA層,并且對于所有金字塔階段,增量token選擇策略的top-k比率都設置為0.2。

        作者還將兩個主流BEV模型——BEVDet[14]和BEVFormer[18]擴展到3D占用預測任務。作者用CTF-Occ網絡中采用的占用****取代了他們原來的檢測****,并保留了他們的BEV特征編碼器。根據他們的原始設置,作者采用從FCOS3D[36]檢查點初始化的ResNet101 DCN作為圖像主干。

        實施細節: 作者使用AdamW優化器[23]和余弦學習速率調度器,學習速率設置為2e-4。除非另有規定,否則所有模型都訓練了24個epoch進行比較,8個epoch進行消融研究。

        6.2.與以前的方法進行比較

        Occ3D nuScenes: 下表2顯示了與Occ3D nuScenes數據集上的相關方法相比,3D占用預測的性能。可以觀察到,在IoU度量下,作者的方法在所有類中的性能都比以前的基線方法好。這些觀測結果與Occ3D Waymo數據集中的觀測結果一致。

        圖片

        Occ3D Waymo: 作者將CTF-Occ網絡的性能與新提出的Occ3D Waymo數據集上最先進的模型進行了比較。結果如下表4所示。作者的方法比以前的方法有顯著的優勢,即將mIoU增加了3.11。特別是對于一些小目標,如行人和自行車,方法分別超過基線方法4.11和13.0 IoU。這是因為作者在不壓縮高度的情況下捕捉3D體素空間中的特征,這將保留目標的詳細幾何結構。結果表明了作者的從粗到細體素編碼器的有效性。

        圖片

        消融研究

        在本節中,作者消融了增量token選擇和OHEM損失的選擇。結果如下表3所示。CC代表交通錐,PED代表行人。作者專注于CC和PED,以驗證作者在小目標上實現。這兩種技術都能提高性能。使用OHEM損失和top-k token選擇可產生最佳性能。如果沒有OHEM損失,作者只能得到10.06 mIoU。將OHEM損失與隨機token選擇策略相結合,可實現14.75 mIoU。使用OHEM損失的不確定token選擇策略可實現17.37mIoU。對于token選擇,不確定選擇和前k選擇不相上下,它們顯著優于隨機選擇。

        圖片

        定性結果

        作者將CTF-Occ網絡輸出與圖5中Occ3D Waymo數據集上的最先進方法BEVFormer Occ進行了比較。作者可以看到,CTF-Occ網絡輸出了比BEVFormer-Occ結果更詳細的體素幾何結構。此外,作者的體素****能夠以任何分辨率產生輸出,而不受真值數據分辨率的限制。

        圖片

        結論

        作者提出了Occ3D,一個用于視覺感知的大規模3D占用預測基準。該基準測試包括一個數據生成協議、兩個數據集和用于該任務的模型CTF-Occ網絡。它們都將開源,以促進未來的研究。研究表明,語義占用為目標提供了更具表現力和豐富的表示。此外,它提供了已知和未知目標的統一表示,這對戶外自動駕駛感知至關重要。除了直接使用外,這個基準為未來的研究開辟了幾個途徑。例如,將實例ID添加到語義體素將從本質上改變任務為全景分割,并提供更豐富的信息。

        參考

        [1] Occ3D: A Large-Scale 3D Occupancy Prediction Benchmark for Autonomous Driving

        開源地址:https://tsinghua-mars-lab.github.io/Occ3D/


        *博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。



        關鍵詞: AI

        相關推薦

        技術專區

        關閉
        主站蜘蛛池模板: 麦盖提县| 莒南县| 遂昌县| 察隅县| 栖霞市| 瓮安县| 扎兰屯市| 云龙县| 新巴尔虎右旗| 墨竹工卡县| 介休市| 汝阳县| 连州市| 广水市| 溧阳市| 唐山市| 海林市| 东丰县| 桦南县| 合作市| 日喀则市| 岑巩县| 宜黄县| 五莲县| 尚志市| 仪陇县| 扎赉特旗| 安多县| 兰溪市| 三穗县| 佳木斯市| 乌什县| 古田县| 陆川县| 中西区| 黄冈市| 昂仁县| 鹤庆县| 通海县| 望谟县| 盈江县|