博客專欄

EEPW首頁 > 博客 > MLOD：基于魯棒特征融合方法的多視點(diǎn)三維目標(biāo)檢測

MLOD：基于魯棒特征融合方法的多視點(diǎn)三維目標(biāo)檢測

發(fā)布人：SIGAI 時間：2020-10-07 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

注：這是一篇2019年9月發(fā)表在arXiv【1】激光雷達(dá)和攝像頭數(shù)據(jù)融合的目標(biāo)檢測論文。

摘要

本文介紹了一個多視圖標(biāo)記的目標(biāo)檢測器（MLOD）。檢測器將RGB圖像和激光雷達(dá)點(diǎn)云作為輸入，并遵循兩步目標(biāo)檢測框架。區(qū)域提議網(wǎng)絡(luò)（RPN）在點(diǎn)云的鳥瞰視圖（BEV）投影中生成3D提議。第二步將3D提議邊框投影到圖像和BEV特征圖，并將相應(yīng)的圖截取發(fā)送到檢測頭（detector head）以進(jìn)行分類和邊界框回歸。與其他多視圖方法不同，裁剪的圖像特征不直接饋送到檢測頭，而是被深度信息掩蓋以過濾掉3D邊框外的部分。圖像和BEV特征的融合具有挑戰(zhàn)性，因?yàn)樗鼈儊碜圆煌囊暯恰＿@里引入了一種新檢測頭，不僅可以從融合層提供檢測結(jié)果，還可以從每個傳感器通道提供檢測結(jié)果。因此，可以用不同視圖標(biāo)記的數(shù)據(jù)訓(xùn)練目標(biāo)檢測器，以避免特征提取器的退化。MLOD在KITTI 3D目標(biāo)檢測基準(zhǔn)測試中實(shí)現(xiàn)了最好的性能。最重要的是，評估表明新的頭架構(gòu)（header architecture）在防止圖像特征提取器退化方面是有效的。

1.MLOD架構(gòu)

大約有三種方法可以利用攝像頭和激光雷達(dá)做自動駕駛的3D目標(biāo)檢測：1）圖像區(qū)域建議，2）基于投影和3）多視圖方法。

本文提出的兩步神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。BEV圖和RGB圖像被饋入兩個卷積神經(jīng)網(wǎng)絡(luò)獲得特征。為了提高計(jì)算效率，僅使用RPN的鳥瞰視圖（BEV）特征生成3D提議。基于提議的深度信息，3D提議之外的圖像特征被前景掩碼層（foreground mask layer）掩蓋。然后，掩碼的圖像特征圖和BEV特征圖被裁剪并傳遞到多視圖頭（multi-view header），提供最終的分類、定位和定向結(jié)果。

圖1

6個通道的BEV圖輸入是一個0.1米分辨率的2D網(wǎng)格，包括5個高度通道和1個密度通道。點(diǎn)云沿著地平面的法線在[0, 2.5米]之間被劃分為5個相等的切片（slices），并且每個切片產(chǎn)生高度通道，每個網(wǎng)格單元表示該單元中的點(diǎn)的最大高度。

該模型采用U-Net結(jié)構(gòu)作為BEV特征提取器。編碼器部分類似VGG的CNN，但有一半的通道。它包括CNN層，最高可達(dá)conv-4層。在****部分中，特征提取器使用卷積轉(zhuǎn)置（conv- transpose）操作對特征圖上采樣。上采樣特征圖與來自編碼器的相應(yīng)特征串聯(lián)實(shí)現(xiàn)融合。圖像特征提取器是在pool-5層之前的VGG16 CNN。

為在提議的3D邊框內(nèi)正確捕獲目標(biāo)的圖像特征，本文引入了前景掩碼層來過濾掉前景特征。

為了識別圖像的前景和背景，具有每個像素深度信息是必要的。但是由于激光雷達(dá)點(diǎn)云的稀疏性，圖像平面中的大部分深度信息都是未知的。最近，有幾種方法來完整化深度圖。不幸的是，它們通常具有高GPU內(nèi)存使用率，不適合實(shí)現(xiàn)。相反，這里引入了一種輕量級方法來利用稀疏深度信息。

圖2顯示了前景掩碼層的流程。首先，該層用3D提議投影的前視2D邊框裁剪并調(diào)整其（稀疏）深度圖的大小。為了計(jì)算方便，調(diào)整大小的深度圖是k×k大小裁剪圖像特征圖的n倍。由于深度信息在前視圖是不連續(xù)的，因此使用最近鄰內(nèi)插算法獲得大小調(diào)整過的深度圖。然后將nk×nk深度圖等分成k×k網(wǎng)格。這樣，每個網(wǎng)格單元表示k×k圖像特征圖對應(yīng)像素的深度信息。該層計(jì)算每個網(wǎng)格單元中非零深度值的中值mij，因?yàn)榱阒当硎驹撓袼貨]有激光雷達(dá)點(diǎn)信息。請注意，由于點(diǎn)云的稀疏性，網(wǎng)格單元格中的所有深度值都可能為零。

（a）

（b）

圖2

由于遠(yuǎn)目標(biāo)只有較少的投射激光雷達(dá)點(diǎn)，因此這些目標(biāo)的某些部分沒有任何深度信息。為此，為保留3D邊框內(nèi)或沒有深度信息的圖像特征，將前景掩碼設(shè)置為前視圖，使用最近鄰內(nèi)插算法獲得調(diào)整大小的深度圖。然后，將nk×nk深度圖等分為k×k網(wǎng)格。因此，每個網(wǎng)格單元表示k×k圖像特征映射中的對應(yīng)像素的深度信息。因此，為了保留3D邊界框內(nèi)的圖像特征或沒有深度信息，我們將前景掩碼設(shè)置為

其中dmax和dmin分別是3D邊框的最大和最小深度值。ε1和ε2是小緩沖區(qū)，用于吸收3D提議和點(diǎn)云的不確定性。（圖2中dmin = 6.8，dmax = 9.7）

在多視圖3D目標(biāo)檢測方法中，基于BEV的IoU來分配提議標(biāo)簽。但前視圖的IoU可能與BEV的IoU明顯不同。圖3示出將3D邊框分配給負(fù)標(biāo)簽但在圖像視圖中IoU > 0.7的示例。當(dāng)僅基于BEV IoU分配標(biāo)簽來訓(xùn)練目標(biāo)檢測器時，（前視圖）圖像通道的性能降低。

圖3

作者提出了一種多視圖檢測頭，以避免RGB圖像特征的衰減。圖4顯示了頭部網(wǎng)絡(luò)結(jié)構(gòu)。關(guān)鍵想法是在融合層（concat）之前為每個通道添加額外的輸出層。兩個輸出的每一個饋入到相應(yīng)的子輸出（sub-output）損失中。每個子輸出損失是采用在相應(yīng)通道視圖中IoU分配的標(biāo)簽計(jì)算，即

圖4

2.網(wǎng)絡(luò)訓(xùn)練

文中使用多任務(wù)損失來訓(xùn)練網(wǎng)絡(luò)，其檢測網(wǎng)絡(luò)的損失函數(shù)由下式定義

這里使用平滑L1損失進(jìn)行3D邊框偏移和朝向旋轉(zhuǎn)回歸，并使用交叉熵?fù)p失進(jìn)行分類。λ是用于平衡不同損失項(xiàng)的超參數(shù)。子輸出損失可以被認(rèn)為是網(wǎng)絡(luò)上的一種正則化過程。

KITTI基準(zhǔn)測試對汽車類（> 0.7）和行人和騎車者類（> 0.5）使用不同的IoU閾值。因此，文中訓(xùn)練了兩個網(wǎng)絡(luò)，一個用于汽車，另一個用于行人和騎自行車者。用大小是1024個ROI的微批量聯(lián)合訓(xùn)練RPN網(wǎng)絡(luò)和檢測頭。采用ADAM優(yōu)化器【2】，指數(shù)衰減的學(xué)習(xí)率初始化為0.0001。在汽車網(wǎng)絡(luò)，每100K迭代衰減0.1。在步行者和自行車者網(wǎng)絡(luò)，每20K迭代衰減0.5。圖像特征提取器加載預(yù)訓(xùn)練的ImageNet權(quán)重。BEV特征提取器權(quán)重由Xavier統(tǒng)一初始化器（uniform initializer）初始化。

如果BEV /圖像和真實(shí)GT目標(biāo)的IoU分別大于0.65 / 0.7，則汽車建議在自上而下/前視圖中被標(biāo)記為正。如果其BEV /圖像IoU分別小于0.55 / 0.5，則標(biāo)記為負(fù)。正的行人或騎車者建議在BEV /圖像視圖中至少分別為0.45 / 0.6 IoU。負(fù)樣本分別在BEV /圖像視圖中不超過0.4 / 0.4 IoU。對于微批量大小，先選擇1024個樣本，包括在自上而下的視圖中具有最高RPN分?jǐn)?shù)的正ROI和負(fù)ROI；然后，在正面視圖中挑選正或負(fù)的ROI。

有許多方法可以編碼3D邊框。為了減少參數(shù)的數(shù)量并保持物理限制，3D邊框表示為X-Y平面上的四個角，頂部和底部角高度會偏離地平面。

數(shù)據(jù)增強(qiáng)是增加訓(xùn)練實(shí)例數(shù)量和減少過擬合的重要技術(shù)。在這里的網(wǎng)絡(luò)訓(xùn)練中實(shí)現(xiàn)了兩種增強(qiáng)方法，即翻轉(zhuǎn)和PCA抖動。點(diǎn)云和圖像沿x軸翻轉(zhuǎn)。PCA抖動會改變訓(xùn)練圖像中RGB通道的強(qiáng)度。PCA分解應(yīng)用在整組訓(xùn)練圖像RGB像素值的集合中。然后，將高斯隨機(jī)噪聲添加到圖像的主分量中。

3.實(shí)驗(yàn)

主要評估KITTI目標(biāo)檢測基準(zhǔn)測試中汽車、行人和騎車人3D檢測任務(wù)的MLOD性能。KITTI的3D目標(biāo)檢測數(shù)據(jù)集包含7,481個訓(xùn)練幀和7,518個測試幀。基于遮擋級別、最大截?cái)嗪妥钚∵吙蚋叨龋@些幀包含三個難度級別的目標(biāo)級對象：簡易（E），中等（M）和難（H）。由于KITTI沒有提供官方驗(yàn)證集，標(biāo)記的7,481幀被分成訓(xùn)練集和1：1比例的驗(yàn)證集。

圖5展示了實(shí)驗(yàn)結(jié)果例子。每張圖像檢測到的車輛為綠色，行人為藍(lán)色，騎車者為黃色。

圖5

為評估MLOD的性能，分別在表II和表I中給出驗(yàn)證集和KITTI測試集的平均精度（AP）結(jié)果。MLOD在驗(yàn)證集上優(yōu)于其他兩個最先進(jìn)的多視圖目標(biāo)檢測器【3-4】。但是，MLOD方法在KITTI測試集上比AVOD差。這可能是由MLOD和AVOD中使用不同地平面引起的。評估表明，該方法可以達(dá)到當(dāng)前最佳性能。

表I：MLOD與當(dāng)前3D目標(biāo)檢測器的性能比較

表II：在中等難度驗(yàn)證集上MLOD與當(dāng)前3D目標(biāo)檢測器的AP3D比較

為評估多視圖頭網(wǎng)絡(luò)的影響，將MLOD的AP（％）與驗(yàn)證集不同λsub-cls設(shè)置進(jìn)行比較，如表III。當(dāng)λsub-cls /λcls= 0.001時，BEV標(biāo)記樣本的融合通道支配了網(wǎng)絡(luò)訓(xùn)練，這時候子通道損失可忽略。表III顯示多視圖頭網(wǎng)絡(luò)可為圖像通道提供顯著的性能增益，范圍從5％到20％不等。對行人檢測的容易、中等和難三種級別，AP最終檢測分別增加了6.7％，5.2％和4.5％。圖6顯示了多視圖頭網(wǎng)絡(luò)的效果示例（A欄：λsub-cls /λcl = 0.001; B列：λsub-cls /λcl = 1）。注意：當(dāng)λsub-cls /λcls= 1，圖像通道正確地為激光雷達(dá)BEV中誤報(bào)的行人記分0.0。

表III 不同的λ設(shè)置在驗(yàn)證集上評估MLOD的AP3D性能

圖6

表IV顯示了掩碼組件如何影響MLOD的性能。

表IV 前景掩碼層的效果

本文作者簡介：

黃浴，奇點(diǎn)汽車美研中心總裁和自動駕駛首席科學(xué)家，上海大學(xué)兼職教授。曾在百度美研自動駕駛組、英特爾公司總部、三星美研數(shù)字媒體研究中心、華為美研媒體網(wǎng)絡(luò)實(shí)驗(yàn)室，和法國湯姆遜多媒體公司普林斯頓研究所等工作。發(fā)表國際期刊和會議論文30余篇，申請30余個專利，其中13個獲批準(zhǔn)。

*博客內(nèi)容為網(wǎng)友個人發(fā)布，僅代表博主個人觀點(diǎn)，如有侵權(quán)請聯(lián)系工作人員刪除。

紅外遙控器相關(guān)文章:紅外遙控器原理

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關(guān)鍵詞：

焦點(diǎn)

更多>>

技術(shù)專區(qū)

關(guān)閉

博客專欄

MLOD：基于魯棒特征融合方法的多視點(diǎn)三維目標(biāo)檢測

相關(guān)推薦

技術(shù)專區(qū)