博客專欄

        EEPW首頁 > 博客 > MLOD:基于魯棒特征融合方法的多視點(diǎn)三維目標(biāo)檢測

        MLOD:基于魯棒特征融合方法的多視點(diǎn)三維目標(biāo)檢測

        發(fā)布人:SIGAI 時間:2020-10-07 來源:工程師 發(fā)布文章

        注:這是一篇2019年9月發(fā)表在arXiv【1】激光雷達(dá)和攝像頭數(shù)據(jù)融合的目標(biāo)檢測論文。

        摘要

        本文介紹了一個多視圖標(biāo)記的目標(biāo)檢測器(MLOD)。檢測器將RGB圖像和激光雷達(dá)點(diǎn)云作為輸入,并遵循兩步目標(biāo)檢測框架。區(qū)域提議網(wǎng)絡(luò)(RPN)在點(diǎn)云的鳥瞰視圖(BEV)投影中生成3D提議。第二步將3D提議邊框投影到圖像和BEV特征圖,并將相應(yīng)的圖截取發(fā)送到檢測頭(detector head)以進(jìn)行分類和邊界框回歸。與其他多視圖方法不同,裁剪的圖像特征不直接饋送到檢測頭,而是被深度信息掩蓋以過濾掉3D邊框外的部分。圖像和BEV特征的融合具有挑戰(zhàn)性,因?yàn)樗鼈儊碜圆煌囊暯恰_@里引入了一種新檢測頭,不僅可以從融合層提供檢測結(jié)果,還可以從每個傳感器通道提供檢測結(jié)果。因此,可以用不同視圖標(biāo)記的數(shù)據(jù)訓(xùn)練目標(biāo)檢測器,以避免特征提取器的退化。MLOD在KITTI 3D目標(biāo)檢測基準(zhǔn)測試中實(shí)現(xiàn)了最好的性能。最重要的是,評估表明新的頭架構(gòu)(header architecture)在防止圖像特征提取器退化方面是有效的。

        1.MLOD架構(gòu)

        大約有三種方法可以利用攝像頭和激光雷達(dá)做自動駕駛的3D目標(biāo)檢測:1)圖像區(qū)域建議,2)基于投影和3)多視圖方法。

        本文提出的兩步神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。BEV圖和RGB圖像被饋入兩個卷積神經(jīng)網(wǎng)絡(luò)獲得特征。為了提高計(jì)算效率,僅使用RPN的鳥瞰視圖(BEV)特征生成3D提議。基于提議的深度信息,3D提議之外的圖像特征被前景掩碼層(foreground mask layer)掩蓋。然后,掩碼的圖像特征圖和BEV特征圖被裁剪并傳遞到多視圖頭(multi-view header),提供最終的分類、定位和定向結(jié)果。

        1602051328965174.jpg

        圖1

        6個通道的BEV圖輸入是一個0.1米分辨率的2D網(wǎng)格,包括5個高度通道和1個密度通道。點(diǎn)云沿著地平面的法線在[0, 2.5米]之間被劃分為5個相等的切片(slices),并且每個切片產(chǎn)生高度通道,每個網(wǎng)格單元表示該單元中的點(diǎn)的最大高度。

        該模型采用U-Net結(jié)構(gòu)作為BEV特征提取器。編碼器部分類似VGG的CNN,但有一半的通道。它包括CNN層,最高可達(dá)conv-4層。在****部分中,特征提取器使用卷積轉(zhuǎn)置(conv- transpose)操作對特征圖上采樣。上采樣特征圖與來自編碼器的相應(yīng)特征串聯(lián)實(shí)現(xiàn)融合。圖像特征提取器是在pool-5層之前的VGG16 CNN。

        為在提議的3D邊框內(nèi)正確捕獲目標(biāo)的圖像特征,本文引入了前景掩碼層來過濾掉前景特征。

        為了識別圖像的前景和背景,具有每個像素深度信息是必要的。但是由于激光雷達(dá)點(diǎn)云的稀疏性,圖像平面中的大部分深度信息都是未知的。最近,有幾種方法來完整化深度圖。不幸的是,它們通常具有高GPU內(nèi)存使用率,不適合實(shí)現(xiàn)。相反,這里引入了一種輕量級方法來利用稀疏深度信息。

        圖2顯示了前景掩碼層的流程。首先,該層用3D提議投影的前視2D邊框裁剪并調(diào)整其(稀疏)深度圖的大小。為了計(jì)算方便,調(diào)整大小的深度圖是k×k大小裁剪圖像特征圖的n倍。由于深度信息在前視圖是不連續(xù)的,因此使用最近鄰內(nèi)插算法獲得大小調(diào)整過的深度圖。然后將nk×nk深度圖等分成k×k網(wǎng)格。這樣,每個網(wǎng)格單元表示k×k圖像特征圖對應(yīng)像素的深度信息。該層計(jì)算每個網(wǎng)格單元中非零深度值的中值mij,因?yàn)榱阒当硎驹撓袼貨]有激光雷達(dá)點(diǎn)信息。請注意,由于點(diǎn)云的稀疏性,網(wǎng)格單元格中的所有深度值都可能為零。

        1602051384189618.jpg

        (a)

        1602051421281940.jpg

        (b)

        圖2

        由于遠(yuǎn)目標(biāo)只有較少的投射激光雷達(dá)點(diǎn),因此這些目標(biāo)的某些部分沒有任何深度信息。為此,為保留3D邊框內(nèi)或沒有深度信息的圖像特征,將前景掩碼設(shè)置為前視圖,使用最近鄰內(nèi)插算法獲得調(diào)整大小的深度圖。然后,將nk×nk深度圖等分為k×k網(wǎng)格。因此,每個網(wǎng)格單元表示k×k圖像特征映射中的對應(yīng)像素的深度信息。因此,為了保留3D邊界框內(nèi)的圖像特征或沒有深度信息,我們將前景掩碼設(shè)置為

        1602051471384667.jpg

        其中dmax和dmin分別是3D邊框的最大和最小深度值。ε1和ε2是小緩沖區(qū),用于吸收3D提議和點(diǎn)云的不確定性。(圖2中dmin = 6.8,dmax = 9.7)

        在多視圖3D目標(biāo)檢測方法中,基于BEV的IoU來分配提議標(biāo)簽。但前視圖的IoU可能與BEV的IoU明顯不同。圖3示出將3D邊框分配給負(fù)標(biāo)簽但在圖像視圖中IoU > 0.7的示例。當(dāng)僅基于BEV IoU分配標(biāo)簽來訓(xùn)練目標(biāo)檢測器時,(前視圖)圖像通道的性能降低。

        1602051495532939.jpg

        圖3

        作者提出了一種多視圖檢測頭,以避免RGB圖像特征的衰減。圖4顯示了頭部網(wǎng)絡(luò)結(jié)構(gòu)。關(guān)鍵想法是在融合層(concat)之前為每個通道添加額外的輸出層。兩個輸出的每一個饋入到相應(yīng)的子輸出(sub-output)損失中。每個子輸出損失是采用在相應(yīng)通道視圖中IoU分配的標(biāo)簽計(jì)算,即

        1602051523828171.png

        8.png

        圖4

        1602051599167142.png

        2.網(wǎng)絡(luò)訓(xùn)練

        文中使用多任務(wù)損失來訓(xùn)練網(wǎng)絡(luò),其檢測網(wǎng)絡(luò)的損失函數(shù)由下式定義

        1602051622425290.png

        這里使用平滑L1損失進(jìn)行3D邊框偏移和朝向旋轉(zhuǎn)回歸,并使用交叉熵?fù)p失進(jìn)行分類。λ是用于平衡不同損失項(xiàng)的超參數(shù)。子輸出損失可以被認(rèn)為是網(wǎng)絡(luò)上的一種正則化過程。

        KITTI基準(zhǔn)測試對汽車類(> 0.7)和行人和騎車者類(> 0.5)使用不同的IoU閾值。因此,文中訓(xùn)練了兩個網(wǎng)絡(luò),一個用于汽車,另一個用于行人和騎自行車者。用大小是1024個ROI的微批量聯(lián)合訓(xùn)練RPN網(wǎng)絡(luò)和檢測頭。采用ADAM優(yōu)化器【2】,指數(shù)衰減的學(xué)習(xí)率初始化為0.0001。在汽車網(wǎng)絡(luò),每100K迭代衰減0.1。在步行者和自行車者網(wǎng)絡(luò),每20K迭代衰減0.5。圖像特征提取器加載預(yù)訓(xùn)練的ImageNet權(quán)重。BEV特征提取器權(quán)重由Xavier統(tǒng)一初始化器(uniform initializer)初始化。

        如果BEV /圖像和真實(shí)GT目標(biāo)的IoU分別大于0.65 / 0.7,則汽車建議在自上而下/前視圖中被標(biāo)記為正。如果其BEV /圖像IoU分別小于0.55 / 0.5,則標(biāo)記為負(fù)。正的行人或騎車者建議在BEV /圖像視圖中至少分別為0.45 / 0.6 IoU。負(fù)樣本分別在BEV /圖像視圖中不超過0.4 / 0.4 IoU。對于微批量大小,先選擇1024個樣本,包括在自上而下的視圖中具有最高RPN分?jǐn)?shù)的正ROI和負(fù)ROI;然后,在正面視圖中挑選正或負(fù)的ROI。

        有許多方法可以編碼3D邊框。為了減少參數(shù)的數(shù)量并保持物理限制,3D邊框表示為X-Y平面上的四個角,頂部和底部角高度會偏離地平面。

        數(shù)據(jù)增強(qiáng)是增加訓(xùn)練實(shí)例數(shù)量和減少過擬合的重要技術(shù)。在這里的網(wǎng)絡(luò)訓(xùn)練中實(shí)現(xiàn)了兩種增強(qiáng)方法,即翻轉(zhuǎn)和PCA抖動。點(diǎn)云和圖像沿x軸翻轉(zhuǎn)。PCA抖動會改變訓(xùn)練圖像中RGB通道的強(qiáng)度。PCA分解應(yīng)用在整組訓(xùn)練圖像RGB像素值的集合中。然后,將高斯隨機(jī)噪聲添加到圖像的主分量中。

        3.實(shí)驗(yàn)

        主要評估KITTI目標(biāo)檢測基準(zhǔn)測試中汽車、行人和騎車人3D檢測任務(wù)的MLOD性能。KITTI的3D目標(biāo)檢測數(shù)據(jù)集包含7,481個訓(xùn)練幀和7,518個測試幀。基于遮擋級別、最大截?cái)嗪妥钚∵吙蚋叨龋@些幀包含三個難度級別的目標(biāo)級對象:簡易(E),中等(M)和難(H)。由于KITTI沒有提供官方驗(yàn)證集,標(biāo)記的7,481幀被分成訓(xùn)練集和1:1比例的驗(yàn)證集。

        圖5展示了實(shí)驗(yàn)結(jié)果例子。每張圖像檢測到的車輛為綠色,行人為藍(lán)色,騎車者為黃色。

        1602051653610484.jpg

        圖5

        為評估MLOD的性能,分別在表II和表I中給出驗(yàn)證集和KITTI測試集的平均精度(AP)結(jié)果。MLOD在驗(yàn)證集上優(yōu)于其他兩個最先進(jìn)的多視圖目標(biāo)檢測器【3-4】。但是,MLOD方法在KITTI測試集上比AVOD差。這可能是由MLOD和AVOD中使用不同地平面引起的。評估表明,該方法可以達(dá)到當(dāng)前最佳性能。

        表I:MLOD與當(dāng)前3D目標(biāo)檢測器的性能比較

        1602051677880960.jpg

        表II:在中等難度驗(yàn)證集上MLOD與當(dāng)前3D目標(biāo)檢測器的AP3D比較

        1602051773700077.png

        為評估多視圖頭網(wǎng)絡(luò)的影響,將MLOD的AP(%)與驗(yàn)證集不同λsub-cls設(shè)置進(jìn)行比較,如表III。當(dāng)λsub-cls /λcls= 0.001時,BEV標(biāo)記樣本的融合通道支配了網(wǎng)絡(luò)訓(xùn)練,這時候子通道損失可忽略。表III顯示多視圖頭網(wǎng)絡(luò)可為圖像通道提供顯著的性能增益,范圍從5%到20%不等。對行人檢測的容易、中等和難三種級別,AP最終檢測分別增加了6.7%,5.2%和4.5%。圖6顯示了多視圖頭網(wǎng)絡(luò)的效果示例(A欄:λsub-cls /λcl = 0.001; B列:λsub-cls /λcl = 1)。注意:當(dāng)λsub-cls /λcls= 1,圖像通道正確地為激光雷達(dá)BEV中誤報(bào)的行人記分0.0。

        表III 不同的λ設(shè)置在驗(yàn)證集上評估MLOD的AP3D性能

        1602051823423892.png

        1602051898946799.jpg

        圖6

        表IV顯示了掩碼組件如何影響MLOD的性能。

        表IV 前景掩碼層的效果

        1602051924494463.jpg

        本文作者簡介:

        黃浴,奇點(diǎn)汽車美研中心總裁和自動駕駛首席科學(xué)家,上海大學(xué)兼職教授。曾在百度美研自動駕駛組、英特爾公司總部、三星美研數(shù)字媒體研究中心、華為美研媒體網(wǎng)絡(luò)實(shí)驗(yàn)室,和法國湯姆遜多媒體公司普林斯頓研究所等工作。發(fā)表國際期刊和會議論文30余篇,申請30余個專利,其中13個獲批準(zhǔn)。

        *博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。

        紅外遙控器相關(guān)文章:紅外遙控器原理


        關(guān)鍵詞:

        相關(guān)推薦

        技術(shù)專區(qū)

        關(guān)閉
        主站蜘蛛池模板: 宁南县| 贵港市| 宁都县| 会宁县| 青神县| 涞水县| 乡城县| 巴青县| 沁源县| 平原县| 独山县| 台中县| 潜山县| 杭锦后旗| 文登市| 郎溪县| 嵊泗县| 青阳县| 包头市| 江山市| 台东市| 通海县| 邹城市| 鸡东县| 门头沟区| 赞皇县| 南江县| 锦州市| 汉中市| 广昌县| 广宗县| 贵港市| 伊宁市| 绩溪县| 安化县| 蓬溪县| 石林| 荃湾区| 翁牛特旗| 宜城市| 安远县|