CVPR2023|Gated Stereo:如何利用多視角和TOF強度線索進行深度估計
論文題目:Gated Stereo: Joint Depth Estimation from Gated and Wide-Baseline Active Stereo Cues
作者:Stefanie Walz;Mario Bijelic;Andrea Ramazzina;Amanpreet Walia;Fahim Mannan等人
作者機構:Mercedes-Benz(梅賽德斯-奔馳);Google Inc(普林斯頓大學);Algolux(一家全球公認的計算機視覺公司)
論文鏈接:https://arxiv.org/pdf/2305.12955.pdf
項目代碼:https://github.com/princeton-computational-imaging/GatedStereo
項目主頁:https://light.princeton.edu/publication/gatedstereo/
1 前言Gated Stereo是一種高分辨率和長距離深度估計技術,可在活動門控立體圖像上運行。使用主動和高動態范圍的被動捕捉,Gated Stereo利用多視角線索以及來自主動門控的飛行時間強度線索。為此,作者提出了一種具有單眼和立體深度預測分支的深度估計方法,在最終融合階段中將它們結合起來。
本文提出了一種名為Gated Stereo的高分辨率和遠距離深度估計技術,其基于活動門控立體圖像進行運算。Gated Stereo通過利用多視角線索和來自活動門控的飛行時間強度線索,以及活動捕獲和高動態范圍的被動捕獲,實現了立體深度信息的高效估計。為了實現這個目的,作者提出了一種具有單目和立體深度預測分支的深度估計方法,在最終的融合階段組合這兩個分支。每個塊都通過監督和門控自監督損失的組合進行監督學習。為了便于訓練和驗證,作者獲取了一組用于汽車場景的長距離同步門控立體數據集。研究發現,在距離160米以內的范圍內,與最佳RGB立體方法相比,該方法的平均絕對誤差(MAE)提高了50%以上,與現有的單目門控方法相比,MAE提高了74%。
具體來說,作者做出了以下貢獻:
- 作者提出了一種新穎的深度估計方法,使用基于多視角和飛行時間深度線索的門控密集深度圖。
- 作者引入了一個深度估計網絡,其中包含兩個不同的深度估計分支,一個單目分支和一個立體分支,分別使用主動和被動測量,并采用半監督訓練方案來訓練估計器。
- 作者構建了一個原型車來捕捉測試和訓練數據,從而使作者能夠在遠距離汽車場景中評估該方法,在這些場景中,作者將MAE誤差降低了50%,優于下一個最佳的RGB立體方法,并將其與現有的單目門控方法相比,對于距離最高達160米的情況,誤差降低了74%。
本文介紹了通過不同的傳感器技術實現深度估計的方法,其中包括時飛傳感器、單目/雙目相機、LiDAR、閘門相機等。時飛傳感器通過測量****到場景中并返回檢測器的光的往返時間來獲取深度信息。單目/雙目相機的深度估計基于對圖像的分析和處理。LiDAR通過激光****到場景中并返回激光束,通過測量回程時間和激光束掃描夾角來獲取深度信息。閘門相機使用短時間光閘限制可視景深。雖然每種傳感器技術都有其自身的優劣勢,但它們都是在特定環境下實現深度估計的有效方式。
時飛傳感器:
時飛傳感器通過測量****到場景中的光的往返時間來獲取深度信息,常用的包括相關時飛相機、脈沖時飛傳感器和帶寬度深度測量的閘門光照,其中相關時飛傳感器通過波照射到場景中,根據****和接收光之間的相位差來估計深度,具有高精度和高空間分辨率的優點,但對環境光的敏感性較強,限制了其在室外場景中應用;而脈沖時飛傳感器則通過直接測量從一個點反射回來的光的往返時間來獲取深度信息,但局限于動態場景下的低空間分辨率并且容易受到惡劣天氣影響。
單目/雙目相機:
單目/雙目相機常用的深度估計方法包括單張圖像估計、稀疏LiDAR點云引導的單張圖像估計、雙目圖像估計和基于雙目相機和稀疏LiDAR的深度估計。單目深度估計通常適用于成本較低的嵌入式系統,具有的空間分辨率限制可以通過相機的高幀率來抵消,但缺點是無法解決深度估計尺度的歧義問題。雙目深度估計可以通過多視點估計解決尺度歧義問題,但需要獲取可靠的地面真實深度。對于深度估計,現有的方法主要采用有監督和無監督兩種學習方法,有監督深度估計方法通常依靠ToF數據或多視圖數據進行監督,但相應的密集地面真實深度數據比較難以獲得;無監督深度估計方法通常利用多視圖幾何來進行自我監督學習。
深度閘門相機:
閘門相機通過控制光閘時間,只提取一定深度范圍內的光來估計深度,常用的方法包括求解分析解、學習貝葉斯方法和深度神經網絡方法。
本文介紹了一種名為門控立體成像的技術,該技術利用兩個門控相機進行同步工作,通過單個光源照明的方式捕獲三個同步的門控和被動切片。門控技術可以在2D圖像中集成隱含的深度信息,同時可以通過校準消暗電流來調整強度計數,與環境光或其他光源的影響相比。通過對兩個未被調制的被動暴露進行HDR獲取,可以利用同一相機設置從被動立體強度線索中恢復深度,該系統每秒捕獲120個圖像,實現了每秒24個圖像的更新,其更新速率約為最新商業掃描LiDAR系統的兩倍。
4 Depth from Gated Stereo - 由門控視覺深度估計在本文中,作者提出了一種利用門控圖像的主動和被動多視圖線索進行深度估計的方法。具體而言,作者引入了一個聯合立體和單目網絡,使用幾個適用于門控立體數據的一致性損失對此網絡進行半監督。接下來,作者首先描述所提出的網絡架構,然后再描述半監督方案。
4.1 Joint Stereo-Mono Depth Network - 聯合立體-單目深度網絡本文提出了一個聯合立體-單目深度網絡,該網絡具有單目和立體分支以及最終的融合網絡,將這些分支的輸出組合起來生成最終的深度圖。單目分支使用DPT架構輸出絕對深度,而立體分支使用RAFT-Stereo和HRFormer網絡提取高分辨率特征匹配視差。最終的聯合深度圖通過輕量級的ResUNet網絡進行融合,旨在解決單目深度估計中的深度量化和立體深度估計中的遮擋等問題。
作者提出了一種用于自監督深度估計的新型系統,基于閘門光纖雷達技術,通過稀疏監督和自監督一致性損失來指導深度估計。其中,左右再投影一致性損失是指在已知視差的情況下,通過將左側圖像到右側圖像的映射來驗證左右兩側圖像的光學一致性,其中采用了基于結構相似度度量和L1范數的相似性損失。單目分支和立體分支分別用于對單個圖像和立體圖像進行深度估計。融合損失用于將單目和立體的深度估計結果合并。還有其他損失函數,如環形構建、邊緣保留平滑以及點云監督損失。這些損失函數都通過調高和縮小具體系數影響整體訓練。
作者首先分別使用文中介紹的損失函數獨立地優化單目和立體網絡。單目和立體網絡都使用相同的協議進行訓練,使用ADAMW算法,其中β1 = 0.9,β2 = 0.999,學習率為 ,權重衰減為。最后,使用文中描述的損失函數訓練融合網絡,學習率為3 × ,訓練5個epochs。使用η=0.05生成方程式4中提到的遮擋掩碼。對于閘門一致性掩碼,將γ設置為0.98,θ設置為0.04。所有模型的輸入/輸出分辨率均為1024×512。
5 數據集作者描述了捕獲用于訓練和測試的長距離深度數據集。該數據集是在德國南部進行的超過一千公里的行駛數據收集活動期間獲取的。作者為測試車輛配備了一個長距離的激光雷達系統(Velodyne VLS128),具有高達200米的范圍,以及一臺汽車RGB立體攝像頭(On-Semi AR0230傳感器)和一套帶同步的NIR閘門立體攝像頭設置(BrightWayVision)。所有傳感器都安裝在可攜帶的傳感器立方體中,除了激光雷達傳感器之外。RGB立體相機具有1920x1080像素的分辨率,并以30 Hz運行,捕獲12位HDR圖像。閘門相機以120 Hz幀率提供分辨率為1280x720的10位圖像,我們將其分為三個切片和兩個類似HDR的額外環境捕捉(沒有主動照明)。作者在前拉鉤上安裝了兩個垂直腔面****激光器(VCSEL)模塊作為主動照明。激光以每個500W的峰值功率,808nm的波長和240-370ns的激光脈沖持續時間洪水般照亮場景。由于眼部安全法規的限制,最大峰值功率受到限制。安裝的參考激光雷達系統以10 Hz運行,并產生128條線。所有傳感器都經過校準和時間同步,該數據集包含在白天、夜間和不同天氣條件下的107348個樣本。經過場景多樣性的子選擇后,我們將數據集分為54320個樣本進行訓練,728個樣本進行驗證和2463個樣本進行測試。
本文提出了一個用于夜間、白天深度估計的新方法,并在實驗證明了它的有效性。該方法與現有門控方法、單目RGB方法、立體RGB方法和單目+激光雷達方法進行了比較。實驗結果表明,所提出的方法在日間和夜間條件下均取得了更好的效果,具有更高的長程深度預測準確率和更好的細節表現。對于所提出方法的貢獻進行的消融實驗表明,采用了不同的組成部分可以有效地降低MAE誤差。具體地,單目分支、無源圖像和有源片段的串聯、環境感知一致性和提議的骨干網絡、門控一致性損失和左右視圖和燈光的變形損失以及單目和立體混合輸出的融合階段都可以降低MAE誤差。
本文提出了一種新的方法Gated Stereo,使用門控立體對預測稠密深度。通過利用主動和被動圖像,該方法可以提取深度線索。對于立體線索和單眼門控提示的不足,該方案預測立體和每個攝像機的單眼深度,并將其融合以獲得單個高質量的深度圖。該方法經過半監督訓練和驗證,并在一個新的遠程汽車數據集上得到了良好的效果,在立體RGB圖像上實現的平均絕對深度誤差比下一個最佳方法優50%,比下一個最佳現有門控方法優74%。未來該方法可以用于解決 LiDAR 系統無法解決的新穎三維視覺任務。
*博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。