CVPR 2021 | 谷歌發布視頻全景分割數據集!順帶開發個模型屠榜
本文轉載自:新智元 | 編輯:LRS
自動駕駛里視覺一直為人所詬病,特斯拉就是經常被拉出來批判的典型。谷歌最近開發了一個新模型,效果拔群,已被CVPR2021接收。
對于人來說,看一張平面照片能夠想象到重建后的3D場景布局,能夠根據2D圖像中包含的有限信號來識別對象,確定實例大小并重建3D場景布局。
這個問題有一個術語叫做光學可逆問題inverse optics problem,它是指從視網膜圖像到視網膜刺激源的模糊映射。
現實世界中的計算機視覺應用,例如自動駕駛就嚴重依賴這些功能來定位和識別3D對象,這需要AI模型來推斷投影到2D圖像的每個3D點的空間位置、語義類別和實例標簽。
從圖像重建3D世界的能力可以分解為兩個獨立的子任務:單目深度估計(從單個圖像預測深度)和視頻全景分割(實例分割和語義分割)。
研究人員通常對每個任務提出不同的模型,通過在多個任務之間共享計算的模型權重。在實際應用的時候,將這些任務與統一的計算機視覺模型一起處理可以簡化部署提高效率。
基于這個研究背景,Google提出一個全新的模型ViP-DeepLab,通過深度感知視頻全景分割來學習視覺感知,已被CVPR 2021接受,旨在同時解決單目深度估計和視頻全景分割。
ViP-DeepLab: Learning Visual Perception with Depth-aware Video Panoptic Segmentation
論文:https://arxiv.org/abs/2012.05258
數據集:https://github.com/joe-siyuan-qiao/ViP-DeepLab
論文中還提出了兩個數據集,并提出了一種稱為深度感知視頻全景質量(DVPQ)的新評估指標,這個新指標可以同時評估深度估計和視頻全景分割。
ViP-DeepLab是一個統一的模型,可以對圖像平面上的每個像素聯合執行視頻全景分割和單目深度估計,并在子任務的幾個學術數據集取得了sota結果。
ViP-DeepLab通過從兩個連續的幀作為輸入來執行其他預測,輸出包括第一幀的深度估計,它為每個像素分配一個深度估計值。
此外,ViP-DeepLab還對出現在第一幀中的對象中心執行兩個連續幀的中心回歸,此過程稱為中心偏移預測,它允許兩個幀中的所有像素分組到出現在第一幀中的同一對象。如果未將新實例匹配到先前檢測到的實例中,則會出現新實例。
ViP-DeepLab的輸出可以用于視頻全景分割。連接兩個連續的幀作為輸入。語義分割輸出將每個像素與其語義類別相關聯,而實例分割輸出則從與第一幀中的單個對象相關聯的兩個幀中識別像素,輸入圖像來自Cityscapes數據集。
論文中在多個流行的基準數據集上測試了ViP-DeepLab,包括Cityscapes-VPS,KITTI深度預測和KITTI多對象跟蹤和分段(MOTS)。
ViP-DeepLab都取得了SOTA的結果,在Cityscapes-VPS測試上,其視頻全景質量(VPQ)大大優于以前的方法,達到了5.1%。
在KITTI深度預測基準上進行單眼深度估計的比較,對于深度估算指標,值越小,性能越好。盡管差異可能看起來很小,但在此基準上性能最高的方法通常在SILog中的間隙小于0.1。
此外,VIP-DeepLab也在KITTI MOTS行人和汽車排名度量使用新的度量標準HOTA,都取得了顯著提升。
最后,論文中還為新任務提供了兩個新的數據集,即深度感知視頻全景分割,并在其上測試了ViP-DeepLab,而這個模型的結果將成為社區進行比較的基準模型。
ViP-DeepLab具有簡單的體系結構,可在視頻全景分割,單目深度估計以及多對象跟蹤和分割方面實現最先進的性能,這個模型也能幫助進一步研究對2D場景中的真實世界。
參考資料:
https://ai.googleblog.com/2021/04/holistic-video-scene-understanding-with.html
*博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。