MVTN:用于3D形狀識別的多視圖轉換網絡(ICCV2021)
論文標題:MVTN: Multi-View Transformation Network for 3D Shape Recognition
論文、項目地址:在公眾號「計算機視覺工坊」,后臺回復「MVTN」,即可直接下載。
摘要:多視圖投影方法在3D形狀識別方面能達到先進的性能,現有的這些方法學習從多個視圖聚合信息。然而,對于所有形狀,這些視圖的相機視點往往是啟發式設置和固定的。為了避免當前固化的多視圖方法,研究人員引入了多視圖轉換網絡 (MVTN),它基于可微渲染的最新研究進展實現3D形狀識別的視點回歸。因此,MVTN可以與任何用于3D形狀分類的多視圖網絡一起進行端到端的訓練。研究人員將MVTN集成到可以渲染3D網格或點云的新型自適應多視圖網絡中。MVTN在3D形狀分類和3D形狀檢索任務中表現出明顯的性能提升,而無需額外的訓練監督。在這些任務中,MVTN在ModelNet40、ShapeNet Core55和最新的ScanObjectNN數據集上實現了最先進的性能(提高了6%)。同時研究表明MVTN可以針對旋轉和遮擋提高網絡的魯棒性。
研究貢獻:
1.提出了MVTN網絡,利用可微分渲染器,支持3D形狀識別任務的端到端訓練。
2.將MVTN與多視圖方法相結合,在標準基線ModelNet40、ShapeNet Core55和ScanObjectNN上的3D分類和形狀檢索方面取得了當前研究中的最佳結果。
3.MVTN針對多視圖旋轉和遮擋問題,提高網絡的魯棒性,使MVTN在3D模型未完全對齊或部分裁剪的現實場景中更加實用。
研究方法:
1.MultiView 3D 識別概述
3D多視圖識別通過從相同形狀S的多個視點渲染定義了M幅圖像,這些視圖被輸入至同一個骨干網絡f中,使用該網絡提取每個視圖的判別特征,然后將這些特征在視圖中進行聚合,進而用于下游任務,例如分類或檢索。
Training Multi-View Networks:
上述公式中的這些參數表示影響渲染圖像的屬性,包括相機視點、光線、對象顏色和背景等。其中R是渲染器,它將形狀Sn和參數u0作為輸入以生成每個形狀的M個多視圖圖像Xn。
Canonical Views:
以前的多視圖方法主要依賴于與整個3D數據集預定義相關的場景參數u0。特別是,固定的攝像機視點通常是運用數據集中3D模型的對齊進行選擇的。最常見的視圖配置是圓形和球形,圓形是在對象的一個圓上對齊視點,球形是在對象的球體上對齊等距的視點。相比于上述方法,MVTN學習回歸每個形狀的觀點,如下圖所示。
2.Multi-View Transformation Network (MVTN)
以前的多視圖方法將多視圖圖像X作為3D形狀的唯一表示,其中X使用固定的場景參數u0進行渲染。本文中考慮一般性的情況,其中u是可變的,但是其在±ubound范圍內變化。該研究中,ubound是正數,它定義了場景參數的允許范圍,將相對應角的ubound設置為180°和90°。
Differentiable Renderer:
View-Points Conditioned on 3D Shape.:
研究人員通過學習MVTN網絡,將u設計為3D形狀的函數。與依賴于恒定不變的渲染參數的上述公式不同,MVTN針對每個對象形狀S自適應地預測u,并與分類器C一起進行優化。經過端到端訓練,以最大限度地減少N個對象數據集上的損失:
該公式中,G通過編碼一個3D形狀以預測其針對特定任務的多視圖網絡C的最佳視點。由于G僅用于預測視點而不是對對象進行分類,因此其架構較為簡單輕便。因此,研究人員使用一個簡單的點編碼器(例如PointNet中的共享MLP),處理來自S的P個點并產生維度 b上的粗略形狀特征。然后,淺層MLP從全局形狀特征中回歸場景參數。為了控制預測參數u在允許的范圍ubound內,研究人員使用由ubound縮放的雙曲正切函數。
MVTN for 3D Shape Classification:
為了訓練MVTN實現3D形狀分類,研究人員定義了交叉熵損失,但也可以使用其他損失和正則化器。多視圖網絡(C)和MVTN(G)在相同的損失上進行聯合訓練。該多視圖網絡的一個優點是它能夠無縫處理3D點云,這在以前的多視圖方法中是不存在的。當S是3D點云時,簡單地將R定義為可微分點云渲染器。
MVTN for 3D Shape Retrieval:
三維形狀檢索任務定義如下:給定一個查詢形狀Sq,在大小為N的集合中找到最相似的形狀。對于這個任務,研究人員遵循MVCNN中的檢索設置,并且考慮了C中分類器之前最后一層的深層特征表示,使用LFDA以減少將這些特征投影到更具表現力的空間中,并將減少的特征視為描述形狀的特征。
實驗設置與結果:
1.數據集:ModelNet40,ShapeNet Core55,ScanObjectNN
2.Baseline:Voxel Networks,Point Cloud Networks,Multi-view Networks
3.結構:研究人員選擇MVCNN、RotationNet和ViewGCN作為在MVTN管道中選擇的多視圖網絡。實驗中,選擇 PointNet作為3D點編碼器網絡G,從每個網格中采樣P = 2048 個點作為點編碼器的輸入,并使用5層MLP進行回歸網絡,它將大小為b = 40的點編碼器提取的點特征作為輸入。所有MVTN變體和baseline多視圖網絡使用在ImageNet上預訓練的ResNet-18作為C中的多視圖主干網絡,輸出特征大小為d=1024。主要分類和檢索采用基于 MVTN-sphereal和ViewGCN的多視圖網絡C。
4.實驗結果:
相關實驗結果如上面幾個表格所示,其中表1在ModelNet40上比較了MVTN與其他方法的性能,與以前的方法相比,MVTN實現了93.8%的測試準確率。ViewGCN依靠來自更先進但不可微分的OpenGL渲染器的更高質量的圖像來實現更高的分類性能。為了公平比較,研究人員使用MVTN中使用的渲染器生成的圖像報告了ViewGCN的性能。使用相同的渲染過程,使用MVTN提高了基線ViewGCN在12視圖和20視圖的分類性能。研究人員認為可微渲染的進展將彌合渲染圖像與原始高質量預渲染圖像之間的差距。表2報告了12視圖MVTN在實際ScanObjectNN基準測試上的分類精度。MVTN提高了數據集不同變體的性能。ScanObjectNN(PB_T50_RS)最困難的變體包括物體進行平移和旋轉的挑戰性場景。本研究中的MVTN在這個變體上取得了最先進的結果(+2.6%),突出了MVTN在逼真3D點云掃描方面的優點。表3報告了MVTN的檢索mAP與最近在ModelNet40和ShapeNet Core55上的方法比較的結果。表4體現了對訓練模型魯棒性的檢測。
總結:
當前的多視圖方法依賴于與數據集對齊的固定視圖。本研究中提出了MVTN,可以在完全可微中學習回歸任何多視圖網絡的視點。MVTN利用可微渲染的最新發展,并且不需要任何額外的培訓監督。上述實驗結果體現了MVTN在3D分類和3D形狀檢索中的優勢。MVTN未來的研究工作可能包括將其擴展到其他3D視覺任務,例如形狀和場景分割。此外,MVTN可以包括與攝像機視點不同的更復雜的場景參數,例如光線和紋理。
備注:作者也是我們「3D視覺從入門到精通」知識特邀嘉賓:一個超干貨的3D視覺學習社區
*博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。