博客專欄

        EEPW首頁 > 博客 > ICLR2023 | 阿卜杜拉國王科技大學最新發布,3D表示新網絡:多視圖+點云!(3)

        ICLR2023 | 阿卜杜拉國王科技大學最新發布,3D表示新網絡:多視圖+點云!(3)

        發布人:計算機視覺工坊 時間:2023-08-22 來源:工程師 發布文章
        卷積——VointConv

        VointConv是指對Voint空間上的操作進行卷積運算  。

        • 它是一個可學習的函數,具有共享權重,并且在所有的Voint上進行操作。
        • 輸入是視圖特征大小為  的數據,輸出是視圖特征大小為  的數據,其中包含了   層。

        一個簡單的VointConv操作的示例是將共享的多層感知機 ( MLP ) 應用于可見視圖特征。

        • 在第4.2節中,提供了更多關于這種操作的詳細信息,導致了VointNet 的不同的變體。
        3D Voint clouds的學習VointNet

        VointNet 模型的目標是:獲得可以隨后被任何點云處理 pipeline 使用的多視圖點云特征。

        VointNet 模塊  定義如下。

        其中  是任意點卷積運算(例如共享 MLP 或 EdgeConv)。在將 VointMax 應用于視圖特征以獲得點特征之前,VointNet  使用學習到的 VointConv   轉換各個視圖特征。

        用于 3D 點云處理的 VointNet **pipeline **  —— VointNet Pipeline for 3D Point Cloud Processing

        完整的 pipeline 如圖 2 所示。損失可描述如下:

        其中 :

        • L 是在所有訓練點  上定義的交叉熵 (CE) 損失, 定義了這些點的標簽。
        • 其他組件  均已在之前定義。

        要聯合學習的權重是 2D 主干   的權重和使用相同 3D 損失的 VointNet  的權重。可以選擇添加  上的輔助 2D 損失以在圖像級別進行監督。

        對于分類,整個對象可以被視為單個 Voint,每個視圖的全局特征將是該 Voint 的視圖特征。

        實驗 Experiments實驗設置  Experimental SetupDatasets 數據集

        本文對VointNet 進行了基準測試,使用了具有挑戰性和現實性的ScanObjectNN數據集。該數據集包含三個變體,包括背景和遮擋,共有15個類別和2,902個點云。

        對于形狀檢索任務,我們使用ShapeNet Core55作為ShapeNet的子集進行基準測試。該數據集包含51,162個帶有55個對象類別標簽的3D網格對象。根據MVTN的設置從每個網格對象中采樣5,000個點來生成點云。

        另外,對于形狀部件分割任務,在ShapeNet Parts上進行了測試,它是ShapeNet的一個子集,包含來自16個類別和50個部分的16,872個點云對象。

        對于遮擋魯棒性測試,遵循MVTN的方法,在ModelNet40數據集上進行測試,該數據集由40個類別和12,311個3D對象組成。

        Metrics 評估指標

        評估指標方面:

        • 對于3D點云分類任務,展示了整體精度。

        • 對于形狀檢索任務,使用測試查詢的平均精度(mAP)進行評估。

        • 對于語義分割任務,使用點云上的平均交并比(mIoU)進行評估。

        • 對于部件分割任務,展示了實例平均mIoU(Ins. mIoU)。

        Baselines 基線

        作為基線方法,包括 PointNet、PointNet++和DGCNN 作為使用點云的基線。

        還與一些基于多視圖的方法進行了比較,包括 MVCNN、SimpleView和MVTN,用于分類和檢索任務,并使用了一些基于多視圖的分割方法(如標簽融合和Mean Fusion)用于部件分割任務。

        VointNet 變量

        等式 (3) 中的 VointNet 依賴于 VointConv 操作   作為基本構建塊。

        在這里,簡要描述了 VointNet 使用的三個  操作示例。

        共享多層感知器 (MLP)

        這是最基本的 VointConv公式。

        對于層 ,視圖  處的 Voint  的特征被更新到層   為:,其中 ρ 是共享 MLP,其權重為 ,然后是歸一化和非線性函數(例如 ReLU)。

        此操作獨立應用于所有 Voint,并且僅涉及每個Voint 的可見視圖特征。該公式擴展了 PointNet 的共享MLP 公式,以處理 Voints 的視圖特征。

        圖卷積(GCN)

        通過創建一個連接到所有視圖特征的虛擬中心節點來聚合它們的信息(類似于 ViT 中的 “cls” token 來為每個 Voint 定義一個全連接的圖。

        然后,圖卷積可以被定義為共享 MLP(如上所述)但在所有視圖特征之間的邊緣特征上,然后是圖形鄰居上的最大池化。在最終輸出之前使用額外的共享 MLP。

        圖注意力(GAT)

        圖注意力操作可以像上面的 GCN 操作一樣定義,但是在對它們進行平均之前,在圖鄰居的特征上學習注意力權重。共享 MLP 計算這些權重。

        Implementation Details 實現細節Rendering and Unprojection. 渲染和非投影

        在pipeline 中選擇來自 Pytorch3D的可微點云渲染器 R,因為它的速度和與Pytorch 庫的兼容性。在尺寸為  的多視圖圖像上渲染點云。

        根據點的法線值對點進行著色,如果法線不可用,則將它們保持為白色。按照與 (Wei et al, 2020;Hamdi et al, 2021) 類似的程序,視點設置在訓練期間隨機化(使用  個視圖)并在測試中固定為球面視圖(使用  個視圖)。

        Architectures 架構

        對于二維主干 C,使用 ViT-B(具有來自 TIMM 庫的預訓練權重)進行分類,使用 DeepLabV3進行分割。

        在 3D 點云輸出上使用 3D CE 損失以及在像素上定義損失時的 2D CE 損失。VointNet 架構的特征維度為 d = 64,深度在  中為  = 4  層。

        主要結果基于VointNet (MLP),除非在第 6 節中另有說明,在第6 節中詳細研究了 VointConv  和 C 的影響。

        Training Setup 訓練設置

        分兩個階段訓練,首先在點的2D 投影標簽上訓練 2D 主干,然后端到端地訓練整個pipeline,同時將訓練重點放在 VointNet 部分。

        使用 AdamW 優化器 ,初始學習率為 ,步長學習率為每 12 個epoch 33.3%,持續 40 個epoch 。

        使用一個 NVIDIATesla V100 GPU 進行訓練。不使用任何數據擴充。

        有關訓練設置(損失和渲染)、VointNet 和 2D 骨干架構的更多詳細信息,請參見附錄。

        圖片

        表3:3D 形狀檢索。

        • 報告了 ShapeNet Core55 上的 3D 形狀檢索 mAP。
        • VointNet 在此基準測試中取得了最先進的結果。

        圖片

        表 4:ShapeNetPart 上的穩健 3D 部件分割。

        在 ShapeNetPart 的 3D 分割中,VointNet 的 mIoU 與其他方法的對比。

        Results 結果

        Voint 的主要測試結果總結在表 2、3、4 和 5 中。在 3D 分類、檢索和穩健的 3D 零件分割任務中實現了最先進的性能。

        • 更重要的是,在 ScanObjectNN 和 ShapeNetParts 的真實旋轉設置下,分別與點基線 相比,提高了 7.2% 以上的Acc和 25% mIoU 。
        • 按照 Hamdi 等人 (2021) 的慣例,在基準表中報告了四次運行中的最佳結果,但附錄中提供了詳細結果。
        3D 形狀分類

        表 2 報告了 ScanObjectNN  上 3D點云分類任務的分類精度。它將 VointNet 與其他最近的強大基線進行基準測試 。

        • VointNet 展示了所有變體的最新結果,包括具有挑戰性的 Hardest (PB_T50_RS) 變體,其中包含具有挑戰性的旋轉和平移對象場景。
        • 該變體的性能提升 (+2.6%)非常顯著,突出了 Voints 在具有挑戰性的場景中的優勢,并在第 5.4 節中進一步證實了結果。遵循與MVTN 中完全相同的程序。

        圖片

        圖 3:部件分割的定性比較。

        • 將 VointNet 3D 分割預測與使用相同訓練的 2D 主干的 Mean Fuse進行比較。
        • 請注意 VointNet 如何區分細節部分(例如車窗框)。

        圖片

        表 5:3D 分類的遮擋穩健性。

        報告了 ModelNet40上針對不同數據遮擋率的測試準確性,以衡量不同 3D 方法的遮擋穩健性。

        3D 形狀檢索

        表 3 在 ShapeNet Core55上對 3D 形狀檢索 mAP 進行了基準測試。

        VointNet 在 ShapeNet Core55 上實現了最先進的性能。報告了基線結果。

        穩健的 3D 部件分割

        表 4 報告了 VointNet 的實例平均分割 mIoU 與ShapeNet Parts 上的其他方法相比。報告了基準測試的兩個變體:未旋轉的歸一化設置和旋轉的真實設置。

        • 對于旋轉設置,遵循之前的 3D 文獻通過在測試時(十次運行)隨機旋轉擾動 ShapeNet 部件中的形狀來測試訓練模型的穩健性,并在表 4 中報告平均值。
        • 注意 VointNet ,在未旋轉的設置上,盡管這兩個基線使用與 VointNet 相同的經過訓練的 2D 主干。
        • 此外,對于旋轉設置,點方法也不起作用。表 4 中的所有結果均由代碼在同一設置中重現(請參閱補充材料中隨附的代碼)。

        圖 3 顯示了 VointNet 和 Mean Fuse 的定性 3D 分割結果與ground truth相比。

        Occlusion Robustness 遮擋穩健性

        最近研究的 3D 分類模型的穩健性方面之一是它們對遮擋的穩健性,如 MVTN  所述。這些模擬遮擋在測試時引入,并報告每個裁剪率的平均測試精度。

        • 將 VointNet 與表 5 中的最新基線進行了基準測試。
        • PointNet 和 DGCNN 被用作基于點的基線,MVTN 被用作多視圖基線。

        圖片

        圖 4:視圖數量的影響。繪制 Ins。

        • 3D 分割的mIoU 與 ShapeNet 部件推理中使用的視圖數 (M)。
        • 請注意 VointNet 對 Mean Fuse  和 Label Fuse的持續改進。
        • 兩個基線都使用與 VointNet 相同的經過訓練的 2D 主干,并在相同的未旋轉設置上進行測試。

        圖片

        表 6:3D 分割的消融研究。

        • 消融了 VointNet 的不同組件(2D 主干和VointConv 選擇)并報告 Ins。
        • mIoU 在 ShapeNetPart上的表現。
        Analysis and Insights  分析和見解Number of Views 視圖數量

        研究了視圖數量 M 對使用多個視圖的 3D 部件分割性能的影響。將 Mean Fuse  和 Label Fuse 與我們的VointNet 進行比較,因為它們都具有相同的訓練的2D 主干。

        • 視圖是隨機選擇的,實驗重復四次。具有置信區間的 mIoU 如圖 4 所示。
        • 觀察到VointNet 在不同數量的視圖中比其他兩個基線有一致的改進。
        Choice of Backbones 骨干的選擇

        消融了 2D 主干的選擇和 VointNet 中使用的VointConv 操作,并報告了分割 Ins。表 6 中的 mIoU結果。

        • 請注意 2D 主干如何極大地影響性能,而VointConv 操作類型不會。
        • 這種消融突出了 2D 主干在 VointNet 中的重要性,并激發了 VointNet (MLP) 最簡單變體的使用。

        在附錄中提供了更多因素以及計算和內存成本的詳細研究。

        Limitations and Acknowledgments 局限性和未來工作

        這項工作介紹了 Voint cloud表示,它繼承了點云的優點和多視圖投影的豐富視覺特征,導致增強的多視圖聚合和在許多 3D 視覺任務上的強大性能。

        • 限制 Voints 性能的一個方面是 2D 主干對下游 3D 任務的訓練。在大多數情況下,必須使用足夠的數據對 2D 主干進行預訓練,以便為 VointNet 學習有意義的信息。
        • 限制Voint-cloud 功能的另一個方面是如何正確選擇用于分割的視點。滿足于在訓練時隨機化視圖。

        解決這些局限性是未來工作的重要方向。此外,將Voint 學習擴展到更多 3D 任務(如 3D 場景分割和 3D對象檢測)留給未來的工作。


        *博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。



        關鍵詞: AI

        相關推薦

        技術專區

        關閉
        主站蜘蛛池模板: 湖口县| 苗栗市| 旺苍县| 宝清县| 鄂尔多斯市| 大理市| 广昌县| 门头沟区| 东乌珠穆沁旗| 黑水县| 博罗县| 红原县| 宣城市| 罗定市| 托里县| 科尔| 平武县| 张北县| 华蓥市| 顺昌县| 茶陵县| 南汇区| 洛川县| 常德市| 本溪市| 犍为县| 姜堰市| 积石山| 衡阳县| 措勤县| 凌源市| 遂溪县| 临城县| 罗甸县| 抚远县| 内江市| 北碚区| 稻城县| 布拖县| 白水县| 册亨县|