博客專欄

        EEPW首頁 > 博客 > ICLR2023 | 2D Transformer 可以幫助3D表示學習嗎?(2)

        ICLR2023 | 2D Transformer 可以幫助3D表示學習嗎?(2)

        發布人:計算機視覺工坊 時間:2023-07-04 來源:工程師 發布文章
        一、引言

        近年來,數據驅動的深度學習在人工智能系統中得到廣泛應用。計算硬件的進步極大地推動了機器智能的發展,并促進了一種新興的范式,即基于廣泛數據訓練的模型的知識轉移。

        • 自然語言處理 (NLP) 取得了巨大的成功,其中的模型旨在通過對極大規模數據進行自監督學習來獲取通用表示。
        • 自從Transformer在視覺領域取得成功后,人們已經做出了許多努力,將這種趨勢從NLP領域擴展到基于2D視覺理解的基礎模型中。

        與2D視覺和NLP相比,基于基礎的視覺計算在3D社區中發展滯后。提出以下問題:是什么使得3D表示學習比2D視覺或NLP更具挑戰性?

        從以下三個角度提供一些分析性答案:

        i. 架構不統一。先驅性架構如PointNet只能對3D坐標進行編碼,而無法應用于在NLP和2D視覺中取得成功的掩碼去噪自編碼(DAE)。然而,Transformer架構現在已經彌補了這種架構上的差距,實現了跨所有模態格式的統一表示,并為擴展3D中的DAE帶來了巨大潛力。

        ii. 數據稀缺。與圖像和自由形式語言相比,收集和標注3D或4D數據更加困難,通常需要更昂貴且密集的工作。此外,考慮到數據規模,3D數據嚴重匱乏。這促使了跨模態知識轉移的使用。最近的研究要么與其他模態一起進行聯合訓練以實現更有效的對比,要么直接對在圖像數據上預訓練的2D Transformers進行微調。

        iii. 模式差異。表1顯示了語言、2D圖像和3D點云的數據模式比較。可以觀察到:

        • (i)3D點云通常是非結構化的,包含稀疏語義,不同于語言。這導致在點云上進行掩碼去噪自編碼更加困難;
        • (ii)2D圖像在網格上均勻分布,而3D點云則是從對象表面不規則采樣。這種結構上的差異導致了單模態增強和跨模態對應的對比目標構建的困難;
        • (iii)如何設計具有豐富語義的更好表示成為自監督3D理解的主要目標。

        在上述分析的推動下,作者提出了將Autoencoders作為跨模態教師進行訓練。

        • ACT利用基于2D圖像或自然語言預訓練的基礎Transformers作為跨模態教師,具有豐富的知識和強大的表示能力。通過這種方式,3D中的數據稀缺問題得到緩解。
        • Transformer被用作通用的3D學習器,彌補了掩碼建模表示學習方面的架構差距。通過以自監督的方式在3D數據上微調預訓練的Transformers作為自編碼器,Transformers可以將3D點云轉化為具有豐富語義的表示形式。為了保留和繼承預訓練的基礎知識,使用了提示微調。

        因此,ACT使預訓練的Transformers成為自發的跨模態教師,為3D點云提供了語義豐富的掩碼建模目標。

        • 由于預訓練的Transformers被微調為3D自編碼器,在這種跨模態Transformer轉移過程中不需要任何圖像、語言數據或3D下游標注。
        • 此外,由于調整后的Transformers僅用作3D Transformer學生的教師,該方法在下游特征轉移過程中不會引入額外的計算或存儲成本。

        此外,進行了各種任務的大量實驗證明了ACT預訓練3D Transformers具有出色的泛化性能。

        • 例如,在ScanObjectNN數據集上實現了平均準確率提高%。

        據知,本文首次證明了預訓練的基礎Transformer可以幫助3D表示學習,而無需訪問任何2D、語言數據或3D下游標注。ACT是一個自監督的框架,可以推廣到其他模態和任務,期望這能夠推動更多類似ACT風格的表示學習的探索。



        表1: 數據模式比較

        圖片

        二、相關背景自監督的3D幾何處理表示學習

        自監督的3D幾何處理表示學習目前在學術界引起了極大的興趣。

        • 傳統方法是基于重建的幾何理解預任務構建的,例如點云部分重排序,方向估計,局部和全局重建,流一致性,變形和遮擋。

        • 與此同時,Xie等人在PointContrast中提出了學習增強點云之間的區分性視角一致性的方法。在這個方向上,還提出了許多相關工作。

        最近,許多工作提出了應用點云Transformer的自編碼器(DAE)預訓練的方法,并取得了顯著的成功。

        • Yu等人通過擴展BERT-style預訓練的思想,結合全局對比目標,開創了這個方向。
        • Liu等人提出了添加一些噪聲點,并對每個掩碼位置的掩碼標記進行真假分類的方法,這與Selfie的模式相似,后者對掩碼圖像塊進行真假分類。
        • Pang等人提出了通過對3D點云坐標進行掩碼建模,在點云上探索MAE的方法。

        作者遵循這種DAE-style表示學習范式,但與之前的方法不同,工作旨在使用由預訓練基礎Transformer編碼的潛在特征作為掩碼建模目標。

        跨模態的3D表示學習

        跨模態的3D表示學習旨在利用除了3D點云之外的更多模態內在的學習信號,例如,2D圖像被認為具有豐富的上下文和紋理知識,而自由形式的語言則具有密集的語義信息。主流方法基于全局特征匹配的對比學習進行開發。

        • 例如,Jing等人提出了一種判別性中心損失函數,用于點云、網格和圖像的特征對齊。
        • Afham等人提出了一種在增強的點云和相應渲染的2D圖像之間進行的模態內和模態間對比學習框架。

        通過利用幾何先驗信息進行密集關聯,另一項工作探索了細粒度的局部特征匹配

        • Liu等人提出了一種對比知識蒸餾方法,用于對齊細粒度的2D和3D特征。
        • Li等人提出了一個簡單的對比學習框架,用于模態內和模態間的密集特征對比,并使用匈牙利算法進行更好的對應。

        最近,通過直接使用經過監督微調的預訓練2D圖像編碼器取得了很大的進展。

        • Image2Point 提出了通過卷積層膨脹來傳遞預訓練權重的方法。
        • P2P 提出了將3D點云投影到2D圖像,并通過可學習的上色模塊將其作為圖像主干網絡的輸入。

        一些工作也探索了預訓練基礎模型是否可以幫助3D學習。然而,本文作者的方法:

        (1)不使用預訓練的2D或語言模型作為推斷的主干模型;

        (2)在無下游3D標注的自監督預訓練過程中探索使用來自其他模態的預訓練基礎模型;

        (3)不需要成對的點-圖像或點-語言數據。

        除了2D圖像之外,還有一些工作提出利用自然語言進行對比的3D表示學習,零樣本學習,以及場景理解。


        *博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。



        關鍵詞: AI

        相關推薦

        技術專區

        關閉
        主站蜘蛛池模板: 宁化县| 墨脱县| 冕宁县| 保亭| 天水市| 舒城县| 康乐县| 辽宁省| 九江市| 电白县| 延边| 新巴尔虎右旗| 双江| 澜沧| 克拉玛依市| 上虞市| 沁水县| 苏尼特右旗| 绵阳市| 梧州市| 瑞昌市| 永和县| 乌鲁木齐市| 日喀则市| 平远县| 虎林市| 崇信县| 蒙阴县| 精河县| 海丰县| 黔西| 星子县| 自贡市| 新沂市| 黄陵县| 绥化市| 郯城县| 从江县| 庐江县| 迭部县| 涿州市|