博客專欄

EEPW首頁 > 博客 > ICLR2023 | 2D Transformer 可以幫助3D表示學習嗎？（1）

ICLR2023 | 2D Transformer 可以幫助3D表示學習嗎？（1）

發布人：計算機視覺工坊時間：2023-07-04 來源：工程師

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

發布文章

筆者個人體會

這篇論文的動機是解決3D數據表示學習中存在的挑戰，即3D數據與2D圖像或語言具有不同的結構，使得在細粒度知識的關聯方面存在困難。作者希望通過自監督學習的方式，將來自圖像領域的豐富知識應用于3D數據的表示學習中，從而提高3D任務的性能。作者提出一種自監督學習框架，用于跨模態的知識傳遞和特征蒸餾，以改善3D數據的表示學習和下游任務性能。

核心創新點是框架中的ACT（Autoencoding Cross-Transformers），它將預訓練的基礎Transformer模型轉化為跨模態的3D教師模型，并通過自編碼和掩碼建模將教師模型的特征蒸餾到3D Transformer學生模型中。

作者通過以下方式設計和實現ACT框架：

首先，使用3D自編碼器將預訓練的基礎Transformer轉化為3D教師模型。這個自編碼器通過自監督訓練從3D數據中學習特征表示，并生成語義豐富的潛在特征。
接著，設計了掩碼建模方法，其中教師模型的潛在特征被用作3D Transformer學生模型的掩碼建模目標。學生模型通過優化掩碼建模任務來學習表示，以捕捉3D數據中的重要特征。
使用預訓練的2D圖像Transformer作為教師模型，因為它們在2D圖像領域表現出色，并且作者認為它們可以學習遷移的3D特征。

ACT框架包括以下主要部分：

預訓練的2D圖像或語言Transformer：作為基礎Transformer模型，具有豐富的特征表示能力。作者選擇了先進的2D Transformer模型作為基礎模型，例如Vision Transformers (ViTs) 或者語言模型（如BERT）。
訓練：使用大規模的2D圖像或語言數據集進行預訓練，通過自監督學習任務（如自編碼器或掩碼建模）來學習模型的特征表示能力。
3D自動編碼器：通過自監督學習，將2D圖像或語言Transformer調整為3D自動編碼器，用于學習3D幾何特征。作者將預訓練的2D圖像或語言Transformer模型轉換為3D自動編碼器。通過將2D模型的參數復制到3D模型中，并添加適當的層或模塊來處理3D數據。
使用3D數據集進行自監督學習，例如預測點云數據的遮擋部分、點云重建或其他3D任務。通過自監督學習任務，3D自動編碼器可以學習到3D數據的幾何特征。
跨模態教師模型：將預訓練的3D自動編碼器作為跨模態教師模型，通過掩碼建模的方式將潛在特征傳遞給3D Transformer學生模型。
特征傳遞：通過掩碼建模的方式，將3D自動編碼器的潛在特征傳遞給3D Transformer學生模型。教師模型生成的潛在特征被用作學生模型的蒸餾目標，以引導學生模型學習更好的3D表示。
3D Transformer學生模型：接收來自教師模型的潛在特征，并用于學習3D數據的表示。
特征蒸餾：學生模型通過特征蒸餾的方式，利用教師模型的潛在特征作為監督信號，從而學習到更準確和具有豐富語義的3D表示。

這種設計和實現帶來了多個好處：

ACT框架能夠實現跨模態的知識傳遞，將來自圖像領域的知識應用于3D數據中的表示學習，提高了3D任務的性能。
通過使用預訓練的2D圖像Transformer作為教師模型，ACT能夠利用圖像領域已有的豐富特征表示，提供更有語義的特征編碼。
自編碼和掩碼建模任務使得學生模型能夠通過無監督學習捕捉3D數據中的重要特征，從而更好地泛化到不同的下游任務。

總的來說，ACT框架的核心創新在于將自監督學習和特征蒸餾方法應用于3D數據中，實現了知識傳遞和表示學習的改進，為跨模態學習和深度學習模型的發展提供了新的思路和方法。

摘要

深度學習的成功在很大程度上依賴于具有全面標簽的大規模數據，在獲取3D數據方面比2D圖像或自然語言更昂貴且耗時。這促使我們有可能利用用于不同模態知識轉移的以3D數據為基礎的預訓練模型作為教師。

本文以統一的知識蒸餾方式重新考慮了掩碼建模，并且展示了基于2D圖像或自然語言預訓練的基礎Transformer模型如何通過訓練作為跨模態教師的自編碼器（ACT）來幫助無監督學習的3D表示學習。

預訓練的Transformer模型通過使用離散變分自編碼的自監督來作為跨模態的3D教師進行轉移，在此過程中，Transformer模型被凍結并進行提示調整，以實現更好的知識傳承。
由3D教師編碼的潛在特征被用作掩碼點建模的目標，其中暗知識被提煉到作為基礎幾何理解的3D Transformer學生中。

預訓練的ACT 3D學習者在各種下游基準測試中實現了最先進的泛化能力，例如在ScanObjectNN上的％整體準確率。

圖1 ACT框架的概述。
（a）ACT利用在大規模數據上預訓練的Transformer模型，例如使用2D圖像預訓練的ViT或使用語言預訓練的BERT。
（b）ACT的第一階段（第4.1節），預訓練的Transformer模型通過帶提示的自監督3D自編碼進行微調。
（c）ACT的第二階段（第4.2節），3D自編碼器編碼器被用作跨模態教師，將潛在特征編碼為掩碼點建模目標，用于3D Transformer學生的表示學習。

*博客內容為網友個人發布，僅代表博主個人觀點，如有侵權請聯系工作人員刪除。

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關鍵詞： AI

焦點

更多>>

技術專區

關閉

博客專欄

ICLR2023 | 2D Transformer 可以幫助3D表示學習嗎？（1）

相關推薦

技術專區