Multi-modal Multi-task Masked Autoencoder:一種簡單、靈活且有效的 ViT 預訓練策略
來源:Deephub Imba
MAE是一種使用自監督預訓練策略的ViT,通過遮蔽輸入圖像中的補丁,然后預測缺失區域進行子監督與訓練。盡管該方法既簡單又有效,但 MAE 預訓練目標目前僅限于單一模態——RGB 圖像——限制了在通常呈現多模態信息的實際場景中的應用和性能。
在新論文 MultiMAE: Multi-modal Multi-task Masked Autoencoders 中,來自瑞士洛桑聯邦理工學院 (EPFL) 的團隊提出了 Multi-modal Multi-task Masked Autoencoders (MultiMAE),也是一種預訓練策略,可以對掩碼進行自動編碼處理并執行多模態和多任務的訓練。MultiMAE 使用偽標簽進行訓練,使該框架適用于任何 RGB 數據集。
MultiMAE 的設計基于傳統的 Masked Autoencoding,但在兩個關鍵方面有所不同:
1、除了 RGB 圖像,它還可以選擇接受輸入中的附加模態信息(因此是“多模態”)2、其訓練目標相應地包括 預測除 RGB 圖像之外的多個輸出(因此稱為“多任務”)。
從架構上看,MultiMAE 的編碼器是一個 ViT,但每個額外的輸入模態都有補丁的投影層和一個帶有可學習的額外全局令牌嵌入,類似于 ViT 的類令牌。所以僅加載所需的輸入投影并忽略所有其他投影的MultiMAE 預訓練權重可以直接用于標準單模態 ViT。
為了執行語義分割補丁投影,論文的作者用學習的 64 維的類嵌入替換每個類索引。并且僅對可見標記的隨機子集進行編碼,這樣可以顯著的加速計算和減少內存使用,并且使用了具有三種密集輸入模態的 MultiMAE 多模態預訓練。每個任務使用一個單獨的****,因此****的計算隨著任務的數量線性擴展,并且只增加了最小的成本。
在他們的研究中,圖像分類、語義分割和深度估計這三個任務上對 MultiMAE 進行了預訓練,并在 ImageNet-1K 上進行偽標記,然后在 ImageNet、ADE20K、Taskonomy、Hypersim 和 NYUv2 數據集上進行微調。
結果表明,當 只使用RGB 進行微調時,MultiMAE 保留了常規 MAE 的優勢,并且它還可以利用深度等其他模態,例如使用偽標記深度或語義分割來提高性能。MultiMAE 預訓練策略可以顯著提高遷移性能。
該項目的在 GitHub 上也公開了代碼、預訓練模型和交互式可視化。論文 MultiMAE: Multi-modal Multi-task Masked Autoencoders 公開資料匯總地址如下:https://multimae.epfl.ch/
*博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。
分頻器相關文章:分頻器原理