CVPR 2022 | 一鍵解鎖微軟亞洲研究院計算機視覺領域前沿進展!
01
基于神經壓縮的視頻復原論文鏈接:https://arxiv.org/abs/2203.09208
視頻復原任務非常依賴時序特征來獲得更好的重建質量。現有的視頻復原方法主要關注如何設計更好的網絡結構去提取時序特征,例如雙向傳播。至于如何有效使用時序特征并和當前幀融合,通常容易被忽視。實際上時序特征通常包含大量噪聲和不相關的信息,直接使用而不經過任何特征提純,反而會干擾當前幀的復原。
為此,微軟亞洲研究院的研究員們提出了一種基于神經壓縮的算法來學習高效的時序特征表達。由于神經壓縮為了節省比特會把無關的信息或者噪聲丟棄,是個天然的去噪者,因此本文利用神經壓縮去有效地過濾噪聲的干擾并保留時序上最重要的信息。如圖1 (b) 所示, 研究員們會在特征融合之前,使用神經壓縮去對時序特征提純。為了實現對噪聲的魯棒性,本文為壓縮模塊設計了一種自適應并且可學習的量化機制,以便有效處理不同類別和不同程度的噪聲干擾。在訓練過程中,交叉熵損失函數和重建損失函數會引導量化模塊的學習。
圖1 (c) 展示了本文模型所學的特征有更強的噪聲魯棒性,并且更接近來自干凈視頻的特征。實驗表明,這種特征學習方式幫助本文的模型在多個視頻恢復任務中取得了最好的性能,包括視頻去噪、視頻去雨和視頻去霧。而且本文的方法在復雜度上也優于之前最好的方法。尤其是在視頻去噪任務上,本文的方法比 BasicVSR++ 提高了0.13 dB, 并且只有它0.23倍的復雜度。
02
基于神經輻射流形的三維可控圖像生成
論文鏈接:https://yudeng.github.io/GRAM/
傳統的生成對抗網絡(GAN)已經具備生成以假亂真二維圖像的能力。但它們并不考慮生成圖像中物體背后的三維幾何性質,因此無法生成物體的多視角圖像。近兩年,一些能夠實現三維視角控制的生成對抗網絡逐漸出現。給定一類物體的單視角圖像集作為訓練數據,這些方法可以利用圖像上的對抗學習過程生成物體的多視角圖像。實現這一點的關鍵因素是將物體的三維表達與圖像生成過程相結合,其中最先進的方法利用了神經輻射場(NeRF)作為物體表達。
然而,已有的、基于 NeRF 的生成對抗網絡的圖像生成質量與傳統的二維圖像生成對抗網絡仍有較大的差距。研究員們觀察到,造成這一問題的一個重要原因是 NeRF 的體渲染過程與對抗學習過程相結合時內存開銷較大,限制了體渲染時每條光線允許的采樣點個數。在采樣點數量有限時,NeRF 表征不能有效的處理物體的精細幾何紋理,且其渲染圖像中含有明顯的噪聲圖案,嚴重影響了對抗學習過程的穩定性。
本文提出了一種新型的神經輻射流形表達來解決 NeRF 與對抗學習結合時的上述問題。神經輻射流形將輻射場的學習與圖像渲染時的采樣點限制在三維空間中的一簇二維曲面流形上,有助于網絡在曲面上學習物體的精細結構,并有效避免了圖像渲染時的噪聲圖案。實驗表明,基于神經輻射流形表征,研究員們極大地提高了生成圖像的真實感與其視角變化下的三維一致性。圖2:基于神經輻射流形的圖像生成過程示意圖
03
StyleSwin – 用Transformer搭建適于高質量圖像生成的的生成對抗網絡 論文鏈接:https://www.microsoft.com/en-us/research/publication/styleswin-Transformer-based-gan-for-high-resolution-image-generation/
以生成對抗網絡為代表的圖像生成模型在過去幾年間取得了巨****展。其早期的研究主要集中在讓對抗訓練更加穩定,而近年來生成質量的突破則主要受益于更具表達能力的網絡的提出,如引入注意力機制、采用更大的網絡以及 Style-based 生成器。
近期,Transformer 獲得了極大的關注,并在一系列判別任務中取得巨大成功。受此啟發,微軟亞洲研究院的研究員們嘗試探究 Transformer 的一系列優異特性,尤其是長距離建模能力,是否對生成任務也有幫助。而構建基于 Transformer 的生成器網絡,就需要克服在高分辨率圖像生成時計算復雜度過高的問題。為此研究員們采用了微軟亞洲研究院提出的 Swin Transformer 作為基本模塊,以在計算復雜度和模型表達能力間取得良好的平衡。
研究員們還進一步提出了若干改進,使得 Swin Transformer 可以更好的適配圖像生成任務。首先,整個生成器采用了 Style-based 結構,并探究若干種適于 Transformer 模塊的風格注入機制。其次,研究員們提出用 double attention 來代替 Swin Transformer 中的重疊窗口,使得每一層 Transformer 模塊有更大的注意力范圍。此外,研究員們指出對于生成模型,有必要同時采用相對位置編碼和絕對位置編碼。圖3:(左)StyleSwin 網絡結構,(右)256x256生成結果穩定超越 StyleGAN
更重要的,研究員們發現局部窗口內計算注意力會有產生類似于 DCT 壓縮時的塊狀瑕疵(blocking artifact),這個問題僅在生成任務中才會被注意到。為此,研究員們提出了基于小波變換的判別器模型在頻域空間識別這種塊狀瑕疵的方法,有效提升了肉眼感知下的生成質量。
本文提出的 StyleSwin 在若干數據集,FFHQ, CelebA-HQ, LSUN church, LSUN car等標準數據集上都取得了有競爭力的生成質量。在256x256分辨率上,StyleSwin 超越了現有所有 GAN 的方法,在1024x1024分辨率上取得和 StyleGAN2 相當的圖像質量。本文的意義在于首次驗證了 Transformer 模型在高分辨率、高質量圖像生成任務中的有效性,對生成網絡基礎網絡的發展做出了新的啟發。
04
基于量化去噪擴散模型的圖像到文本生成
論文鏈接:https://arxiv.org/abs/2111.14822
文本到圖像的生成是近些年來的一個熱點生成問題。之前的相關工作主要分為生成對抗網絡和自回歸模型兩大類。生成對抗網絡受限于擬合能力,往往只能擬合單個場景或者類別的圖像。自回歸模型則將圖像生成問題轉換成了序列化生成問題,然而,該方法具有單向偏差、誤差累積的問題,并且生成圖像的速度較慢。本文提出了一種新型生成模型,量化去噪擴散模型(VQ-Diffusion),該方法能很好地解決以上問題。具體來說,該方法首先利用矢量量化變分自編碼器(VQVAE)將圖像編碼成離散編碼,再利用條件化的去噪擴散模型(DDPM)擬合隱空間的分布。
與連續空間的量化去噪模型不同,為了擬合離散的數據分布,研究員們利用概率轉移矩陣而不是高斯噪聲,在去噪擴散模型的加噪步驟中對目標分布加噪。具體來說,本文提出了遮擋與替換的加噪策略,可以成功地避免誤差累積的問題。此外,通過利用雙向注意力機制進行去噪,該方法避免了單向偏差的問題。本文還提出了給離散擴散模型加上重參數化技巧,從而有效地平衡生成速度和圖像質量。量化去噪擴散模型的示意圖如圖4所示:圖4:VQ-Diffusion 的算法流程圖
本文在很多文本到圖像生成的數據集上做了實驗,包括 CUB-200,Oxford-102,以及 MSCOCO。與自回歸模型相比,采用相似參數量時,量化擴散模型能在生成速度快15倍的情況下,獲得更好的生成結果。與之前基于生成對抗網絡的文本到圖像生成的方法相比,該算法則能處理更復雜的場景,極大提升生成圖像的質量。此外,該方法還具有普適性,可用于無條件圖像生成(如 FFHQ)和條件圖像生成(如 ImageNet)。
05
基于多模態遷移學習的手語翻譯模型論文鏈接:https://arxiv.org/abs/2203.04287
全世界有7000萬聾人在使用著200多種手語,研究手語翻譯(SLT)有助于增進聾人和聽人之間的溝通。近幾年來,機器手語翻譯(SLT)遵循機器文本(NMT)翻譯框架,采用編碼-****架構將視覺信號翻譯成自然語言。然而,與 NMT 的成功相比,SLT 存在著數據稀缺的問題。為了解決這個問題,本文提出了一個簡單有效的多模態遷移學習手語翻譯模型,采用逐步預訓練的方法:先后將模型在通用域和域內數據集上訓練。通過從現有數據集中遷移知識,研究員們希望可以減少對數據的依賴。研究員們使用手語轉寫標注(Gloss)作為中間表示,將 SLT 分解為 Sign2Gloss 和 Gloss2Text,以便可以在兩個域上分別對視覺和語言模塊進行預訓練。
圖5:研究員們將手語翻譯拆分成為視覺任務(左側)和語言任務(右側),并用一個視覺-語言映射器(V-L Mapper)來連接兩個任務,之后分別對視覺和語言網絡在大規模數據上進行預訓練,實現遷移學習,最后對整個模型進行聯合訓練。
本文的模型包括:一個用于提取視頻特征的視覺模塊、一個將視頻特征翻譯成文本的語言模塊和一個連接以上兩個模塊的視覺-語言映射器。對于視覺模塊,研究員們首先在 Kinetics-400(動作識別數據集)和 WLASL(美國手語單詞識別數據集)上預訓練 S3D 網絡,之后在目標數據集上以 Sign2Gloss 為訓練任務進一步訓練視覺編碼器。對于語言模塊,研究員們使用了在大規模文本語料庫上預訓練過的 mBART 模型,之后在目標數據上利用 Gloss2Text 進一步訓練語言模塊。利用一個由兩層 MLP 組成的 V-L 映射器,研究員們將視覺特征變換到了翻譯網絡的輸入中。這樣,兩個預訓練模塊通過視覺特征連接起來,整個模型將可以實現聯合訓練。
本文的模型大幅超過了之前的手語翻譯方法:在 Phoenix-2014T 和 CSL-Daily 上分別達到了28.4和23.9的 BLEU-4。此外,本文也進行了消融實驗來驗證了該遷移學習策略的有效性。
06
重新思考對比學習中的最小充分表示論文鏈接:https://arxiv.org/abs/2203.07004
作為一種自監督學習方法,對比學習近年來被當作預訓練的主要方法廣泛應用于視頻和圖像領域。由于對比學習使用數據的不同“視角”互相監督,學習到的數據表示往往只包含“視角”之間的的共享信息,而排斥它們的非共享信息。換言之,對比學習最終的結果是學習到了不同“視角”之間的最小充分表示。這樣就產生了一個疑問——被排斥掉的非共享信息是不是包含對下游任務有貢獻的內容?由于“視角”的產生高度依賴增強方法,而下游任務相關的信息在預訓練階段往往是缺失的,所以從直觀上看這種可能性的確存在。
通過從信息論方面進行嚴謹的推理證明和實驗驗證,微軟亞洲研究院的研究員們發現最小充分表示排斥的非共享信息中確實包含下游任務相關的有用信息,從而揭示了對比學習有過擬到“視角”共享信息的風險。這種風險會嚴重降低預訓練模型的通用性和在下游任務上的性能。為此,研究員們認為對比學習應該學習“視角”之間的充分表示而不是最小充分表示,并且提出了一種簡單有效而且通用的方法:增加對比學習中“視角”之間的互信息。簡單來說,就是在學習“視角”共享信息的同時,也盡可能學習下游任務相關的非共享信息。在此基礎上,研究員們提出了兩種通用的預訓練策略,一種是通過重構輸入數據引入更多的原始輸入信息達到增加非共享信息的目的;另一種是通過加入正則項計算互信息的下限來直接提高互信。大量的實驗結果表明,我們提出的預訓練策略在分類,檢測和分割等一系列下游任務中都極大地提高了精度。圖6:對比學習中充分表示和最小充分表示的信息分布圖
07
SimMIM:一個簡單的圖像掩碼建模框架
論文鏈接:https://arxiv.org/abs/2111.09886代碼地址:https://github.com/microsoft/SimMIM
掩碼信號建模(Masked Signal Modeling)是一種通過利用部分可見信息來預測不可見信息的預訓練方法。其在自然語言處理(NLP)領域中的應用——掩碼語言建模(Masked Language Modeling, MLM)已經成為了 NLP 領域中最具代表性且應用最廣泛的預訓練方法。
事實上,在計算機視覺領域也出現了一系列使用掩碼圖像建模(Masked Image Modeling, MIM)來進行視覺模型預訓練的嘗試,但之前的方法往往需要引入額外的設計。本文中,研究員們提出了一種簡單的預訓練框架 SimMIM,證明了僅使用簡單的隨機掩碼策略以及單層線性****來恢復原始圖像信號就可以實現良好的視覺模型預訓練,并學習到高質量的圖像表征。圖7:SimMIM 使用簡單的隨機掩碼策略和一個輕量的單層線性****來重構圖像的原始信號,并使用簡單的 l1 損失函數進行預訓練。
SimMIM 可以適配任意的基礎網絡,包括 ViT,Swin 以及 ConvNets。如圖8(左)所示,在使用 ViT-B 時,SimMIM 取得了比其他方法更好的微調性能,同時花費的訓練成本更低。圖8:(左)SimMIM 與其他方法在使用 ViT-B 時的性能比較。(右)SimMIM 在使用 Swin 時與有監督預訓練(Supervised Pre-training)的比較。
圖8(右)則展示了 SimMIM 在使用 Swin 時取得了比有監督預訓練(Supervised pre-training)更好的性能,并且模型越大,SimMIM 的優勢就越明顯,這說明 SimMIM 是一個良好的模型擴展學習器(model scalable learner)。通過使用 SimMIM,具有3B參數量的 Swin-G 可以在 ImageNet-1K 圖像分類任務中取得90.2%的 Top-1 Acc。
SimMIM 不僅適用于基于 Transformer 的網絡,其對 ConvNets 也同樣有效。ResNet-50×4 使用 SimMIM 可以取得81.6%的 Top-1 Acc,高于有監督預訓練獲得的80.7%的結果。這些實驗證明了 SimMIM 的廣泛適用性。
08
學習軌跡感知Transformer的視頻超分辨率網絡 論文鏈接:https://arxiv.org/abs/2204.04216代碼鏈接:https://github.com/researchmm/TTVSR
視頻超分辨率(VSR)旨在從低分辨率(LR)的對應幀中恢復高分辨率(HR)的視頻幀。盡管如今視頻超分辨率領域已經取得了一定的進展,但是在如何有效利用整個視頻的時間信息方面仍然存在著巨大的挑戰。現有的方法通常通過對齊和聚合短距離相鄰幀(如5或7幀)的信息來生成高分辨率的幀,所以無法獲得令人滿意的結果。
本文提出了一種新穎的軌跡感知的 Transformer 來執行視頻超分任務(TTVSR),該方法通過引入運動軌跡進一步探索了視頻中更有效的空間和時間上的信息學習方法。具體來說,TTVSR 將整個視頻中的幀作為視覺特征,并將時空中一些連續的視覺特征定義為一些在內容上預先對齊的時空軌跡,對于其中的每個 query,自注意力機制只是沿著預先定義的時空軌跡來執行。為了實現上述軌跡的建模,研究員們提出了巧妙的位置圖機制,該機制通過對預先定義的視覺特征的坐標位置圖執行運動變換,來達到建模視覺特征軌跡的目的。相比于傳統的在整個時空執行自注意力機制的 Transformer 來說,軌跡感知的 Transformer 大大降低了計算成本,并使 Transformer 能夠對長距離的視頻特征進行建模。圖9:基于軌跡感知的視頻超分辨率 Transformer 的網絡結構圖
同時,本文還進一步提出了一個跨尺度特征標記化模塊來克服長距離視頻中頻繁出現的目標尺度變化問題。通過對四個廣泛使用的視頻超分辨率基準數據集進行大量的定量和定性評估,實驗結果表明本文所提出的軌跡感知的 Transformer 比其他最先進的模型更具有優勢。相關的代碼和模型已經在 GitHub 開源:https://github.com/researchmm/TTVSR。
*博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。