博客專欄

        EEPW首頁 > 博客 > 基于GAN生成流暢視頻,效果很能打:無紋理粘連、抖動緩解

        基于GAN生成流暢視頻,效果很能打:無紋理粘連、抖動緩解

        發布人:機器之心 時間:2022-12-21 來源:工程師 發布文章

        來自香港中文大學、上海人工智能實驗室、螞蟻技術研究院以及加州大學洛杉磯分校的研究者提出了一個新的視頻生成方法(Towards Smooth Video Composition),在多個數據集上的實驗顯示,新工作成功取得了大幅度超越先前工作的視頻質量。


        近年來,基于生成對抗式網絡(Generative Adversarial Network, GAN)的圖片生成研究工作取得了顯著的進展。除了能夠生成高分辨率、逼真的圖片之外,許多創新應用也應運而生,諸如圖片個性化編輯、圖片動畫化等。然而,如何利用 GAN 進行視頻生成仍然是一個頗有挑戰的問題。


        除了對單幀圖片的建模之外,視頻生成還需要學習復雜的時序關系。近來,來自香港中文大學、上海人工智能實驗室、螞蟻技術研究院以及加州大學洛杉磯分校的研究者提出了一個新的視頻生成方法(Towards Smooth Video Composition)。文中,他們針對不同跨度(短時范圍、適中范圍、長范圍)的時序關系,分別進行了細致的建模與改進,并在多個數據集上取得了相較于之前工作大幅度的提升。該工作為基于 GAN 的視頻生成方向提供了一個簡單且有效的新基準。


        圖片


        • 論文地址:https://arxiv.org/pdf/2212.07413.pdf

        • 項目代碼鏈接:https://github.com/genforce/StyleSV


        模型架構


        基于 GAN 的圖像生成網絡可以表示為:I=G(Z),其中 Z 是隨機變量,G 是生成網絡,I 是生成圖片。我們可以簡單地將此框架拓展到視頻生成范疇:I_i=G(z_i),i=[1,...,N],其中我們一次性采樣 N 個隨機變量 z_i,每一個隨機變量 z_i 對應生成一幀圖片 I_i。將生成的圖片在時間維度堆疊起來就可以得到生成的視頻。


        MoCoGAN, StyleGAN-V 等工作在此基礎上提出了一種解耦的表達:I_i=G(u, v_i),i=[1,...,N],其中 u 表示控制內容的隨機變量,v_i 表示控制動作的隨機變量。這種表達認為,所有幀共享相同的內容,并具有獨特的動作。通過這種解耦的表達,我們可以更好地生成內容風格一致,同時具有多變真實的動作視頻。新工作采納了 StyleGAN-V 的設計,并將其作為基準。


        視頻生成的難點:

        如何有效并合理地建模時序關系?


        新工作著眼于不同跨度(短時范圍、適中范圍、長范圍)的時序關系,分別進行了細致的建模與改進:


        圖片


        1. 短時間(~5 幀)時序關系


        讓我們首先考慮僅有幾幀的視頻。這些短時間的視頻幀通常包含了非常相似的內容,僅僅展示了非常細微的動作。因此,真實地生成幀間的細微動作至關重要。然而,StyleGAN-V 生成的視頻中出現了嚴重的紋理粘連(texture sticking)現象。


        圖片


        紋理粘連指的是生成的部分內容對特定坐標產生了依賴,造成了 “黏” 在固定區域上的現象。在圖像生成領域中,StyleGAN3 通過細致的信號處理、擴大 padding 范圍等操作緩解了紋理粘連問題。本工作驗證了同樣的技術對視頻生成仍然有效。


        在下圖的可視化中,我們追蹤視頻每一幀中相同位置的像素。容易發現,在 StyleGAN-V 的視頻中,有些內容長期 “黏” 在固定坐標,并沒有隨著時間移動,因此在可視化中產生了“筆刷現象”。而在新工作生成的視頻中,所有像素都展示了自然的移動。


        圖片


        然而,研究員發現,引用 StyleGAN3 的 backbone 會讓圖像生成質量有所下降。為了緩解這個問題,他們引入了圖像層面的預訓練。在預訓練階段, 網絡僅需考慮視頻中某一幀的生成質量,無需學習時序范圍的建模,從而更易學習有關圖像分布知識。


        2. 中等長度(~5 秒)時序關系


        隨著生成的視頻擁有更多的幀數,它將能夠展現更具體的動作。因此,確保生成的視頻中擁有真實的動作非常重要。例如,如果我們想要生成第一人稱開車的視頻,就應該生成逐漸后退的地面、街景,臨車也應當遵循自然的駕駛軌跡。


        在對抗訓練中,為了確保生成網絡獲得足夠的訓練監督,判別網絡至關重要。因此在視頻生成中,為了確保生成網絡能夠生成真實的動作,判別網絡需要對多幀中的時序關系進行建模,并捕獲生成的不真實的運動。然而,在之前的工作中,判別網絡僅僅使用了簡單的拼接操作(concatenation operation)來進行時序建模:y = cat (y_i),其中 y_i 表示單幀特征,y 表示時域融合后的特征。


        針對判別網絡,新工作提出了一種顯式的時序建模,即在判別網絡的每一層,引入時序移位模塊(Temporal Shift Module,TSM)。TSM 來自動作識別領域,通過簡單的移位操作實現時序上的信息交換:


        圖片

        實驗表明,在引入 TSM 之后,三個數據集上的 FVD16,FVD128 得到了很大程度的降低。


        圖片


        3. 無限長視頻生成


        先前介紹的改進主要圍繞短時和適中時間長度的視頻生成,新工作進一步探索了如何生成高質量的任意長度(包括無限長)的視頻。之前工作(StyleGAN-V)能夠生成無限長的視頻,然而視頻中卻包含著非常明顯的周期性抖動現象:


        圖片


        圖片

        如圖所示,在 StyleGAN-V 生成的視頻中,隨著自車前進,斑馬線原本正常的后退,隨后卻突然改為向前運動。本工作發現,動作特征(motion embedding)的不連續性導致了此抖動現象。


        先前工作采用線性插值來計算動作特征,然而線性插值會導致一階不連續性,如下圖所示(左邊為插值示意圖,右圖為 T-SNE 特征可視化):


        圖片


        本工作提出了 B 樣條控制的動作特征(B-Spline based motion embedding)。通過 B 樣條進行插值,能夠獲得關于時間更加平滑的動作特征,如圖所示(左邊為插值示意圖,右圖為 T-SNE 特征可視化):


        圖片


        通過引入 B 樣條控制的動作特征,新工作緩解了抖動現象:


        圖片

        圖片

        如圖所示,StyleGAN-V 生成的視頻中,路燈、地面會突然改變運動方向。而在新工作生成的視頻中,運動的方向是一致、自然的。


        同時,新工作針對動作特征還提出了一個低秩(low rank)的約束,來進一步緩解周期性重復內容的出現。


        實驗


        工作在三個數據集(YouTube Driving, Timelapse, Taichi-HD)上進行了充分的實驗,并充分對比了先前的工作,結果顯示,新工作在圖片質量(FID)以及視頻質量(FVD)上,都取得了充分的提升。


        SkyTimelapse 實驗結果:


        圖片


        Taichi-HD 實驗結果:


        圖片

        YouTube Driving 實驗結果:


        圖片

        總結


        新工作基于 GAN 模型,提出了一個全新的視頻生成基準,從不同尺度的時序關系出發,提出了新穎、有效地改進。在多個數據集上的實驗顯示,新工作成功取得了大幅度超越先前工作的視頻質量。


        *博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。

        pa相關文章:pa是什么


        模數轉換器相關文章:模數轉換器工作原理




        關鍵詞: AI

        相關推薦

        技術專區

        關閉
        主站蜘蛛池模板: 通江县| 河曲县| 宜良县| 石河子市| 武威市| 聂拉木县| 灌阳县| 德化县| 新安县| 荆门市| 贵港市| 崇左市| 洛浦县| 景东| 靖远县| 抚顺县| 藁城市| 莫力| 台东市| 镇赉县| 垣曲县| 虎林市| 东至县| 仙居县| 太仓市| 宝坻区| 来宾市| 枣庄市| 建水县| 林州市| 平凉市| 灌云县| 惠州市| 长葛市| 雷山县| 汉沽区| 博客| 固镇县| 浦县| 修武县| 长乐市|