博客專欄

        EEPW首頁 > 博客 > 視頻版Stable Diffusion:英偉達做到最高1280×2048、最長4.7秒

        視頻版Stable Diffusion:英偉達做到最高1280×2048、最長4.7秒

        發布人:計算機視覺工坊 時間:2023-04-23 來源:工程師 發布文章
        在生成式 AI 盛行的今天,英偉達在文本生成視頻領域更進了一步,實現了更高分辨率、更長時間。


        要說現階段誰是 AI 領域的「當紅辣子雞」?生成式 AI 舍我其誰。包括 ChatGPT 等對話式 AI 聊天應用、Stable Diffusion 等 AI 繪畫神器在內,生成式 AI 展示的效果深深地抓住了人們的眼球。


        我們以圖像生成模型為例,得益于底層建模技術最近的突破,它們收獲了前所未有的關注。如今,最強大的模型構建在生成對抗網絡、自回歸 transformer 和擴散模型(diffusion model, DM)之上。其中擴散模型的優勢在于能夠提供穩健和可擴展的訓練目標,并且參數密集度通常低于基于 transformer 的競品模型


        雖然圖像領域取得了長足進步,但視頻建模卻落后了,這主要歸咎于視頻數據訓練的高昂計算成本以及缺乏大規模公開可用的通用數據集。目前視頻合成雖有豐富的研究文獻,但包括先前視頻 DM 在內的大多數工作僅能生成分辨率較低且往往較短的視頻。


        因此,如何生成分辨率更高、更長的視頻成為一個熱門研究課題。近日慕尼黑大學、英偉達等機構的研究者利用潛在擴散模型(latent diffusion model, LDM)實現了高分辨率的長視頻合成。相關論文已經發表在 arXiv 上。


        圖片


        • 項目主頁:https://research.nvidia.com/labs/toronto-ai/VideoLDM/

        • 論文地址:https://arxiv.org/pdf/2304.08818.pdf


        在論文中,研究者將視頻模型應用于真實世界問題并生成了高分辨率的長視頻。他們關注兩個相關的視頻生成問題,一是高分辨率真實世界駕駛數據的視頻合成,其在自動駕駛環境中作為模擬引擎具有巨大潛力;二是文本指導視頻生成,用于創意內容生成。


        為此,研究者提出了視頻潛在擴散模型(Video LDM),并將 LDM 擴展到了計算密集型任務 —— 高分辨率視頻生成。與以往視頻生成 DM 工作相比,他們僅在圖像上預訓練 Video LDM(或者使用可用的預訓練圖像 LDM),從而允許利用大規模圖像數據集。


        接著將時間維度引入潛在空間 DM、并在編碼圖像序列(即視頻)上僅訓練這些時間層的同時固定預訓練空間層,從而將 LDM 圖像生成器轉換為視頻生成器(下圖左)。最后以類似方式微調 LDM 的****以實現像素空間中的時間一致性(下圖右)。


        圖片


        此外,為了進一步提高空間分辨率,研究者對像素空間和潛在 DM 上采樣器進行時間對齊,將它們轉換為時間一致的視頻超分辨率模型。在 LDM 的基礎上,本文方法以計算和內存高效的方式生成了全局連貫的長視頻。對于非常高分辨率的合成,視頻上采樣器只需要在本地運行,保持了較低的訓練和計算要求。


        最后,研究者進行了消融實驗,在分辨率為 512×1024 的真實駕駛場景視頻上對其方法進行了測試,實現了 SOTA 視頻質量,并合成了幾分鐘的視頻。此外,他們還微調了 Stable Diffusion,將它變成一個高效、強大的文本到視頻生成器,分辨率最高可達 1280 × 2048


        通過將經過訓練的時間層遷移至不同的微調文本到圖像 LDM,研究者首次展示了個性化的文本到視頻生成,并希望自己的工作為高效的數字內容創建和自動駕駛模擬開辟新的途徑。


        我們來看幾個文本到視頻生成示例,比如「彈電吉他的泰迪熊、高分辨率、4K」。


        圖片


        比如「海浪拍打著一座孤獨的燈塔、不詳的燈光」。


        圖片


        再比如「夕陽下獨自穿行在迷霧森林中的旅行者」。


        圖片


        方法解讀:潛在視頻擴散模型


        這部分中,研究者描述了為實現高分辨率視頻合成,對預訓練圖像 LDM 和 DM 上采樣器進行視頻微調。


        將潛在圖像轉換為視頻生成器


        研究者高效訓練視頻生成模型的關鍵思路在于:重用預訓練的固定圖像生成模型,并利用了由參數 θ 參數化的 LDM。具體而言,他們實現了兩個不同的時間混合層,即時間注意力和基于 3D 卷積的殘差塊。研究者使用正弦嵌入為模型提供了時間位置編碼。具體流程如下圖 4 所示。


        圖片


        用于長視頻生成的預測模型


        研究者還訓練模型作為給定多個(首個)S 上下文幀的預測模型,通過引入時間二元掩膜 m_S 來實現。該掩膜 mask 了模型必須預測的 T ? S 幀。此外研究者將該掩膜和 masked 編碼視頻幀饋入到模型中進行調節。


        在推理過程中,為了生成長視頻,研究者迭代地應用了采樣過程,將最新的預測重新用作新的上下文。第一個初始序列通過從基礎圖像模型中合成單個上下文幀來生成,并基于此生成了一個新序列。然后以兩個上下文幀為條件對動作進行編碼。


        用于高幀率的時間插值


        高分辨率的特點不僅在于高空間分辨率,還在于高時間分辨率,即高幀率。為此研究者將高分辨率視頻的合成過程分為了兩部分,第一部分包括上文中的將潛在圖像轉換為視頻生成器和用于長視頻的預測模型,它們可以生成具有較大語義變化的關鍵幀,但受限于內存只能在較低幀率運行。第二部分則引入了一個額外模型,其任務是在給定關鍵幀之間進行插值


        研究者在實現過程中使用了掩膜調節機制。不過與預測任務不同,他們需要 mask 進行插值的幀,否則該機制保持不變,即圖像模型被細化為視頻插值模型。


        超分辨率(SR)模型的時間微調


        盡管 LDM 機制提供了很好的原始分辨率,但研究者的目標是將它推進到百萬像素級別。他們從級聯 DM 中獲得靈感,并使用 DM 將 Video LDM 輸出放大 4 倍。對于駕駛視頻合成實驗,研究者使用了像素空間 DM,并將分辨率擴大至 512×1024;對于文本到視頻模型,他們使用了 LDM 上采樣器,將分辨率擴大至 1280 × 2048。


        實驗結果


        研究者專注于駕駛場景視頻生成和文本到視頻,因此使用了兩個相關數據集,一個是真實駕駛場景(RDS)視頻的內部數據集;另一個是 WebVid-10M 數據集,它將公開可用的 Stable Diffusion 圖像 LDM 轉換為了 Video LDM。


        高分辨率駕駛視頻合成


        研究者在 RDS 數據集上訓練 Video LDM pipeline,包括一個 4 倍像素空間視頻上采樣器。下表 1 顯示了無上采樣器時,128×256 分辨率下 Video LDM 的主要結果。研究者展示了有和無擁擠和白天 / 夜晚條件下其模型的性能。可以看到,Video LDM 通常優于 LVG,并且在一定條件下進一步降低了 FVD。


        圖片


        下表 2 顯示了人類評估結果。就真實性而言,研究者的樣本通常優于 LVG,并且來自條件模型的樣本也優于無條件樣本。


        圖片


        研究者將其視頻微調像素空間上采樣器與獨立逐幀圖像上采樣做了比較,并使用了 128 × 256 30 fps 的真值視頻進行調節,如下表 3 所示。


        圖片


        在下圖左 1(底部)和圖右 7(頂部)中,研究者展示了來自組合 Video LDM 和視頻上采樣器模型的條件樣本。他們生成了高質量的視頻。此外,研究者使用其預測方法生成了時間連貫的多分鐘高分辨率駕駛長視頻。


        圖片


        用 Stable Diffusion 做文本到視頻生成


        研究者沒有先訓練自己的 Image LDM 主干,其 Video LDM 方法可以利用并將現有的 Image LDM 轉換為視頻生成器。在本文中,他們將 Stable Diffusion 轉換為了文本到視頻生成器


        具體地,研究者使用 WebVid-10M 文本字幕視頻數據集,訓練了一個時間對齊版本的 Stable Diffusion 來做文本條件視頻生成。他們在來自 WebVid 的幀上對 Stable Diffusion 的空間層進行簡單微調,然后插入時間對齊層并訓練它們(分辨率為 320 × 512)。研究者還在這些對齊層中添加了文本條件。


        此外,研究者進一步對公開可用的潛在 Stable Diffusion 上采樣器進行視頻微調,使它支持 4 倍放大并生成分辨率為 1280 × 2048 的視頻。研究者生成了由 113 幀組成的視頻,并可以渲染成 4.7 秒的 24 fps 或 3.8 秒 30 fps 的片段。相關樣本如上圖 1 和下圖 6 所示。


        圖片

        更多技術和實驗細節請參閱原論文。



        *博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。



        關鍵詞: AI

        相關推薦

        技術專區

        關閉
        主站蜘蛛池模板: 四平市| 桦甸市| 神池县| 开江县| 兴安县| 金寨县| 阿拉尔市| 凯里市| 仙游县| 宣汉县| 清水河县| 静乐县| 洞口县| 建始县| 祁东县| 安丘市| 兴业县| 措美县| 湘潭县| 建始县| 阿拉善右旗| 嵊州市| 洛阳市| 梅河口市| 车致| 遂宁市| 台安县| 晴隆县| 洛阳市| 曲水县| 大田县| 九龙坡区| 包头市| 临沭县| 宁陕县| 赤城县| 磴口县| 安泽县| 肥乡县| 阳泉市| 红桥区|