博客專欄

        EEPW首頁 > 博客 > 加特技只需一句話or一張圖,Stable Diffusion的公司把AIGC玩出了新花樣(1)

        加特技只需一句話or一張圖,Stable Diffusion的公司把AIGC玩出了新花樣(1)

        發布人:機器之心 時間:2023-03-19 來源:工程師 發布文章
        從文本生成圖像,再到給視頻加特效,下一個 AIGC 爆發點要出現了嗎?

        相信很多人已經領會過生成式 AI 技術的魅力,特別是在經歷了 2022 年的 AIGC 爆發之后。以 Stable Diffusion 為代表的文本到圖像生成技術一度風靡全球,無數用戶涌入,借助 AI 之筆表達自己的藝術想象……


        相比于圖像編輯,視頻編輯是一個更具有挑戰性的議題,它需要合成新的動作,而不僅僅是修改視覺外觀,此外還需要保持時間上的一致性。


        在這條賽道上探索的公司也不少。前段時間,谷歌發布的 Dreamix 以將文本條件視頻擴散模型(video diffusion model, VDM)應用于視頻編輯。


        近日,曾參與創建 Stable Diffusion 的 Runway 公司推出了一個新的人工智能模型「Gen-1」,該模型通過應用文本 prompt 或參考圖像指定的任何風格,可將現有視頻轉化為新視頻。


        圖片


        論文鏈接:https://arxiv.org/pdf/2302.03011.pdf

        項目主頁:https://research.runwayml.com/gen1


        2021 年,Runway 與慕尼黑大學的研究人員合作,建立了 Stable Diffusion 的第一個版本。隨后英國的一家初創公司 Stability AI 介入,資助了在更多數據上訓練模型所需的計算費用。2022 年,Stability AI 將 Stable Diffusion 納入主流,將其從一個研究項目轉變為一個全球現象。


        Runway 表示,希望 Gen-1 能像 Stable Diffusion 在圖像上所做的那樣為視頻服務。


        「我們已經看到圖像生成模型的大爆炸,」Runway 首席執行官兼聯合創始人 Cristóbal Valenzuela 說。「我真的相信,2023 年將是視頻之年。」


        具體來說,Gen-1 支持幾種編輯模式:


        1、風格化。將任何圖像或 prompt 的風格轉移到視頻的每一幀。

        2、故事板。將模型變成完全風格化和動畫的渲染。

        3、遮罩。分離視頻中的主題并使用簡單的文本 prompt 對其進行修改。

        4、渲染。通過應用輸入圖像或 prompt,將無紋理渲染變成逼真的輸出。

        5、定制化。通過自定義模型以獲得更高保真度的結果,釋放 Gen-1 的全部功能。


        在該公司官方網站上發布的 demo 中,展示了 Gen-1 如何絲滑地更改視頻風格,來看幾個示例。


        比如將「街道上的人」變成「粘土木偶」,只需要一行 prompt:


        圖片


        或者將「堆放在桌上的書」變成「夜晚的城市景觀」:


        圖片


        從「雪地上的奔跑」到「月球漫步」:


        圖片


        年輕女孩,竟然秒變古代先哲:


        圖片


        論文細節


        視覺特效和視頻編輯在當代媒體領域無處不在。隨著以視頻為中心的平臺的普及,對更直觀、性能更強的視頻編輯工具的需求也在增加。然而,由于視頻數據的時間性,在這種格式下的編輯仍然是復雜和耗時的。最先進的機器學習模型在改善編輯過程方面顯示出了巨大的前景,但很多方法不得不在時間一致性和空間細節之間取得平衡。


        由于引入了在大規模數據集上訓練的擴散模型,用于圖像合成的生成方法最近在質量和受歡迎程度上經歷了一個快速增長階段。一些文本條件模型,如 DALL-E 2 和 Stable Diffusion,使新手只需輸入一個文本 prompt 就能生成詳細的圖像。潛在擴散模型提供了有效的方法,通過在感知壓縮的空間中進行合成來生成圖像。


        在本論文中,研究者提出了一個可控的結構和內容感知的視頻擴散模型,該模型是在未加字幕的視頻和配對的文本 - 圖像數據的大規模數據集上訓練的。研究者選擇用單目深度估計來表征結構,用預訓練的神經網絡預測的嵌入來表征內容。


        該方法在其生成過程中提供了幾種強大的控制模式:首先,與圖像合成模型類似,研究者訓練模型使推斷出的視頻內容,如其外觀或風格,與用戶提供的圖像或文本 prompt 相匹配(圖 1)。其次,受擴散過程的啟發,研究者對結構表征應用了一個信息掩蔽過程,以便能夠選擇模型對給定結構的支持程度。最后,研究者通過一個自定義的指導方法來調整推理過程,該方法受到無分類指導的啟發,以實現對生成片段的時間一致性的控制。


        圖片


        總體來說,本研究的亮點如下:


        • 通過在預訓練圖像模型中引入時間層,并在圖像和視頻上進行聯合訓練,將潛在擴散模型擴展到了視頻生成領域;

        • 提出了一個結構和內容感知的模型,在樣本圖像或文本的指導下修改視頻。編輯工作完全是在推理時間內進行的,不需要額外對每個視頻進行訓練或預處理;

        • 展示了對時間、內容和結構一致性的完全控制。該研究首次表明,對圖像和視頻數據的聯合訓練能夠讓推理時間控制時間的一致性。對于結構的一致性,在表征中不同的細節水平上進行訓練,可以在推理過程中選擇所需的設置;

        • 在一項用戶研究中,本文的方法比其他幾種方法更受歡迎;

        • 通過對一小部分圖像進行微調,可以進一步定制訓練過的模型,以生成更準確的特定主體的視頻。


        *博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。



        關鍵詞: AI

        相關推薦

        技術專區

        關閉
        主站蜘蛛池模板: 铜梁县| 广丰县| 吉水县| 宁武县| 丰县| 龙游县| 乌拉特后旗| 和静县| 沅陵县| 准格尔旗| 尼勒克县| 林州市| 会泽县| 长春市| 孙吴县| 常州市| 顺昌县| 济南市| 忻城县| 项城市| 沅陵县| 海阳市| 舒兰市| 囊谦县| 偃师市| 响水县| 麟游县| 怀集县| 普兰店市| 绵竹市| 成安县| 武宣县| 玛多县| 繁昌县| 昭通市| 吉木萨尔县| 托里县| 安丘市| 湖口县| 六盘水市| 石屏县|