博客專欄

        EEPW首頁 > 博客 > 時間、空間可控的視頻生成走進現實,阿里大模型新作VideoComposer火了(1)

        時間、空間可控的視頻生成走進現實,阿里大模型新作VideoComposer火了(1)

        發布人:機器之心 時間:2023-06-12 來源:工程師 發布文章

        在 AI 繪畫領域,阿里提出的 Composer 和斯坦福提出的基于 Stable diffusion 的 ControlNet 引領了可控圖像生成的理論發展。但是,業界在可控視頻生成上的探索依舊處于相對空白的狀態。


        相比于圖像生成,可控的視頻更加復雜,因為除了視頻內容的空間的可控性之外,還需要滿足時間維度的可控性。基于此,阿里巴巴和螞蟻集團的研究團隊率先做出嘗試并提出了 VideoComposer,即通過組合式生成范式同時實現視頻在時間和空間兩個維度上的可控性。


        圖片


        • 論文地址:https://arxiv.org/abs/2306.02018

        • 項目主頁:https://videocomposer.github.io


        前段時間,阿里巴巴在魔搭社區和 Hugging Face 低調開源了文生視頻大模型,意外地受到國內外開發者的廣泛關注,該模型生成的視頻甚至得到馬斯克本尊的回應,模型在魔搭社區上連續多天獲得單日上萬次國際訪問量。


        圖片


        圖片

        Text-to-Video 在推特


        VideoComposer 作為該研究團隊的最新成果,又一次受到了國際社區的廣泛關注。


        圖片


        圖片


        圖片

        VideoComposer 在推特


        事實上,可控性已經成為視覺內容創作的更高基準,其在定制化的圖像生成方面取得了顯著進步,但在視頻生成領域仍然具有三大挑戰:


        • 復雜的數據結構,生成的視頻需同時滿足時間維度上的動態變化的多樣性和時空維度的內容一致性;

        • 復雜的引導條件,已存在的可控的視頻生成需要復雜的條件是無法人為手動構建的。比如 Runway 提出的 Gen-1/2 需要依賴深度序列作條件,其能較好的實現視頻間的結構遷移,但不能很好的解決可控性問題;

        • 缺乏運動可控性,運動模式是視頻即復雜又抽象的屬性,運動可控性是解決視頻生成可控性的必要條件。


        *博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。



        關鍵詞: AI

        相關推薦

        技術專區

        關閉
        主站蜘蛛池模板: 荃湾区| 周宁县| 寿阳县| 弋阳县| 龙泉市| 龙游县| 灵武市| 卢湾区| 甘孜县| 陈巴尔虎旗| 富蕴县| 海城市| 宝清县| 绍兴市| 北海市| 岐山县| 宝鸡市| 廉江市| 都昌县| 怀远县| 漳平市| 安泽县| 天峻县| 马龙县| 日土县| 凤庆县| 景泰县| 红安县| 集安市| 江华| 兴宁市| 西贡区| 东平县| 台北县| 桐庐县| 正阳县| 花莲市| 保亭| 曲周县| 如东县| 仪征市|