博客專欄

        EEPW首頁 > 博客 > CVPR 2023 | 多個擴散模型相互合作,新方法實現多模態人臉生成與編輯

        CVPR 2023 | 多個擴散模型相互合作,新方法實現多模態人臉生成與編輯

        發布人:機器之心 時間:2023-05-20 來源:工程師 發布文章
        本文提出了一種簡單有效的方法來實現不同擴散模型之間的合作。


        近一兩年,擴散模型 (diffusion models) 展現出了強大的生成能力。不同種類的擴散模型性能各異 —— text-to-image 模型可以根據文字生成圖片,mask-to-image 模型可以從分割圖生成圖片,除此之外還有更多種類的擴散模型,例如生成視頻、3D、motion 等等。
        假如有一種方法讓這些 pre-trained 的擴散模型合作起來,發揮各自的專長,那么我們就可以得到一個多功能的生成框架。比如當 text-to-image 模型與 mask-to-image 模型合作時,我們就可以同時接受 text 和 mask 輸入,生成與 text 和 mask 一致的圖片了。
        CVPR 2023 的 Collaborative Diffusion 提供了一種簡單有效的方法來實現不同擴散模型之間的合作。

        圖片


        • 論文: https://arxiv.org/abs/2304.10530 
        • 代碼: https://github.com/ziqihuangg/Collaborative-Diffusion 
        • 網頁: https://ziqihuangg.github.io/projects/collaborative-diffusion.html 
        • 視頻: https://www.youtube.com/watch?v=inLK4c8sNhc 


        我們先看看不同擴散模型合作生成圖片的效果:

        圖片


        當 text-to-image 和 mask-to-image 通過 Collaborative Diffusion 合作時,生成的圖片可以達到和輸入的 text 以及 mask 高度一致。

        圖片


        給定不同的多模態輸入組合,Collaborative Diffusion 可以生成高質量的圖片,而且圖片與多模態控制條件高度一致。即便多模態輸入是相對少見的組合,例如留長頭發的男生,和留寸頭的女生,Collaborative Diffusion 依舊可以勝任。
        那不同的擴散模型究竟怎樣實現合作呢?
        首先,我們知道,擴散模型在生成圖片的過程中,會從高斯噪聲開始,逐步去噪,最終得到自然圖像。

        圖片

        圖片來源:CVPR 2022 Tutorial: Denoising Diffusion-based Generative Modeling: Foundations and Applications
        基于擴散模型迭代去噪的性質,我們的 Collaborative Diffusion 在去噪的每一步都會動態地預測不同的擴散模型如何有效合作,各取所長。Collaborative Diffusion 的基本框架如下圖所示。

        圖片


        我們在每一步去噪時,用 Dynamic Diffusers 動態地預測每個擴散模型對整體預測結果帶來的影響(也就是 Influence Functions)。Influence Functions 會選擇性地增強或者減少某個擴散模型的貢獻,從而讓各位合作者(也就是擴散模型)發揮專長,實現合作共贏。
        值得注意的是,預測得到的 Influence Functions 在時間和空間上都是適應性變化的。下圖展示了 mask-to-image 和 text-to-image 模型合作時,在不同時間和空間位置的 Influence Functions 強度。

        圖片


        從上圖中我們可以觀察到,在時間上,決定 mask-to-image 模型影響的 Influence Functions 在去噪初期很強(第一行左邊),到后期逐漸變弱(第一行右邊),這是因為擴散模型在去噪初期會首先形成圖片內容的布局,到后期才會逐漸生成紋路和細節;而在多模態控制人臉生成時,圖片的布局信息主要是由 mask 提供的,因此 mask 分支的 Influence Functions 會隨著時間由強變弱。與之相對應地 text-to-image 模型的 Influence Functions(第二行)會隨著時間由弱到強,因為 text 提供的多數信息是與細節紋路相關的,例如胡子的濃密程度,頭發顏色,以及與年齡相關的皮膚皺紋,而擴散模型的去噪過程也是在后期才會逐步確定圖片的紋理以及細節。
        與此同時,在空間上,mask-to-image 模型的 Influence 在面部區域分界處更強,例如面部輪廓和頭發的外邊緣,因為這些地方對整體面部布局是至關重要的。text-to-image 模型的 Influence 則在面中,尤其是臉頰和胡子所在的區域較強,因為這些區域的紋理需要 text 提供的年齡,胡子等信息來填充。
        Collaborative Diffusion 的通用性
        Collaborative Diffusion 是一個通用框架,它不僅適用于圖片生成,還可以讓 text-based editing 和 mask-based editing 方法合作起來。我們利用在生成任務上訓練的 Dynamic Diffusers 來預測 Influence Functions,并將其直接用到 editing 中。如下圖所示:

        圖片


        圖片


        圖片


        圖片


        完整的實驗細節和實驗結果,以及更多圖片結果,請參考論文。
        總結
        (1) 我們提出了 Collaborative Diffusion,一種簡單有效的方法來實現不同擴散模型之間的合作。(2) 我們充分利用擴散模型的迭代去噪性質,設計了 Dynamic Diffuser 來預測在時間和空間上均有適應性的 Influence Functions 來控制不同的擴散模型如何合作。(3) 我們實現了高質量的多模態控制的人臉生成和編輯。(4) Collaborative Diffusion 是一個通用的框架,不僅適用于圖片生成,還適用于圖片編輯,以及未來更多的基于擴散模型的其他任務。


        *博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。



        關鍵詞: AI

        相關推薦

        技術專區

        關閉
        主站蜘蛛池模板: 娄底市| 都江堰市| 焦作市| 昌邑市| 巢湖市| 平邑县| 塔河县| 榆林市| 扎鲁特旗| 德州市| 南部县| 玉树县| 顺义区| 苏尼特左旗| 潜山县| 肥东县| 新田县| 应城市| 德清县| 天津市| 丰顺县| 营口市| 唐海县| 开远市| 湖北省| 红安县| 新营市| 清丰县| 桦南县| 百色市| 和政县| 衡阳市| 中西区| 莱芜市| 乐亭县| 北宁市| 富锦市| 徐水县| 东山县| 洛宁县| 清新县|