博客專欄

EEPW首頁 > 博客 > 加特技只需一句話or一張圖，Stable Diffusion的公司把AIGC玩出了新花樣（2）

加特技只需一句話or一張圖，Stable Diffusion的公司把AIGC玩出了新花樣（2）

發(fā)布人：機(jī)器之心時(shí)間：2023-03-19 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫查詢

方法

就研究目的而言，從內(nèi)容和結(jié)構(gòu)的角度來考慮一個(gè)視頻將是有幫助的。對(duì)于結(jié)構(gòu)，此處指的是描述其幾何和動(dòng)態(tài)的特征，比如主體的形狀和位置，以及它們的時(shí)間變化。對(duì)于內(nèi)容，此處將其定義為描述視頻的外觀和語義的特征，比如物體的顏色和風(fēng)格以及場(chǎng)景的照明。Gen-1 模型的目標(biāo)是編輯視頻的內(nèi)容，同時(shí)保留其結(jié)構(gòu)。

為了實(shí)現(xiàn)這一目標(biāo)，研究者學(xué)習(xí)了視頻 x 的生成模型 p (x|s, c)，其條件是結(jié)構(gòu)表征（用 s 表示）和內(nèi)容表征（用 c 表示）。他們從輸入視頻推斷出形狀表征 s，并根據(jù)描述編輯的文本 prompt c 對(duì)其進(jìn)行修改。首先，描述了對(duì)生成模型的實(shí)現(xiàn)，作為一個(gè)條件潛在的視頻擴(kuò)散模型，然后，描述了對(duì)形狀和內(nèi)容表征的選擇。最后，討論了模型的優(yōu)化過程。

模型結(jié)構(gòu)如圖 2 所示。

實(shí)驗(yàn)

為了評(píng)估該方法，研究者采用了 DAVIS 的視頻和各種素材。為了自動(dòng)創(chuàng)建編輯 prompt，研究者首先運(yùn)行了一個(gè)字幕模型來獲得原始視頻內(nèi)容的描述，然后使用 GPT-3 來生成編輯 prompt。

定性研究

如圖 5 所示，結(jié)果證明，本文的方法在一些不同的輸入上表現(xiàn)良好。

用戶研究

研究者還使用 Amazon Mechanical Turk（AMT）對(duì) 35 個(gè)有代表性的視頻編輯 prompt 的評(píng)估集進(jìn)行了用戶研究。對(duì)于每個(gè)樣本，均要求 5 個(gè)注解者在基線方法和本文方法之間對(duì)比對(duì)視頻編輯 prompt 的忠實(shí)度（「哪個(gè)視頻更好地代表了所提供的編輯過的字幕？」），然后以隨機(jī)順序呈現(xiàn)，并使用多數(shù)****來決定最終結(jié)果。

結(jié)果如圖 7 所示：

定量評(píng)估

圖 6 展示了每個(gè)模型使用本文框架一致性和 prompt 一致性指標(biāo)的結(jié)果。本文模型在這兩方面的表現(xiàn)都傾向于超越基線模型（即，在圖的右上角位置較高）。研究者還注意到，在基線模型中增加強(qiáng)度參數(shù)會(huì)有輕微的 tradeoff：更大的強(qiáng)度縮放意味著更高的 prompt 一致性，代價(jià)是更低的框架一致性。同時(shí)他們還觀察到，增加結(jié)構(gòu)縮放會(huì)導(dǎo)致更高的 prompt 一致性，因?yàn)閮?nèi)容變得不再由輸入結(jié)構(gòu)決定。

定制化

圖 10 展示了一個(gè)具有不同數(shù)量的定制步驟和不同水平的結(jié)構(gòu)依附性 ts 的例子。研究者觀察到，定制化提高了對(duì)人物風(fēng)格和外觀的保真度，因此，盡管使用具有不同特征的人物的驅(qū)動(dòng)視頻，但結(jié)合較高的 ts 值，還是可以實(shí)現(xiàn)精確的動(dòng)畫效果。

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關(guān)鍵詞： AI

焦點(diǎn)

更多>>

技術(shù)專區(qū)

關(guān)閉

博客專欄

加特技只需一句話or一張圖，Stable Diffusion的公司把AIGC玩出了新花樣（2）

相關(guān)推薦

技術(shù)專區(qū)