加特技只需一句話or一張圖,Stable Diffusion的公司把AIGC玩出了新花樣(2)
方法
就研究目的而言,從內(nèi)容和結(jié)構(gòu)的角度來考慮一個(gè)視頻將是有幫助的。對(duì)于結(jié)構(gòu),此處指的是描述其幾何和動(dòng)態(tài)的特征,比如主體的形狀和位置,以及它們的時(shí)間變化。對(duì)于內(nèi)容,此處將其定義為描述視頻的外觀和語義的特征,比如物體的顏色和風(fēng)格以及場(chǎng)景的照明。Gen-1 模型的目標(biāo)是編輯視頻的內(nèi)容,同時(shí)保留其結(jié)構(gòu)。
為了實(shí)現(xiàn)這一目標(biāo),研究者學(xué)習(xí)了視頻 x 的生成模型 p (x|s, c),其條件是結(jié)構(gòu)表征(用 s 表示)和內(nèi)容表征(用 c 表示)。他們從輸入視頻推斷出形狀表征 s,并根據(jù)描述編輯的文本 prompt c 對(duì)其進(jìn)行修改。首先,描述了對(duì)生成模型的實(shí)現(xiàn),作為一個(gè)條件潛在的視頻擴(kuò)散模型,然后,描述了對(duì)形狀和內(nèi)容表征的選擇。最后,討論了模型的優(yōu)化過程。
模型結(jié)構(gòu)如圖 2 所示。
實(shí)驗(yàn)
為了評(píng)估該方法,研究者采用了 DAVIS 的視頻和各種素材。為了自動(dòng)創(chuàng)建編輯 prompt,研究者首先運(yùn)行了一個(gè)字幕模型來獲得原始視頻內(nèi)容的描述,然后使用 GPT-3 來生成編輯 prompt。
定性研究
如圖 5 所示,結(jié)果證明,本文的方法在一些不同的輸入上表現(xiàn)良好。
用戶研究
研究者還使用 Amazon Mechanical Turk(AMT)對(duì) 35 個(gè)有代表性的視頻編輯 prompt 的評(píng)估集進(jìn)行了用戶研究。對(duì)于每個(gè)樣本,均要求 5 個(gè)注解者在基線方法和本文方法之間對(duì)比對(duì)視頻編輯 prompt 的忠實(shí)度(「哪個(gè)視頻更好地代表了所提供的編輯過的字幕?」),然后以隨機(jī)順序呈現(xiàn),并使用多數(shù)****來決定最終結(jié)果。
結(jié)果如圖 7 所示:
定量評(píng)估
圖 6 展示了每個(gè)模型使用本文框架一致性和 prompt 一致性指標(biāo)的結(jié)果。本文模型在這兩方面的表現(xiàn)都傾向于超越基線模型(即,在圖的右上角位置較高)。研究者還注意到,在基線模型中增加強(qiáng)度參數(shù)會(huì)有輕微的 tradeoff:更大的強(qiáng)度縮放意味著更高的 prompt 一致性,代價(jià)是更低的框架一致性。同時(shí)他們還觀察到,增加結(jié)構(gòu)縮放會(huì)導(dǎo)致更高的 prompt 一致性,因?yàn)閮?nèi)容變得不再由輸入結(jié)構(gòu)決定。
定制化
圖 10 展示了一個(gè)具有不同數(shù)量的定制步驟和不同水平的結(jié)構(gòu)依附性 ts 的例子。研究者觀察到,定制化提高了對(duì)人物風(fēng)格和外觀的保真度,因此,盡管使用具有不同特征的人物的驅(qū)動(dòng)視頻,但結(jié)合較高的 ts 值,還是可以實(shí)現(xiàn)精確的動(dòng)畫效果。
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。