博客專欄

        EEPW首頁 > 博客 > 文生圖關鍵問題探索:個性化定制和效果評價(1)

        文生圖關鍵問題探索:個性化定制和效果評價(1)

        發布人:AI科技大本營 時間:2023-05-22 來源:工程師 發布文章
        2021年初,OpenAI團隊提出了CLIP[1]模型并開源了模型權重,其核心點有三個:通過對比學習進行圖文匹配學習,開源CLIP模型權重和發布CLIP Benchmark評測。從此,文圖多模態領域開始收到廣泛關注并迅速發展。文生圖應用最早出現的標志是OpenAI推出DALL· E[2],自此各大公司開始不斷推出新的文生圖模型,實際生成效果和效率相對于從前基于自回歸(Auto Regressive)和對抗網絡(GAN)等文生圖方法均提升顯著。

        DALL·E的應用技術是Diffusion Model,主要用于生成圖像、音頻、文本等數據。它通過模擬數據的去噪過程來生成新的數據。與生成對抗網絡(GAN)相比,Diffusion models的生成過程更加穩定,生成的數據也更加真實。Diffusion Model的發展如圖1所示:圖片圖1 AIGC-Text to Image 的發展特別是從2022年5月Stable Diffusion[3]的開源開始,作為一個迅速火出圈的AI技術,Stable Diffusion以極快的速度獲得了大量的開源社區關注,開始引領AIGC行業發展。那么,為什么Stable Diffusion能夠這么快地火出圈?其根本還是在于生成的效果和效率非常高,極大地降低了創作的門檻,降低了創作的成本。這里列了Stable Diffusion的Discord上的幾個例子(見圖2),這些圖片都可以在Nvidia Tesla A100機器上通過3-4s的時間生成出來。圖片圖2 Stable Diffusion在Discord上的案例
        雖然Stable Diffusion取得了很大的成功,但其本身存在一些問題會影響生成效果。主要包括:

        • 問題一:模型的機器評價與人工評價之間缺乏一致性。通過機器評價指標,比如FID值等,評價結果往往和真實的生成效果并不一致,因此不能很好地評價不同模型的效果。而人工評價標準難以統一并有高昂的成本。
        • 問題二:如何在生成過程中實現更高效的控制。如何提高生成圖像和文本輸入之間的一致性,特別是在使用簡短的提示句來生成圖像時,目前難以有效地控制所生成圖片與文本之間的相關性程度。
        • 問題三:如何進行定制個性化模型。如何定制一個文生圖模型,是行業應用的關鍵。快速的進行新概念/風格/人物的學習,是文生圖落地到各應用場景的第一個攔路虎。
        • 問題四:高質量文圖數據集的缺乏。數據的重要性不言而喻,大量高質量的文圖數據是文生圖發展的血液,沒有數據再好的算法也發揮不了作用。


          圖片
        如何評價文生圖模型的效果

        如何評價文生圖模型的效果是生成類模型面臨的共性問題之一。通常,生成類模型的評價分為機器評價和人工評價兩種。機器評價方法如Bleu等,人工評價如ChatGPT中的人工評價等。然而,機器評價結果不完全符合人工評價結果,因此高機器評價并不一定代表生成效果好。文生圖的模型評價也面臨同樣的問題,現在用于文生圖模型評價的機器評價指標比如FID值等指標的評價結果跟真實的圖片生成效果并不是一致,因此機器評價的結果并不能夠很好的評價不同的文生圖模型效果。但是,由于機器評價的便利性和客觀性等原因,還是有很多評價基準在采用機器評價指標。比如ArtBench,一個提供了很多不同藝術風格標注數據的數據集,也是用FID指標等機器評價方法來評價不同模型的效果。從ArtBench的評測結果中可以看到基于GAN模型生成的圖片可以獲得最高的FID值,說明GAN生成跟訓練數據同分布圖片的能力還是更強。但同時這種更強的生成能力也是一種限制,限制了GAN模型的泛化能力,使得GAN只偏向于生成更像訓練數據中的樣本。在2021年NeurIPS上刊載的OpenAI團隊的文章Diffusion Models Beat GANs on Image Synthesis[4],指出了有引導的Diffusion 模型可以在各種機器評價指標上比GANs的效果更好。但就像前面提到的一樣,機器評價指標好就真的會生成更高質量的圖片嗎?由此可以看出,人工評價可能是更加合適文生圖模型的評價方式。但是人工評價沒有統一的標準,成本比較高。文章Human Evaluation of Text-to-Image Models on a Multi-Task Benchmark[5]提出了一套人工評價的標準。讓人從三種prompts的難度以及三種不同的task維度來對比不同的文生圖模型的圖片生成效果(見表1),比如SD和DALL-E 2。難度的定義用論文中的原文表述是:“In that case, the task may be easy: generating 1-3 objects, medium-generating 4-10 objects, and hard-generating more than ten objects.”圖片表1  不同的文生圖模型的人工評測結果論文也給出了人工評價的結果,在數量(counting)和人臉(faces)兩個類別的任務上,DALL·E2占優勢,而在形狀(shapes)這個類型的任務上,SD占優勢。從篇文章給出的結果來看,現在的文生圖模型中的第一梯隊水平模型,在數量和形狀方面,還是明顯弱于人臉的生成任務的。因此,我們可以從這篇文章中總結出現在文生圖模型存在的語言理解的問題,特別是數量和形狀在理解能力上偏弱。文本理解能力可以通過更大更強的語言模型來解決,比如Google提出的Imagen[6]使用了更大的文本模型T5(Text-To-Text Transfer Transformer[7]),并在解碼和超分模型中都引入文本的信息來生成具有更豐富細節的圖片。為了評價文生圖模型的效果,Imagen團隊也同時提出了一個文生圖的評價基準DrawBench。該基準主要從兩個維度來評價文生圖的效果:image-text alignment和sample fidelity。其實驗指出,用T5作為文本編碼器的Imagen模型在這兩個維度上都有提升。但是,從上述實驗的結果可以得出,在Image框架下將文本編碼器從CLIP的文本塔換成T5,會有一定的alignment提升,但是不是特別明顯。所以更大的語言模型會帶來一定的alignment的提升,但是提升沒有預期的高。整體來看,文生圖模型的評價是AIGC繼續發展的基石,急需評價體系的建立。


        *博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。



        關鍵詞: AI

        相關推薦

        技術專區

        關閉
        主站蜘蛛池模板: 石嘴山市| 怀柔区| 仁怀市| 沅江市| 六安市| 晋中市| 乌什县| 隆化县| 东平县| 耿马| 禹城市| 大方县| 阿克苏市| 怀远县| 绥宁县| 龙江县| 土默特左旗| 贞丰县| 平凉市| 安西县| 蒙自县| 巴东县| 德保县| 勃利县| 太保市| 醴陵市| 尖扎县| 鹤峰县| 来凤县| 昌黎县| 晴隆县| 交口县| 贡觉县| 永春县| 永昌县| 盖州市| 西林县| 台北市| 柳林县| 北票市| 徐闻县|