博客專欄

        EEPW首頁 > 博客 > 卷到自己?繼 Imagen 之后,推出200 億文本生成的圖像模型驚呆網友!

        卷到自己?繼 Imagen 之后,推出200 億文本生成的圖像模型驚呆網友!

        發布人:AI科技大本營 時間:2022-07-23 來源:工程師 發布文章
        你是否見過破巢而出的小狗?或者是在****里俯瞰蒸汽朋克城市?又或是兩個機器人在電影院里度過一個浪漫夜晚呢?這些聽起來可能有些不可思議,但一種名為文本到圖像生成的新型機器學習技術使它們成為可能。

        這些模型可以通過簡單的文本提示生成高質量的照片級真實感圖像。圖片在 Google 研究院科學家和工程師一直在探索使用各種 AI 技術進行文本到圖像的生成。經過大量測試,最近宣布了兩種新的文本到圖像模型 - Imagen 和 Parti。兩者都能夠生成逼真的圖像,但使用不同的方法。
        圖片文本到圖像模型的工作原理

        使用文本到圖像模型,人們提供文本描述,模型生成與描述盡可能匹配的圖像。像“一個蘋果”或“一只坐在沙發上的貓”這樣簡單的描述,也可以是更復雜的細節,互動和描述性指標,比如“一個可愛的樹懶拿著一個小寶箱。胸口發出明亮的金色光芒。圖片在過去幾年中,ML 模型已經在具有相應文本描述的大型圖像數據集上進行訓練,從而產生了更高質量的圖像和更廣泛的描述。這引發了這一領域的重大突破,包括 Open AI 的 DALL-E 2。
        圖片

        谷歌亮出最新文本到圖像生成模型


        如今,文本到圖像生成模式風靡一時,但谷歌公司最近密集的一系列新發布,卻讓大眾有些出乎意料。5 月底谷歌剛剛推出 Imagen,它結合了 Transformer 語言模型和高保真擴散模型的強大功能,在文本到圖像的合成中提供前所未有的逼真度和語言理解能力。與僅使用圖像 - 文本數據進行模型訓練的先前工作相比,Imagen 的關鍵突破在于“谷歌的研究者發現在純文本語料庫上預訓練的大型 LM 的文本嵌入對文本到圖像的合成顯著有效。”Imagen 的文本到圖像生成可謂天馬行空,能生成多種奇幻卻逼真的有趣圖像。在 Imagen 發布之后,他們進行了新的研究,決定展示另一個模型構建來完成同樣的任務。這一最新模型被命名為Parti(Pathways Autoregressive Text-to-Image)。雖然 Imagen 和 DALL· E2 是一種擴散模型,但 Parti 遵循 DALL· E 的足跡作為自回歸模型。無論其架構和培訓方法如何,最終用途都是一樣的,這些模型(包括 Parti)將根據用戶的文本輸入生成細致的圖像。Imagen 的圖像生成具有與 Open AI 的DALL-E 2 相似的架構,但輸入依據的是大型 AI 語言模型——由于具有更高的語言理解能力,因此可以從文本描述獲得更好的圖像生成結果。新的 AI 模型 Parti 嘗試使用一種更接近大型語言模型功能的替代架構,這些語言模型能根據之前的單詞和句子或段落的上下文預測合適的新詞。Parti 將這一原則應用于圖像,并取得了成功。Parti 表明,與大型語言模型一樣,圖像 AI 通過更全面的訓練和更多的參數獲得了明顯更好的結果。它還可以將長而復雜的文本輸入準確地翻譯成圖像,這表明它可以更好地理解語言和主題之間的關系。再來看下 Parti 效果,袋熊在瀑布旁,背著書包,拄著拐杖眺望著遠方:圖片一只熊貓戴著一頂巫師帽騎在馬上:圖片
        圖片

        Parti 詳細參數


        研究人員創建了四種不同規模的 Parti 模型,其中包括 3.5 億、7.5 億、30 億和 200 億的參數計數。這些模型是使用 Google Cloud TPU 進行訓練的,這些 TPU 能夠輕松支持創建這些巨大的模型。圖片像所有其他文本到圖像生成器一樣,Parti 以各種類似的方式處理存在的各種問題,例如不正確的對象計數、混合特征、不正確的關系定位或大小、不正確處理否定,列表可能會繼續等。例如:

        圖片

        Parti 生成的圖像分辨率為 256 x 256 像素,可以放大到 1024 x 1024 像素。下圖顯示了四種經過不同級別訓練的 Parti 模型在相同命令提示下生成圖像的質量差異。具有 200 億參數的最大模型生成了與長文本輸入匹配的無錯誤圖像。最大版本的 Parti 模型甚至可以拼寫單詞,而 DALL-E 2 只能生成圖像。圖片圖片圖片谷歌的研究團隊寫道:“20B 模型特別適合于需要世界知識、特定視角或符號書寫和表示的抽象任務。”另外,Parti 還可以生成超越培訓材料及其主題的出色的圖像。研究人員認為,這意味著圖像 AI 能夠準確地再現世界知識,以精細的細節和交互組合產生許多主角和對象,并遵循特定的圖像格式和風格。
        圖片

        生成圖像背后風險也令人擔憂 


        盡管 Parti 已經有能力生成“以假亂真”的超逼真圖片,但其實該系統存在的一些問題也不容忽視。 谷歌研究團隊對模型生成的圖像可能包含對人的刻板印象也感到擔憂,這也是 Imagen 和 DALL-E 2 正在努力解決的問題。此外,由于可能會產生逼真的人物圖像,因此存在額外的深度偽造風險。研究團隊目前沒有公布模型、代碼和其他數據。谷歌也將推動結合兩種模型的優點的新想法,并擴展到相關任務,例如添加通過文本交互式生成和編輯圖像的功能。還將繼續進行深入的比較和評估,以符合人工智能原則。研究者的目標是以安全、負責任的方式將基于這些模型的用戶體驗帶給世界,從而激發創造力。參考鏈接:https://blog.google/technology/research/how-ai-creates-photorealistic-images-from-text/https://wandb.ai/telidavies/ml-news/reports/Google-s-Parti-The-Newest-Text-To-Image-Generation-Model--VmlldzoyMjExNjA2


        *博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。



        關鍵詞: AI

        相關推薦

        技術專區

        關閉
        主站蜘蛛池模板: 余江县| 两当县| 普安县| 胶州市| 晋宁县| 栖霞市| 原平市| 白玉县| 内江市| 措美县| 华蓥市| 宜川县| 兰西县| 琼海市| 葵青区| 达拉特旗| 政和县| 商城县| 文昌市| 柘城县| 旌德县| 潍坊市| 高淳县| 海淀区| 霸州市| 台东市| 台江县| 万载县| 苏尼特左旗| 宜君县| 大姚县| 伊春市| 乐东| 青州市| 乃东县| 阜新市| 大邑县| 高雄市| 平泉县| 富锦市| 东台市|