博客專欄

        EEPW首頁 > 博客 > OpenAI的DALL·E迎來升級,不止文本生成圖像,還可二次創作

        OpenAI的DALL·E迎來升級,不止文本生成圖像,還可二次創作

        發布人:機器之心 時間:2022-04-09 來源:工程師 發布文章

        在令人嘆為觀止方面,OpenAI 從不令人失望。

        圖片


        去年 1 月 6 日,OpenAI 發布了新模型 DALL·E,不用跨界也能從文本生成圖像,打破了自然語言與視覺次元壁,引起了 AI 圈的一陣歡呼。


        時隔一年多后,DALL·E 迎來了升級版本——DALL·E 2。


        圖片


        與 DALL·E 相比,DALL·E 2 在生成用戶描述的圖像時具有更高的分辨率和更低的延遲。并且,新版本還增添了一些新的功能,比如對原始圖像進行編輯。


        不過,OpenAI 沒有直接向公眾開放 DALL·E 2。目前,研究者可以在線注冊預覽該系統。OpenAI 希望以后可以將它用于第三方應用程序。


        試玩 Waitlist 地址:https://labs.openai.com/waitlist


        OpenAI 還公布了 DALL·E 2 的研究論文《Hierarchical Text-Conditional Image Generation with CLIP Latents》,OpenAI 研究科學家、共同一作 Prafulla Dhariwal 表示,「這個神經網絡真是太神奇了,根據文本描述就能生成對應圖像。」


        論文地址:https://cdn.openai.com/papers/dall-e-2.pdf


        網友紛紛曬出了使用 DALL·E 2 生成的圖像,比如玩滑板的熊貓靚仔。


        圖片


        又比如席地而坐看星空的小孩和小狗。


        圖片


        DALL·E 2 生成藝術大作


        DALL·E 2 的表現如何呢?我們先睹為快。首先,DALL·E 2 可以從文本描述中創建原始、逼真的圖像和藝術,它可以組合概念、屬性和風格進行圖像生成。例如一位騎著馬的宇航員:


        圖片


        生成的圖像可不止一張(官網示例給出 10 張),它還能生成下圖這樣的(一位騎著馬的宇航員),真是風格多變:


        圖片


        DALL·E 2 可以根據自然語言字幕對現有圖像進行編輯。它可以在考慮陰影、反射和紋理的同時添加和刪除元素。如下圖所示,左邊是原始圖像,右邊是 DALL·E 2 編輯后的圖像。兩張圖對比后,我們發現左圖中有數字 1、2、3,點擊相應的位置,可以添加元素例如柯基犬,下圖選擇在 1 處添加柯基犬。


        圖片


        你也可以在 3 處添加一只柯基犬。


        圖片


        DALL·E 2 可以根據原圖像進行二次創作,創造出不同的變體:


        圖片


        你可能會問,DALL·E 2 比一代模型到底好在哪?簡單來說 DALL·E 2 以 4 倍的分辨率生成更逼真、更準確的圖像。例如下圖生成一幅「日出時坐在田野里的狐貍,生成的圖像為莫奈風格。」DALL·E 2 生成的圖像更準確。


        圖片


        看完上述展示,我們可以將 DALL·E 2 的特點歸結如下:DALL·E 2 的一項新功能是修復,在 DALL·E 1 的基礎上,將文本到圖像生成應用在圖像更細粒度的級別上。用戶可以從現有的圖片開始,選擇一個區域,讓模型對圖像進行編輯,例如,你可以在客廳的墻上畫一幅畫,然后用另一幅畫代替它,又或者在咖啡桌上放一瓶花。該模型可以填充 (或刪除) 對象,同時考慮房間中陰影的方向等細節。


        DALL·E 2 的另一個功能是生成圖像不同變體,用戶上傳一張圖像,然后模型創建出一系列類似的變體。此外,DALL·E 2 還可以混合兩張圖片,生成包含這兩種元素的圖片。其生成的圖像為 1024 x 1024 像素,大大超過了 256 x 256 像素。


        生成模型的迭代


        DALL·E 2 建立在 CLIP 之上,OpenAI 研究科學家 Prafulla Dhariwal 說:「DALL·E 1 只是從語言中提取了 GPT-3 的方法并將其應用于生成圖像:將圖像壓縮成一系列單詞,并且學會了預測接下來會發生什么。」


        這是許多文本 AI 應用程序使用的 GPT 模型。但單詞匹配并不一定能符合人們的預期,而且預測過程限制了圖像的真實性。CLIP 旨在以人類的方式查看圖像并總結其內容,OpenAI 迭代創建了一個 CLIP 的倒置版本——「unCLIP」,它能從描述生成圖像,而 DALL·E 2 使用稱為擴散(diffusion)的過程生成圖像。


        圖片


        訓練數據集由圖像 x 及其對應的字幕 y 對 (x, y) 組成。給定圖像 x, z_i 和 z_t 分別表示 CLIP 圖像和文本嵌入。OpenAI 生成堆棧以使用兩個組件從字幕生成圖像:


        • 先驗 P(z_i |y) 生成以字幕 y 為條件的 CLIP 圖像嵌入 z_i;

        • **** P(x|z_i , y) 以 CLIP 圖像嵌入 z_i(以及可選的文本字幕 y)為條件生成圖像 x。


        ****允許研究者在給定 CLIP 圖像嵌入的情況下反演圖像(invert images),而先驗允許學習圖像嵌入本身的生成模型。堆疊這兩個組件產生一個圖像 x 、給定字幕 y 的生成模型 P(x|y) :


        圖片


        DALL·E 的完整模型從未公開發布,但其他開發人員在過去一年中已經構建了一些模仿 DALL·E 功能的工具。最受歡迎的主流應用程序之一是 Wombo 的 Dream 移動應用程序,它能夠根據用戶描述的各種內容生成圖片。 


        圖片


        OpenAI 已經采取了一些內置的保護措施。該模型是在已剔除不良數據的數據集上進行訓練的,理想情況下會限制其產生令人反感的內容的能力。


        為避免生成的圖片被濫用,DALL·E 2 在生成的圖片上都標有水印,以表明該作品是 AI 生成的。此外,該模型也無法根據名稱生成任何可識別的面孔。


        DALL·E 2 將由經過審查的合作伙伴進行測試,但有一些要求:禁止用戶上傳或生成「可能造成傷害」的圖像。他們還必須說明用 AI 生成圖像的作用,并且不能通過應用程序或網站將生成的圖像提供給其他人。


        但 OpenAI 希望稍后再將 DALL·E 2 其添加到該組織的 API 工具集中,使其能夠為第三方應用程序提供支持。Dhariwal 說:「我們希望分階段進行這個過程,以從獲得的反饋中不斷評估如何安全地發布這項技術。」


        參考鏈接:

        https://openai.com/dall-e-2/

        https://www.theverge.com/2022/4/6/23012123/openai-clip-dalle-2-ai-text-to-image-generator-testing



        *博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。



        關鍵詞: AI

        相關推薦

        技術專區

        關閉
        主站蜘蛛池模板: 淮滨县| 营山县| 辽阳市| 宜川县| 基隆市| 乌拉特前旗| 应城市| 华宁县| 三门峡市| 壶关县| 高要市| 乌鲁木齐县| 明星| 大田县| 缙云县| 湖南省| 礼泉县| 石泉县| 长白| 固原市| 通道| 西乡县| 岳阳市| 安陆市| 松江区| 环江| 稻城县| 芦山县| 海城市| 弥勒县| 灌云县| 疏附县| 赣州市| 石渠县| 古交市| 蒙城县| 高台县| 浮山县| 东阳市| 德庆县| 黔江区|