博客專欄

EEPW首頁 > 博客 > 創意有瓶頸嗎？百度文心·一格：不存在，動動手指片刻生成藝術大作

創意有瓶頸嗎？百度文心·一格：不存在，動動手指片刻生成藝術大作

發布人：機器之心時間：2022-08-20 來源：工程師

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

發布文章

這次，百度文心跨模態大模型讓你的創意「飛起來」！

在近年來的 AI 領域，隨著 NLP 和 CV 的日益融合，多模態學習越來越受到學界和業界的重視，其中文本生成圖像更是成為現象級研究方向。輸入一段語言描述，AI 即能輸出對應的圖像，兼具速度與質量。
在這股以文生圖風潮中，AI 底蘊深厚的國外大廠紛紛推出多模態文生圖模型，比如 DALL-E 2、 GauGAN2 和 Disco Diffusion 等。這些 AI 模型生成的圖像都給人留下了深刻的印象，在逼真度、趣味性、風格等方面各有特點。

DALL-E 2（左）和 Disco Diffusion（右）的不同畫風。
國內 AI 巨頭在中文多模態特別是文生圖這一賽道也頗有建樹，尤以百度基于知識增強的文心跨模態大模型語義理解技術為代表，其中的跨模態生成大模型 ERNIE-ViLG 可以根據用戶輸入的語言描述自動創作不同風格（水彩、粉筆畫、卡通、油畫、蠟筆畫、兒童畫）的圖像。前段時間，百度數字人度曉曉更是創作出了引發熱議的「****」系列畫作，被專業美院教授評價為「已經達到了本科美術生的基本要求」。
不過，百度并沒有滿足于此，想要在文生圖領域更專、更快，讓生成的圖像打破風格的桎梏，同時更關注用戶的創意需求。在今日成都舉辦的 2022 中國圖象圖形大會上，百度集團副總裁、深度學習技術及應用國家工程研究中心副主任吳甜重磅推出了基于文心大模型的 AI 藝術和創意輔助平臺——文心 · 一格，突出創意成為它的顯著特征。

百度集團副總裁、深度學習技術及應用國家工程研究中心副主任吳甜
作為業界首個 AI 藝術和創意輔助平臺，文心 · 一格面向三類人群，包括 1）畫師、設計師、藝術家等視覺內容創作者，2）媒體、作者等文字內容創作者和 3）大眾用戶。他們可以通過文心 · 一格智能生成多樣化創意圖片，并從中汲取創意靈感，打破創意瓶頸。

一格平臺體驗地址（點擊閱讀原文）：yige.baidu.com
不同于 DALL-E 2 和 Disco Diffusion 等有風格偏向性的 AI 作畫工具，一格則取多家之所長，在圖畫創作上具有更強的實用性和藝術性，支持插畫、科幻、中國畫、動漫風等十余種不同風格高清藝術畫作的生成，既能生產恢弘絢麗的藝術畫，也能創作充滿創意腦洞的超寫實圖。
文心 · 一格，一語成畫
一格文生圖效果到底如何呢？輸入語言描述「太空中不斷延伸的環形軌道」，我們得到了如下震撼的太空圖?？梢钥闯?，一格生成的圖像具有極強的寫實性，如果不告訴你這是出自 AI 之手，一定會有人認為是真實的太空場景。

當然，寫實性強只是一格文生圖的一方面優勢，它在生成寫實圖像的同時還兼顧了藝術風格。依然用示例說話，輸入語言描述「埃及金字塔」。以往的 AI 模型比較擅長生成風景圖，但復現真實建筑則有相當難度，有些模型生成的圖像偏藝術缺乏真實性。一格則在真實性與藝術性之間找到了很好的平衡。

接下來繼續欣賞一格生成的另一些創意畫作。想了解下傳說中的「鳳凰」長什么樣子，交給一格，片刻之后就能生成恢弘絢麗的畫面。

一格生成創意腦洞的超寫實圖也不在話下，比如「騎摩托的帥氣熊貓」、「公園的湖面波光粼粼，倒映著美麗的建筑」。

所有這些，用戶要做的就是動動手指，輸入語言描述，片刻之后就能生成藝術大作。在創作過程中，一格還可以通過指定圖像風格、藝術家等方式，針對同一個語言描述生成多樣化的、具備不同風格特點的圖像。

一番創作下來，我們可以用 16 個字來概括一格的主要特點：突破想象、簡單易用、快速成畫、別具一格。

突破想象：一格擁有非常豐富的創作庫，可根據語義聯想和概念組合，自由創作多種風格創意畫作，既能生成恢弘絢麗的藝術畫，也能生成創意腦洞的超寫實圖；
簡單易用：一格使用門檻非常低，用戶只需輸入一句語言描述，一格就可創作出不同風格的藝術畫作；
快速成畫：用戶輸入語言描述后，一格可在片刻生成一幅高清創意畫作；
別具一格：一格生成的每幅畫作，都是獨一無二的。

一格文生圖過程
一格文生圖的過程大致可以分為以下幾個步驟。
首先，需要準備海量的圖文對數據，數量不僅要多，質量還要好，這樣可以讓一格在充足的數據中學習「語言描述」與「藝術畫面」的關聯。不過，這種關聯又是豐富且復雜的。
依然用示例來講，假如是讓生成一幅風景圖，結果出來的是動物圖，那就很糟糕了。還有就是，同一個事物有多種藝術風格，例如山峰在中國畫中是壁立千仞，在油畫中是威嚴莊重，在科幻設定圖中或許已經被機械掏空，建立起了霓虹閃爍的未來都市等。經過海量的數據訓練，一格學會了「語言描述」與「藝術畫面」之間的關聯。
在此基礎上，用戶輸入一段語言描述（例如狗、油畫），一格將調動以上學習到的知識和能力，以隨機化的起點開始進行初步創作。不同于人類作畫過程，一格先是生成畫面整體輪廓，然后經過數百輪的迭代，修正完善畫面細節。
對于過程中的每一輪迭代，一格都會仔細檢查草稿與語言描述的一致性，目的就是讓作品與輸入的語言描述具有正確的關聯。持續的修正使得整體構圖不斷明晰，模糊和噪聲逐漸被精確的配色和輪廓代替，最終形成在審美上與人類經驗與知識高度一致的成品。
一格創作過程中，語言描述是關鍵，因為用戶輸入的內容決定了其生成的內容，是作畫靈感的根本來源，更是 AI 生成畫作最關鍵的指引。一格從海量數據中學習到的知識，是靈感得以實現的基礎，人類畫作數千年的積累和沉淀為 AI 文生圖提供了無限可能。
與此同時，AI 生成圖像過程中的隨機性，是靈感的補充，其可以學習一千種人類繪制山峰的方式，甚至創造出第一千零一種。
一格為藝術創作提供靈感
你可能會問，一格文生圖有什么意義呢？
對于畫師、設計師、藝術家等專業人士來說，他們總會遇到瓶頸期。雖然有很好的創作思路和構想，但卻一時想不出好的或自己滿意的繪畫表現形式；或者藝術創作已經達到了相當的高度，尋求新的突破創新遇到困難；又或者創作出的東西總是達不到自己想要的效果，進行到一半就進行不下去了……
一格平臺就是為此而生，它可以啟發創意，讓人們從 AI 生成的圖像中重新汲取靈感。
再者作為媒體人、新聞編輯等工作人員，有時會因為找不到合適的配圖而苦惱不已；還有就是大眾用戶，想體驗創作帶來的樂趣等。所有這些，一格平臺也都能為你提供。

一格背后持續創新的跨模態大模型技術
我們知道，AI 圖文創作往往需要解決三個關鍵挑戰。首先在需求理解階段，要準確理解需求，降低語言描述的門檻；其次在原創生成階段，要精準刻畫用戶需求表意，支持多樣化風格；最后在需求滿足階段，要對生成結果進行選擇，保證和提升它們的質量。
然而，解決這些挑戰并不容易。因此，一格平臺在構建過程中得到了百度文心大模型提供的強大底層技術支持，尤其是不斷改進的跨模態技術。
一方面對文心知識增強跨模態理解大模型的創新，提出了基于多視角對比學習的 ERNIE-ViL 2.0，在預訓練過程同時學習模態間和模態內的多種關聯性，提升了「圖像」和「文本」跨模態語義匹配效果，檢索效果遠超 ChineseCLIP、WenLan 等模型。

另一方面是全球規模最大中文跨模態生成模型 ERNIE-ViLG，它將「文生成圖」和「圖生成文」任務融合到同一個模型進行端到端學習，從而增強文本和圖像的跨模態語義對齊。此次 ERNIE-ViLG 文圖生成算法迎來升級，通過漸進式擴散模型，生成空間由小及大、生成輪廓由粗到細，同時根據生成階段自動選擇最優生成網絡，文本生成圖像的效果取得進一步提升。

左為雙向圖像 - 文本生成的 ERNIE-ViLG 模型架構，右為漸進式擴散模型算法。
得益于文心跨模態大模型的一系列創新，百度將新技術實用化，研發出了一套支持 AI 作畫的文生圖系統，提供了從用戶需求理解到滿足的全流程解決方案。如下圖所示，這套系統分為了兩大核心組件，分別是文本輸入階段基于知識的 prompt 工程以及生成和輸出階段的跨模態大模型。
首先，對于基于知識的 Prompt 工程，理解用戶需求并在此基礎上豐富語義細節，降低用戶輸入描述成本。其次，基于擴散生成算法實現創意寫實與恢弘構圖的藝術畫作生成。最后，基于跨模態匹配大模型進行生成畫作的結果排序，自動選出語義與美觀度最佳的畫作。

基于文心大模型的文生圖系統。
可以這樣說，文心跨模態大模型實現了多視角對比學習、圖文雙向生成、漸進式擴散模型等多項技術創新，它們成就了今日的一格平臺。
在不斷修煉技術內功的同時，百度還致力于構建生態完整的開放社區，將大模型的能力釋放給普通人。更具體地講，百度為開發者、廣大科技愛好者提供飛槳開源工具和文心大模型 API 服務能力，滿足他們多樣化的創意探索需求。
一方面，開發者可以在飛槳 PaddleHub 上直接調用相關的開源模型，享受極簡易用的開發體驗，并綜合使用提供的 400 多個 AI 開源模型，組合開發有趣的 AI 應用，滿足更多藝術從業者、開發者對圖片生成場景的需求；另一方面，文圖生成大模型 ERNIE-ViLG 為開發者提供了 API 體驗調用的入口，登陸飛槳旸谷社區 API 體驗專區即可體驗其前沿技術能力，并能夠靈活方便、高效快速將文圖生成大模型能力集成到產品中。
從之前數字人度曉曉的作詞編曲、寫作繪畫，到 AI 修復傳世名畫《富春山居圖》，大模型賦能下的 AIGC 早已成為近來百度 AI 技術加速落地的著陸點。得益于持續創新的大模型技術，百度不斷拓寬 AIGC 的適用范圍，并努力發掘更多樣化的內容生產方式。
此次，百度在為用戶提供 ERNIE-ViLG API 體驗智能作畫的基礎上更進一步，用一格這個面向創意內容的產品級綜合文生圖平臺，為 AIGC 注入了更多活力和想象空間。在可預見的未來，一格生成的超寫實與藝術畫作，既有可能像度曉曉「****」系列畫作一樣成為熱賣的數字藏品，還可以用作契合電影、動漫主題的封面大作，更有望在游戲、元宇宙的多樣化動態場景畫面中找到用武之地。
總之，在新的內容創意和方式不斷涌現的當下，AIGC 絕不應只停留在玩一玩、看一看的階段，未來一定會在特定的應用場景中為生產者創造價值，既可以是藝術上的，也可以是物質上的。

*博客內容為網友個人發布，僅代表博主個人觀點，如有侵權請聯系工作人員刪除。

linux操作系統文章專題:linux操作系統詳解（linux不再難懂）

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關鍵詞： AI

焦點

更多>>

技術專區

關閉

博客專欄

創意有瓶頸嗎？百度文心·一格：不存在，動動手指片刻生成藝術大作

相關推薦

技術專區

創意有瓶頸嗎？百度文心·一格：不存在，動動手指片刻生成藝術大作