被ChatGPT帶飛的AIGC,能為垂直產業做些什么?(1)
本文從 AIGC 技術 -> 產品 -> 業務應用和價值實現環節探討其發展路徑,并以產業實例探討 AIGC 如何才能在產業領域實現閉環和價值落地。
轉自《機器之心》
去年以來出現了 AIGC 熱潮,引發了 AIGC 及其應用話題的爆發性增長,不少人感慨強人工智能的時代已經離我們不那么遙遠了。但是在熱潮的另一面,我們看到真正能落地的場景依然是鳳毛麟角,目前比較成功的應用主要集中在個人消費領域,而 AIGC 在產業中的應用大多仍然處于探索階段。紅杉資本在 22 年 9 月就對 AIGC 做出了以下預判:文字類 AI 生成將在 2023 年進入黃金時期,圖片類 AI 生成黃金時期將在 2025 年左右抵達,3D 和視頻類 AI 生成在 2023 年可能正處于草稿階段,進入黃金時期或許在 2030 年。不可否認,文字與圖片的 AI 生成確實走在了前面,而 3D 模型、視頻和游戲生成仍在研發階段。
紅杉資本針對 AIGC 相關產品成熟預測
若考慮到 AIGC 產業應用,如在制造業、建筑業等巨型垂直實體領域中,AIGC 的 C/Content 內容將不能僅停留在圖片和文字的領域,而是需要進入信息更為豐富的三維領域。接下來,我們將從 AIGC 技術 -> 產品 -> 業務應用和價值實現環節探討其發展路徑,并以產業實例探討 AIGC 如何才能在產業領域實現閉環和價值落地。
1.AIGC 技術:從文字到圖片
從大家對 ChatGPT 越來越多的測試中可以看到,ChatGPT 不僅能對語義進行解析和結構化,還能在此基礎上用 NLP 自然語言處理做數據分析。
ChatGPT 對內容進行結構化處理和數據分析 - 佳格數據提供
事實上,以 Stable Diffusion 為首的一眾 AI 畫圖框架或者平臺,在去年更早的時候已經引起了轟動。雖然圖片相對文字來說看上去信息含量要更為復雜,但是其技術成熟卻要比以 GPT 為首的文字生成來的更早一些,我們有必要從主流的開源框架 Stable Diffusion 為例,回顧一下這些圖片 AIGC 框架是如何工作的。
Stable Diffusion 生成的圖片, 已經有了比擬人類畫家的能力
Stable Diffusion 主要有三個組成部分,每一個部分都有自己的神經網絡。
1、CLIP 用于文字編碼器:以文字作為輸出的語義信息組成一個 77*768 的矩陣,CLIP 訓練 AI 同時進行自然語言理解和計算機視覺分析。CLIP 可以決定圖像和文字提示的對應程度,比如逐步把建筑的圖像和 “建筑” 這個詞完全匹配起來,而其能力訓練是通過全球 40 多億張帶文字描述的圖片實現的。
CLIP 的訓練集
2、UNET 及調度程序:這就是大名鼎鼎的擴散模型主程序(來自 CompVis 和 Runway 團隊于 2021 年 12 月提出的 “潛在擴散模型”(LDM / Latent Diffusion Model)),用于對噪聲進行預測實現反向去噪的過程,進而實現圖片在信息空間中的生成。如圖片所示,染料擴散的過程就像從圖片逐漸變成噪點的過程,而當研究人員對圖片增加隨機噪點讓 AI 反向學習整體過程,而后就擁有了一套從信息空間噪點圖反向生成圖片的模型。
Diffusion 模型反向去噪過程
用通俗的例子解釋,如果在清水里隨機滴入一些染料,隨著時間推移會得到如下圖一樣絢麗的形狀。那么有沒有一種方法,能夠根據某一個特定時間特定的狀態,反向推出初始的染料用量、順序、滴入水缸的初始狀態等信息呢?顯然,如果不借用 AI 的方式幾乎無法實現。
不同的染料滴入水中擴散出不同的形狀
3、信息空間到真實圖片空間的****:即把信息空間中的矩陣信息轉換為肉眼可見的 RGB 圖片。想象一下我們與人交流的過程,聽到的聲音信號轉換為大腦能理解的文字信號存儲在腦中,這個過程稱之為編碼。如果嘗試把文字信號通過某種語言表達出來,這個過程可以稱為解碼 —— 這里的表達方式可以是任意的語言,每種語言對應不同的****,解碼只是一種表達方式,本質還是基于人類腦海中對于某件事情的描述與理解。
StableDiffusion 從輸入到輸出全流程解讀
正是有了這幾個關鍵技術步驟的串聯,Stable Diffusion 成功創建了一個無所不能的 AI 作圖機器人,不僅能理解語義,將其轉化為信息空間的信息流,還能夠在信息空間中通過模擬降噪創作,通過****還原成肉眼可見的圖片,這一充滿科幻色彩的過程放在 AI 不存在的世界來看,堪稱神跡。
2.AIGC 技術:從圖片到 3D 模型
圖片生成已經取得了突破性的效果,但如果這些成果能夠進一步優化應用到更多領域,將有可能實現更大價值。我們也看到一些細分領域中的探索成果,比如經由對場景的理解,通過不同的數據集加入和調參,可以實現對圖片生成更好的控制,而不僅是通過文字的不斷試錯來獲得更優結果。
2.1 設計意向圖生成
2019 年初,用 GANs 生成的「這個 XX 不存在」系列在海外獲得大量關注,在國內我們也看到企業推出了在細分領域的成果。而該團隊也于 22 年 8 月實驗性的在手機端推出了「AI 創意庫」,只需要輸入一句話,對話機器人就能在一分鐘內快速理解語義,生成多張效果細膩貼近建筑概念方案的意向圖。在此之上,更是可以通過輸入一張已有的圖片,修改部分描述的關鍵字,「AI 創意庫」即可生成一系列的衍生圖片,輔助設計師在日常創作中尋找靈感。
小庫科技「這個建筑不存在」,GANs 模型生成建筑意象圖及迭代過程
左圖:小庫「AI 創意庫」生成,觸發語句 Louis Kahn 風格,依山傍水的小型博物館;右圖:小庫「AI 創意庫」生成,基于左圖 Louis Kahn 風格圖片,完成風格切換至 Le Corbusier
為了使得「AI 創意庫」的效果更優,團隊做了一些新的探索:由于已有的算法和模型更多聚集在通用互聯網素材上,建筑相關的圖片、形容及風格的數據儲備在專業程度顯然是不夠的。這里采取了一種針對建筑相關詞匯的特殊標識,組成一個微調的先驗數據集并將該數據集融合訓練,實現模型增強。通過建筑專業領域增強的新模型,形成了面向建筑行業專屬的 AI 創意庫,針對建筑類描述短句,測試集優品率相比原有模型提升了 13.6% 之多。
Google Dreambooth Fine-Tuning 算法示意
舉個例子,當輸入一張博物館圖片及一個詞匯 "Zaha Hadid(過世的全球著名女建筑師)" 的時候,模型能夠理解需要將博物館的建筑風格或特征往 Zaha Hadid 的作品靠攏,而不是在博物館中增加一個 Zaha Hadid 的人物或畫像,抑或是在 AI 世界里創作一個 Zaha Hadid 的卡通畫像 —— 這往往是通用模型會返回的結果之一。
經過微調后的建筑模型,小庫「AI 創意庫」能充分理解 “Zaha Hadid” 這個特殊詞匯隱含意思
2.2 3D 模型生成
二維的圖片雖然精彩,但在產業應用中暫時還只是停留在 “意向圖庫” 的作用,未來如果要成為可以精準表達設計的成果,需要向 3D 和更高信息維度去邁進。
在 2020 年 AIGC 沒有現在這么成熟的時候,上述團隊就在探索如何用 AI 生成 3D 模型,并在同濟大學 DigitalFUTURES 工作坊教學中,公開了其在研發中的從圖形生成圖像進一步生成模型的算法,能看到當時的模型效果并不太理想,有價值的是實現了圖形 - 圖像 - 模型的聯動。
2020 同濟大學 DigitalFUTURES 工作坊小庫教學團隊成果,手繪圖形生成圖像進而生成模型
第二年在同濟大學 DigitalFUTURES 工作坊教學中,該團隊發布了一種通過 GANs 學習衛星圖與真實三維模型之間關系,將衛星圖生成為真實三維模型的算法。該算法通過對衛星圖上不同的圖層元素進行特征學習,能大致復原出衛星圖所對應的主要物體三維拉伸形體,預測不同物體投影所對應的原物體高度。當然,這種方法還存在一定的缺陷,只能在衛星圖場景中使用,難以積累其他場景中同類圖片與三維形體之間的關系;其次是還原的三維形體只能粗略預測高度,其他細節需要通過算法重新生成,與真實的三維模型存在較大誤差,只能用于項目早期研判使用,應用場景有限。
城市三維模型分層特征提取訓練示意圖
2021 同濟大學 DigitalFUTURES 工作坊小庫教學團隊成果,基于 GANS 的衛星圖重建三維模型
得益于 AIGC 算法的爆發、3D 生成算法的日益成熟,我們也看到垂直類 AI 企業開始吸收更多先進的技術與思路改善其模型,并在 3D-AIGC 的路線上有了一些新的嘗試方向。例如 OPENAI 推出了 Point-E 框架,該框架可以將任意二維圖片通過算法預測為點云,進而通過點云去預測三維物件。
PointE 框架全過程示意圖
但是模型生成的質量依然有一定的局限,而模型的不可用主要體現在以下三個方面:
1. 三維形體還原難:首先二維圖像數據比三維模型數據出現早,同時可獲取的二維圖像數據目前也比后者多,因此前者可作為訓練素材的量級更多,較少的三維模型訓練素材的泛化能力有限,難以還原最初的三維形體;
2. 材質整體缺失:對于三維模型來說最重要的一環是材質的填充與選擇,然而對于AI生成來說,從圖片直接推敲其材質的方法尚未成熟,同樣材質在不同的形狀、環境、光源下的表現都有所不同,而當這些變量都集中在一張圖片中時,材質重建幾乎不可能實現;
3. 生成的模型精度不達標:通過點云推敲的模型,通常是依賴于點云的密度重建物體表面 Mesh,如果點云過少物體會嚴重失真,甚至無法重建模型。
小庫團隊測試 Point- E 模型,左邊建筑圖片生成點云進而模擬出右邊三維模型,遺憾得到的只是一堆無意義的點云模型,Point-E 暫時還無法理解一個建筑物的圖片
當然我們能理解當前的技術瓶頸,如果把目標定的稍微低一點,選擇從三維建模軟件中生成的簡單形體、做二維的截圖在 point-e 模型中重建,會意外地發現其效果比以上測試更佳,但也仍局限在 “初步草稿” 的范疇。這與訓練集有很大的關聯性,通過三維建模軟件生成各個視角的二維視圖是該模型最易獲取訓練數據的方法之一。
小庫團隊測試 Point-E 模型,針對建模軟件中選取一個簡單三維模型做任意角度截圖,重建三維模型,往往有還不錯的效果
綜上來看,從文字 -> 圖片 -> 點云 -> 三維物體的技術路線固然令人驚嘆,但如果要應用在產業領域,還有很多工作需要 AI 科學家們去做。
然而,是否只有這一條技術路線去實現三維模型的生成?
*博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。