數字人包含哪些生成式AI技術?上交最新「基于神經網絡的生成式三維數字人研究綜述:表示、渲染與學習」
隨著人工智能技術的高速發展, 計算機視覺與圖形學等相關學科的交叉融合掀起了一場數字人生成技術的新革命, 人類進入 “元宇宙” 等數字空間的夢想正逐漸變為現實。面對大規模三維數字人的生產需求, 基于傳統圖形學的建模過程繁瑣, 周期冗長, 阻礙了虛擬數字人的普及和應用, 而利用生成式人工智能技術產生高擬真, 規模化的虛擬數字人正逐漸成為研究熱點。為了深入了解三維數字人技術的研究現狀與挑戰, 本文從生成式模型的視角對數字人技術進行了系統性梳理, 并總結了其中的三個關鍵步驟:表示, 渲染與學習。隨后, 對顯式及隱式的表示方法進行總結, 對傳統渲染與神經網絡渲染的成像方式進行歸納, 并概括了相應的模型學習方法。最后, 本文對三維數字人的典型應用進行分析, 并對當前挑戰與未來發展方向進行總結和展望。
https://www.sciengine.com/SSI/doi/10.1360/SSI-2022-0319;JSESSIONID=af939365-8f15-4f4d-8515-90c44941e4a6
1. 引言
元宇宙” 的概念起源于 1992 年的科幻小說雪崩, 在這部小說中, 人類可以通過虛擬化身進入數字空間, 并相互交流。30 年之后的今天, 隨著計算機視覺與圖形學技術的發展, “元宇宙” 已經走到了 互聯網數字經濟發展的最前沿, 不再是小說中遙不可及的夢想. 虛擬數字人作為 “元宇宙” 的 “原住 民”, 是 “元宇宙” 技術的核心與基石。為了在 “元宇宙” 中產生沉浸式的體驗, 虛擬數字人不僅要有逼真的外觀, 也要實現肢體動作和語言表達的流暢自然. 同時, 由于人類天然擁有社會屬性, 交互能力將是數字人在 “元宇宙” 中的重要屬性。因此, 大規模生成高質量虛擬數字人化身, 既是人類進入 “元宇宙” 等虛擬世界的基礎, 也是人類進一步探索更廣闊的數字空間的迫切需求。
數字人的概念起源于醫學領域, 可追溯到 1989 年美國國家醫學圖書館的 “可視人體” 計劃 1) , 旨在實現人體的解剖結構的三維顯示。本文所討論的數字人技術則更為寬泛, 指代運用數字技術創造的, 擁有數字化表現形式的虛擬人物。數字人可以以二維或者三維形式呈現。早期的虛擬數字人形象以平面動漫偶像為主, 并不涉及三維建模等復雜流程, 因此形象的立體感與真實度受到限制。隨著計算機圖形學技術的發展, 三維建模與渲染技術快速進步, 引領了數字人的研究趨勢。一些頂尖的 科研機構和商業團隊已經能夠生產高擬真的虛擬數字人, 并成功應用于虛擬偶像生成 2) , 影視角色制作 3) , 真人化身重建 4)中, 如圖 1所示。但是, 基于傳統圖形學的三維數字人的建模過程包括形象 采集, 模型制作, 紋理貼圖, 動作采集與驅動等復雜流程, 依賴于專業的感知設備和精細的人力工作, 周期冗長且只能定制化生產, 無法滿足大規模數字人的生產需求, 這些限制阻礙了數字人的普及和應用。近年來, 隨著人工智能和神經網絡的發展, 生成式人工智能在圖像生成, 語言交互等方面取得了巨大進展 [2,3] 。生成式數字人指使用生成式人工智能技術創造數字人的方法, 主要是以數據驅動的方式學習真實的數據分布, 對數據分布進行采樣以生成新的樣本表示, 并對數據表示進行渲染從而呈現出高度真實的三維數字人。生成式人工智能技術極大簡化了三維數字人建模流程, 提升了模型的真 實感, 因此展現出了巨大的發展潛力。
本文從生成式模型的視角對三維數字人技術進行梳理, 首先整體介紹生成式三維數字人的建模 流程, 分解出其中的三個主要步驟 (第 2 節). 然后分別介紹數字人表示方法 (第 3 節), 數字人渲染 方法 (第 4 節), 以及模型的學習方式 (第 5 節). 之后列舉了數字人的一些典型應用 (第 6 節), 最后 指出現有挑戰并對未來進行展望 (第 7 節). 已有一些綜述論文對數字人的某類建模或渲染方法進行 總結, 如 3DMM 模型 [4] , 人臉重建 [5] , 人體重建 [6,7] , 三維渲染 [8,9] 等, 與這些論文不同, 本文旨在從 生成式模型的視角對三維數字人 (人臉及人體) 技術進行全面回顧, 重點介紹基于神經網絡的數字人 研究方法, 梳理其技術發展趨勢及典型應用場景, 讓讀者能夠較為全面地了解數字人的生成技術。值得注意的是, 除了人臉與人體之外, 頭發, 手, 服飾, 骨架等模型同樣也屬于數字人的研究范疇, 但并非本文的主要關注對象, 相關內容將在 7.1 節和 7.2 節予以討論。
2. 生成式三維數字人建模流程
構建一個完整的生成式三維數字人模型主要包括三個步驟, 分別為模型表示, 渲染與學習, 如圖 2 所示, 本文后續章節使用 “建模” 一詞來特指這一過程. 首先, 需要確定三維數字人模型的表示 方式, 常見的表示方式可以分為顯式表示和隱式表示兩種形式. 其中, 顯式表示一般直接給出滿足條 件的所有元素的集合, 如點云包含三維空間中點的位置, 而多邊形網格則包含頂點位置及其連接關系 等信息. 由于傳統的渲染管線已經能夠成熟地對數字人的顯式表示 (尤其是基于多邊形網格的表示) 進行高效處理, 因此, 在游戲, 影視制作等工業應用中, 主要使用顯式表示模型. 然而, 顯式表示的精 細程度會受到模型分辨率的限制, 為了產生高擬真的數字人, 需要大量元素來逼近模型的細節, 從而 造成模型復雜度的上升. 而與此對應的隱式表示僅需給出對于三維空間的某種約束, 如符號距離函 數, 水平集等. 隨著深度學習的發展, 越來越多的方法使用神經網絡來逼近隱式函數, 如深度符號距 離函數 [10] , 神經輻射場 [11] 等, 并由此恢復出數字人的精細幾何與紋理. 隱式表示作為一種更加靈活 的表示方式, 使得數字人模型能夠突破空間分辨率的限制, 因此, 隱式表示正逐漸成為數字人研究的 熱點.
第二個重要步驟是渲染, 表示從三維數字人模型到二維圖像的映射過程, 該步驟直接決定了數 字人呈現的視覺效果。在真實世界中, 光線在物體表面發生反射進入人眼, 形成肉眼觀察到的圖像。由于真實世界的復雜性, 難以對每一條光線進行精確追蹤, 因此, 圖形學中的渲染過程一般是對物 理世界成像原理的模擬和簡化. 以人臉為例, 一種經典的處理方式是將人臉分解為本色圖 (albedo) 和反射圖. 其中本色圖代表皮膚表面的顏色材質, 反射圖代表光線在人臉表面反射之后造成的效 果, 由人臉表面法向方向與光照共同決定, 這種簡化被稱為朗伯反射模型 (Lambertian Reflectance Model)[12,13] 。后續一些方法在此基礎上加入了粗糙度 (roughness) 與高光 (specular) 分量, 提升了渲染結果的質量。圖形學中渲染過程的簡化雖然降低了計算復雜度, 但是同時也造成了渲染質量的下降, 使其難以生成高擬真的數字人形象. 而與此對應的神經網絡渲染技術將數據驅動的神經網絡與物理規律約束的渲染管線相結合, 極大的提升了渲染的真實感。近年來, 神經網絡渲染技術已經成功 應用到數字人生成流程中, 使生成高度擬真的三維數字人成為可能.
最后, 生成式三維數字人模型需要對數據進行學習, 不同的數據類型會造成學習方式的差異。如使用三維掃描數據, 對于網格等顯式表示模型, 一般需要先將掃描數據與模型進行配準, 生成一致的拓撲結構, 然后進行學習。而對于隱式表示模型, 則一般可以直接從原始掃描數據進行學習。由于三維掃描依賴專業的采集設備, 同時采集成本高昂, 因此難以構建大規模的掃描數據集, 覆蓋不同人種, 年齡, 性別, 表情, 姿態的變化。因此, 從有限小規模掃描數據中學習到的數字人模型難以精確泛化到 現實世界中復雜多變的真人數據。而與此對應的二維圖像數據采集更為方便, 同時能夠保證數據規模與多樣性。因此, 如何從二維圖像數據中學習三維數字人模型也是一個重要研究方向。為了解決二維圖像缺乏三維幾何信息的局限性, 現有方法主要從多視角學習, 結合三維幾何先驗, 自監督學習等方式為二維圖像添加三維幾何或語義約束, 并使用神經網絡學習數字人的生成模型。
3. 生成式三維數字人模型表示
數字人可以視為現實人類在 “元宇宙” 中的投射, 它不僅需要對人類外觀進行真實的模擬, 也需要逼近真人的行為動作以及表情神態。為此, 作為數字人的基礎, 三維數字人模型利用顯式或隱式表示, 盡可能貼近真人的外觀, 并且建立多種多樣符合人類行為的物理屬性。本章討論三維數字人模型的表示方法, 首先介紹基于顯式表示的數字人模型, 包含人臉和人體的表示方法;然后介紹基于隱式 表示的數字人模型。
3.1 基于顯式表示的數字人模型
顯式表示是三維物體的一類常見表示方法, 即物體的三維結構被直接給出或通過參數映射的方式給出, 具體表現形式包括點云, 多邊形網格, 參數曲面函數等. 基于顯式表示的數字人模型通常使 用多邊形網格進行表示, 利用大量掃描數據通過統計學或深度學習的方法得到先驗模型, 從而通過低維變量控制復雜的三維數字人, 這為高效, 規模化地生成三維數字人奠定了基礎, 如圖 3 所示。人臉和人體模型是數字人領域的兩大主流研究方向, 由于人臉和人體具備不同的空間結構以及形變方式, 因此本節將分別介紹這兩種顯式表示方法。
3.2 基于隱式表示的數字人模型
顯式表示使用一系列的離散單元來逼近三維物體, 然而, 在真實世界中, 數據是 (近似) 連續的, 為了盡可能地逼近真實數據, 需要不斷增大顯式模型的分辨率, 這將造成巨大的計算開銷. 而與此對應的隱式表示使用一個連續函數來表示數據, 因此隱式表示的復雜度不再取決于數據的空間分辨 率, 這為三維物體提供了一種靈活輕便的表示形式. 然而物體是復雜多樣的, 通常難以用明確的函數 對其進行準確的表征, 因而研究者們常采用深度神經網絡來逼近該復雜函數, 這類表示方法也被稱作 “隱式神經表示”。在隱式神經表示中, 隱式的連續函數通常采用多層感知機 (MLP) 進行參數化逼近, 以空間三維 坐標 p = (x, y, z) ∈ R 3 作為輸入, 輸出 p 點具有物理意義的屬性 fim(p), 形成了空間中的隱式場:F : p 7?→ fim(p), (4) 其中, fim(p) 通常表示三維空間點的幾何或紋理屬性, 例如 DeepSDF[10] 采用的符號距離函數 (Signed Distance Function, SDF), OccNet [58] 采用的的占據場 (Occupancy Field) 以及 NeRF [11] 提出的神 經輻射場 (體密度值和顏色值的表示) 等. 此后的一些工作將隱式表示引入了生成模型, 逐步建立 了具有可控性的隱式數字人生成模型. 通過隱式表示作為媒介, 生成式數字人模型學習數字人特征 的全局或局部分布, 可以分為兩類, 一類是基于生成對抗網絡 [59] (Generative Adversarial Network, GAN) 的方法, 另一類是基于可控形變場的方法, 如圖 4 所示。
3.3 顯式表示和隱式表示對比
基于顯式表示的數字人模型相對較為直觀, 常通過低維參數對模型進行控制, 這些參數通常與實 際的物理意義相對應, 能夠便捷, 高效地生成三維數字人. 此外, 顯式表示的模型較為成熟, 更容易 與現有的圖形學渲染管線兼容, 應用更加廣泛。但是顯式表示的模型在精細度方面受分辨率影響, 當模型分辨率提高時, 顯式表示的復雜度也會相應大幅度增加, 對內存造成極大的負擔。相比顯式表示, 隱式表示的數字人模型最獨特的優點是模型不再與空間分辨率耦合。由于隱式表示是連續函數, 因 而數字人模型可以以任意空間分辨率進行采樣, 即 “無限分辨率”。隱式模型的方法在面對復雜場景時存在表示不夠精細, 渲染速度慢等缺點, 但對于生成式數字人的任務來說, 隱式方法面對的是一個 具有明確拓撲結構的幾何體, 因而利用顯式的拓撲結構來約束和優化隱式表示將有望規避這些缺點。
4. 生成式三維數字人渲染
渲染是指將三維模型根據觀察條件 (方向, 距離等) 進行采樣計算并生成二維圖像的過程, 具體計算方法由渲染目標三維模型的表示, 存儲形式決定, 因此數字人渲染可根據其表示形式采用與之對 應的渲染方法。基于第 3 節的討論, 三維數字人模型的表示形式主要包括以多邊形網格, 點云, 體素 及參數化表面函數等顯式格式存儲記錄的三維數字人, 和以神經輻射場, 隱式表面函數為代表的隱式表示存儲的三維數字人。由于二者的表示形式與性質的差異, 其渲染方法也有所不同. 傳統圖形學渲 染方式主要針對顯式記錄的三維模型, 該類三維模型廣泛應用于各類商用軟件以及影視游戲內容創作中。而神經渲染則主要針對隱式表示的數字人, 根據給定的渲染參數通過對深度神經網絡中記錄的三維數字人模型進行采樣計算, 將最終結果以圖像或視頻形式進行呈現。本節將對這兩類渲染方式進行討論。
5. 生成式三維數字人模型學習
本節討論生成式三維數字人的模型學習方法, 完成生成式三維數字人的建模流程. 生成式數字 人模型學習包括對第 3 節表示參數和第 4 節渲染參數的學習, 這些參數將定義一個生成式數字人模 型. 生成式數字人模型首先從二維或三維數據中學習三維數字人的分布規律, 再通過采樣或渲染等 方式實現數字人的生成, 數據類型與模型表示方式的不同會造成學習方法的差異。本節首先討論數 據集的獲取與處理方式, 然后分別介紹生成式三維數字人顯式表示模型與隱式表示模型的學習方法, 如圖 7 所示:
6. 生成式三維數字人的應用
經過完整的生成式三維數字人建模流程之后, 生成模型將學習到數字人的先驗信息, 針對模型進行相應微調即可應用到下游任務。在虛擬數字人的應用中, 虛擬數字人擁有人的形態, 能夠表現人的 行為, 并且能與外界環境進行交互是三項極為重要的特征。因此數字人的重建, 驅動以及交互是當前 虛擬數字人的重要研究方向, 本節主要介紹這三方面的應用。
6.1 數字人重建
數字人重建是指從圖像或視頻中恢復人體和人臉的三維幾何形狀以及對應的外觀信息, 以實現真人與虛擬數字人的一對一的數字化映射。數字人重建是連通真實世界和數字世界的橋梁, 也是實現數字人驅動與交互的基礎. 生成式數字人模型為重建任務提供了有效的先驗約束, 不僅有助于生成合理的重建結果, 也減少了對于訓練標簽的要求, 降低了重建成本。根據數字人的不同表示方法, 本小節對顯式重建和隱式重建兩類方法進行梳理, 如圖 8 所示:
6.2 數字人驅動
數字人的重建任務連接了真實世界和數字世界, 實現了真人向數字人的靜態遷移, 但是要將數字人模型落實到電影, 游戲等具體的應用場景, 則需要根據真人的行為驅動數字人模型產生相應的變化。數字人的驅動為數字世界搭建了從靜態向動態跨越的階梯, 也為數字人模型打開了廣闊的應用空間. 根據表示方法的不同, 本文對顯式和隱式表示模型的驅動方法進行梳理
6.3 數字人交互
人類天然具備社交屬性, 將數字人作為一個獨立的個體顯然無法滿足在電影, 游戲以及 “元宇宙” 這類復雜場景中的應用, 因此交互技術是數字人研究領域的一個重要問題。本節從數字人與環境的交互以及數字人之間的交互兩個方向對相關工作進行梳理.
7. 現有挑戰總結與未來發展趨勢展望
7.1 生成式數字人的基礎理論
7.2 生成式數字人的細節表示
7.3 高效推理與訓練
7.4 質量評價系統
7.5 工程擴展
7.6 法律與倫理問題
8. 總結
本文對生成式數字人這一研究熱點進行了較為全面的總結, 介紹了數字人建模過程中的主要步 驟, 比較了顯式與隱式表示這兩種主流的模型表示方式, 介紹了傳統渲染與神經網絡渲染的具體流 程, 歸納了基于不同數據表示形式與渲染方式的學習方法。隨后, 細致地討論了生成式數字人的三大應用, 包括重建, 驅動與交互. 本文最后對生成式數字人所面臨的現實挑戰進行了討論, 并對未來發 展趨勢進行了展望。可以看出, 生成式數字人的表示形式正從顯式表示向隱式表示的方向發展, 渲染 方式正從傳統渲染方法過渡到神經網絡渲染, 學習方法越來越傾向自監督, 對抗學習等弱標注場景。現有數字人技術離實現 “元宇宙” 中高度真實, 自然交互的虛擬形象仍存在巨大差距, 本綜述希望能 幫助讀者快速梳理生成式數字人的技術路徑與發展趨勢, 并啟發后續的研究。
*博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。