CVPR 2022 Oral | 創建一個屬于你的高保真數字人,一段單目自轉視頻就夠了
來自中科大的張舉勇教授課題組聯合杭州像衍科技有限公司與浙江大學,于近期一同提出一種基于單目 RGB 視頻的高保真三維人體重建算法SelfRecon,該算法僅需輸入目標對象一段十幾秒的自轉視頻,即可恢復重建對象的高保真數字化身。
近年來,隨著圖形技術的快速發展,各類虛擬數字人開始走入我們的日常,如數字航天員小諍、百度智能云 AI 手語主播、騰訊 3D 手語數智人 “聆語” 等紛紛亮相。實際上,三維數字人技術于我們的日常生活早有應用,如早在 2015 年上映的電影《速度與激情 7》中,就曾使用三維數字人技術幫助復活已故演員保羅沃克。
在去年的 GTC 大會上,英偉達更是基于高保真虛擬數字人技術舉辦了一場以假亂真的產品發布會,一時引發廣泛關社會關注與討論。同樣地, 英偉達的數字人生成與建模同樣也需要高昂的人力成本和高端的硬件支持。據悉,英偉達為保證報告視頻中的老黃足夠真實,期間調配了 34 個 3D 美術師、15 個軟件研究人員,實現了 21 個不同版本的假老黃,最終展示給我們的則是從中選擇的最為理想的一個。在該版本中,英偉達可以說整合了各種建模、編輯、驅動以及渲染技術,更是借助工業級高規格采集設備來保證重建的三維人體的幾何材質精度,在耗時良久的情況下才達到如下所示的難辨真假的視覺效果。
然而,如此高昂的人力成本與時間成本、以及技術上的復雜性和專業性要求不可避免地導致相關方法難以推廣至一般消費市場。另一方面,隨著移動端手機設備的普及,單目 RGB 數據開始變得唾手可得,因此若僅僅依靠單目 RGB 視頻數據就能高效便捷地獲取普通對象的高質量可驅動數字化身,將切實地推動虛擬數字人及其相關技術應用與發展,而這也是三維視覺以及圖形學領域一直致力于的研究目標。
為此,中科大張舉勇教授課題組聯合杭州像衍科技有限公司與浙江大學,于近期一同提出一種基于單目 RGB 視頻的高保真三維人體重建算法SelfRecon,該算法僅需輸入目標對象一段十幾秒的自轉視頻,即可恢復重建對象的高保真數字化身。該研究工作已被 CVPR 2022 接收,并將于 CVPR 會議期間進行口頭報告。
論文鏈接: https://arxiv.org/abs/2201.12792
項目主頁: https://jby1993.github.io/SelfRecon/
代碼鏈接: https://github.com/jby1993/SelfReconCode
基于 SelfRecon 生成的紋理模型
SelfRecon 的重建效果如下所示。基于普通智能手機拍攝的自轉視頻,SelfRecon 可準確跟蹤三維動態幾何,并有效還原寬松衣服的動態效果。得益于輸入的簡易性,基于 SelfRecon 將有望大幅度降低人們獲取個人高保真數字化身的成本與難度。
SelfRecon 的算法流程如下所示,SelfRecon 創新地整合了三維顯式表示與三維隱式表示,并利用神經可微渲染來自動化地構建目標對象的三維數字表示。具體地,SelfRecon 一方面使用基于 MLP 的隱式函數來表示基準空間的符號距離場。同時,在優化該 MLP 網絡參數的過程中,SelfRecon 會周期性地從隱式表示的符號距離場中提取顯式網格,接著 SelfRecon 會利用該顯式表示相關的可微遮罩 Loss 來保證顯式網格能夠維持和真值相近的幾何形狀。另一方面,SelfRecon 精巧地設計了一種非剛性射線投射算法來求解射線與隱式基準表面的精準交點。進一步地,SelfRecon 利用隱式神經渲染以及交點處的相關信息來生成該射線的渲染顏色,并將渲染結果與采集到的顏色真值進行比對,從而自監督地逐漸優化出目標對象的隱式幾何表示。在該過程中,SelfRecon 也提出并應用匹配損失來保證三維顯式表示與隱式表示的一致性,進而有效提升優化過程的魯棒性。
SelfRecon 的算法流程圖
如下所示,SelfRecon 通過前向變形來建立基準幀與當前幀的聯系。首先,SelfRecon 會通過另一個隱式神經網絡來建模人體運動帶動的衣物的非剛性變形。接著,SelfRecon 會使用預生成的蒙皮變形場和當前幀的人體 Pose 信息對目標人體進行鉸鏈變形。
在計算射線和隱式基準曲面交點的過程中,SelfRecon 首先計算射線與當前幀顯式網格的交點,接著 SelfRecon 利用當前幀顯式網格和基準顯式網格的拓撲一致性來獲得該交點在基準顯式網格上的對應點。同時,由于顯式網格理論上是隱式曲面的分片線性估計,因此該交點應接近于射線與隱式曲面的準確交點。基于此,SelfRecon 將射線與基準顯式網格的交點作為射線與基準隱式表示交點的初值,并迭代求解相關能量來快速生成射線和基準隱式曲面的準確交點 P。此外,SelfRecon 通過推導隱式表示關于 P 的隱式微分公式來生成 P 關于各優化變量的一階導數,進而使得整個渲染過程可以有效反向傳播梯度,并端到端地優化整個渲染過程。相關過程如下所示:
下圖展示了 SelfRecon 各個損失能量項的有效性。如下所示,雖然僅使用遮罩損失也能夠恢復整體的人體形狀,但相關結果并無法重建目標對象正確的凹凸形狀。而在添加使用了神經渲染損失之后,可以發現重建結果得到明顯改進,這也證明了顏色信息的重要作用。進一步,SelfRecon 也支持利用預測的法向對優化過程進行額外監督,從而進一步提高 SelfRecon 的重建質量。
SelfRecon 各損失的作用
下圖展示了 SelfRecon 與當前最優方法的定性對比。如下所示,SelfRecon 獲得了 state-of-the-art 的重建效果。效果上,SelfRecon 可以對寬松衣物進行準確建模,在得到光滑曲面的同時,還能較好地恢復一些幾何細節,包括衣物的褶皺,手指和面部特征等。
SelfRecon 與其他方法的比較
另外,SelfRecon 的重建結果天然地支持高清紋理提取和姿態驅動,以下視頻展示了相關驅動效果。
關于 SelfRecon 的更多算法細節與實驗結果,請參考項目主頁與論文。
*博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。