SIGGRAPH2025|LargeAvatarModel:單圖秒級打造超寫實3D互動數字人,跨平臺超即時驅動渲染

論文作者來自阿里巴巴通義實驗室的 3D 團隊。第一作者何益升,本科畢業於武漢大學,博士畢業於香港科技大學;通訊作者原瑋浩,本科畢業於浙江大學,博士畢業於香港科技大學;團隊 Leader 董子龍,本科博士均畢業於浙江大學。
三維數字頭像的建模、驅動和渲染是計算機圖形學與計算機視覺的重要課題之一,在虛擬會議、影視製作、遊戲開發等領域有廣泛應用。傳統方法依賴多視角資料或影片序列訓練,存在計算成本高、輸入條件難、泛化能力弱等問題。
近年來,基於神經輻射場(NeRF)和 3D 高斯濺射(Gaussian Splatting)的技術雖提升了建模質量,但仍面臨多視角/影片輸入訓練的依賴以及神經後處理導致的渲染效率低的問題。
LAM(Large Avatar Model)的提出,旨在透過單張影像實現即時可驅動的 3D 高斯頭像生成,突破傳統方法對影片資料或複雜後處理的依賴,為輕量化、跨平臺的 3D 數字人應用提供新思路。
  • 論文標題:LAM:Large Avatar Model for One-shot Animatable Gaussian Head
  • 論文地址:https://arxiv.org/abs/2502.17796
  • 專案主頁: https://aigc3d.github.io/projects/LAM
  • 程式碼庫:https://github.com/aigc3d/LAM
  • 國外 Demo:https://huggingface.co/spaces/3DAIGC/LAM
  • 國內 Demo:https://www.modelscope.cn/studios/Damo_XR_Lab/LAM_Large_Avatar_Model
核心亮點:
🔥 單圖秒級生成超寫實 3D 數字人
🔥 WebGL 跨平臺超即時驅動渲染,手機跑滿 120FPS
🔥 低延遲即時互動對話數字人 SDK 已全開源
方法
LAM 的核心目標是:單圖輸入、一次前向傳播生成可驅動的 3D 高斯頭像,無需後處理網路,併兼容傳統圖形渲染管線實現跨平臺即時渲染。其技術框架圍繞以下核心突破展開:
規範化空間的三維高斯球生成
  • 人頭模型先驗引導:LAM 基於 FLAME 頭部模板的頂點來初始化高斯球位置,結合形狀混合形變(Blendshapes)與骨骼線性蒙皮(LBS)的驅動機制,將三維頭像的生成置於規範化空間(Canonical Space),統一不同表情與姿態的幾何表達,降低生成複雜度。
  • 多模態特徵互動 Transformer:LAM 利用預訓練的 DinoV2 提取輸入影像的多層級特徵,透過堆疊式交叉注意力模組(Cross-Attention)讓 3D 空間中的點特徵與 2D 空間中的影像特徵進行互動,預測 3D 高斯球的位置、顏色、透明度等屬性,並引入形變偏移(Offset)最佳化人頭的幾何形狀(如頭髮、飾品等)。
  • 細分網格增強細節:FLAME 原始頂點數只有 5023 個,表達能力有限,LAM 透過網格細分演算法(Mesh Subdivision)增加點密度(預設兩次細分達 81424 點),從而提升頭髮、鬍鬚等細節的建模能力。使用不同的細分程度,也可以在模型生成質量與渲染速度之間進行平衡。
無需神經後處理的驅動與渲染
  • 傳統動畫驅動機制直接遷移:生成的規範空間中的 3D 高斯人頭,可直接使用骨骼線性混合蒙皮(LBS)與形狀混合形變(Blendshapes)引數,驅動表情與姿態變化,無需額外神經網路參與動畫或渲染計算,達到超即時的渲染效率。
  • 海量影片資料訓練:傳統 3D 數字人的訓練資料要求苛刻,有時甚至需要多視角影片資料,難以 scale up,而 LAM 的模型架構使其可以在普通的單目影片上進行訓練,從而可以很輕易地 scale up。在模型訓練中,一段影片中取任意一幀作為輸入圖片,生成 3D 高斯人頭,然後基於影片檢測得到的頭部姿態和麵部表情,渲染不同幀的圖片,與真值之間求損失來最佳化生成網路。
跨平臺超即時渲染架構
  • 輕量化 3D 高斯表達:LAM 的驅動和渲染沒有任何神經網路的參與,是直接使用傳統動畫驅動 + 三維高斯濺射渲染,因此可以直接相容傳統圖形管線。
  • WebGL 渲染:LAM 基於 WebGL 實現了表情、動作驅動和三維高斯濺射的渲染,天然支援跨平臺的特性,可以在不同裝置如電腦、手機、電視、大屏等裝置上進行直接驅動和渲染,效率達到超即時,如 8W 點模型可以在 Macbook 上輕鬆跑滿螢幕上限 120FPS,2W 點模型甚至能在移動端跑到 120FPS。
實驗
定量結果
論文在 VFHQ(高解析度影片人臉資料集)與 HDTF(高畫質對話影片資料集)上驗證 LAM 效能,對比物件包括 NeRF 方法及 3D 高斯濺射方法,指標涵蓋重建質量、身份一致性、動畫精度與渲染效率。
從結果來看,LAM 以超寫實的影像質量重新整理記錄,以無神經網路的超輕量模型擊敗之前的重網路模型。
更多應用
LAM 不僅限於單圖生成,也可以結合影像大模型進行實現跨模態藝術創作:
  • 文字驅動生成
結合文生圖模型,使用者輸入提示詞(如「戴帽子的卡通男性」)生成任意風格的人頭影像,LAM 可以直接轉換為可驅動三維高斯模型。如圖所示,生成的頭像可準確保留提示中的服飾元素(帽子)與藝術風格(卡通化):
  • 3D 風格遷移
透過影像編輯模型對輸入影像進行年齡、妝容等編輯,LAM 可以同步更新高斯屬性。例如將真人頭像轉化為油畫風格時,模型保留幾何結構僅調整顏色與紋理等:
互動對話數字人解決方案
以 LAM 為基礎,通義實驗室構建了完整的智慧互動對話數字人解決方案,融合通義千問大語言模型、通義語音演算法、通義數字人驅動演算法,構建成熟、魯棒的完整工程方案,實現輕量化、低成本、低延遲、跨平臺的端側渲染,支援智慧客服、情感陪伴、教育培訓等產品。
目前,完整的解決方案均已開源,包括整個鏈路中的各個模組。即使用開源的程式碼庫,就可以實現輸入一張圖片,生成超寫實 3D 數字人,進行即時的對話聊天。
© THE END 
轉載請聯絡本公眾號獲得授權
投稿或尋求報道:[email protected]


相關文章