從“骨架拓展”到“時序建模”:上海AILab雙項研究入選ICCV 2025,重新整理數字人擬真天花板

©作者 |Yifan Zhan, Wangze Xu
單位 | 上海AI Lab,東京大學
研究方向 | 神經渲染,3D數字人
ToMiE 與 SeqAvatar分別從空間結構與時序建模兩個維度擴充套件了3D Gaussian Splatting 在複雜人體重建中的表達能力
ToMiE 提出一種可擴充套件關節結構Exoskeleton),透過梯度驅動策略自動定位需要生長的骨骼節點,在無需人工綁骨的前提下實現手持物體和寬鬆衣物的顯式建模與動畫驅動。
SeqAvatar 引入分層時空上下文建模框架,在傳統 3D 高斯人體建模基礎上,利用幀間姿態差分和區域性速度殘差構建多尺度時序輸入,引導非剛性高斯變形,保證了動作的連續性與細節一致性。
二者聚焦逐場景 3D 數字人訓練,推動高斯建模在真實數字人場景中的進一步落地
骨架拓展—ToMiE
論文標題:
ToMiE: Towards Explicit Exoskeleton for the Reconstruction of Complicated 3D Human Avatars
論文連結:
https://arxiv.org/abs/2410.08082
收錄會議:
ICCV 2025
▲ 其他數字人建模方法相比,ToMiE能透過增長外骨骼顯式建模手持物和寬鬆衣物
研究背景
近年來,三維高斯潑濺(3D Gaussian Splatting, 3DGS)在數字人建模中展現出卓越效能,依託於 SMPL 骨架結構與 LBSLinear Blend Skinning)形變機制,實現了從 T-pose 到任意姿態的高質量渲染與動畫。
該類方法將人體視作一組繫結在骨架上的高斯單元,透過輸入多視角連續人體影片,能夠對緊身衣著的角色進行高保真建模。
然而,現有方法普遍依賴固定拓撲的 SMPL 骨架結構,其引數空間源自於大規模緊身人體掃描資料,在表達包含手持物體寬鬆衣物的複雜人體時存在顯著侷限。
目前應對複雜人體多透過兩種方式擴充套件建模能力:
一類方法藉助顯式定製外骨骼來擴充套件運動能力,但逐場景定製成本過大;
另一類方法隱式建模 SMPL 無法處理的運動,雖然能提升新檢視渲染質量,但隱式表徵使得數字人驅動變得困難。
為了解決上述難題,本文提出 ToMiE,一種支援骨架自適應生長的新型 3DGS 建模框架。
ToMiE 能夠在訓練過程中根據重建誤差主動識別建模不足的區域,透過梯度引導機制定位需擴充套件的父關節,並顯式生成外骨骼節點用於繫結與驅動附加高斯點,實現複雜附件與人體結構的有效解耦,顯著提升了建模精度與動畫靈活性。
方法概覽
ToMiE 在標準 SMPL 骨架的基礎上,引入一套可生長的外骨骼機制,透過梯度驅動的方式,在訓練中定位需增強的父關節,併為其新增新子關節,繫結附加的高斯點。
整個過程由三部分構成:
梯度引導的父關節定位為每個高斯點計算其對各個關節的歸屬程度,從而精確累積每個關節的反向梯度,並根據閾值自動判定是否擴充套件該關節
附加關節的顯式建模與最佳化,從影片幀資訊獲得關節的運動軌跡,將歸屬於其的高斯點與原始 SMPL 關節解耦。
暖機訓練流程,訓練前期不增長,只積累梯度資訊,趨於穩定後進行外骨骼生長,迅速最佳化。
梯度引導的父關節定位
ToMiE 的關鍵創新之一是利用高斯點在渲染過程中的誤差反向傳播訊號,引導骨架結構的擴充套件。不同於靜態定義的骨架拓撲,ToMiE 在訓練過程中動態定位出重建能力不足的父關節節點,併為其生長新的附加關節,從而提升區域性幾何和動作表達能力。
為此,ToMiE 首先分析當前高斯點對整體重建誤差的貢獻,並將該資訊傳遞至骨架結構。每個高斯點在其位置  計算梯度範數:
為了將這些梯度聚合到骨架關節層面,ToMiE 定義了一個聯合賦權策略,結合了傳統的 LBS 權重  與新引人的 Motion Kernel 權重  ,用於評估高斯與每個關節的關聯強度:
最終,將 N 個高斯點的梯度聚合為每個關節  的梯度響應  :
這些梯度值  反映了每個關節在當前骨架結構下對整體誤差的貢獻。ToMiE 根據設定閾值和排序策略,自動選出一組響應高的父關節,為其生長新的子關節。整個過程僅依賴渲染誤差本身,無需標籤或手工規則。
附加關節的顯式建模與最佳化
一旦某個父關節被選中用於擴充套件,ToMiE 將為其新增一個新的子關節,用於繫結與驅動無法由原始 SMPL 骨架良好建模的區域性高斯區域(如手持物體或寬鬆衣物邊緣)。
這些附加關節被維護在一個外骨骼關節表中,包含{關節的父節點編號,子關節位置,子關節旋轉}ToMiE 並不直接為每一幀儲存這些引數,而是使用兩組可微分的 MLP 進行建模:
關節位置網路  :
關節旋轉網路  :
其中,  和  分別是外骨骼位置和旋轉, 是外骨骼下標, 是時間戳。外骨骼定義在標準空間中,因此位置不隨運動時間變化,而旋轉是時間相關的。
由於所有引數均可微,訓練過程中附加關節的空間位置、時序旋轉與 LBS 權重均可端到端最佳化。
相比隱式表示,ToMiE 的顯式建模具備兩個顯著優勢:可直接控制與插值動畫關節引數具備物理語義,可在推理階段靈活控制;避免冗餘擬合透過與主骨架聯動建模,減少對非剛性 MLP 的依賴,提升區域性表達效率。
訓練細節
ToMiE 的訓練過程分為兩個階段:骨架預熱階段骨架擴充套件階段,分別對應基礎高斯擬合與附加關節最佳化兩個階段,整體流程端到端進行,只需輸入多視角連續影片監督
在訓練初期,ToMiE 使用標準 SMPL 骨架和 LBS 蒙皮權重進行高斯初始化和渲染。此階段不進行骨架擴充套件,目的是穩定基本幾何結構、建立可用的梯度訊號,防止在模型尚未收斂時誤導擴充套件判斷。
一旦預熱階段完成,ToMiE 啟用梯度引導的父關節定位機制(詳見前節),並根據設定閾值選出需要擴充套件的父關節集合。
對於每個新增子關節:初始化位置為其父節點的空間座標,初始化旋轉為單位旋轉,在訓練中使用 MLP  學習其位置與旋轉,並將其引入 LBS 蒙皮權重預測網路中。
在每一訓練迭代中,ToMiE 將標準空間高斯經 LBS 後渲染至目標視角,監督訊號來自真實影像與 mask。最佳化目標為多項損失組合:
為提升效率,ToMiE 同樣支援高斯密度自適應操作(剪枝,克隆),並在附加關節生長後,動態調整剪枝閾值策略以控制計算開銷。
實驗效果
▲ DNA-Rendering資料集上的定量結果
▲ DNA-Rendering資料集上的新視角渲染效果
▲ 手持物或寬鬆衣物編輯驅動
時空拓展—SeqAvatar
論文標題:
Sequential Gaussian Avatars with Hierarchical Motion Context
專案連結:
https://zezeaaa.github.io/projects/SeqAvatar/
收錄會議:
ICCV 2025
▲ SeqAvatar對輸入序列的運動資訊進行層次化建模,以解決人體姿態與外觀的複雜對映問題。
研究背景
近年來,三維高斯潑濺(3D Gaussian Splatting, 3DGS)在數字人建模中展現出極高的效率和渲染質量,成為新一代即時可驅動數字人的重要技術路線。
現有方法多借助 SMPL(-X) 骨架結構與線性蒙皮(Linear Blend Skinning, LBS)機制,從 T-pose 高斯人體表示出發,逐幀迴歸非剛性變形場,以實現不同人體姿態下的渲染。
然而,此前的人體驅動方式往往僅依賴於單幀骨架姿態這一全域性條件,難以捕捉遠離骨架區域的非剛性細節,因此在人物穿著寬鬆衣物、進行復雜運動等景下,常出現形變模糊、衣物反應遲滯等現象,降低了渲染的保真度。
此外,現有基於高斯驅動的方法在建模非剛性變形時往往忽略了時間序列中的動態變化,其所依賴的人體姿態條件僅描述了當前幀的人體結構,無法刻畫同一姿態在不同運動階段所對應的外觀差異,導致出現“同姿異形”的模糊對映問題。
雖然部分基於 NeRF 的方法嘗試引入姿態殘差等時序編碼機制,但由於缺乏對區域性運動細節的顯式建模,仍難以精準刻畫細粒度的人體外觀變化。
為解決上述挑戰,本文提出一種適用於 3DGS 的層次化運動上下文建模方法,結合骨架級整體運動到單個高斯級的點運動,顯式引入時序與區域性資訊,以提升非剛性變形建模能力。
透過空間與時間的多尺度的取樣策略,模型能夠更魯邦地建模高斯點的動態變化,在保持建模精度的同時增強對複雜動作與區域性細節的表達能力。
方法概覽
▲ SeqAvatar框架
SeqAvatar 採用標準的 SMPL 骨架以及 LBSLinear Blend Skinning)形變機制,實現 T-pos到任意姿態的高質量渲染與動畫
為了解決動態場景中人體姿態與外觀的一對多複雜對映問題,以及實現更細粒度的人體建模,SeqAvatar提出了一種由粗到細的層次化運動上下文資訊。具體而言,人體骨架整體的時序運動資訊以及每個高斯點的運動狀態均會作為非剛性形變預測網路的條件輸入,從而更精確地建模人體的非剛性形變。
此外,SeqAvatar 提出了一種時空多尺度取樣策略,將不同時間視窗以及空間上臨近高斯點的運動狀態共同作為條件輸入,透過結合長期與短期的時序運動變化以及區域性的空間運動差異,來進一步提高預測的魯棒性。
由粗到細的層次化運動上下文資訊
SeqAvatar 透過引入更豐富的時序運動資訊來更好的解決靜態人體姿態無法建模複雜運動中人體姿態與外觀的複雜對映問題。具體而言,人體時序資訊分為全域性的骨架運動和細粒度的高斯點運動兩部分。
給定  個等間隔  取樣等前序時間幀:
全域性的骨架運動資訊計算方式如下:
其中  表示軸角形式下兩個人體骨架的差異。
這一骨架運動資訊用於描述人體整體的運動資訊,為了實現更細粒度的非剛性變形建模, SeqAvatar 對每個高斯點的運動狀態進行建模。一種思路是,像計算人體骨架的運動資訊那樣去計算前後幀每個高斯點的位置差異來描述每個高斯點的運動狀態。
然而,計算觀測空間下高斯點的位置差異需要先對標準空間下 T-pose 的人體高斯點進行變換(這其中包括期望預測的非剛體形變),會造成迴圈依賴。因此,SeqAvatar 採用一種折中的方式,透過取樣 SMPL 模版的速度資訊來為每個高斯點新增運動狀態描述。
具體而言,首先將標準空間下 T-pose 高斯點透過 LBS 變換至觀測空間:
其中,  為 SMPL 模版點,  為每個關節點的變換矩陣,  為 LBS 權重。由此,可以計算出前後兩幀中 SMPL 模版的速度資訊:
基於上述兩種運動描述資訊,可以透過一定的取樣策略來獲取用於預測非剛性變形的條件。
時空多尺度取樣
在空間維度上,為了更魯邦地獲取細粒度的高斯點運動條件,對於每一個高斯點,SeqAvatar 從 SMPL 速度模版上取樣 個近鄰點的速度用於描述其運動狀態,並作為條件輸入至非剛性變形網路。
在時間維度上,為了捕捉人體整體運動趨勢和幀間運動細節,SeqAvatar 採用了多尺度序列取樣策略。
具體而言,取樣若干間隔逐步增加的時序序列,以獲得跨越不同時間視窗的人體運動資訊:
其中, 為取樣間隔的增加率, 為所有間隔的集合。在取樣時,會根據不同的間隔  取樣若干序列,並將這些序列的運動資訊共同作為條件輸入非剛性形變網路。
最佳化
透過上述方法取樣得到運動條件並輸入非剛性變形網路後,可以根據預測得到的非剛性變形結果更新每個高斯點的位置:
然後根據標準 LBS 流程將高斯點變換至觀測空間下並進行渲染:
並計算損失、更新高斯引數:
實驗效果
▲ I3D-Human資料集上的定量結果
▲ DNA-Rendering資料集上新視角渲染效果對比(左:RGB,右:Error Map)
DNA-Rendering資料集上新視角渲染效果對比
 DNA-Rendering資料集上新視角渲染效果對比
I3D-Human資料集上新姿態渲染效果對比(左:RGB,右:Error Map)
總結一下
ToMiE 與 SeqAvatar 分別從空間結構和時序建模兩個維度拓展了 3D Gaussian Splatting 在複雜人體建模中的表達能力。
ToMiE 聚焦結構層面,透過梯度引導策略實現顯式骨架結構的自動生長與繫結最佳化,提升對手持物體與寬鬆衣物的建模與動畫表現;SeqAvatar 聚焦動態建模,引入分層時空上下文條件來預測非剛性高斯變形,從而更穩定地表達複雜動作下的外觀變化。
兩者均可整合至 3DGS 框架,在保證建模精度的同時顯著提升了數字人驅動與渲染的真實性,為高保真、可動畫的三維數字人重建提供了更具泛化性與靈活性的解決方案。
更多閱讀
#投 稿 通 道#
 讓你的文字被更多人看到 
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。 
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析科研心得競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝 稿件基本要求:
• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標註 
• 稿件建議以 markdown 格式撰寫,文中配圖以附件形式傳送,要求圖片清晰,無版權問題
• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬 投稿通道:
• 投稿郵箱:[email protected] 
• 來稿請備註即時聯絡方式(微信),以便我們在稿件選用的第一時間聯絡作者
• 您也可以直接新增小編微信(pwbot02)快速投稿,備註:姓名-投稿
△長按新增PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜尋「PaperWeekly」
點選「關注」訂閱我們的專欄吧
·


相關文章