ECCV2024|數字人也懂慣性定律!上海AILab團隊提出3D人體姿態序列建模

©PaperWeekly 原創 · 作者 | Yifan Zhan
單位 | 上海人工智慧實驗室、東京大學
研究方向 | 3D視覺、神經渲染、人體數字重建
論文標題:
Within the Dynamic Context: Inertia-aware 3D Human Modeling with Pose Sequence
論文地址:
https://arxiv.org/abs/2403.19160
專案地址:
https://github.com/Yifever20002/Dyco
▲ 與 HumanNeRF 相比,Dyco 能正確模擬由慣性導致的裙襬運動變化
▲ Dyco 可以模擬不同速度下的運動,如低速裙襬下垂,高速裙襬飄起
研究背景
隨著 NeRF(Neural Radiance Fields)等一眾深度神經渲染方法的興起,傳統方法如基於 SMPL 的人體重建獲得了更高的渲染質量。然而,現有的人體 NeRF 往往依賴預提取的 3D-SMPL 模型進行逐幀訓練,忽略了人體運動上下文導致的外表變化(如旋轉導致的裙襬飄動)。這種逐幀訓練模式為人體建模引入了單幀姿態控制下的外表歧義,即:相近的人體姿態輸入,可能對應截然不同的兩種外表
我們可以關注下圖來充分理解上述的歧義。在一段人體影片觀測中(動作為裙襬隨著旋轉飄起而後落下),我們獲得了四幀外表資訊,分別對應了預提取的四幀 SMPL 姿態(Observation)。注意到第三幀和第四幀具有相近的人體姿態,而外表卻天差地別(裙襬飄起和落下)。
使用傳統的人體 NeRF,在輸入僅由人體姿態控制時,將會得到相似的渲染結果(Rendering中的 Baseline結果)。一種直觀的解決思路是引入額外的控制量來解開歧義(如時間戳),但這種額外輸入將使得泛化到新姿態上變得非常困難。
如何僅透過現有的 SMPL 輸入解開外表歧義,達到高質量渲染,便成了值得研究的問題。在本文中,我們提出 Dyco透過姿態序列而非單幀姿態來控制人體建模,從而在不引入額外輸入的前提下順利解決了單幀姿態下的外表歧義(我們的結果對應上圖 Rendering的 Ours)。
慣性歧義來源和解決思路
SMPL 模型僅能建模人體形狀和動作,卻無法建模人體外部衣料的外觀。因此,僅依賴單幀 SMPL 模型姿態的建模仍然存在固有的外表歧義,無法充分理解衣料的外表變化。我們可以回憶牛頓慣性定律所述:慣性是物體具有保持原來運動狀態的性質
事實上,不同的速度和加速度模式下,人體在相同姿態下外表均會有不同程度的慣性表現,這是現有的人體 NeRF 無法理解的。我們將單幀姿態控制下的外表歧義歸咎為系統缺乏對人體慣性的感知(下文將統一稱為慣性歧義)。
雖然單幀 SMPL 姿態無法感知慣性,但是 SMPL 姿態序列有良好的慣性感知能力,也能夠充分解決慣性歧義。具體地,兩幀相鄰 SMPL 姿態可以獲得速度資訊,而多幀 SMPL 姿態可以獲得加速度資訊,間接反映系統慣性。
因此,我們擬使用 SMPL 姿態序列而非單幀姿態來對人體進行建模,使其獲得較好的解歧義能力。在網路設計上,也許輸入的 SMPL 單幀姿態相同,但當外表不同時,往往意味著一段時間前的 SMPL 姿態序列不同,因此將姿態序列作為輸入更能讓網路感知到慣性。
解決方法
3.1 姿態序列建模
我們注意到,和慣性相關的物理量如速度和加速度均只與相鄰幀姿態變化量有關,因此我們將姿態()序列建模成姿態變化量()的序列。具體地,我們定義一個長度為 , 序列步長為 以及 序列步長為 的 序列為:
其中, 是一個 3K + 3 維向量,代表兩個姿態之間以軸角形式表示的每個關節的旋轉差異以及全域性平移差異。由於 只包含區域性資訊,因此實際使用時我們將這部分內容與當前全域性姿態 結合。我們使用結合後的姿態序列資訊作為非剛體形變和顏色對映的輸入條件,來取代傳統人體 NeRF 僅使用 的逐幀建模。
3.2 區域性動態上下文編碼器
為了進一步提取 中的有效資訊並防止過擬合,我們額外提出了區域性動態上下文編碼器Localized Dynamic Context Encoder模組。我們從人體運動的基本觀察中,大部分衣料的運動只和它們直接附著的運動鏈有關(如袖子由手部控制,而裙子由腰部控制),因此我們提出運動鏈引導的衣料控制掩碼Kinematically-guided Masking

,並將
中與當前點運動鏈不相關的姿態成分置零。

在空間上,我們將每一組 透過 MLP 降維成 16 維向量,在時間上,我們進一步將 維的特徵壓縮成 32 維。生成的 32 維 特徵與座標和 結合,並作為後續非剛體形變和顏色對映的輸入。下圖展示了我們的方法的完整流程。
I3D-Human資料集

目前的多視角人體資料集,如 ZJU-MoCap、PeopleSnapshot 和 Human3.6M,都是在限制速度和緊身服裝下采集的,消除了慣性引起的動態效應。這一限制使我們無法測試模型真正解決慣性歧義的能力。

為了解決這一問題,我們提出了一個針對這類問題的全新資料集,名為慣性感知 3D 人體(I3D-Human)資料集該資料集側重於捕捉在大致相同姿態下服裝外觀的變化。
與現有資料集著裝相比,我們為被試者穿上寬鬆的服裝,如連衣裙和輕便外套,並進行復雜的加減速運動,如旋轉後的突然停止、擺動和袖子的揮動。我們使用 10 臺 DJI Osmo Action 相機,並以 100 幀/秒的幀率拍攝,使用音訊訊號同步。最終處理的資料集記錄了來自 6 個動作 id 的總共 10,000 幀的序列。
部分實驗結果
5.1 渲染效果
為了比較動態渲染的效果,我們引入了新的評價指標動態運動誤差 DME(dynamic motion error),這是一種基於光流的評價指標:
我們在 I3D-Human 資料集上與主流的人體 NeRF 方法進行了比較,結果如下:
5.2 慣性模擬(速度及加速度)
我們設計新的慣性姿態來驗證 Dyco能夠正確建模慣性因素與外觀變化之間的關聯。
速度方面,我們透過改變 SMPL 姿態的速度(手動修改步長)來建立新的動態速度上下文。我們驚喜地發現,在不同速度模式下(不同 ),Dyco能渲染出不同的運動效果,如低速裙襬基本垂下,而高速裙襬飄起,這與慣性效應相吻合。
加速度方面,我們透過設計一段急停的 SMPL 姿態(強制後半段姿態保持不變)來模擬人突然停止時裙襬後續的運動,建立新的動態加速度上下文。Dyco同樣能自然模擬裙襬從飄起到下落的一系列動作,而傳統人體 NeRF 無法做到。

結尾

在這項工作中,我們介紹了 Dyco

,這是一種新穎的人體運動建模方法,結合姿態序列來解決由不同動態上下文引起的慣性歧義問題。我們認為,人體外觀不僅受到當前幀姿態的影響,還受到過去運動姿態的影響,而這些影響可以透過姿態序列充分捕捉。

為了減輕在過度依賴姿態序列的過擬合問題,我們設計了一個區域性動態上下文編碼器。這種方法使我們能夠解決由動態上下文引起的慣性歧義,並提高寬鬆服裝下人體的渲染質量。I3D-Human 資料集解決了以往資料集中速度差異過小,衣料過度貼身等問題,並推進了對複雜衣著和速度模式下人體運動的研究。最後,歡迎大家點🌟!
更多閱讀
#投 稿 通 道#
 讓你的文字被更多人看到 
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。 
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析科研心得競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝 稿件基本要求:
• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標註 
• 稿件建議以 markdown 格式撰寫,文中配圖以附件形式傳送,要求圖片清晰,無版權問題
• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬 投稿通道:
• 投稿郵箱:[email protected] 
• 來稿請備註即時聯絡方式(微信),以便我們在稿件選用的第一時間聯絡作者
• 您也可以直接新增小編微信(pwbot02)快速投稿,備註:姓名-投稿
△長按新增PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜尋「PaperWeekly」
點選「關注」訂閱我們的專欄吧
·
·
·

相關文章