ICLR2025|南洋理工大學AvatarGO,探索4D人與物體互動生成新方法

AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報道。投稿郵箱:[email protected][email protected]
近年來,隨著擴散模型和 Transformer 技術的快速發展,4D 人體 – 物體互動(HOI)的生成與驅動效果取得了顯著進展。然而,當前主流方法仍依賴 SMPL [1] 這一人體先驗模型來生成動作。儘管這些方法已取得令人矚目的成果,但由於 SMPL 在衣物表現上的侷限性,以及缺乏大規模真實互動資料的支援,它們依然難以生成日常生活中的複雜互動場景。     
相比之下,在 2D 生成模型中,由於大語言模型和海量文字 – 圖片資料的支援,這一問題得到了有效的解決。2D 生成模型如今能夠快速生成高度逼真的二維場景。而且,隨著這些技術被引入到 3D 和 4D 生成模型中,它們成功地將二維預訓練知識遷移到更高維度,推動了更精細的生成能力。然而,在處理 4D 人體 – 物體互動時,這些 3D/4D 生成的方法依然面臨兩個關鍵挑戰:(1)物體與人體的接觸發生在何處?又是如何產生的?(2)如何在人體與物體的動態運動過程中,保持它們之間互動的合理性?     
為了解決這一問題,南洋理工大學 S-Lab 的研究者們提出了一種全新的方法:AvatarGO。該方法不僅能夠生成流暢的人體 – 物體組合內容,還在有效解決穿模問題方面展現了更強的魯棒性,為以人為核心的 4D 內容創作開闢了全新的前景。      
想深入瞭解 AvatarGO 的技術細節?我們已經為你準備好了完整的論文、專案主頁和程式碼倉庫!
  • 論文地址:https://arxiv.org/abs/2410.07164
  • Project Page:https://yukangcao.github.io/AvatarGO/
  • GitHub:https://github.com/yukangcao/AvatarGO   
引言
近年來,隨著人體 – 物體(HOI)互動資料集(如 CHAIRS [2], BEHAVE [3])的採集,以及擴散模型和 transformer 技術的迅速發展,基於文字輸入生成 4D 人體動作和物體互動的技術已經展現出了巨大的潛力。然而,目前的技術大多集中於基於 SMPL 的人體動作生成,但它們難以真實呈現日常生活中人物與物體互動的外觀。儘管 InterDreamer [4] 提出了零樣本生成方法,能夠生成與文字對齊的 4D HOI 動作序列,但其輸出仍然受到 SMPL 模型的侷限,無法完全突破這一瓶頸。     
在另一方面,隨著 3D 生成方法和大語言模型(LLM)的快速發展,基於文字的 3D 組合生成技術逐漸引起了廣泛關注。這些技術能夠深度理解複雜物件之間的關係,並生成包含多個主體的複雜 3D 場景。例如,GraphDreamer [5] 透過 LLM 構建圖結構,其中節點代表物件,邊表示它們之間的關係,實現了複雜場景的解耦;ComboVerse [6] 則提出空間感知評分蒸餾取樣技術(SSDS),強化了空間的關聯性。隨後,其他研究 [13, 14] 進一步探索了聯合最佳化佈局以組合不同元件的潛力。但它們在生成 4D HOI 場景時,依然面臨著兩個核心挑戰:
  • 觸區域定義不準確:雖然 LLM 擅長捕捉物體間的關係,但在與擴散模型結合時,如何準確定義物體間的接觸區域,特別是複雜的關節結構如人體,仍然是一個難題。儘管 InterFusion [13] 構建了 2D 人體 – 物體互動資料集,旨在從文字提示中提取人體姿勢,但它們仍在訓練集之外的情況下,無法準確識別人體與物體的最佳接觸部位。
  • 4D 組合驅動的侷限性:儘管 DreamGaussian4D [7] 和 TC4D [8] 利用影片擴散模型對 3D 靜態場景進行動作驅動,但這些方法通常將整個場景視為一個統一主體進行最佳化,從而導致不自然的動畫效果。儘管像 Comp4D [9] 這類專案透過軌跡為每個 3D 物件單獨生成動畫,但物體之間的接觸建模仍然是一個巨大挑戰。
為了解決這些挑戰,AvatarGO 提出了兩項關鍵創新,以解決物體與人體應 “如何互動” 以及 “在哪裡互動” 的問題:
  • LLM 引導的接觸區域重定向(LLM-guided contact retargeting):該方法透過利用 Lang-SAM [10] 從文字中識別出大致的接觸部位,並將其作為最佳化過程的初始化,從而解決了擴散模型在估計接觸區域時的難題。
  • 對應關係感知的動作最佳化(Correspondence-aware motion optimization):基於對靜態合成模型中穿模現象較少發生的觀察,AvatarGO 提出了對應關係感知的運動最佳化方法。該方法將物體的運動分為主動和從動部分,並利用 SMPL-X 作為中介,確保人體和物體在互動過程中保持一致的對應關係。這一創新顯著提高了在運動過程中對穿模問題的魯棒性。      
AvatarGO: 4D 人體 – 物體生成框架
AvatarGO 以文字提示為輸入,生成具有物體互動的 4D 虛擬人物。其框架核心包括:(1)文字驅動的 3D 人體與物體組合(text-driven 3D human and object composition):該部分利用大型語言模型(LLM)從文字中重定向接觸區域,並結合空間感知的 SDS(空間感知評分蒸餾取樣)來合成 3D 模型。(2)對應關係感知的動作最佳化(Correspondence-aware motion optimization):該最佳化方法聯合最佳化人體和物體的動畫,能夠在動畫過程中有效維持空間對應關係,從而提升對穿模問題的魯棒性。     
文字驅動的 3D 人體與物體組合    
現在已有的方法已經可以很快捷高效的生成三維人物

和物體

,但 AvatarGO 的研究人員發現,即使進行手動調整,如重新縮放和旋轉 3D 物體,仍然難以精確地繫結生成的 3D 人體和物體模型。為此,他們首先利用文字提示將人物

和物體

進行組合,透過最佳化其高斯屬性來實現這一目標。同時,他們還優化了物體

的三個可訓練全域性引數,包括旋轉旋轉

、縮放因子

和平移矩陣

:     

其中

是組成物體

的高斯點雲。     

空間感知評分蒸餾取樣(spatial-aware score distillation sampling):沿襲 ComboVerse [6] 的方法,我們採用 SSDS 來促進人體和物體之間的 3D 組合生成。具體而言,SSDS 透過用一個常數因子𝑐(其中𝑐>1)縮放指定標記 < token∗>的注意力圖,從而增強 SDS 與人體和物體之間的空間關係。      
在這裡,<token∗>對應於編碼人體 – 物體互動項的標記,如 <‘holding’>,這些標記可以透過大型語言模型(LLMs)識別,也可以由使用者指定。     
LLM 引導的接觸區域重定向(LLM-guided contact retargeting):雖然空間感知評分蒸餾取樣有助於理解空間關係,但在識別人與物體最合適的接觸區域時仍然面臨困難,而接觸區域卻又是人體 – 物體互動的關鍵組成部分。為了解決這個問題,AvatarGO 提出利用 Lang-SAM [10] 從文字提示中識別接觸區域。具體而言,從 3D 人體模型

出發,AvatarGO 從正面視角渲染該模型生成影像𝐼。然後,將此影像與文字輸入一起,輸入到 Lang-SAM 模型中,以推匯出 2D 分割掩碼

:

其中,<body-part>表示描述人體部位的文字,例如 <‘hand’>。     
隨後,他們透過逆向渲染將 2D 分割標籤反投影到 3D 高斯上。具體來說,對於分割圖上的每個畫素𝑢,他們將掩模值(0或 1)更新回到高斯點雲上: 
其中,

表示第𝑖個高斯點的權重,

是可以投影到畫素 𝑢上的高斯點的集合。

分別表示不透明度、透射率和分割掩碼值。在權重更新後,他們透過將高斯點的權重與預定義的閾值𝑎進行比較,來判斷一個高斯點是否對應於人體部位的分割區域。然後,AvatarGO 根據以下公式初始化平移引數

:  

其中,

,𝑁是人體模型

中高斯點的數量。     

對應關係感知的動作場    
在生成了 3D 人體與物體的組合之後,同步驅動他們帶來了額外的挑戰,其主要是由於潛在的穿模問題。這個問題源於物體缺乏一個明確定義的運動場。為此,AvatarGO 透過使用 SMPL-X 的線性混合蒙皮函式(Linear-blend Skinning)為人體和物體模型建立了運動場,並提出了一種對應關係感知的運動最佳化方法,旨在最佳化物體模型的可訓練全域性引數,即旋轉(

)和平移(

),以提高人體與物體之間穿模問題的魯棒性。首先,SMPL-X 的線性混合蒙皮函式(𝐿𝐵𝑆)可表達為:     

其中,

和

分別表示 SMPL-X 在標準空間和觀察空間下的頂點。

是蒙皮權重,

是仿射變形,可將第𝑘個關節

從標準空間對映到觀察空間,

表示鄰近關節的數量。     

人體驅動:當給定一個基於 SMPL-X 的人體運動序列之後,AvatarGO 會首先構建一個變形場,該變形場由兩部分組成:(1)利用 SMPL-X 線性混合蒙皮函式𝐿𝐵𝑆(⋅)的關節變形,以及(2)基於 HexPlane 特徵學習的非剛性運動 [11]。該變形場可以將點

從標準空間變形到觀察空間中的

:  

其中,

表示基於 HexPlane 的特徵提取網路, 𝑡表示時間戳。

則透過離

最近的標準 SMPL-X 的頂點推導得到。     

物體驅動:與人體驅動類似,AvatarGO 首先將物體定義為剛體,並類似的透過計算物體模型

內的每個高斯點𝑥與其最近的標準 SMPL-X 頂點的變形矩陣

。物體的變形場則可初步被定義為:     

其中,

,

是

中的高斯點總數。     

儘管直接使用 SMPL-X 線性混合蒙皮進行物體動畫可能看起來是一個簡單的解決方案,但它可能導致人體與物體之間的穿模問題。這一問題主要來自於缺乏適當的約束來保持這兩個模型之間的對應關係。     
對應關係感知運動最佳化:透過觀察,作者發現 AvatarGO 在處理不同場景下的靜態合成模型穿模問題時表現出較好的魯棒性。基於這一觀察,作者提出了一種對應關係感知的運動最佳化方法,以保持人體與物體之間的對應關係,從而一定程度上減少穿模問題的出現頻率。具體而言,AvatarGO 將上述運動場

進行擴充套件,加入兩個額外的可訓練引數

:      

其中

是原有運動場

的輸出。     

在透過 SDS 來最佳化這些引數之外,AvatarGO 提出了一種新穎的對應關係感知訓練目標,該目標利用 SMPL-X 作為中介,在人體和物體被驅動轉換到新姿勢時,保持它們之間的對應關係:     
其中,

分別基於

及其對應的 SMPL-X 模型得出。     除了應用 AvatarGO 提出的對應關係感知最佳化方法之外,作者還結合了空間感知 SDS 以及來自 HumanGaussian [12] 的紋理 – 結構聯合 SDS,以增強整體質量:  

其中,

是超引數,用於平衡結構損失和紋理損失的影響,而𝑑表示深度資訊。     

整體上,最佳化人物和物體運動場的損失函式可表達為:
其中,

分別表示用於平衡各自損失的權重。     

實驗    
與其他 3D 生成方法的比較:下方影片對比了 AvatarGO 與 HumanGaussian [12]、GraphDreamer [5]、和 AvatarGO 的一個變種(僅透過 SSDS 最佳化人體和物體之間的關係)。結果表明,1)在沒有大語言模型(LLMs)輔助的情況下,HumanGaussian 難以確定人類與物體之間的空間關聯;2)儘管使用圖結構建立關係,GraphDreamer 仍然在處理有效接觸時存在困惑,導致結果不盡如人意;3)僅透過 SSDS 最佳化

不足以將物體移動到正確的位置。相比之下,AvatarGO 始終能夠精確地實現人類與物體的互動,表現優於其他方法。 

與其他 4D 生成方法的比較:下方影片展示了 AvatarGO 與現有 4D 生成方法(包括 DreamGaussian4D [7],HumanGaussian [12],TC4D [8])的對比。結果表明,1)即使有了人體 – 物體互動影像作為輸入,DreamGaussian4D(採用影片擴散模型)在 4D 驅動時仍然面臨困難;2)HumanGaussian 直接透過 SMPL LBS 函式直接進行的動畫,往往會產生不流暢的效果,特別是對手臂的處理;3)TC4D 面臨與 DreamGaussian4D 類似的問題,同時,它將整個場景視為一個整體,缺乏對單個物體的區域性和大規模運動的處理。相比之下,AvatarGO 能夠持續提供優越的結果,確保正確的關係並具有更好的穿模魯棒性。 
總結 
本文介紹了 AvatarGO,這是首次嘗試基於文字引導生成具有物體互動的 4D 虛擬形象。在 AvatarGO 中,作者提出了利用大語言模型來理解人類與物體之間最合適的接觸區域。同時,作者還提出了一種新穎的對應關係感知運動最佳化方法,利用 SMPL-X 作為中介,增強了模型在將 3D 人體和物體驅動到新姿勢時,抵抗穿模問題的能力。透過大量的評估實驗,結果表明 AvatarGO 在多個 3D 人體 – 物體對和不同姿勢下,成功實現了高保真度的 4D 動畫,並顯著超越了當前的最先進技術。     
侷限性:在為以人為中心的 4D 內容生成開闢新途徑的同時,作者同時也認識到 AvatarGO 存在一定的侷限性:     
1. AvatarGO 的流程基於 “物體是剛性體” 的假設,因此不適用於為非剛性內容(如旗幟)生成動畫;      
2. AvatarGO 的方法假設物體與人體之間持續接觸,這使得像 “運籃球” 這樣的任務難以處理,因為在某些時刻人與物體不可避免地會斷開連線。      
參考文獻   
[1] SMPL: A Skinned Multi-Person Linear Model. SIGGRAPH 2015.    
[2] Full-Body Articulated Human-Object Interaction. arXiv 2212.10621.   
[3] BEHAVE: Dataset and Method for Tracking Human Object Interactions. CVPR 2022.     
[4] InterDreamer: Zero-Shot Text to 3D Dynamic Human-Object Interaction. NeurIPS 2024.  
[5] GraphDreamer: Compositional 3D Scene Synthesis from Scene Graphs. CVPR 2024.     
[6] ComboVerse: Compositional 3D Assets Creation Using Spatially-Aware Diffusion Guidance. ECCV 2024.     
[7] DreamGaussian4D: Generative 4D Gaussian Splatting. arXiv 2312.17142.     
[8] TC4D: Trajectory-Conditioned Text-to-4D Generation. ECCV 2024.    
[9] Comp4D: Compositional 4D Scene Generation. arXiv 2403.16993.    
[10] Language Segment-Anything. https://github.com/luca-medeiros/lang-segment-anything     
[11] HexPlane: A Fast Representation for Dynamic Scenes. CVPR 2023    
[12] HumanGaussian: Text-Driven 3D Human Generation with Gaussian Splatting. CVPR 2024     
[13] InterFusion: Text-Driven Generation of 3D Human-Object Interaction. ECCV 2024.     
[14] Disentangled 3d scene generation with layout learning. ICML 2024. 
[15] Gala3D: Towards Text-to-3D Complex Scene Generation via Layout-guidedGenerative Gaussian Splatting. ICML 2024
© THE END 
轉載請聯絡本公眾號獲得授權
投稿或尋求報道:[email protected]


相關文章