NUS、清華提出STAR:一句話生成高質量4DAvatar,程式碼已開源

©PaperWeekly 原創 · 作者 | Chai Zenghao
單位 | 新加坡國立大學博士生
研究方向 | 3D生成

背景

在計算機圖形學和數字虛擬人領域,從簡單的文字提示生成更真實、可互動的虛擬人物是是目前廣受關注的研究課題。然而,先前的 3D Avatar 生成方法存在一些問題,如生成的人物在動作和細節上往往不夠真實。
新加坡國立大學和清華大學的研究團隊提出了“STAR: Skeleton-aware Text-based 4D Avatar Generation with in-network motion Retargeting”。該演算法透過引入角色相關的骨骼感知技術,能夠從文字描述生成高質量的 4D Avatar,顯著提升了虛擬人物外觀和動作的真實性和自然性。本文將簡要介紹 STAR 演算法的核心創新及其在文字到 Avatar 生成領域的貢獻。
論文連結:
https://arxiv.org/abs/2406.04629
專案主頁:
https://star-avatar.github.io/
程式碼連結:
https://github.com/czh-98/STAR

本文動機

近年來,基於擴散模型的文字到影像生成(T2I generation)領域取得了顯著的進展。透過利用 T2I Diffusion 先驗,從文字描述生成 3D 內容(特別是類人角色)在計算機視覺和圖形學社群引起了廣泛關注。進一步地,4D 角色的建立(即合成具有真實人類動作的可動畫角色)也在電影和遊戲行業中引起了極大關注。
然而,目前主流的基於文字的 4D Avatar 生成通常採用先最佳化後驅動的策略。即,首先透過基於 T2I 的 Score Distillation Sampling(SDS)最佳化 Canonical 3D 表示,生成特定的 3D Avatar;然後再透過給定的動作進行人物驅動。這種典型的生成流程面臨以下主要挑戰,導致現有模型難以生成具有豐富幾何和紋理多樣性以及準確動作的生動 4D Avatar:
  1. 多面問題(Janus-Problem):一些先前的方法僅僅使用T2I擴散模型作為先驗,並依賴於視角相關的文字提示來提供T2I模型稀疏的監督訊號。因此,生成的結果往往不夠精確,並可能出現不同視角下多個人臉的問題。
  2. 域間隙(Domain Gap):由於擴散模型是使用自然姿態下的人臉或人體影像進行訓練的,而當前的文字到 3D 方法則是透過訓練固定姿態的渲染影像來進行訓練的。因此,存在渲染的 2D 影像與真實影像之間的姿態分佈差異。這種基於標準姿態(Canonical Pose)的最佳化存在潛在的域間隙問題,不利於生成具有多樣體型的 3D Avatar。
  3. 動畫穿模(Animation Artifact):當簡單地將文字到動作模型中的源動作應用於目標角色時,由於源模板(如 SMPL 模板)和目標角色之間的骨架和幾何差異,可能會導致錯誤的驅動結果,例如手臂與身體相交等穿模問題。

STAR簡介

為了解決上述挑戰,本文提出了 STAR(如圖所示)。相比於先前的 4D Avatar 生成方法,STAR 的核心在於透過在最佳化過程中考慮骨架(Skeleton)、幾何(Geometry)以及姿勢(Pose)的影響,利用運動重定向(motion retarget)技術獲得更準確的骨架控制訊號,用於 SDS 的最佳化。這一方法顯著提升了 4D Avatar 的生成質量。
▲ 圖1:文字驅動的 4D Avatar 生成:典型的最佳化-驅動流程(上)與本文的方法(下)比較。
最佳化結束後,藉助 mesh 的表示,STAR 能夠靈活地與來自文字、音訊或影片的任意生成的運動結合,併兼容當前的圖形軟體(如 Blender)。給定人物和動作的文字描述,訓練 4D Avatar 的整體演算法流程如下:
▲ 圖2:STAR的訓練演算法偽程式碼表示
STAR 的主要流程如下圖所示,其核心包括以下幾個方面:
▲ 圖3:STAR 整體框架圖。左:給定文字描述,我們使用預訓練的文字到動作模型初始化人體動作。需要注意的是,典型的最佳化-驅動正規化在 4D Avatar 生成中往往會導致不合理的結構和動畫穿模等問題。右:STAR 透過整合重定向的動作來消除基於 SDS 最佳化中的潛在姿態分佈偏差。利用角色相關和遮擋感知的骨架結構,並結合混合的 T2I 和 T2V 擴散模型,提供一致的 3D 先驗。這一流程逐步最佳化幾何、紋理和動作,以端到端的方式生成 4D Avatar。
  • Skeleton-aware, geometry-aware, motion-aware 的訓練過程:在訓練過程中,STAR 透過骨架感知、幾何感知和動作感知來更新幾何和紋理,同時同步調整源動作以匹配個性化 Avatar 的骨架和幾何特徵。這一方法有效提升了 Avatar 的外觀多樣性和動作真實性,顯著減少了最終生成的 4D Avatar 中的穿模問題。
  • 最佳化中的 motion retarget:透過及時更新運動,STAR 能夠獲得更準確的渲染影像,併為 ControlNet 提供骨架條件時提供更精確的結構資訊。這使得渲染的 3D Avatar 與擴散模型中自然姿勢分佈更一致,有助於減少擴散模型先驗與渲染影像之間的域間隙問題。更新的運動和骨架確保具有目標 3D 角色的精確結構資訊,同時保持文字描述的語義一致。
  • 混合 SDS 方法:為了消除時間不一致和視角無關的干擾,STAR 在 T2I 先驗的基礎上,引入了免訓練的 T2V 模型,以提供不同時間和視角下的一致性先驗。同時,STAR 提出了結合了骨架感知、遮擋感知和掩模感知的混合 SDS 方法,以強化視角一致性的監督訊號,從而提高生成質量。
  • 分層 Regularization:為了穩定混合 SDS 的最佳化過程,STAR 提出了分層的正則化方法,透過不同粒度的約束項對全域性體型、頂點偏移和五官結構進行約束。這些約束項有助於提升角色在幾何結構上的合理性,從而改善生成結果的幾何質量和整體外觀。

實驗結果

定性結果表明,STAR 能夠生成具有多樣體型特徵的角色,並透過 3D mesh 表示,在不同視角下展現更真實的動畫效果。每個示例中展示了臉部和身體的紋理(左側)以及法線貼圖(右側)的結果。
▲ 圖4:STAR 生成的 4D Avatar 示例
在定量評估方面,本文利用 CLIP-Score、VQA-Score 和 User Study 驗證了 STAR 相較於先前的一些方法能夠生成更加真實的結果。
▲ 表1:Canonical 3D Avatar 和 4D Avatar 的定量比較。我們使用 CLIP-Score 和 VQA-Score 指標,得分越高表示生成結果與文字描述的一致性越好。
▲ 表2:User Study 結果。我們展示了不同方法在三個方面被選為“最佳”的平均百分比:Q1.幾何質量,Q2.外觀質量,以及 Q3.動作質量。

結論

本文提出了 STAR,一種能夠從文字描述中生成高質量 4D Avatar 的方法。STAR 的關鍵創新在於充分考慮了動作多樣性和真實性對於基於文字生成 4D Avatar 的重要性。與傳統的先最佳化後驅動方法不同,STAR 引入了 Motion Retarget 和 Hybrid SDS 技術,顯著改善了生成的 Avatar 的質量和一致性。透過逐步最佳化幾何、紋理和動作,特別是在解決源模板與目標 Avatar 之間的骨架和幾何差異方面,STAR 展示了在提升虛擬人物生成技術方面的潛力和優越性。
有關更多資訊和細節,歡迎查閱本文、專案主頁以及相關的程式碼。
更多閱讀
#投 稿 通 道#
 讓你的文字被更多人看到 
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。 
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析科研心得競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝 稿件基本要求:
• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標註 
• 稿件建議以 markdown 格式撰寫,文中配圖以附件形式傳送,要求圖片清晰,無版權問題
• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬 投稿通道:
• 投稿郵箱:[email protected] 
• 來稿請備註即時聯絡方式(微信),以便我們在稿件選用的第一時間聯絡作者
• 您也可以直接新增小編微信(pwbot02)快速投稿,備註:姓名-投稿
△長按新增PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜尋「PaperWeekly」
點選「關注」訂閱我們的專欄吧
·
·
·

相關文章