
本文介紹由多倫多大學,北京交通大學,德克薩斯大學奧斯汀分校和劍橋大學團隊最新提出的 4D 生成擴散模型,該方法可以在幾分鐘之內可以完成時空一致的 4D 內容生成。Diffusion4D 整理篩選了約 81K 個 4D assets,利用 8 卡 GPU 共 16 執行緒,花費超過 30 天渲染得到了約四百萬張圖片,包括靜態 3D 物體環拍、動態 3D 物體環拍以及動態 3D 物體前景影片。
該方法是首個利用大規模資料集,訓練影片生成模型生成 4D 內容的框架,目前專案已經開源所有渲染的 4D 資料集以及渲染指令碼。

專案地址:
https://vita-group.github.io/Diffusion4D/
論文地址:
https://arxiv.org/abs/2405.16645

研究背景
過去的方法採用了 2D、3D 預訓練模型在 4D(動態 3D)內容生成上取得了一定的突破,但他們主要依賴於分數蒸餾取樣(SDS)或者生成的偽標籤進行最佳化,同時利用多個預訓練模型獲得監督不可避免的導致時空上的不一致性以及最佳化速度慢的問題。
4D 內容生成的一致性包含了時間上和空間上的一致性,它們分別在影片生成模型和多檢視生成模型中被探索過。基於這個洞見,Diffusion4D 將時空的一致性嵌入在一個模型中,並且一次性獲得多時間戳的跨視角監督。
具體來說,使用仔細收集篩選的高質量 4D 資料集,Diffusion4D 訓練了一個可以生成動態 3D 物體環拍檢視的擴散模型,而後利用已有的 4DGS 演算法得到顯性的 4D 表徵,該方法實現了基於文字、單張影像、3D 到 4D 內容的生成。


4D資料集
為了訓練 4D 影片擴散模型,Diffusion4D 收集篩選了高質量的 4D 資料集。已開源的 Objaverse-1.0 包含了 42K 運動的 3D 物體,在 Objaverse-xl 中包含 323K 動態 3D 物體。然而這些資料包含著大量低質量的樣本,研究者們設計了運動程度檢測、邊界溢位檢查等篩選方法,選取了共 81K 的高質量 4D 資產。
對於每一個 4D 資產,渲染得到了 24 個靜態視角的圖(上圖第一行),24 個動態視角的環拍圖(上圖第二行),以及 24 個正面動態圖(上圖第三行)。總計得到了超過四百萬張圖片,總渲染消耗約 300 GPU 天。其他資料集細節可以參考專案主頁,目前所有渲染完的資料集和原始渲染指令碼已開源,更多資料集使用方法值得探索!

方法
有了 4D 資料集之後,Diffusion4D 訓練具有 4D 感知的影片擴散模型(4D-aware video diffusion model)。過去的影片生成模型通常不具備 3D 幾何先驗資訊,但近期工作如 SV3D,VideoMV 等探索了利用影片生成模型得到靜態 3D 物體的多檢視,因此 Diffusion4D 選用了 VideoMV 作為基礎模型進行微調訓練,使得模型能夠輸出動態環拍影片。
此外設計瞭如運動強度(motion magnitude)控制模組、3D-aware classifier-free guidance 等模組增強運動程度和幾何質量。得益於影片模態具備更強的連貫性優勢,輸出的結果具有很強的時空一致性。

輸出得到動態視角環拍影片後,Diffusion4D 藉助已有的 4D 重建演算法將影片建模得到 4D 表達。具體來說採用了 4DGS 的表徵形式,以及使用粗粒度、細粒度的兩階段最佳化策略得到最終的 4D 內容。從生產環拍影片到重建 4D 內容的兩個步驟僅需花費數分鐘時間,顯著快於過去需要數小時的藉助 SDS 的最佳化式方法。

結果
根據提示資訊的模態,Diffusion4D 可以實現從文字、影像、3D 到 4D 內容的生成,在定量指標和 user study 上顯著優於過往方法。在生成質量上,Diffusion4D 有著更好的細節,更為合理的幾何資訊以及更豐富的動作。更多視覺化結果可以參考專案主頁。


總結
Diffusion4D 是首個利用影片生成模型來實現 4D 內容生成的框架,透過使用超 81K 的資料集、以及精心設計的模型架構實現了快速且高質量的 4D 內容。未來,如何最大程度發揮 4D 資料集價值,如何生成多物體、複雜場景的 4D 內容仍有很大的探索空間!
更多閱讀

#投 稿 通 道#
讓你的文字被更多人看到
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝 稿件基本要求:
• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標註
• 稿件建議以 markdown 格式撰寫,文中配圖以附件形式傳送,要求圖片清晰,無版權問題
• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬 投稿通道:
• 投稿郵箱:[email protected]
• 來稿請備註即時聯絡方式(微信),以便我們在稿件選用的第一時間聯絡作者
• 您也可以直接新增小編微信(pwbot02)快速投稿,備註:姓名-投稿

△長按新增PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜尋「PaperWeekly」
點選「關注」訂閱我們的專欄吧
·
·
