ICLR2025|原生3D+流匹配,現有SOTA被GaussianAnything超越

蘭宇時,MMLab@NTU博士生,導師為 Chen Change Loy。本科畢業於北京郵電大學,目前主要研究興趣為基於神經渲染的 3D 生成模型、3D 重建與編輯。
儘管 3D 內容生成技術取得了顯著進展,現有方法仍在輸入格式、潛空間設計和輸出表示上面臨挑戰。
在 ICLR 2025 中,來自南洋理工大學 S-Lab、上海 AI Lab、北京大學以及香港大學的研究者提出的基於 Flow Matching 技術的全新 3D 生成框架 GaussianAnything,針對現有問題引入了一種互動式的點雲結構化潛空間,實現了可擴充套件的、高質量的 3D 生成,並支援幾何-紋理解耦生成與可控編輯能力。
該方法在 Objaverse 資料集上進行了大規模訓練,並在文字、影像、點雲引導的 3D 生成任務中超越了現有的原生 3D 生成方法。
目前,專案所有模型和測試/訓練程式碼均已全面開源至 Github/Huggingface, 並支援多卡、自動混合精度 (AMP) 訓練、flash-attention 以及 BF16 等加速技巧。
  • 論文專案主頁: https://nirvanalan.github.io/projects/GA/
  • 論文程式碼: https://github.com/NIRVANALAN/GaussianAnything
  • Gradio demo 地址: https://huggingface.co/spaces/yslan/GaussianAnything-AIGC3D
  • 個人主頁: https://nirvanalan.github.io/
  • 論文標題:GaussianAnything: Interactive Point Cloud Latent Diffusion for 3D Generation
研究背景
近年來,以可微渲染和生成模型為核心的神經渲染技術 (Neural Rendering) 取得了快速的進展,在新視角合成、3D 物體生成和編輯上取得了令人滿意的效果。在統一圖片/影片生成的 LDM 框架的基礎上,近期關於原生 (native) 3D diffusion model 的研究也展現了更優的泛化性,更快的生成速度與更好的可編輯性。
然而,一些關於原生 3D diffusion 模型的設計挑戰仍然存在: (1) 3D VAE 輸入格式,(2) 3D 隱空間結構設計,(3) 3D 輸出表徵選擇。
為了解決上述問題,研究者提出基於 Flow Matching 的可控點雲結構化隱空間 3D 生成模型 GaussianAnything,支援多模態可控的高效、高質量的 3D 資產生成。
方法
方法概覽圖 (3D VAE 部分):

研究者提出的 3D-aware flow matching 模型主要包含以下三個部分:
  1. 利用編碼器 (3D VAE Encoder) 將 3D 物體的 RGB-D (epth)-N (ormal) 多檢視渲染圖壓縮到點雲結構的 3D 隱空間。
  2. 在 3D 隱空間中訓練幾何 + 紋理的級聯流匹配模型 (Flow Matching model), 支援圖片、文字、和稀疏點雲引導的 3D 物體生成。
  3. 使用 3D VAE Decoder 上取樣生成的點雲隱變數,並解碼為稠密的表面高斯 (Surfel Gaussian)。
Point-cloud structured 3D VAE
結構化的高效、高質量 3D 壓縮
高效的 3D 物體編碼
首先,和圖片/影片 LDM 模型類似,3D 隱空間生成模型也同樣需要與之適配的 3D VAE 模型,且該模型的效果決定了 3D 生成模型的上限。因此,研究者採取了以下設計來提升原生 3D VAE 的效能:
在 3D 編碼器端,相較於目前普遍使用的基於稠密點雲 (dense point cloud) 的方法 (CLAY [1], Craftsman [2]), 研究者選擇使用多檢視 RGB-D (epth)-N (ormal) 渲染圖來作為輸入 3D 物體的等效表達,並聯合 Plucker 相機編碼一起共 15 維資訊

作為多檢視編碼器的輸入。

為了更好地編碼多檢視輸入,相較於直接使用影像/影片領域常見的 U-Net 模型,研究者使用基於 3D-attention 的 Transformer [3] 結構來處理多檢視輸入

相較於使用稠密點雲作為輸入的方法,本文的 3D VAE Encoder 更高效自然地擁有來自多種輸入格式的豐富的 3D 資訊,並能夠同時壓縮顏色與幾何資訊。

基於 3D 點雲結構化隱空間表達
雖然上述過程已經將 3D 物體壓縮為 multi-view latent

 , 本文中研究者認為該隱空間並不適合直接用於 3D diffusion 的訓練。首先,

的維度

較高,在高解析度下訓練開銷巨大。其次,multi-view latent

並非原生的 3D 表達,無法直觀靈活地用於 3D 編輯任務.

為了解決上述缺陷,研究者提出在點雲結構的 3D 隱空間表達進行 3D diffusion 的學習。具體地,他們使用 Cross Attention 操作

將特徵

投影到從輸入物體表面取樣得到的稀疏的 3D 點雲 上。最終的點雲結構化隱變數

被用於 diffusion 生成模型的訓練。

高質量 3D 高斯上取樣/解碼
在得到點雲結構化隱變數後,研究者首先使用 3D Transformer 結構對其進一步解碼

,得到深層次特徵。

在此基礎上,他們透過 K 個上取樣模組將低解析度點雲逐步上取樣至高解析度高斯點雲,其中每一個模組都由 transformer 實現: 

該設計同時支援不同細節層次 (Level of Details) 的 3D 資產輸出,提升了本文方法的實用性。

與此同時,該上取樣設計能夠有效保證較高的高斯利用率 (98% 以上),而傳統多檢視方法 (LGM) 由於視角重疊問題僅有 50% 的高斯利用率。
VAE 模型訓練
本文的 3D VAE 模型可端到端學習,並同時使用 2D Rendering loss 和幾何 loss 共同監督:
其中

為多檢視重建損失,

為 VAE KL 約束,

約束物體表面幾何,

用於提升 3D 材質真實性。在實驗資料上,研究者使用目前最大規模的開源 3D 資料集 Objaverse 來進行 VAE 訓練,並公佈了 DiT-L/2 尺寸的 VAE 預訓練模型供使用者使用。

Cascaded 3D Generation with Flow Matching
級聯 3D 生成框架
在第二階段,研究者在訓練完成的 3D VAE space 上進行 Flow Matching 訓練。在使用文字/單目影像作為輸入條件時,他們均使用 Cross Attention 進行條件資訊編碼並送入 DiT 框架中進行訓練。同時分為兩個階段單獨學習幾何 (稀疏點雲) 和紋理 (點雲結構的低維特徵)。
具體而言,研究者首先訓練一個稀疏點雲上的 Flow Matching 模型:
在此基礎上,研究者將點雲輸出作為條件資訊進一步輸出細節紋理特徵:
該生成正規化有效的支援了幾何 – 紋理解耦的生成與編輯。
實驗結果
Image-conditioned 3D Generation | 圖生 3D
考慮到 3D 內容創作更多采用圖片作為參考,本文方法同樣支援在給定單目影像條件下實現高質量 3D 生成。相比於多檢視生成 + 重建的兩階段方法,本文方案在 3D 生成效果、多樣性以及 3D 一致性上有更穩定的表現:
數值結果:
視覺化結果:
Text-conditioned 3D Generation | 文生 3D
在大規模 3D 資料集 Objaverse 上,研究者基於 Flow Matching 的 3D 生成模型支援從文字描述直接生成豐富,帶有細節紋理的高質量 3D 資產,並支援 textured-mesh 的匯出。生成過程僅需數秒即可完成。視覺化對比結果如下:
在數值指標上,GaussianAnything 同樣優於投稿時最優的原生 text-conditioned 3D 生成方法。
更多內容請參考原論文與專案主頁。
Reference
[1] CLAY: A Controllable Large-scale Generative Model for Creating High-quality 3D Assets. TOG 2024.
[2] CraftsMan: High-fidelity Mesh Generation with 3D Native Generation and Interactive Geometry Refiner. arXiv 2024.
[3] Scene Representation Transformer: Geometry-Free Novel View Synthesis Through Set-Latent Scene Representations. CVPR 2022.
© THE END 
轉載請聯絡本公眾號獲得授權
投稿或尋求報道:[email protected]


相關文章