點選下方卡片,關注“CVer”公眾號
AI/CV重磅乾貨,第一時間送達
AI/CV重磅乾貨,第一時間送達
新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球!可以獲得最新頂會/頂刊上的論文idea和CV從入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!
新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球!可以獲得最新頂會/頂刊上的論文idea和CV從入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!

導讀
本文提出了 MMGDreamer,一種基於混合模態圖(Mixed-Modality Graph)的雙分支擴散模型,用於實現幾何精準可控的3D室內場景生成。該方法透過引入混合模態節點(支援文字、影像或混合輸入)、視覺增強模組(增強文字節點的視覺特徵)和關係預測器(推斷缺失的物體間關係),顯著提升了場景生成的幾何控制能力和整體真實性,在多項指標上達到SOTA效能。

論文:https://arxiv.org/abs/2502.05874
yangzhifeio.github.io/project/MMGDreamer
程式碼:github.com/yangzhifeio/MMGDreamer
引言
在虛擬現實、室內設計等領域,生成高真實感且幾何可控的3D場景是一項關鍵挑戰。現有方法主要依賴文字描述構建場景圖,但文字難以精確描述物體幾何細節,且無法靈活支援多模態輸入。為此,我們提出了MMGDreamer,其核心亮點包括:
🔹混合模態圖 (MMG) :允許節點融合文字與影像資訊,同時支援靈活關係設定,使生成的3D場景更具可控性。
🔹視覺增強模組 (Visual Enhancement Module) :基於文字表示構造視覺特徵,提升僅文字輸入時的物體幾何控制生成能力。
🔹關係預測模組 (Relation Predictor) :利用圖卷積網路(GCN)推測缺失的物體關係,使場景佈局更合理。
🔹雙分支擴散模型 (Dual-Branch Diffusion Model) :分別處理場景佈局和物體形態,提高生成質量。

研究背景與動機
-
可控 3D 場景生成:在虛擬現實和室內設計等領域,生成具有高度真實感和可控性的 3D 場景具有重要應用價值。場景圖(Scene Graph)作為一種資料表示方式,能夠有效抽象場景內容和物體間的關係,便於場景的生成和操縱。
-
現有方法的侷限性:當前基於圖的方法主要依賴文字輸入,難以精確描述生成場景中物體的幾何形狀,導致對物體幾何形狀的控制不足。此外,這些方法對使用者輸入的靈活性較差,限制了其在實際應用中的表現。
方法
1. 輸入表示:混合模態圖(Mixed-Modality Graph, MMG)

2. 圖增強模組(Graph Enhancement Module)
圖增強模組的作用是進一步提升混合模態圖的表現力和完整性,分為兩個關鍵子模組:
(1) 視覺增強模組(Visual Enhancement Module)

(2) 關係預測器(Relation Predictor)

3. 雙分支擴散模型(Dual-Branch Diffusion Model)
雙分支擴散模型負責生成最終的3D場景,包括場景的佈局(Layout)與物體的幾何形狀(Shape):
(1) 圖編碼器(Graph Encoder)

(2) 佈局分支(Layout Branch)

(3) 形狀分支(Shape Branch)

4. 模型訓練與推理策略(Training & Inference)
模型訓練分為兩個階段:
-
第一階段:分別訓練視覺增強模組和關係預測器,獨立最佳化以提升節點的視覺特徵與關係預測精度。
-
第二階段:以混合模態圖作為輸入,同時最佳化圖編碼器和佈局、形狀分支的雙分支擴散模型。
推理階段:
-
從混合模態圖開始,依次經過視覺增強模組和關係預測器生成混合增強圖。
-
最終透過雙分支擴散模型生成高質量、佈局合理、幾何精準的3D室內場景。

實驗結果
定量實驗
為客觀評估MMGDreamer模型生成場景的真實感與幾何控制能力,我們採用了 FID(Fréchet Inception Distance)、FIDCLIP 和 KID(Kernel Inception Distance) 三個權威指標,在SG-FRONT資料集上與當前最新的場景生成方法EchoScene進行了對比評測。
實驗結果表明,當使用混合模態節點進行場景圖表達時,MMGDreamer顯著優於EchoScene。尤其是在生成客廳場景時,MMGDreamer(同時啟用視覺增強模組與關係預測模組,即MM+R)表現出了明顯優勢,FID指標降低了9%,FIDCLIP指標降低了8%,KID指標降低了33%

定性實驗
為了更直觀地展示MMGDreamer的優勢,我們進一步選取臥室、餐廳與客廳三種典型室內場景進行視覺效果的對比分析:
-
臥室場景:MMGDreamer準確生成了床和床頭櫃等物體的精確幾何結構,而Graph-to-3D和EchoScene方法則存在明顯的幾何扭曲與不連貫現象。
-
餐廳場景:在生成椅子靠背和餐具櫃等複雜物體時,Graph-to-3D和EchoScene方法出現了嚴重的幾何變形和細節缺失問題。相比之下,MMGDreamer不僅保留了物體的準確幾何結構,還精準還原了餐具櫃上複雜的細節裝飾。
-
客廳場景:針對複雜的客廳環境,MMGDreamer準確生成了沙發、咖啡桌與燈具,並保證了物體之間空間佈局的連貫性,生成物體與輸入影像高度一致。反觀其他方法,則頻繁出現傢俱幾何扭曲或細節缺失的問題。例如,EchoScene生成的沙發表面存在明顯孔洞,顯著偏離真實幾何形態。

物體級生成質量分析(Object Generation)
除了場景整體的表現,我們進一步分析了單個物體的生成效果,採用了經典的點雲評估方法PointFlow,並選用 MMD(Minimum Matching Distance)、COV(Coverage) 和 1-NNA(1-Nearest Neighbor Accuracy) 三項指標,從精細幾何控制和分佈相似度兩個維度進行深入評測。實驗結果表明,MMGDreamer在物體級的生成質量上展現出高度的幾何精準性與一致性。

結論
本文提出了MMGDreamer,一種基於混合模態圖(Mixed-Modality Graph)和雙分支擴散模型的新型3D室內場景生成框架。MMGDreamer透過靈活融合文字與視覺資訊,有效解決了傳統方法模態單一、幾何控制精度不足的問題。同時,視覺增強模組顯著提升了物體的幾何細節生成能力,關係預測器有效補全了缺失的物體關係,優化了整體場景的佈局合理性。大量實驗表明,MMGDreamer在多個關鍵指標上超越了當前主流方法,成功實現了精準可控、真實且連貫的3D室內場景生成,為虛擬現實、增強現實、室內設計及遊戲開發等領域提供了有力的技術支援與廣泛的應用前景。
何愷明在MIT授課的課件PPT下載
何愷明在MIT授課的課件PPT下載
CVPR 2025 論文和程式碼下載
CVPR 2025 論文和程式碼下載
ECCV 2024 論文和程式碼下載
ECCV 2024 論文和程式碼下載
CV垂直方向和論文投稿交流群成立
一定要備註:研究方向+地點+學校/公司+暱稱(如Mamba、多模態學習或者論文投稿+上海+上交+卡卡),根據格式備註,可更快被透過且邀請進群
▲掃碼或加微訊號: CVer2233,進交流群
CVer計算機視覺(知識星球)來了!想要了解最新最快最好的CV/DL/AI論文速遞、優質實戰專案、AI行業前沿、從入門到精通學習教程等資料,歡迎掃描下方二維碼,加入CVer計算機視覺(知識星球),已彙集上萬人!
▲掃碼加入星球學習
▲點選上方卡片,關注CVer公眾號
整理不易,請點贊和在看

▲掃碼或加微訊號: CVer2233,進交流群
CVer計算機視覺(知識星球)來了!想要了解最新最快最好的CV/DL/AI論文速遞、優質實戰專案、AI行業前沿、從入門到精通學習教程等資料,歡迎掃描下方二維碼,加入CVer計算機視覺(知識星球),已彙集上萬人!

▲掃碼加入星球學習
▲點選上方卡片,關注CVer公眾號
整理不易,請點贊和在看
