CVPR2025|VAST和北航開源MIDI，從單張影像端到端生成三維組合場景

本文的主要作者來自 VAST、北京航空航天大學、清華大學和香港大學。本文的第一作者為北京航空航天大學碩士生黃澤桓，主要研究方向為生成式人工智慧和三維視覺。本文的通訊作者為 VAST 首席科學家曹炎培和北京航空航天大學副教授盛律。

在 Sora 引爆世界模型技術革命的當下，3D 場景作為物理世界的數字基座，正成為構建動態可互動 AI 系統的關鍵基礎設施。當前，單張影像生成三維資產的技術突破，已為三維內容生產提供了 "從想象到三維" 的原子能力。

然而，當技術演進到組合式場景生成維度時，單物體生成正規化的侷限性開始凸顯：現有方法生成的 3D 資產如同散落的 "數字原子"，難以自組織成具有合理空間關係的 "分子結構"。這導致幾個核心挑戰：① 例項分離困境（如何從單檢視準確解耦交疊物體）② 物理約束建模（如何避免穿模的不合理互動）③ 場景級語義理解（如何保持物體功能與空間佈局的一致性）。這些瓶頸嚴重製約著從 "數字原子" 到 "可互動世界" 的構建效率。

最近，來自北航、VAST 等機構的研究團隊推出了全新的模型 —— MIDI，它能夠從單張影像生成高几何質量、例項可分離的 3D 組合場景，在單檢視 3D 場景生成領域取得了突破性進展，為可互動世界生成奠定基礎。

論文連結：https://arxiv.org/abs/2412.03558
專案主頁：https://huanngzh.github.io/MIDI-Page/
程式碼倉庫：https://github.com/VAST-AI-Research/MIDI-3D
線上 Demo：https://huggingface.co/spaces/VAST-AI/MIDI-3D

技術突破：從單張影像到三維組合場景的關鍵創新

傳統的組合式 3D 場景重建技術往往依賴於多階段的逐個物體生成和場景最佳化，流程冗長且生成的場景往往幾何質量低、空間佈局不準確。為解決這些問題，MIDI （Multi-Instance Diffusion Model）創新性地利用了三維物體生成模型，將其擴充套件為多例項擴散模型，能夠同時生成具有精確空間關係的多個 3D 例項，實現了高效高質量的 3D 場景生成：

單物體到多例項生成的跨越：透過同時去噪多個 3D 例項的潛在表示，並在去噪過程中引入多例項標記之間的互動，MIDI 將 3D 物體生成模型擴充套件至同時生成有互動建模的多例項，而後直接組合為 3D 場景。
多例項自注意力機制：透過將物體生成模型的自注意力擴充套件至多例項自注意力，MIDI 在生成過程中有效捕獲例項間的空間關聯和整體場景的連貫性，而無需逐場景的佈局最佳化。
訓練階段的資料增強：透過使用有限的場景資料監督 3D 例項間的互動，同時結合物體資料進行增強訓練，MIDI 有效建模場景佈局的同時保持了預訓練的泛化能力。

效果展示

基於單張影像，MIDI 可以生成高質量的組合式 3D 場景：