淺談空間智慧與空間生成

空間智慧起源和發展現狀

早在1983年，美國心理學家霍華德·加德納在《智慧的結構》一書中就提出了空間智慧（Spatial Intelligence）這個概念，指準確感知視覺世界、對感知到的內容進行改造或修改，並能夠在沒有物理刺激的情況下重新創造視覺經驗的能力。2018年，帝國理工學院的Andrew J. Davison教授進一步提出了“空間人工智慧”（Spatial AI）的概念。他認為空間AI是視覺SLAM（同步定位與地圖構建）技術的延伸，未來將成為智慧機器人和移動裝置的基礎技術。

在2024年TED大會上，被譽為“AI教母”、斯坦福大學李飛飛教授，首次明確提出“空間智慧”作為AI發展的下一個重要里程碑。她認為，空間智慧不僅僅是讓AI“看見”世界，還要讓AI理解三維空間並與之互動，從而實現從視覺識別到真正理解現實世界的跨越。由李飛飛創辦的以空間智慧技術為核心的World Labs，在同年11月釋出了首個空間智慧模型，只需一張圖即可生成一個3D場景，而且具備可互動性和可編輯性，使用者可以在3D場景中自由漫遊，並實現景深控制、滑動變焦和重打光等多種3D效果。幾乎同一時間，DeepMind也釋出了可以實現類似效果的技術—Genie 2，基於單張圖可生成最長1分鐘的場景畫面，而且具備即時互動、物理模擬、空間記憶和多樣化的環境生成等特點。這些技術的突破，標誌著人工智慧開始邁向3D時代。

我們經歷過從1D文字大模型到2D影像/影片大模型的變革，這些經驗告訴我們，高維空間的理解和生成，是很難透過低維模型實現的。正如文字難以完備表達影像/影片的豐富內容，一個3D空間也需要用大量冗餘的影像才能完整覆蓋。現在AI生成的影片，移出畫面的內容再次移進畫面後就難以保證一致性，本質上正是由於2D模型並沒有真正理解3D世界中的多檢視幾何規則。雖然Scaling Law可以一定程度緩解這樣的問題，但需要付出巨大的代價。目前也有一些方法透過蒸餾2D生成模型實現3D生成，但也只能生成單個物體，難以生成整個3D空間，距離空間智慧更是相去甚遠。必須將3D世界已知的幾何和物理規則全面注入到模型的設計和訓練中，才能讓模型真正具備空間智慧。傳統的三維視覺技術，正是利用幾何和物理規則實現3D空間上的三維註冊、重建和理解，也就是空間計算。空間智慧是在傳統空間計算基礎上的進一步發展，可以說是在空間計算加持下的下一代人工智慧大模型，透過讓模型學會3D世界的幾何和物理規則，具備對3D空間的理解、生成和推理能力，全面提升3D空間中的人、機、物、場之間互動融合的自然性和高效性。

空間生成框架構想

實現空間智慧，需要深刻理解空間的內在結構與特性，並能夠對三維空間進行重建或生成。因此，空間生成是空間智慧的關鍵組成部分。空間智慧公司World Labs將場景生成作為首個對外發布的模型，也體現了空間生成在空間智慧研究中的重要性。

與文字生成和影片生成類似，空間生成要解決的首要問題是如何獲取高質量且具備多樣性的資料。然而，與文字和影片資料不同，高質量3D資料獲取的挑戰性要大很多，主要原因包括以下幾個方面：1）3D資料的採集和構建過程通常需要依賴高精度的感測器裝置（如雷射雷達、深度相機等）以及複雜的重建演算法，這導致資料獲取成本顯著高於文字和影像/影片資料；2）3D資料的標註和整理需要專業領域的知識支援，例如對場景中物體的幾何結構、材質屬性以及空間關係的精確描述，這一過程不僅耗時耗力，還容易引入人為誤差；3）3D資料的多樣性和覆蓋率要求更高，因為現實世界中的場景具有極高的複雜性，涵蓋不同的光照條件、空間佈局和動態變化。針對高質量3D資料匱乏這一挑戰，我們浙江大學和商湯科技的聯合研究團隊提出了一個空間生成大模型框架以及實現路徑。該框架基於2D資料與強化學習的協同機制，構建了一個自最佳化的3D資料生成新正規化。實現路徑分為以下三個階段。

圖1. 空間生成框架構想和實現路徑

一開始由於高質量的3D資料匱乏，訓練得到的空間生成大模型的能力還比較有限，難以根據輸入的影像直接輸出一個高質量而且完整的3D場景，更多具備的是三維重建的能力，得到的是一些不完整的3D結構化表達（比如深度、三維點雲等）。因此，在第一階段，我們的空間生成大模型本質上是一個3D重建大模型，可以從海量影像資料中提取場景的三維結構化表徵，並透過渲染技術生成多視角一致的高質量影像資料。這些高質量資料用於訓練和最佳化2D生成模型，使其具備生成多視角一致的高質量資料的能力。目前已有的絕大部分2D影像/影片由於相機運動範圍、視角的侷限性和動態元素的干擾，對於基於多視幾何的三維重建來說是不友好的，很難直接重建出高質量的3D場景。但是經過我們第一階段的模型生成出的2D影像/影片，可以從各個視角完整覆蓋一個場景，而且具有高度的時空一致性，從而使用傳統的三維重建和三維高斯濺射技術就能生成出高質量的3D場景。

第二階段的核心在於利用第一階段最佳化後的2D生成模型，生成大規模高質量資料，並透過三維重建技術將其轉換為3D場景資料。這些3D場景資料作為訓練樣本，透過強化學習機制持續最佳化3D空間生成大模型的效能。該階段的關鍵挑戰在於設計可靠的獎勵模型，以評估生成資料的質量和多樣性，確保模型最佳化的方向性和有效性。

隨著迭代最佳化的深入，空間生成大模型的效能顯著提升，其生成能力開始全面超越2D生成模型，2D生成模型的作用將逐漸弱化直至不需要，此時空間生成大模型進入第三階段，能夠直接從2D影像輸入生成完整、連貫且具有空間合理性和視覺真實性的3D場景。這一轉變不僅顯著提高了資料生成效率，還確保了生成結果的空間一致性。

空間生成的一些最新研究進展

一些最新研究工作（例如，ReconX和ViewCrafter）也開始結合3D的資訊來幫助生成時空一致的影片。例如，為了確保生成影片各段間的時空一致性，ViewCrafter等方法使用點雲作為全域性表示，將先前重建的點雲投影到當前片段作為條件。生成當前段影片後，生成的影像會用於更新和擴充套件全域性點雲，從而實現永續檢視生成。然而，點雲重建過程中的固有誤差會逐漸累積，限制了其擴充套件性。

基於前面提出的空間生成大模型的框架，我們團隊在第一個階段的StarGen項目（專案主頁：https://zju3dv.github.io/StarGen/，論文地址：https://arxiv.org/abs/2501.05763），將3D重建模型和影片生成模型有機結合起來，實現了影片生成質量和運動控制精度的突破，並結合三維重建與3D高斯濺射技術可以生成高質量的三維場景。

StarGen採用滑動視窗機制逐步生成長距離場景，並透過時空約束確保生成效果的一致性：在時間維度上，選取前一視窗的關鍵幀作為時間條件輸入，維持影片序列的時間連貫性；在空間維度上，從歷史視窗中選擇與當前視窗共視區域最大的影像集合作為空間條件，確保多視角間的空間幾何一致性。

圖2. StarGen框架

StarGen透過將大型重建模型（Large Reconstruction Model）和影片擴散模型有機結合起來，並基於空間條件處理（提取3D幾何資訊並渲染目標視角特徵圖）與時間條件處理（透過VAE編碼融合時空特徵），利用ControlNet控制生成高質量、時空一致的長距離影片序列，有效克服了點雲重建誤差累積問題。

圖3. 圖生長影片任務下，StarGen與SOTA方案的定性對比

從定量指標上來看，StarGen的誤差累積速度明顯小於現有SOTA方法。

圖4. 圖生長影片任務下，StarGen與SOTA方案的定量指標對比

基於StarGen生成的影片，可以再透過三維重建與3D高斯濺射技術生成可供使用者自由漫遊的3D場景。

總結與展望

隨著人工智慧技術和基礎算力服務的不斷進步，空間智慧的研究即將迎來新的爆發點，並釋放巨大的創造力與生產力。透過將傳統的基於2D影像的研究正規化提升到3D空間，空間智慧將為以3D空間為載體的一系列應用領域（如遊戲、影視、AR/VR、具身智慧等）帶來顛覆性的變革。基於三維重建與生成結合的思想，本文重點探討了空間智慧中的關鍵模組空間生成模型的框架構想和實現路徑，並介紹了我們在框架中的第一個階段所做的工作StarGen。實驗結果表明，StarGen可以顯著提升影片生成質量和運動控制精度，尤其是隨著影片幀數的增加，相比現有的SOTA方法優勢更加明顯。我們希望該框架和實現路徑不但能推動空間生成技術的發展，而且能夠為空間智慧的其他模組的發展帶來一些啟發。（作者：章國鋒，浙大計算機學院教授）