生境科技投稿量子位 | 公眾號 QbitAI
具身智慧的突破離不開高質量資料。
現實資料採集成本實在太高,於是,合成數據的技術就顯得尤為重要。
目前,具身合成數據有兩條主要技術路線之爭:“影片合成+3D重建”or “端到端3D生成”。
參考自動駕駛的成功經驗,前者模態轉換鏈路過長容易導致誤差累積;後者“直接合成3D資料”理論上有資訊效率優勢,但需要克服“常識欠缺”等挑戰。
英偉達在CES 2025指出“尚無網際網路規模的機器人資料”,自動駕駛已具備城市級模擬,但家庭等複雜室內環境缺乏3D合成平臺。

△“沒有資料,就創造資料。”NVIDIA Cosmos World Foundation Models, CES 2025
為解決“常識欠缺”困境,沿用“端到端三維生成”的技術路徑,本文提出“模態編碼”的全新技術解決方案:打破“排布=幾何”舊正規化,將空間方案本身進行數字化編碼、特徵提取以及隱式學習。
結合強化學習策略,探索一種新的可能:不僅生成空間,更生成“可被理解與使用”的空間。

具身智慧的現實挑戰
智慧困境:強身體,弱大腦
在機器人的發展史中,“身體”往往走得比“大腦”更快。
我們已經能讓機器人精準行走、翻滾甚至跑酷,但當它們被放入一個陌生的房間,任務就變得不再簡單。
機器不懂牆後是什麼,也不知道為什麼沙發要靠牆放——更別提主動理解人類的意圖。

△具身“大腦”整體框架Aligning Cyber Space with Physical World: A Comprehensive Survey on Embodied AI, 09 Jul 2024
具身智慧的本質,是“感知 + 推理 + 決策”的一體化能力。
而這一切的前提,是系統必須擁有對空間的理解力。不是二維影像中的畫素點,而是結構清晰、語義明確的三維場景知識。
缺乏這種能力,即使控制演算法再精妙,也難以支撐複雜環境下的自主行為。
今天的AI正處於一個臨界點:算力與模型能力迅速提升,但如果沒有足夠優質的空間資料作支撐,“聰明的大腦”也無法真正落地。
資料困境
眼下的現實是,具身智慧的資料,不但少,而且不夠用。
現有的資料來源大致可以分為三類:
真實掃描資料(如 Matterport3D),數量有限且覆蓋場景單一;
遊戲引擎搭建環境(如 AI2-THOR),生成效率低、互動性弱;
開源合成數據集(如 SUNCG),語義標籤粗略,缺乏物理一致性。
相比之下,自動駕駛領域已構建起完整的資料閉環,從城市建模到感測器模擬,鏈條清晰、效率高。
而在室內具身智慧場景中,空間資料不僅要“看起來像”,還要“行為上真實”——比如桌子不僅要有形狀,還要能承重;門不僅要有鉸鏈,還要能被開啟。
更復雜的問題在於“家庭”。每個家庭都有獨特的佈置習慣和使用方式,這種多樣性決定了:現實中幾乎不可能採集到覆蓋全部變體的訓練資料。
換句話說,靠傳統手段“掃遍全世界”來訓練模型,不現實,也不經濟。

△NVIDIA Cosmos World Foundation重大更新,用於大規模可控合成數據生成,2025 年 3 月 18 日
場景生成(Gen)與模擬(Sim)
機器人合成數據可拆解成兩個關鍵部分:場景生成(Gen)與模擬(Sim)。

相比之下,豐富多樣、結構合理的室內空間生成(Gen) 已成為系統性能瓶頸,主要存在兩種技術路徑:
合成影片+3D重建:基於畫素流驅動,先生成影片或影像,再重建為點雲或mesh等非結構化3D資料,最終轉為結構化語義模型。如Hillbot、群核科技、李飛飛“World Models”專案等。此方法路徑長、誤差易累積,結構精度有限。
AIGC直接合成3D資料:利用圖神經網路(GNN)、擴散模型(Diffusion)、注意力機制(Attention)等方法,直接合成結構化空間資料。如 ATISS、LEGO-Net、DiffuScene、RoomFormer 等代表模型,部分方案結合程式化生成技術,如 Infinigen(CVPR 2024)。

△“3D場景合成+模擬模擬+現實互動”sim2real技術框架,生境科技繪製
路線一:影片合成+3D重建
早在2021年,李飛飛團隊的BEHAVIOR基準及“世界模型”研究提出了基於畫素和影片幀的具身智慧建模思路,生成的場景僅為mesh殼體,缺乏清晰的空間結構和語義標註,物體邊界模糊,難以直接用於物理模擬。

△“影片合成+3D重建”技術路線,生境科技繪製

△李飛飛世界模型,基於mesh網格,無語義

△結構化向量資料,物理一致,語義完備,易於互動
SpatialVerse + SpatialLM(群核科技)

#△群核科技具身合成技術路線,生境科技基於公開資料繪製
群核科技的SpatialLM和SpatialVerse是該路線的代表性技術。
SpatialLM透過微調大規模語言模型(LLM)來理解3D資料的語義,SpatialVerse則結合酷家樂的技術進行資料增強、分割註釋和渲染最佳化。
儘管該技術能夠從影片中提取3D場景資料,但依然面臨物理一致性和精度的問題。
透過這種方式,機器人的路徑規劃和行為決策得到了增強,儘管從理論上來說,模態鏈路仍然是一個挑戰 。

△SpatialLM: Large Language Model for Spatial Understanding,群核科技,2025

△Kimera: from SLAM to Spatial Perception with 3D Dynamic Scene Graphs, MIT, 2021
Cosmos+Sapien/ManiSkill (Hillbot(美國))

△Hillbot具身合成技術路線,生境科技基於公開資料繪製
Hillbot是另一具身合成數據企業,其技術路徑包括透過 NVIDIA Cosmos 快速生成環境影片片段,利用 Sapien/ManiSkill 對影片進行3D場景解析和重建。
此過程中,Hillbot透過標籤化的三維模型庫將物體(如冰箱、餐桌)替換為模擬中的對應物件,並賦予物理屬性,從而實現機器人與虛擬環境的互動。
核心問題與挑戰
儘管該路線已實現從影像生成到任務訓練的鏈條構建,但其問題也相對集中:
精度瓶頸:畫素驅動方式在轉換為結構化模型時常出現細節缺失與物理不一致;
鏈路複雜:多模態轉換增加誤差傳遞風險,使生成結果對任務泛化能力不足;
控制力弱:現有系統在場景結構約束、傢俱邏輯佈局等方面控制精度有限;
訓練不穩定:受限於影片幀資料的間斷性,難以支撐長序列任務推理。
尤其在需要動態互動的家庭場景中,這一路線更易暴露其“語義弱”和“控制難”的根本問題。

△SpatialLM測試:泛化能力弱,目前結構精度無法落地

△OpenRooms專案,對實拍影片做資料增強
路線二:端到端的3D直接生成

△“端到端3D場景合成”技術路線,生境科技繪製

主要方法
圖神經網路(GNNs)
圖神經網路(GNNs)已成為3D室內場景生成的重要工具,能有效建模場景中物體及其空間關係。
MIT團隊2024年提出的超圖模型透過圖結構表徵房間關係,提升空間利用效率。HAISOR(2024)結合圖卷積網路和強化學習,最佳化傢俱佈局。
PlanIT(2019)透過符號關係圖和自迴歸模型生成兼具邏輯性與功能性的佈局。

△A hypergraph model shows the carbon reduction potential of effective space use in housing, MIT, 2024

△Haisor: Human-aware Indoor Scene Optimization via Deep Reinforcement Learning, 中科院 2024
自迴歸 Transformer
自迴歸 Transformer 模型在3D場景合成中表現出色,特別適用於處理物體集合的無序性和文字驅動生成任務。
ATISS(2021)利用自迴歸模型預測每個物體的位置、類別和姿態,基於房間平面圖生成多樣且合理的佈局。
InstructScene(2024)結合語義圖先驗和圖 Transformer,將語言指令轉化為結構圖,提升了文字驅動生成的可控性和準確性。

△ATISS: Autoregressive Transformers for Indoor Scene Synthesis, NVIDIA Toronto AI Lab, 2021

△https://research.nvidia.com/labs/toronto-ai/ATISS/
擴散模型 Diffusion
在3D場景合成中展現出強大潛力,透過去噪過程逐步最佳化佈局。
LEGO-NET(2023)透過迭代最佳化生成符合人類偏好的合理佈局,而 DiffuScene(2023)利用去噪擴散模型生成物理合理且視覺真實的完整場景,支援文字或區域性場景控制。

△DiffuScene: Denoising Diffusion Models for Generative Indoor Scene Synthesis, 24 Mar 2023
程式化生成 (PCG)
程式化生成,則透過預定義規則合成3D場景,具備較高的可控性和可解釋性。
Infinigen Indoors(2024)和 ProcTHOR(2022)分別透過隨機化生成室內環境和自動生成可互動住宅環境,突出了場景結構和風格的精確控制。

△ProcTHOR: Large-Scale Embodied AI Using Procedural Generation, NeurIPS 2022
其他方法,如LLM
此外,大語言模型(LLM)也開始在此領域展現潛力。
SceneCraft(2025)提出透過影像迴圈引導生成室內3D場景,而 FlairGPT(2025)設計了一個結構化的戶型佈局agent系統,分解設計任務進行推理。
SceneTeller(2024)則直接透過文字描述生成3D物體位置,展示了強大的語言到空間對映能力。

△一句話“生成一個雙人臥室”SceneTeller: Language-to-3D Scene Generation,30 Jul 2024
核心問題和挑戰
儘管端到端方法在理論上具備效率與表達力的雙重優勢,但生成質量普遍較低,缺乏常識,甚至不及“影片合成”路線。
“影片合成+3D重建”路線依賴於真實或擬真影片,天然具備常識與空間邏輯。
而端到端3D生成則從零開始,缺乏類似大模型中的“世界經驗”,如果不引入專業知識作為前置輸入,AI很難生成合理有效的空間結果。
AI合成空間常見問題有:
現實合理性不足:易出現物體重疊、通道阻塞等邏輯錯誤;
控制精度不足:難以對特定佈局需求或使用偏好做出精準響應;

△基於GNN,端到端合成3D資料的SOTA效果Conditional room layout generation based on graph neural networks, SMI 2024
程式化生成的方式雖然透過設定大量顯示規則的方式避免了邏輯硬傷,但是又會導致系統魯棒性低,“缺乏設計彈性”,面對複雜戶型適應性差,佈局鬆散雜亂,難以還原真實空間的設計品質與實用性。

△ Infinigen程式化合成資料集質量,英偉達Isaac Sim官方文件
模態解決方案
端到端3D合成難以落地的根本原因在於:室內設計中蘊含大量隱性行業知識,尚未被系統化表達並embedding到AI的數學空間中進行隱式學習。
在高密度室內空間中,場景建模不僅要“生成出東西”,還要“生成得合理”,這對模型的結構認知能力提出了更高要求。
Sengine SimHub 是近年提出的一套室內空間生成引擎——透過“模態編碼”將設計知識融入生成過程。
目標是實現從戶型圖、功能需求,到最終三維場景資料的自動轉譯。
與傳統的影像合成方法不同,它更像是“把建築師的經驗裝進了一個生成器”——在生成房間結構的同時,考慮到了空間功能、動線流暢性、傢俱擺放邏輯等實際設計因素。
這個系統的核心,是一種被稱為“空間模態編碼”的方法。
簡單來說,它把空間設計中的顯性規則(比如“餐桌要靠近廚房”)轉化為可以被模型學習的數學結構,再透過強化學習策略,讓模型在面對不同戶型或使用場景時,能夠做出相對合理的結構判斷。
系統還內嵌了一套訓練流程,涵蓋空間編碼、物體搭配、資料最佳化等步驟,從而提升生成過程的穩定性與適應能力。
這不僅有助於模擬訓練中的精度控制,也使得生成資料更加貼近真實空間的邏輯與語義。

△戶型圖 + 功能需求 + 設計規範 → 結構化3D空間資料
雖然這種模態化生成方式仍處於發展初期,但它提供了一種新的思路:不是單純依賴影像或文字驅動的生成模型,而是嘗試在設計邏輯與空間資料之間建立更緊密的聯絡。
在未來具身智慧場景中,類似的系統或許將成為機器人訓練與空間認知建模的重要組成部分。

△Sengine SimHub 傢俱排布自適應演算法,2025
總結
在自動駕駛已經實現高保真資料閉環的當下,具身智慧領域依然面臨“資料荒”的現實。
尤其是那些發生在室內空間的任務——從端茶遞水到複雜協作——對結構化、語義化、互動可控的三維場景資料有著極高要求。
然而,現實世界的資料難採、成本高,遠遠跟不上演算法發展的速度。

△Duality AI(美國)數字孿生模擬平臺“Falcon”
於是,一場關於“如何創造虛擬世界”的路線之爭悄然展開。一邊是基於影片合成再做三維重建的路徑,技術成熟,邏輯直觀,卻始終繞不開模態轉換帶來的資訊損耗和控制力瓶頸;另一邊,是直接生成結構化三維場景的端到端方法,理論上更高效也更自由,但在實際落地時往往顯得“太理想”。
回望這兩條路徑,我們看到的不只是技術分歧,更是一場關於“空間理解方式”的深層對話。
是靠視覺還原現實,還是試圖從設計邏輯出發重構空間?是先採集、再理解,還是邊生成、邊控制?但有一點可以肯定:如果我們希望機器人真正“理解”空間、適應人類環境,就不能只依賴資料的堆砌。
我們需要的是一種能嵌入規則、吸納偏好、支援互動的空間資料生成體系。
為解決這一困境,本文提出了一種基於模態編碼的新技術思路:不僅生成空間,更生成“可被理解與使用”的空間。
將空間方案視為一種行業模態進行建模與最佳化。
構建深度強化學習框架,透過效能評估函式(PEF)指導AI持續進化。
模態編碼、強化學習、結構感知——這些技術並非終點,而是通向更具靈活性和適應力智慧系統的鑰匙。
下一步,可能不是再多采一點資料,而是換一種思路去創造“有用的資料”。
生境科技劉紫東認為,具身智慧的未來,也許就藏在我們如何定義空間、理解空間的方式之中。

△Click the image to view the sheet.“端到端生成3D空間”代表性研究,生境科技整理
眼下,機器人流行影片中高難度動作(空翻、跳舞、格鬥等)主要依靠遙控/預設程式設計完成的。
機器人逐漸完善了自身運動控制能力,然而對外環境感知、推理能力有待完善。
資料是AI時代的石油。
合成數據不只是“虛擬的替代品”,更可能是具身智慧邁向通用能力的關鍵推動力。
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!
— 完 —
學術投稿請於工作日發郵件到:
標題註明【投稿】,告訴我們:
你是誰,從哪來,投稿內容
附上論文/專案主頁連結,以及聯絡方式哦
我們會(儘量)及時回覆你

🌟 點亮星標 🌟