允中 發自 凹非寺量子位 | 公眾號 QbitAI
具身智慧大腦+全球首個具身智慧SaaS開源框架,智源研究院在具身智慧領域發力了——
“通用具身大腦”RoboBrain 2.0,面向真實物理環境,集感知、推理與規劃於一體。
全新32B版本憑藉時空認知能力的突破,在多項權威具身智慧基準上全面重新整理紀錄。

RoboOS 2.0,作為全球首個具身智慧SaaS開源框架,創新性整合MCP協議與無伺服器架構,實現輕量化部署,打通智慧大腦與異構本體協同通路。
兩招齊出,並且全部開源,釋出便在全球社交媒體和技術社群引發廣泛熱議。

不少具身智慧專業人士就指出,具身大腦+跨本體大小腦協同框架,是推動機器人從“單機智慧”邁向“群體智慧”的有效路徑,能加速具身智慧技術從實驗室走向真實場景。

一起來看具體技術細節。
RoboBrain 2.0:突破三大核心瓶頸
當前主流AI模型在應對真實物理環境時,普遍存在三大核心瓶頸:空間理解精度不足、時間依賴建模薄弱、長鏈推理能力欠缺。
RoboBrain 2.0正是針對於此,在三大關鍵能力上實現了全面突破,顯著提升了對複雜具身任務的理解與執行能力。
-
空間理解:
-
精確點定位和邊界框預測:能夠根據複雜指令在影像中定位物體或區域。 -
空間關係理解:理解物體之間的相對位置和方向。 -
空間推理:支援基於場景圖的即時構建和更新,進行復雜的三維空間推理。 -
時間建模:
-
長期規劃:能夠進行多步任務規劃,支援長期目標的實現。 -
閉環互動:支援基於反饋的動態調整,適應動態環境。 -
多智慧體協作:能夠協調多個智慧體的行為,完成複雜任務。 -
長鏈推理:
-
鏈式推理:能夠進行多步推理,支援複雜任務的逐步解決。 -
因果邏輯:能夠從複雜指令中提取因果邏輯,並與環境狀態對齊。 -
決策透明性:能夠生成推理過程的詳細解釋,支援決策的透明性和可解釋性。

△RoboBrain能力概覽圖
模組化編碼器-解碼架構
具體來說,RoboBrain 2.0採用模組化的編碼器 – 解碼器架構,為複雜的具身任務實現了感知、推理和規劃的統一。
與專注於通用靜態視覺問答(VQA)的傳統視覺 – 語言模型(VLMs)不同,RoboBrain 2.0在保持強大通用VQA能力的同時,專門針對具身推理任務,如空間感知、時間建模和長鏈因果推理。該架構將高解析度影像、多檢視輸入、影片幀、語言指令和場景圖編碼為統一的多模態標記序列,以進行全面處理。

△RoboBrain2.0模型架構圖
多模態資料集和分階段訓練策略
訓練方面,RoboBrain 2.0採用的是多模態資料集和分階段訓練策略。
RoboBrain 2.0基於全面且多樣化的多模態資料集,融合高解析度影像、多視角影片序列、場景圖、3D場景資料及複雜自然語言指令,能全面賦能機器人在具身環境中的感知、推理與行動能力。

△RoboBrain 2.0訓練資料集
該多模態資料集聚焦三大核心領域,為複雜物理場景提供有力支援:
-
通用多模態理解:整合標準視覺問答、區域級查詢、OCR視覺問答及多輪視覺對話,最佳化語言表達的多樣性與語義一致性,透過豐富的視覺-語言互動資料,提升模型對複雜任務的理解與響應能力,適應從簡單問答到多輪對話的多樣場景。
-
空間感知:支援高精度物體定位、邊界框預測及物件功能性識別,覆蓋室內外複雜視覺場景與3D空間推理,助力機器人精準解析物體關係、空間屬性及場景上下文,應對遮擋、多視角變化等挑戰,滿足高精度定位與互動需求。
-
時間建模:透過多模態資料支援長程任務規劃、閉環反饋機制及多智慧體協作,強化模型在動態環境中的任務分解、動作序列預測及即時互動能力,確保在複雜物理場景中實現連續決策、靈活協作與高效任務執行。RoboBrain 2.0以卓越的多模態感知、精細的空間推理及強大的長時規劃能力,賦能機器人在具身環境中進行互動推理、多智慧體協作及高效任務規劃,助力複雜物理場景的智慧感知與決策。
RoboBrain 2.0採用三階段遞進式訓練流程。
- 第一階段:基礎時空學習(Foundational Spatiotemporal Learning)
在第一階段,RoboBrain 2.0專注於構建其在空間感知和時間理解方面的基礎能力。模型透過大規模多模態資料集進行訓練,這些資料集涵蓋了密集標註的圖文資料、影片問答以及指代表達理解任務。
透過這一階段的訓練,模型能夠處理靜態影像和影片流,掌握物體的基本空間關係和運動事件,為後續更復雜的任務奠定了堅實的基礎。
- 第二階段:具身時空增強(Embodied Spatiotemporal Enhancement)
在第二階段,RoboBrain 2.0透過引入高解析度多檢視影像、第一人稱影片資料以及導航和互動任務,進一步增強其在具身任務中的時空建模能力。模型學習處理長序列的時空資訊,支援多智慧體協調、長期規劃和動態環境中的適應性決策。
這一階段的訓練使模型能夠更好地將歷史視覺資訊與當前指令相結合,從而在動態互動環境中實現更連貫的長期規劃和穩健的場景理解。
- 第三階段:具身情境中的推理鏈訓練(Chain-of-Thought Reasoning in Embodied Contexts)
在第三階段,RoboBrain 2.0透過監督微調和強化微調,進一步提升其在複雜具身任務中的推理能力。模型使用多輪推理示例進行訓練,這些示例涵蓋了長期任務規劃、操作預測、閉環互動、時空理解以及多機器人協作等任務。
透過這一階段的訓練,模型能夠生成推理鏈,支援複雜任務的逐步推理和決策,從而在具身情境中實現更高效、更準確的推理和規劃能力。

研究人員採用FlagEvalMM框架,全面驗證了RoboBrain 2.0的空間與時間推理能力。
-
空間推理:在BLINK(83.95)、CV-Bench(85.75)、Where2Place(73.59)等9項基準測試中,RoboBrain-32B/7B-2.0屢獲SOTA,精準實現物體定位、邊界框預測及空間參照,超越Gemini、GPT-4o等基線。

-
時間推理:在多機器人規劃(80.33)、Ego-Plan2(57.23)、RoboBench(72.16)中,展現卓越長程規劃、閉環反饋及多智慧體協作能力,領跑Qwen2.5-VL、Claude等模型。

值得一提的是,除了32B版本,此前智源研究院還推出了RoboBrain 2.0 7B版本,具備緊湊高效的模型結構,其輕量化設計適配邊緣裝置部署需求,能在低資源環境下穩定執行,同時相比主流的開閉源模型效能依舊強勁。
從單機智慧邁向群體智慧
依託跨本體大小腦協作框架RoboOS 2.0的多本體規劃能力,RoboBrain 2.0已實現多智慧體間協作執行任務,支援商超廚房居家等多場景部署。

跨本體具身大小腦協作框架RoboOS 2.0是全球首個基於具身智慧SaaS平臺、支援無伺服器一站式輕量化機器人本體部署的開源框架。
同時,RoboOS 2.0也是全球首個支援MCP的跨本體具身大小腦協作框架,旨在構建具身智慧領域的“應用商店”生態。
RoboOS 2.0實現了大腦雲端最佳化推理部署與小腦技能的免適配註冊機制,顯著降低開發門檻,典型場景下,相關程式碼量僅為傳統手動註冊方式的1/10。
具體來說,RoboOS是面向多機器人協作的“大腦-小腦”分層系統,包含三大核心元件:(a) 基於雲計算的具身大腦模型,負責高階認知與多智慧體協同;(b) 分散式小腦模組群,專司機器人專項技能執行;(c) 即時共享記憶體機制,強化環境態勢感知能力。

△RoboOS 2.0框架(SaaS + MCP模式)
相較於1.0,RoboOS 2.0對端到端推理鏈路進行了系統級最佳化,整體效能提升達30%,全鏈路平均響應時延低至3ms以下,端雲通訊效率提升27倍。
在功能層面,新增了多本體時空記憶場景圖(Scene Graph)共享機制,支援動態環境下的即時感知與建模;同時引入多粒度任務監控模組,實現任務閉環反饋,有效提升機器人任務執行的穩定性與成功率。
RoboOS多機協作實現流程包含四個關鍵階段:首先透過分層任務分解將複雜任務逐級拆解,隨後基於網路拓撲結構進行子任務動態分配,再由分散式智慧體叢集並行執行各子任務,最後透過即時共享記憶體機制動態更新環境狀態與任務進度。

基於RoboOS 2.0協作框架,可充分發揮RoboBrain 2.0強大的空間理解、時序規劃與閉環推理能力的同時,一鍵下載並部署來自全球開發者建立的相同型號機器人本體的小腦技能,完成大小腦的全鏈路無縫整合。
RoboBrain 2.0可透過畫素級空間理解,支援下游小腦模型高精度抓取、搬運、放置等操作,同時,根據即時感知任務執行狀態調整執行計劃,適應動態環境變化,實現閉環反饋機制。
目前,RoboBrain 2.0及RoboOS 2.0已全面開源,模型權重、訓練程式碼與評測基準全部可用。
智源研究院還同步推出單機版產品線及RoboSkill技能商店,透過深度整合實現機器人技能模組智慧匹配與一鍵適配功能,標準化介面有效消除廠商與硬體適配流程差異。還有開箱即用映象,支援“三行指令”極速部署,全面賦能開發者高效構建智慧機器人系統。
傳送門
RoboBrain 2.0
Page:https://superrobobrain.github.ioGitHub:https://github.com/FlagOpen/RoboBrain2.0ArXiv:https://arxiv.org/abs/2507.02029Checkpoint-7B:https://huggingface.co/BAAI/RoboBrain2.0-7BCheckpoint-32B:https://huggingface.co/BAAI/RoboBrain2.0-32BRoboBrain2.0的FlagRelease多晶片映象:https://huggingface.co/FlagRelease/RoboBrain2.0-7B-FlagOShttps://huggingface.co/FlagRelease/RoboBrain2.0-32B-FlagOShttps://huggingface.co/FlagRelease/RoboBrain2.0-7B-FlagOS-Ascend
RoboOS 2.0
Page:https://flagopen.github.io/RoboOSGitHub:https://github.com/FlagOpen/RoboOSGitHub單機輕量版:https://github.com/FlagOpen/RoboOS/tree/stand-aloneGitHub技能商店:https://github.com/FlagOpen/RoboSkillArXiv:https://arxiv.org/abs/2505.03673
*本文系量子位獲授權刊載,觀點僅為原作者所有。
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!
— 完 —
🌟 點亮星標 🌟