智源RoboBrain2.0+RoboOS2.0雙發:問鼎評測基準最強具身大腦,重新整理跨本體多機協作技術正規化

機器之心釋出
機器之心編輯部
近日,智源研究院釋出具身大腦 RoboBrain 2.0 32B 版本以及跨本體大小腦協同框架 RoboOS 2.0 單機版
RoboBrain 2.0,作為集感知、推理與規劃於一體面向真實物理環境的 “通用具身大腦”,32B 版本憑藉時空認知能力的突破,在項權威具身智慧基準上全面重新整理紀錄,此前釋出的 7B 版本,具備緊湊高效的模型結構,其輕量化設計完美適配邊緣裝置部署需求,能在低資源環境下穩定執行,同時相比主流的開閉源模型效能依舊強勁。
RoboOS 2.0 作為全球首個具身智慧 SaaS 開源框架,創新性整合 MCP 協議與無伺服器架構,實現輕量化部署,打通智慧大腦與異構本體協同通路。同步推出單機版產品線及 RoboSkill 技能商店,透過深度整合實現機器人技能模組智慧匹配與一鍵適配功能,標準化介面有效消除廠商與硬體適配流程差異。同步推出開箱即用映象,支援 "三行指令" 極速部署,全面賦能開發者高效構建智慧機器人系統。
具身大腦與跨本體大小腦協同框架雙擎聯動,將有效推動機器人從 “單機智慧” 邁向 “群體智慧”,加速具身智慧技術從實驗室走向真實場景,形成開放、高效、智慧協同的具身智慧生態體系。
1.RoboBrain 2.0突破三大能力瓶頸
模組化架構提升具身複雜推理
當前主流 AI 模型在應對真實物理環境時,普遍存在三大核心瓶頸:空間理解精度不足、時間依賴建模薄弱、長鏈推理能力欠缺。RoboBrain 2.0 則在這三大關鍵能力上實現全面突破,顯著提升了對複雜具身任務的理解與執行能力。
空間理解:
  • 精確點定位和邊界框預測:能夠根據複雜指令在影像中定位物體或區域。
  • 空間關係理解:理解物體之間的相對位置和方向。
  • 空間推理:支援基於場景圖的即時構建和更新,進行復雜的三維空間推理。
時間建模:
  • 長期規劃:能夠進行多步任務規劃,支援長期目標的實現。
  • 閉環互動:支援基於反饋的動態調整,適應動態環境。
  • 多智慧體協作:能夠協調多個智慧體的行為,完成複雜任務。
長鏈推理:
  • 鏈式推理:能夠進行多步推理,支援複雜任務的逐步解決。
  • 因果邏輯:能夠從複雜指令中提取因果邏輯,並與環境狀態對齊。
  • 決策透明性:能夠生成推理過程的詳細解釋,支援決策的透明性和可解釋性。
RoboBrain能力概覽圖
RoboBrain 2.0 採用模組化的編碼器 – 解碼器架構,為複雜的具身任務實現了感知、推理和規劃的統一。與專注於通用靜態視覺問答(VQA)的傳統視覺 – 語言模型(VLMs)不同,RoboBrain 2.0 在保持強大通用 VQA 能力的同時,專門針對具身推理任務,如空間感知、時間建模和長鏈因果推理。該架構將高解析度影像、多檢視輸入、影片幀、語言指令和場景圖編碼為統一的多模態標記序列,以進行全面處理。
RoboBrain2.0 模型架構圖
2.依託多模態資料集與分階段訓練策略
RoboBrain 2.0重新整理效能基準
RoboBrain 2.0 依託全面且多樣化的多模態資料集,融合高解析度影像、多視角影片序列、場景圖、3D 場景資料及複雜自然語言指令,全面賦能機器人在具身環境中的感知、推理與行動能力。該多模態資料集聚焦三大核心領域,為複雜物理場景提供有力支援。
  • 通用多模態理解:整合標準視覺問答、區域級查詢、OCR 視覺問答及多輪視覺對話,最佳化語言表達的多樣性與語義一致性,透過豐富的視覺 – 語言互動資料,提升模型對複雜任務的理解與響應能力,適應從簡單問答到多輪對話的多樣場景。
  • 空間感知:支援高精度物體定位、邊界框預測及物件功能性識別,覆蓋室內外複雜視覺場景與 3D 空間推理,助力機器人精準解析物體關係、空間屬性及場景上下文,應對遮擋、多視角變化等挑戰,滿足高精度定位與互動需求。
  • 時間建模:透過多模態資料支援長程任務規劃、閉環反饋機制及多智慧體協作,強化模型在動態環境中的任務分解、動作序列預測及即時互動能力,確保在複雜物理場景中實現連續決策、靈活協作與高效任務執行。RoboBrain 2.0 以卓越的多模態感知、精細的空間推理及強大的長時規劃能力,賦能機器人在具身環境中進行互動推理、多智慧體協作及高效任務規劃,助力複雜物理場景的智慧感知與決策。
RoboBrain 2.0 訓練資料集
RoboBrain 2.0 使用智源自研的大模型訓推一體框架 FlagScale 進行大規模分散式訓練,採用三階段遞進式訓練流程
第一階段:基礎時空學習(Foundational Spatiotemporal Learning)
在第一階段,RoboBrain 2.0 專注於構建其在空間感知和時間理解方面的基礎能力。模型透過大規模多模態資料集進行訓練,這些資料集涵蓋了密集標註的圖文資料、影片問答以及指代表達理解任務。透過這一階段的訓練,模型能夠處理靜態影像和影片流,掌握物體的基本空間關係和運動事件,為後續更復雜的任務奠定了堅實的基礎。
第二階段:具身時空增強(Embodied Spatiotemporal Enhancement)
在第二階段,RoboBrain 2.0 透過引入高解析度多檢視影像、第一人稱影片資料以及導航和互動任務,進一步增強其在具身任務中的時空建模能力。模型學習處理長序列的時空資訊,支援多智慧體協調、長期規劃和動態環境中的適應性決策。這一階段的訓練使模型能夠更好地將歷史視覺資訊與當前指令相結合,從而在動態互動環境中實現更連貫的長期規劃和穩健的場景理解。
第三階段:具身情境中的推理鏈訓練(Chain-of-Thought Reasoning in Embodied Contexts)
在第三階段,RoboBrain 2.0 透過監督微調和強化微調,進一步提升其在複雜具身任務中的推理能力。模型使用多輪推理示例進行訓練,這些示例涵蓋了長期任務規劃、操作預測、閉環互動、時空理解以及多機器人協作等任務。透過這一階段的訓練,模型能夠生成推理鏈,支援複雜任務的逐步推理和決策,從而在具身情境中實現更高效、更準確的推理和規劃能力。
RoboBrain 2.0 採用 FlagEvalMM 框架,全面驗證空間與時間推理能力。
  • 空間推理:在 BLINK(83.95)、CV-Bench(85.75)、Where2Place(73.59)等 9 項基準測試中,RoboBrain-32B/7B-2.0 屢獲 SOTA,精準實現物體定位、邊界框預測及空間參照,超越 Gemini、GPT-4o 等基線。
  • 時間推理:在多機器人規劃(80.33)、Ego-Plan2(57.23)、RoboBench(72.16)中,展現卓越長程規劃、閉環反饋及多智慧體協作能力,領跑 Qwen2.5-VL、Claude 等模型。
RoboBrain 2.0-32B 在 BLINK-Spatial、RoboSpatial、RefSpatial-Bench、Where2Place、EgoPlan2 和 Multi-Robot-Plan 等空間與時間推理基準上均取得最佳表現
RoboBrain 2.0 7B 模型分別以 83.95 分和 85.75 分登頂 BLINK 和 CV-Bench 基準測試。RoboBrain 2.0 32B 模型在 RoboSpatial、RefSpatial-Bench 以及 SAT、Where2Place 和 ShareRobot-Bench 上實現 SOTA 突破
RoboBrain 2.0 7B 模型在 Multi-Robot Planning 以 81.50 分拔得頭籌,RoboBrain 2.0 32B 以 80.33 分緊隨其後;RoboBrain 2.0 32B 在 Ego-Plan2(57.23 分)登頂,大幅領先 GPT-4o 等基線;RoboBrain 2.0 7B 模型則在 RoboBench 以 72.16 分奪魁,雙模型憑藉優異表現重新整理效能上限
3.RoboBrain2.0與RoboOS 2.0雙引擎
實現具身群體智慧
依託跨本體大小腦協作框架 RoboOS 2.0 的多本體規劃能力,RoboBrain 2.0 已實現多智慧體間協作執行任務,支援商超廚房居家等多場景部署。
跨本體具身大小腦協作框架 RoboOS 2.0 是全球首個基於具身智慧 SaaS 平臺、支援無伺服器一站式輕量化機器人本體部署的開源框架。同時,RoboOS 2.0 也是全球首個支援 MCP 的跨本體具身大小腦協作框架,旨在構建具身智慧領域的 “應用商店” 生態。
RoboOS 2.0 實現了大腦雲端最佳化推理部署與小腦技能的免適配註冊機制,顯著降低開發門檻,典型場景下,相關程式碼量僅為傳統手動註冊方式的 1/10。
RoboOS 2.0 框架(SaaS + MCP 模式)。RoboOS 是面向多機器人協作的 "大腦 – 小腦" 分層系統,包含三大核心元件:(a) 基於雲計算的具身大腦模型,負責高階認知與多智慧體協同;(b) 分散式小腦模組群,專司機器人專項技能執行;(c) 即時共享記憶體機制,強化環境態勢感知能力。
相較於 1.0,RoboOS 2.0 對端到端推理鏈路進行了系統級最佳化,整體效能提升達 30%基於 FlagScale 端雲協同模組,全鏈路平均響應時延低至 3ms 以下,端雲通訊效率提升 27 倍。在功能層面,新增了多本體時空記憶場景圖(Scene Graph)共享機制,支援動態環境下的即時感知與建模;同時引入多粒度任務監控模組,實現任務閉環反饋,有效提升機器人任務執行的穩定性與成功率。
RoboOS 多機協作實現流程包含四個關鍵階段:首先透過分層任務分解將複雜任務逐級拆解,隨後基於網路拓撲結構進行子任務動態分配,再由分散式智慧體叢集並行執行各子任務,最後透過即時共享記憶體機制動態更新環境狀態與任務進度。
基於 RoboOS 2.0 協作框架,可充分發揮 RoboBrain 2.0 強大的空間理解、時序規劃與閉環推理能力的同時,一鍵下載並部署來自全球開發者建立的相同型號機器人本體的小腦技能,完成大小腦的全鏈路無縫整合。
RoboBrain 2.0 可透過畫素級空間理解,支援下游小腦模型高精度抓取、搬運、放置等操作,同時,根據即時感知任務執行狀態調整執行計劃,適應動態環境變化,實現閉環反饋機制。
4.RoboBrain 2.0與RoboOS 2.0全面開源
攜手共建具身智慧生態圈
目前,RoboBrain 2.0 及 RoboOS 2.0 已全面開源,模型權重、訓練程式碼與評測基準全部可用。
RoboBrain 2.0:
  • Page:https://superrobobrain.github.io
  • GitHub:https://github.com/FlagOpen/RoboBrain2.0
  • ArXiv:https://arxiv.org/abs/2507.02029
  • Checkpoint-7B:https://huggingface.co/BAAI/RoboBrain2.0-7B
  • Checkpoint-32B:https://huggingface.co/BAAI/RoboBrain2.0-32B
  • RoboBrain2.0 的 FlagRelease 多晶片映象:
  •    https://huggingface.co/FlagRelease/RoboBrain2.0-7B-FlagOS
  •    https://huggingface.co/FlagRelease/RoboBrain2.0-32B-FlagOS
  •    https://huggingface.co/FlagRelease/RoboBrain2.0-7B-FlagOS-Ascend
RoboOS 2.0:
  • Page:https://flagopen.github.io/RoboOS
  • GitHub:https://github.com/FlagOpen/RoboOS
  • GitHub 單機輕量版:https://github.com/FlagOpen/RoboOS/tree/stand-alone
  • GitHub 技能商店:https://github.com/FlagOpen/RoboSkill
  • ArXiv:https://arxiv.org/abs/2505.03673
RoboBrain 2.0 及 RoboOS 2.0 一經開源,便在全球社交媒體和技術社群引發廣泛熱議。
目前,智源研究院已與全球 20 餘家機器人企業與頂尖實驗室建立戰略合作關係,誠邀全球開發者、研究者與產業夥伴加入 RoboBrain 2.0 和 RoboOS 2.0 的開源社群,共築開放繁榮的具身智慧生態。
© THE END 
轉載請聯絡本公眾號獲得授權
投稿或尋求報道:[email protected]


相關文章