
新智元報道
新智元報道
編輯:編輯部 HYZ
【新智元導讀】不懼檢驗,全程線下公開及全球真機即時直播展示,「慧思開物」填補具身智慧在通用軟體系統方面的空白,顛覆傳統機器人應用開發模式,宣告通用具身智慧時代的里程碑突破,具身智慧「安卓」時刻已經到來,通向通用具身智慧時代的「蟲洞」已開啟。
目前,大部分機器人主要是基於特定機型、特定場景、特定任務進行固定程式的開發,機器人的智慧化仍處於初級階段。
據IFR報告,全球87%的機器人故障源於非結構化環境下的執行失敗,而行業超60%研發投入耗費在場景適配的「填坑」工程中。
行業亟需一個具備多本體相容、多場景適應和強大泛化能力的通用智慧平臺。
幾日前,具身智慧機器人國家隊——北京人形機器人創新中心(國家地方共建具身智慧機器人創新中心,以下簡稱「北京人形機器人」)舉辦了一場釋出會,釋出全球首個支援多本體多場景應用的通用具身智慧平臺「慧思開物」,或許標誌著具身智慧從「功能機」邁向「智慧機」時代。
「慧思開物」透過統一架構,如同安卓系統為智慧手機提供通用作業系統一樣,打破傳統機器人開發模式,解決了行業長期存在的碎片化、泛化性難的問題,統一為機器人賦予了跨場景、跨本體的智慧化能力。
正如DeepSeek帶來AI大模型的進一步發展應用一樣,「慧思開物」將助力更多的機器人以更加便捷、更加靈活、更加普惠的方式應用到工業、特種作業、商業服務、養老及家庭等更多的行業領域。
釋出會全程即時直播,並現場真實展示了搭載「慧思開物」平臺的各構型機器人以行雲流水般的動作,完成了工業分揀、積木搭建、桌面整理、物流打包四大場景任務,展現了自然語言理解、視覺理解、空間感知、複雜任務理解、任務精準拆解、工具呼叫、雙臂協作、毫米級精度操作、自主糾錯、即時重規劃執行等方面的驚人進化。
全球首個通用具身智慧平臺「慧思開物」
作為全球首個「一腦多能」、「一腦多機」的通用具身智慧平臺,「慧思開物」的應用是對基於單一場景單一任務做專項開發這一傳統機器人應用開發模式的顛覆。
作為機器人中樞神經系統,「慧思開物」整合感知、決策、語言、學習及運動控制等高階認知功能,透過多專家智慧體協同實現模型能力提升,增強機器人在複雜任務中的智慧化與執行效率,同時透過低程式碼方式降低機器人開發門檻,簡化開發流程,首次實現了單個軟體系統在機械臂、輪式機器人、人形機器人等多構型本體上的相容,能夠適應多樣化的應用場景和任務。

-
一腦多能,一腦多機:「慧思開物」支援機器人適應從工業到家庭服務等多類場景,執行不同類別的複雜任務,實現了單個軟體系統對機械臂、輪式機器人、人形機器人等多構型本體的相容。
-
強思維規劃能力:透過多專家智慧體能力整合,「慧思開物」具備行業領先的自然互動、空間感知理解、任務精準拆解、長程任務規劃等能力。
-
輕鬆易開發正規化:首創機器人+App的操作模式,透過「慧思開物」App可以讓不懂演算法、甚至不懂機器人的人或者企業也能夠較為輕鬆、快速地完成機器人應用開發。
分散式多具身智慧體的架構
從系統架構方面來看,「慧思開物」本質上是分散式的多具身智慧體,主要分為具身大腦、具身小腦(包括具身運控和具身操作)兩大部分,平臺由AI大模型驅動的「大腦」(任務規劃)和資料驅動的「小腦」(技能執行)構成,形成類似安卓的「底層系統+應用層」架構。
具身「大腦」具備自然互動、空間感知、意圖理解、分層規劃和錯誤反思等能力,具身「小腦」透過元技能庫和動態控制實現動作執行,形成從具身「大腦」進行任務規劃,再呼叫具身「小腦」技能庫執行具體動作,並將執行反饋傳遞給具身「大腦」的完整任務閉環。
具身大腦在雲端執行,包括互動Agent、規劃Agent、反思Agent等,串聯起包括VLM(視覺語言模型)、MLLM(多模態大語言模型)等多類基礎模型,從而具備自然互動、空間感知、意圖理解、分層規劃和錯誤反思等能力;
具身小腦更多聚焦在端側,執行在機器人本體,由VA(視覺-行動)、VLA(視覺-語言-行動)模型和LLM(大語言模型)驅動,負責端到端執行任務。
其中具身操作涵蓋多類VLA(視覺-語言-動作)模型,構建元技能庫,實現穩健泛化抓取、技能拆解執行、錯誤即時處理等能力;具身運控則是採用強化模仿學習方式,提升運動的穩定性,實現全身控制、雙臂協作、穩定行走和移動導航等任務。

-
通用的系統級產品:「慧思開物」是解決行業共性問題、賦能行業發展的系統性通用具身智慧平臺產品,提供底層開發支撐,而非單個模型。如VLA等執行模型只是平臺產品內具身操作部分的內容之一。
-
靈活開放系統架構:在整個系統產品內,除了內嵌自研的演算法模組外,「慧思開物」也支援接入各種其他模型,以及以開源模型為基礎結合真機資料訓練最佳化的模型等,未來也會更輕便的整合表現更好的模型,不斷提升平臺的功能。
現場直播Live Demo全球展示
釋出會現場,北京人形機器人還進行了現場實況直播,真實展現在不同機型、不同場景、不同任務的情況下,搭載「慧思開物」的直觀表現。
1. 工業分揀:簡單便捷的「App+機器人」模式
傳統的機器人開發正規化依賴複雜的程式設計除錯與定製適配,門檻高、時間長。
然而在釋出會現場,操作人員只在「慧思開物」App上面輕點幾步,幾分鐘就完成一款工業分揀機器人的任務設計開發與實際執行,充分展現了「慧思開物」面向使用者與開發者的簡便易用效能。
透過「慧思開物」 App直連,UR-5e機械臂能夠精準解析語音指令,進行合理的任務規劃與技能呼叫,並透過雙臂協同的方式完成分揀操作,同步對執行過程和結果即時反饋與顯示,操作直觀且簡便,展現了「慧思開物」在人機自然互動協作與機器人系統高效對接方面的技術優勢。
簡易便捷的「App+機器人」模式,將複雜的技術能力(如推理、規劃、技能呼叫)封裝為簡單易用的操作流程,使用者基於「慧思開物」 App可以直接下發操作指令,顯著降低了使用門檻。
同時,面向複雜任務的開發,平臺支援自定義模型和技能的快速新增,能夠靈活適配不同場景的應用需求,為工業自動化領域提供便捷、高效、智慧的解決方案。

這其中,智慧體的推理能力至關重要,需要準確的理解各種工具的能力並針對任務選擇合適的工具,並推理出能夠在工具能力之下實現的長程思維能力。
為了提升智慧體的核心能力,可以針對性進行調優工作,如下表所示,在Function Call準召率上,透過增加通用基礎能力資料,併合成DPO訓練資料,在函式名匹配加全引數匹配評測的Function Call評測方法上,驗證了Function Call核心能力提升的同時其他能力保持穩步提升,同時透過在MMLU(大規模多工語言理解)評測集上看到通用能力不損失。

2. 積木搭建:業內領先的複雜任務智慧化拆解與執行
正如北京人形機器人CTO唐劍在釋出會開篇提到的「莫拉維克悖論」,雖然多模態大模型讓機器人感知能力得到了巨大的提升,但是在具身操作各類任務下,視覺語言大模型仍然面臨以下五項巨大挑戰。
-
顏色誤分類:顏色與目標物體高度相似的物體被錯誤識別為目標本身。
-
顏色區分粗糙:難以分辨相近色調(例如樂高積塊中的淺藍色與深藍色)。
-
堆疊物體的幾何識別問題:顏色相同的相鄰或堆疊物體常被模型視為單一整體,因其無法識別物體間的清晰邊界。
-
空間理解缺陷:難以理解物體的相對位置、尺寸差異及空間依存關係(例如判斷哪些積木應置於其他積木之上)。
-
物理推理缺陷:對物體間物理支撐關係及力學約束的推理能力仍存在顯著侷限(例如缺乏物理支撐的懸浮樂高積木)。
上述問題導致機器人在很多操作任務上無法準確地進行長程規劃。北京人形機器人針對視覺語言大模型在以上能力的缺失上,透過「慧思開物」智慧體進行知識注入,以Zero-Shot的方式實現無訓練情況下視覺時空推理能力的提升。
透過積木復現這個典型例子上所得到的成功率極大提升,證明了框架有效性。
工作人員與「天工」閒聊的過程中隨機搭建了一個積木樣例,利用視覺大模型(VLM)對樣例進行拆解,精確規劃每一層的搭建順序,準確拾取相應積木,並按次序完成了3層積木的毫米級精準搭建。

真實展現大模型思維鏈能力,強大的擬人互動能力、視覺語言理解能力、空間解析能力以及毫米級的精細化操作,流暢精準完成積木搭建。
如下表所示,在MMB以及SEEDbench等視覺語言大模型空間智慧評測資料集上,在「慧思開物」具身智慧體加持下的各類開源和閉源多模態大模型空間理解能力上均得到了很大提升。

除了視覺語言問答相關評測之外,北京人形機器人還構建了適用於具身智慧的評測集,能夠在空間相對位置、距離、成功失敗判斷、可達性以及可操作性等維度進行了評估,採用「慧思開物」具身智慧平臺相比單純呼叫GPT-4o等多模態模型在具身智慧能力上也有很大提升。
近期,北京人形機器人已將相關成果整理為EmbodiedVSR(Embodied Visual-Spaital-Reasoning)技術報告進行公開介紹[1],該技術報告系統闡述了多模態感知、空間推理與具身決策的協同機制,完整呈現了演算法框架、實驗資料及工程化方案,後續將分階段開源核心程式碼及配套資料集。

3. 桌面整理:業內領先的即時糾錯雙臂協同流暢操作
現有的具身操作由於成功率、執行速度等難以保證,大多停留在影片展示階段。「慧思開物」釋出會現場帶來了全球首個即時直播無懼干擾的VLA模型。
在一鏡到底的數分鐘展示中,「天工」機器人完美實現了雙臂協同桌面流暢整理,面對不同的桌面雜物佈局,在被多次隨機的人為打斷或者移位干擾情況下,依然能夠精準識別桌面物品並即時反應、動態調整、自主重試,流暢絲滑、鍥而不捨地完成桌面上各類杯子、盒子、紙團等雜物的收納放置。

以上這些能力體現,均來自於北京人形機器人自研的端到端VLA模型,僅需數十小時資料的訓練,充分利用離散策略、自監督學習以及輕量級策略模型的高頻輸出。
此外,為了更好地實現操作過程中的抗干擾能力和錯誤恢復能力,北京人形機器人技術團隊提出了一種自監督資料過濾框架(SSDF)[2]從失敗資料中提取有價值的資訊。該框架透過結合專家資料和失敗資料來計算失敗軌跡段的質量分數,並篩選出高質量的失敗資料片段用於訓練。
具體來說,SSDF透過三種自監督任務(掩碼狀態轉換預測、狀態轉換重構和動作自迴歸)提取代表性特徵,並根據這些特徵計算失敗資料與專家資料之間的相似度,最終篩選出高質量的失敗資料片段用於模仿學習。
掩碼狀態轉換預測任務透過預測被掩碼的狀態轉換來學習狀態之間的依賴關係;狀態轉換重構任務透過重構狀態轉換來提取狀態變化的特徵;動作自迴歸任務則透過預測未來動作來學習動作序列的模式。
這些任務共同作用,使得SSDF能夠從失敗資料中提取出與專家資料相似的高質量片段。
透過更加有效的資料過濾和利用,SSDF框架可以大幅提高各種機器人系統在高不確定性環境中的表現。

4. 物流打包:首次實現全流程自主真實物流場景打包
釋出會現場還展示了首個全尺寸人形機器人物流打包全流程的自主作業,展現機器人對長序列複雜任務的理解與執行能力和靈巧手在工具使用與精細操作中的優勢。
「天工」機器人左右手分別拿起物品和掃碼槍,透過頭部相機確認物品條形碼位置,雙手協同完成掃碼、裝箱、封箱及貼上快遞標籤等一系列操作,最終將包裝箱放於物流傳送帶上。

這一物流打包場景的成功執行,有賴於一系列靈巧操作技能的精準實現與組合切換,對操作演算法的多工能力(如抓、放、推拉、掃碼、旋轉等)有極高的要求。
現有演算法難以準確區分和適應不同任務,導致多工操作失敗率較高。
為了解決這一問題,北京人形機器人技術團隊提出了一種名為Discrete Policy[3]的創新方法,透過向量量化變分自編碼器(VQ-VAE)將動作序列對映到離散的隱動作空間,並利用條件擴散模型生成任務特定的隱動作模式嵌入向量,從而解耦多工動作空間。該方法透過離散化隱動作空間,有效區分不同任務的動作模式。
具體來說,VQ-VAE將連續的動作空間離散化為有限的隱動作空間,使得每個任務的動作模式可以被清晰地分離和識別,條件擴散模型則進一步生成任務特定的隱動作模式嵌入向量,確保機器人在執行不同任務時能夠選擇最合適的動作模式。
透過對多個技能任務的合理組合與切換,機器人能夠顯著提升其在動態環境中的適應能力,和麵向更復雜場景、更長序列任務執行的應用。

5. 擬人移動:行走奔跑步更擬人更穩健
透過基於狀態記憶的預測型強化模仿學習方法,「天工」機器人實現了擬人感知行走。
在平坦地面上擬人直膝行走,在草地、雪地、沙丘、山地等複雜地形中,依然能夠步伐穩健平穩移動,具備強大抗干擾能力;透過感知環境,在面對連續多級階梯和大高度差地形時靈活的調整速度和步態,做到不磕碰,不踩楞,不踏空地透過。

· 強化模仿學習實現擬人直膝行走:
採用雙重模仿方式,部分關節直接模仿人類軌跡,保證了機器人直膝擬人步態。同時將人類運動捕捉資料編碼為高維運動基元,使機器人模仿人類關節之間的協調關係,使其在行走過程中能夠呈現出自然擺臂的動作,增強了整體動作的協調性。採用適當的獎勵機制與課程學習,平衡直膝行走擬人效果與行走穩定性。上述方法既保證了機器人直膝擬人步態,又保證了行走穩定性,讓機器人行走的節奏更加從容、自然,徹底告別了以往小碎步所帶來的生硬感。目前,該技術已成功在「天工Ultra」上實現高效穩定的擬人直膝行走,機器人行走速度可達 0.8 米 / 秒。
· 短時記憶增強平衡控制:
引入一段時序的本體歷史狀態資訊形成短時記憶,透過能夠準確觀測的本體狀態資訊實現對難以準確觀測的狀態資訊的估計和預測,結合反覆迭代的強化學習模擬訓練,使機器人擁有了近乎本能的平衡控制能力,實現各類複雜泛化地形的平穩透過,且具備強大抗干擾能力,能夠抵抗高達45Ns衝量的外部衝擊,在雪地等複雜地形被外力拖拽也能自動保持平衡。
結語
2024年12月,北京人形機器人釋出了大規模多構型具身智慧資料集和Benchmark——RoboMIND[4],作為業內首個經由多類視覺語言動作(VLA)及端到端模型充分驗證的跨本體標準化大規模資料集,包含10.7萬條機器人軌跡資料,涉及多達479項不同的任務,涵蓋了96種不同的物體,覆蓋了家居、廚房、工廠、辦公、零售等大部分生活服務場景,具備高度的通用性和可擴充套件性,為「慧思開物」提供了從任務理解到操作執行的全流程資料支援。

正如安卓透過開源吸引全球開發者共建生態,「慧思開物」也將有序對外開源開放,透過本體開源、資料集開源、模型程式碼開源和社群協作等方式,助力行業高質量發展,其開源資料集RoboMIND已吸引數千次下載。
如今,隨著通用具身智慧平臺「慧思開物」的推出,機器人在具有高效能本體的同時,也將全面提升智慧化水平。相信機器人將能更好地適應千變萬化的現實環境,真實走進千家萬戶,賦能千行百業。
參考資料:
[1] EmbodiedVSR: Dynamic Scene Graph-Guided Chain-of-Thought Reasoning for Visual Spatial Tasks. https://arxiv.org/abs/2503.11089
[2] Learning from Imperfect Demonstrations with Self-Supervision for Robotic Manipulation, ICRA 2025. https://arxiv.org/abs/2401.08957
[3] Discrete Policy: Learning Disentangled Action Space for Multi-Task Robotic Manipulation, ICRA 2025. https://arxiv.org/abs/2409.18707
[4] RoboMIND: Benchmark on Multi-embodiment Intelligence Normative Data for Robot Manipulation. https://x-humanoid-robomind.github.io/

