機器人與模型深度融合開啟智慧升級下半場，智慧終端的未來終局是物理AI

作者：李寧遠

物聯網智庫原創

年初的CES 2025可以說給今年的智慧硬體產品拉開了盛大的帷幕，不少創新的智慧產品紛紛登場，在AI技術的加持下展現出豐富的應用方向。雖然AI發展還有漫長的道路要走，但從雲到端已經成為一個明確的發展趨勢，AI世界在今年開啟了屬於智慧硬體的下半場。

這些登場的智慧硬體產品裡，機器人產品是極具代表性的一類，尤其是人形機器人可以說是展會上最能代表前沿科技成果的焦點。英偉達演講期間14款機器人登場組成的“人形機器人軍團”加上黃仁勳那句“通用機器人的ChatGPT時刻即將到來”的感嘆，令人印象深刻。

從人形機器人前後的釋出足跡來看，如果說之前機器人的效能革新，AI技術還隱於底層軟硬體背後，更強調場景任務精密地控制執行。那麼最近圍繞人形機器人的效能革新，都已經不約而同地圍繞一個關鍵宣傳詞——AI。

當前AI發展已經用盡了所有人類知識進行訓練，現在開始使用合成數據，並將在未來 3-4 年內發展到可以完成任何認知任務。現階段AI已經給人類生活帶來了改變，未來將繼續帶來巨大變革，甚至可以完成任何人想要的事情。作為智慧硬體的代表，機器人與AI的結合自然也更緊密，同時二者的結合也加速了機器人向落地更進一步。

作為引領人形機器人浪潮的Optimus，馬斯克不久前公開表態要把特斯拉的未來押注在Optimus機器人上，2025年特斯拉的目標是製造數千臺人形機器人，2026年特斯拉的人形機器人產量將增加10倍，目標為生產5萬到10萬個人形機器人，以後或每年翻10倍。

除了人形機器人，消費級智慧機器人產品也開始湧現，如陪伴機器人、清潔機器人、商業服務機器人均開始在智慧化上衍生多樣功能。特別是今年年初陸續登場的眾多創新AI陪伴機器人，帶動了AI機器人玩具這一新賽道的發展。

在前文《CES智慧終端崛起引領算力下沉，端側AI晶片效能再革新》中曾提到過，英偉達梳理的AI技術進化路徑是從 Perception 感知AI到 Generative生成式AI，再到Agentic代理型AI，最終實現具備感測與執行功能的Physical 物理型AI。

在Physical 物理型AI終極形態，任何能感知並執行操作的裝置都被視為是機器人，並由AI賦能釋放應用潛力。物理AI這一概念正在引領AI技術在機器人端側的革新，透過硬體與模型的深度融合將AI從數字世界帶入物理世界。

智慧化下半場，機器人與模型融合創新

機器人借力智慧模型透過多模態能力增強智慧理解和決策是現今產業鏈正在推進的方向，從近期人形機器人發展能明顯看出這個趨勢。

不久前阿加犀攜手高通，釋出了全球首臺完全基於高通SoC的端側多模態AI大模型人形機器人——“通天曉”（Ultra Magnus）。根據官方給出的定位，這是基於終端側生成式AI的具身智慧人形機器人解決方案。

高通的QCS8550處理器為機器人動作控制、感知、決策規劃和語音互動提供底層計算能力支援。同時機器人基於終端側大語言模型技術，運用端側語言小模型識別實現自然語音互動和使用者意圖理解，此外還融合了視覺感知技術對機器人運動控制與作業進行規劃。

在英偉達演講“人形機器人軍團”中亮相的銀河通用Galbot G1則搭載了具身抓取基礎大模型。不久前銀河通用也聯合北京智源人工智慧研究院（BAAI）及北京大學和香港大學研究人員正式釋出了具身抓取基礎大模型 GraspVLA。Galbot是人形機器人分支下的輪式人形機器人，即下半身採用AMR式的輪式移動地盤，不追求雙足式在靈活移動上的效能，聚焦於上半身的功能執行。

這裡不過多展開二者的形態之爭，輪式的優勢在於從目前發展階段的商業化角度來看，輪式人形機器人設計、製造成本會相對較低一些，輪式移動底盤已經相當成熟比雙足的運動控制簡單很多成本也更低，在商業化上可能先取得進展。聚焦在上肢的功能執行，Galbot的模型層透過模擬合成數據自研合成千萬級的場景資料以及海量抓取和導航資料來掌握泛化閉環抓取能力，達成基礎的感知操作模型。

去年剛剛成立的靈初智慧不久前也釋出首個基於強化學習（RL）的具身模型 Psi R0。該模型也是感知操作模型，支援雙靈巧手將多個技能串聯進行復雜操作，還可以實現跨物品、跨場景級別的泛化。

不止是2B類機器人在融合模型開始智慧化升級，在許多消費類機器人產品上，這一趨勢發展得同樣迅速，特別以語言與感知模型與終端側的結合居多。

大象機器人開發陪伴類機器人以動物外觀作為外形設計，搭載AI大模型，理解人類語意和情感判別，提供情緒價值為主的智慧互動。

TCL近期推出的的分體式智慧家居陪伴機器人Ai Me基於AI大模型不僅能與人進行多模態的自然互動，提供溫暖的情感陪伴和擬人互動，還能智慧移動並自動捕捉家庭美好瞬間。此外，Ai Me還會透過與使用者的互動不斷學習和適應家庭成員行為習慣控制家居裝置，在陪伴等情緒價值之外兼顧了家居智慧中控的功能，功能發散得越來越多樣。

在清潔家電深耕多年的雲鯨智慧同樣在向機器人＋模型的具身智慧方向轉變，推出的逍遙系列已經是具身智慧雛形，透過大模型下達清潔指令，機器人依靠自己的語義理解去行動、識別、完成清潔。

消費類機器人尤其是提供情緒價值的陪伴類機器人有著很強的玩具屬性，在模型技術的發展下這些機器人從簡單的互動裝置進化到集教育、陪伴和娛樂功能於一身。這類機器人和手辦、玩偶以及“穀子”一樣，能在情緒上給予消費者很高價值反饋，有著很高的市場接受度高，市場空間正在開啟。

其實將視野再放大一些，很多創新的實體終端裝置都開始搭載AI技術來迭代功能，在終端裝置與終端側AI的深度融合下，未來手機、PC，家電、汽車、玩具等等裝置未嘗不是另一種形態的機器人，這些實體的智慧終端也正是物理AI的願景。

在這些終端市場的發展上，終端側AI也正朝著多模態融合、模型小型化與適配等方向發展，與終端硬體配置協同更新。可以說正是因為模型能力已演進到一定程度能在終端側賦能硬體，才讓物理AI變得可行。

Physical物理型AI，用模型賦能機器人潛力

Physical物理型AI在基礎硬體上的需求提升自然是全方位的，聚焦在模型上，硬體配置完備機器人能否在不確定的環境下正常執行，決定因素之一是具不具備泛化決策能力的“大腦”。建立起對空間與物理過程進行精準建模、理解與推理決策的“世界模型”是實現具身智慧的前提。

以NVIDIA在CES 2025上面向物理AI開發釋出的最新“世界基礎模型”——Cosmos為代表，Cosmos是一套“用於物理感知影片生成的開放式擴散和自迴歸 Transformer 模型”，擁有一系列開放的預訓練世界基礎模型，可以預測和生成虛擬環境未來狀態的物理感知影片的神經網路。該世界基礎模型透過生成合成資料，使用包括文字、影像、影片和運動在內的輸入資料來生成和模擬虛擬世界，以準確模擬場景中物體的空間關係及其物理互動。

應該說在當前的AI架構和模型範式下，透過生成式物理模擬，捕捉現實世界時空四維映象，從而獲取大量的物理資料是實現具身智慧的關鍵。和語言大模型不一樣，機器人世界模型所需的訓練資料需要精確標定來進行學習和泛化，很難從現實世界完成龐大的採集量且採集後多模態資料很難標定，度量不一這些資料就無法被模型利用。

機器人模型從Sim到Real也就成了更有效率的一條路，生成大量可控的基於物理學的合成數據，模擬虛擬世界以準確模擬場景中物體的空間關係及其物理互動。在物理AI模型部署到現實世界之前進行模擬測試和除錯，以及在虛擬環境中進行強化學習以加速AI智慧體學習。然後透過部分真實資料做對齊，進一步提高機器人執行準確性，最終實現物理AI願景。

當然，實現真正意義上的Physical物理型AI，這些世界模型的建立與應用需要更多的計算能力和海量資料的學習與訓練。除了通向物理AI終局的世界模型，終端側大模型以及細分小模型的應用已經在持續推動終端裝置智慧化程序，讓其擁有感知環境變化，依據觀測資料最佳化決策，從而更精確地進行物理互動的能力。而未來更全面更真實世界模型與終端機器人的融合將進一步將AI向物理AI終局推動。

世界模型與下沉到端側的語言、感知、操作模型共同賦能下物理Al將不斷賦予“以機器人為代表的終端物理裝置”自我適應和深度決策能力，使其在真實世界中具備更強的動手與動腦能力。

這裡強調了是“以機器人為代表的終端物理裝置”，物理AI的終局並不一定是現階段我們認知的機器人，尤其不一定是人形。物理形態只是載體，在AI的加持下，裝置外形設計適配具體任務的執行即可。在終端裝置與終端側AI的深度融合下，未來家電裝置、自動汽車等裝置又何嘗不是另一種形態的機器人，這些實體的智慧終端也正是物理AI的願景。