“具身智慧十五大重點方向”明確產業發展熱點,上下游合力推動具身時代到來

作者:李寧遠
物聯網智庫 原創
從去年下半年到現在,具身智慧的熱度一直不減。眾多企業紛紛入局具身智慧賽道,同時,今年具身智慧概念也首次被寫入政府工作報告,這標誌著這一技術已成為科技競爭的“關鍵領域”,也是未來大國之間人工智慧博弈的焦點。在頂層政策的助推和企業們的積極佈局下,中國具身智慧產業正在呈現蓬勃發展之勢。
根據頭豹研究院的資料,2023 年,中國具身智慧市場規模達 1572.7 億元。隨著大模型端的技術突破,具身智慧市場規模預計將以 16.5% 的複合年增長率增長至 2027 年的 2259 億元。
長期以來,應用落地的痛點一直困擾著機器人產業鏈,而現在,在終端側AI技術與硬體加速融合發展的驅動下,具身智慧概念讓整個產業正在超出預期地快速發展。智慧機器人作為最通用的具身智慧終端形態,在模型技術、多模態互動感知技術等一系列前沿科技的加持下,正在推動AI向能夠理解、推理並與物理世界互動的智慧發展。英偉達黃仁勳曾多次表示,AI技術終局在物理AI,AI時代下一個浪潮是“具身智慧”時代。
在這樣的大背景下,不久前由中國人工智慧學會(CAAI)主辦第二屆中國具身智慧大會(CEAI 2025)在北京舉辦。本屆大會發布了“具身智慧十五大重點方向”,為國內蓬勃發展中的具身智慧賽道指明瞭後續發展的重要細分方向。
“具身智慧十五大重點方向”是國內首次系統性地梳理具身智慧技術的發展路線圖,這十五個重點方向分別為:多模態具身感知、具身自主學習、具身大模型、具身世界模型構建、具身操作、具身導航與路徑規劃、具身人機協同、群體具身智慧、具身知識推理、具身智慧模擬平臺、具身智慧模擬到真實環境的遷移與泛化、具身智慧安全、具身對話與互動、具身強化學習與自適應控制以及具身意識與情感。
這裡將其分為五大類,其中,感知與互動是智慧化基礎,決策與控制是行動的核心,協作與系統推動規模化應用,基礎技術支撐加速研發程序,安全與倫理保障可持續性。需要說明的是具身機器人是多學科多技術交叉的領域,很多技術方向存在重疊,這裡的分類只按照技術側重稍做區分。
在今天這篇文章中,我們一起按上述分類梳理這十五大重點方向,看看如何在具身智慧時代抓住這些前沿底層技術發展脈絡。

具身智慧互動,感知仍舊先行

感知與互動是智慧化基礎,這一方向包括:多模態具身感知、具身對話與互動和具身知識推理。
作為集前沿科學技術於一身的產品,具身機器人的感知層、決策層、執行層等等每一類技術框架裡都有著大量可智慧化的空間。多模態具身感知是傳統機器人向具身機器人升級的重要一環,是具身智慧機器人的基礎能力。具身智慧機器人需要一整套完整的多模態具身感知系統,透過多維度的感知資料收集,帶動運動控制的正規化變化。
除了IMU、編碼器等內部本體感知,多模態感知強調機器人能儘可能實現擬人的五感。目前除了嗅覺感知方向進展稍慢,視、觸、聽、語言感知等方向均有了明顯的智慧化提升。AI+3D視覺已經發展了很多年,是將AI與感測結合得較為成熟的賽道。以往更多的是在即時收集真實資料後不斷在雲端最佳化視覺演算法。端側AI的興起,開始直接在端側進行資料處理,降低了可能因傳輸資料造成的延遲與可靠性問題。
觸覺方向上,國內有帕西尼感知、他山科技、漢威科技等廠商在向多模態觸覺感知發力。如帕西尼主研發的ITPU多維觸覺感測技術,不侷限於傳統觸覺感測器的單一感知,實現了多維陣列力感知及材質、溫度、紋理等多模態物理屬性感知。
模型技術的提升在自然語言處理NLP領域上的優勢也被機器人充分應用起來。藉助端側或雲端的模型進行自然語言識別來做語音互動、語音喚醒、聊天問答等功能已經開始向機器人應用滲透。移遠的機器人端側大模型解決方案就是很好的例子,服務機器人可實現1s以內的語義識別,解碼速率超過15 tokens/s。從KWS語音喚醒到VAD人聲檢測,再到ASR語音識別,最後透過TTS語音播報,移遠大模型解決方案在全語音鏈路上實現了無縫銜接與高效執行。
在多模態感知與互動功能的支援下服務機器人得以準確理解使用者意圖,並以清晰自然的語音進行反饋,在互動體驗和智慧服務上遠勝於傳統的服務機器人。移遠通訊在近期受訪時也表示後續會基於控制器,為機器人整合更多外圍感知器件,用多維的感知來不斷賦予機器人更類人的感知與互動能力。
互動的前提是充分的感知,藉助即時、精準、多模態的感知技術,機器人才能拓展更多自如的AI互動功能。
具身對話與互動與自然語言處理NLP密切相關,結合語義理解與物理反饋,在大模型的支援下進行沉浸式互動。隨著該方向的持續推動,具身對話與互動應該更鼓勵透過持續的互動,自然形成雙向、多模態的交流方式,即人類和機器人可以共同塑造交流氛圍,並不斷改進具身機器人非結構化的交流能力。
非結構化交流能力是具身對話互動的願景,現階段完成更自然更擬人的互動是亟需的。目前不少廠商針對智慧陪伴機器人的核心需求在這方面的能力升級,如廣和通最近釋出的星雲系列,就透過外接攝像頭、麥克風等感測器,星雲解決方案透過多模態感知可即時解析使用者動作、表情與語音意圖,並透過端側7B模型支援個性化對話生成與情感識別,實現更自然的“擬人化”情感互動。
在多模態感知到多模態互動的過程中,涉及到具身知識推理,即讓機器人能夠結合先驗知識與即時感知資料,利用知識庫中的結構化知識(如物理規律、操作流程、語義關係等),提升對複雜任務的邏輯推理能力。其核心在於將抽象知識(如常識、領域規則)與具身多模態感知(如視覺、觸覺)深度融合,以支援動態環境下的任務規劃與互動執行。

決策與控制塑造行動核心,協作與系統推動具身規模化應用

決策與控制方向上包括:具身自主學習、具身強化學習與自適應控制、具身導航與路徑規劃、具身操作;協作與系統方向上包括:具身人機協同、群體具身智慧。
具身導航路徑規劃以及具身操作是機器人執行側的下一個發展階段。自主導航與路徑規劃經過這些年的發展已經成熟了很多。特別是SLAM技術的成熟完善讓機器人在沒有環境先驗資訊的情況下實現了未知地圖內的自主導航與規劃,讓很多商用機器人得以落地應用,如巡檢機器人、送餐機器人。值得注意的是,具身導航時代,3D SLAM也在快速崛起。
具身智慧裝置的迅速普及將快速推動以SLAM為代表的各類導航感測器的融合,在多感測器資訊融合的基礎上,透過智慧模型最佳化路徑規劃,讓機器人導航向更自主更靈活的具身導航方向發展。為了實現效能更好的導航效果,我們也看到上游的晶片廠商會自研導航規劃演算法將演算法在晶片層面硬體化,如一微半導體、芯明智慧;感測器廠商也有不少將導航演算法與感測器件打包成模組提供給下游本體廠商,如鐳神智慧、AMS OSRAM、速騰聚創。
機器人末端執行器的具身操作其實無需贅述,重點在於具身智慧體如何基於多維度多模態感知資訊生成行動策略並實現精準執行。各類精密的末端操作在今年亮相的機器人中已經有了很多展示,後續如何拓展具身機器人多樣化工作能力,持續增強基礎動作模型能力,從而實現更廣泛的場景應用是落地關鍵點。
機器人具身自主學習、具身強化學習與自適應控制是底層技術的長期積累,具身自主學習透過試錯與環境反饋最佳化策略,根據反饋資訊來調整自己的行為。具身自主學習方法在機器人多個模組都有廣泛的應用,例如在機器人導航中,機器人可以透過感知周圍的環境和障礙物,學習到如何避開障礙物並找到最佳路徑;在物體識別和抓取任務中,機器人可以透過多模態模型感知物體的形狀、質地等特徵,並不斷學習到如何正確地抓取物體。在不斷的嘗試和錯誤中,機器人自主學習到如何有效地與環境進行互動,並實現特定的任務。強化學習與自適應控制更強調突破傳統程式化指令限制,適應動態環境變化,如柔性機器末端的即時調整。在具身裝置落地階段,適應動態環境變化的自適應控制將發揮關鍵作用,確保機器人在複雜場景中靈活應對各種變化。
具身人機協同、群體具身智慧將單個具身智慧體擴充套件到多智慧體協同以及人機協同作業,透過群體智慧演算法實現高效協作,聚焦多機協同的複雜系統設計,強調互動性與規模化應用。智源研究院在大會上釋出首個跨本體具身大小腦協作框架RoboOS與開源具身大腦RoboBrain就強調可實現跨場景多工輕量化快速部署與跨本體協作,推動單機智慧邁向群體智慧。
具身智慧技術的持續演進,不僅提升了機器人的個體能力,更在多智慧體協同中展現出強大潛力。隨著演算法最佳化與硬體升級,群體具身智慧的完善將推動智慧製造與人機協作邁向新高度。

基礎模型技術與底層框架平臺推動具身技術邁入物理AI終局

基礎技術的快速迭代加速著具身技術的應用,在十五個方向中包括了:具身大模型、具身世界模型構建、具身智慧模擬平臺、模擬到真實環境的遷移與泛化。
模型技術自然是具身智慧實現的基石,在其他技術方向上,也或多或少能看見模型技術的影子。面向具身智慧應用領域的多模態具身大模型,能夠幫助機器人真正理解這個世界,對人類發出的指令進行拆解、邏輯推理和規劃決策,再分配給不同的小腦模型來執行。具身大模型是全球諸多機器人公司和研究機構追捧的前沿課題。
此前Figure釋出的Helix,內建擁有70億引數的開源端側網際網路預訓練視覺語言模型用於處理語音和視覺資訊,和8000萬引數的AI模型用於將指令轉化為精確的機器人動作;智元機器人釋出的通用具身基座大模型智元啟元大模型則憑藉強大的泛化能力,能夠在極少的資料甚至零樣本下泛化到新場景、新任務,降低具身大模型的使用門檻;不久前優艾智合聯合西安交大具身智慧機器人研究院團隊構建的“一腦多型”的具身智慧大模型,同樣採用多模態通用基座大模型,還加上了“一腦多型”端側具身模型的混合架構;魔法原子近期也公開了首個具身智慧大模型“原子永珍”。
對於帶有執行功能的具身機器人終端側裝置來說,構建多模態具身大模型是通往高階智慧的必經之路。與此同時,多模態具身大模型和硬體算力的適配,則是能否真正應用起具身大模型能力的重點,也是推進具身裝置落地的關鍵。
資料融合後高複雜性需要恰當的計算資源讓整個具身大模型系統運轉起來。多模態具身模型與硬體算力的結合正在積極湧現,眾多具身端側大模型紛紛與英偉達、紫光展銳、高通、瑞芯微、英特爾等算力硬體廠商展開深度合作,釋放具身大模型潛力。具身模型與硬體算力結合落地,讓具身智慧裝置進入商用的步伐加速。
在物聯網智庫近期的採訪中,也瞭解到不少算力模組廠商如移遠通訊、廣和通、比鄰智聯等,正在積極佈局機器人模型“大小腦”,透過算力、模型、連線多方面的工程化能力加速下游機器人本體廠商應用起AI能力。
具身世界模型根據英偉達官網的定義,即理解現實世界動態的生成式AI模型,能夠理解現實世界環境的物理特性,從而對運動、應力以及感官資料中的空間關係等動態進行表示和預測。在終局的物理AI世界,具身世界模型是連線虛擬與現實的橋樑,是能夠表徵世界運作邏輯的空間智慧。
以NVIDIA面向物理AI釋出的“世界基礎模型”Cosmos為例,它能透過生成合成資料,使用包括文字、影像、影片和運動在內的輸入資料來生成和模擬虛擬世界,以準確模擬場景中物體的空間關係及其物理互動。目前具身世界模型正處於初步發展階段,但不可否認的是構建具身世界模型在具身環境的訓練決策中起著至關重要的作用,它讓現實世界中原本成本高昂依賴真實資料的模擬在虛擬環境和資料下成為可能。
涉及到大量虛擬資料構建與模擬,具身智慧模擬平臺、模擬到真實環境的遷移與泛化自然是具身智慧重要的研究方向。筆者在此前的文章《機器人與模型深度融合開啟智慧升級下半場,智慧終端的未來終局是物理AI》中也提到過,“和傳統模型不一樣,機器人世界模型所需的訓練資料需要精確標定來進行學習和泛化,而且很難從現實世界完成龐大的採集量且採集後多模態資料很難標定,度量不一這些資料就無法被模型利用。從Sim到Real也就成了更有效率的一條路”。
在這些重點技術方向上,世界基礎模型提供物理世界知識和高模擬資料,奠定泛化基礎,端側的具身大模型經細化、壓縮及多模態融合最佳化,適配具身裝置算力需求充分釋放應用潛力,共同推動著具身智慧邁入物理AI終局。

寫在最後

在最後一個分類中,是和安全與倫理相關的具身智慧安全、具身意識與情感。目前這一塊的建設還比較稀缺,且具身機器人還沒有進化到具備意識與情感的階段,但未雨綢繆提前佈局總是好的,確保具身技術應用符合倫理規範並規避潛在風險,是未來具身智慧裝置可持續發展的必要條件。
具身智慧十五大重點方向,囊括從底層感知到高層決策、從單機到系統、從技術突破到社會落地的完整鏈條。這些方向的明確為後續具身智慧產業鏈佈局提供了參考,在模型技術、算力硬體、運控技術、感知技術等基礎軟硬體協同發展的推動下,國內具身智慧將逐步實現從概念到實際落地應用的跨越。

相關文章