今天的開頭有點噁心。你有沒有見過掃地機器人因為無法識別寵物便便,變成推💩機器人的。此處就不上圖了,好奇寶寶可以自己去搜索下看看。其中關鍵原因就是機器人無法 100% 識別寵物排洩物。
在機械世界裡,感知互動是智慧化的第一步,也是機器人獲取環境資訊、進行學習與適應、實現自主決策的前提。如果說大模型是 AI 的 “大腦”,那麼感知系統則是機器人的 “五感”,它讓冰冷的機械體具備了理解世界的生物學基礎。
視覺、聽覺、嗅覺、味覺、觸覺 —— 人類透過五感將外界刺激轉化為神經訊號,傳遞至大腦的初級感覺皮層,對形狀、顏色、聲音訊率等進行初步特徵提取。隨後,高階腦區會對多模態資訊進行整合,形成對環境的整體認知。例如,視覺的色彩和光線會影響情緒判斷,嗅覺的氣味會直接啟用記憶相關腦區,觸發情感聯想等等。
機器人要想無限貼近人類,首先就要學會人類五感。
事實上,當前全球機器人感知技術的發展方面,單項感知能力並不算弱,甚至有的方面已經超越人類。但是在多模態感知融合上,還存在不小的認知鴻溝。比如視覺無法分辨地毯紋理與糞便,嗅覺會遭遇氣流擾動的訊號失真,觸覺反饋延遲一秒就可能導致雞蛋破碎 —— 這些技術斷點恰是智慧覺醒必須跨越的天塹。或許未來某天,搭載神經形態晶片的機器人能像人類一樣,聞到雨後泥土氣息時自動調低吸力,觸到寵物毛髮瞬間切換輕柔模式,那才是真正的感知革命。
技術拆解:從單點突破到多模態交響
單一的感知技術很難應對真實複雜的場景需求,因此業界正在轉向多模態感知融合的研究,本質是透過硬體協同、演算法泛化與場景適配,構建 “感知 – 決策 – 執行” 的閉環智慧體。同時,多模態感知的融合則是構築在單一感知技術的突破之上。

2025 機器人全產業鏈接會上,帕西尼展出的靈巧手融合了視覺互動技術
觸覺
新中式賽博的敘事裡,機器人可以化身老中醫,給人把脈、問診。
第一步就是透過一個小小的觸覺感測晶片 —— 當人體脈搏跳動時,血管擴張產生的壓力會使觸覺晶片中的壓電材料發生形變,材料內部的正負電荷發生位移,從而產生與脈搏壓力成正比的電荷訊號。這種訊號經過放大和濾波處理後,可轉換為脈搏波形資料。一般透過波形分析獲,可以初步診斷血管彈性、血流量變化等心血管疾病。

但這個場景只能算是觸覺感知裡的入門級應用。現在,我們更想看到的是,機器人靈巧手可以捏捏葡萄藤上的果子,根據軟硬判斷它的成熟度,又或者是透過觸控能判斷一隻包的材質……
如果說早期的觸覺感測器還停留在工業場景的 "有無" 判斷,那麼它的進化史就是一部從機械觸鬚到仿生神經的蛻變錄。20 世紀 70 年代,科學家用壓阻式、電感式感測器繪製出觸覺感知的雛形;2003 年 MIT 給 NASA 宇航機器人 Robonaut 披上電子皮膚時,首次實現觸覺覆蓋,可感知壓力、溫度等多維資訊;待到 2020 年,以深度學習驅動的觸覺資料處理技術興起,布里斯托大學團隊首次將深度神經網路應用於機器人指尖觸覺,透過三維滑動接觸資料訓練模型,使機器人能估算物體表面角度並即時調整抓握策略,讓觸覺感知從簡單的壓力檢測,升級為可解析紋理、形變的動態互動系統。
當下,觸覺感知的硬體基礎持續迭代,同時結合深度學習與模擬技術,提升模型泛化能力,加速多維觸覺資料的獲取與解析。
帕西尼多維度觸覺感測器 PX-6AX 接觸到物體時,其柔性陣列上亞毫米級別的微小形變場能被瞬間捕捉,在傳統三維 / 六維力檢測的基礎上,安裝在 PX-6AX 上的柔性感測陣列能額外為機器人提供滑動、摩擦、紋理、溫度等額外資訊,使得機器人能在更豐富多元的場景下完美感知,完成複雜的自適應動作。
今年 3 月,多模態觸覺感知公司千覺機器人推出全球首個觸覺模擬工具 Xense_Sim 以及多模態高精度觸覺感測器 G1-WS,透過深度學習生成合成觸覺資料,解決了真實資料採集成本高的難題,同時助力智元機器人完備資料採集模態,為人形機器人在精密裝配、工業智造及智慧服務等複雜場景中落地應用構建資料基礎。據智元機器人內部人士評價,“合成數據與真實機器人操作軌跡資料互補,提升資料的多樣性和模型的泛化性,並降低資料成本。”

視覺
機器人視覺感知方向上。2009 年,李飛飛實驗室釋出了包含 1500 萬張影像的 lmageNet 資料集,視覺演算法的速度和準確性得以迅速提升。此後影像識別引領了一段時間的 AI 發展,再到物體切分、動態關係預測,使用人類自然語言描述照片等。2015 年擴散模型出現,可以應用在影像去噪、影像修復、超解析度成像、影像生成等場景中。而後擴散模型又推動了生成式 AI 的發展,可以將人類輸入的句子轉化為照片和影片。
2022 年底開始,全球大模型進入高速發展階段,至今,國內外已經有多個大模型透過引數規模突破與訓練正規化革新,進而提升機器人視覺感知能力。比如,今年 2 月,豆包大模型團隊與高校聯合推出的 VideoWorld 影片生成實驗模型,實現了無需語言模型的純視覺訊號學習,透過純視覺訊號將複雜的推理、規劃和決策能力轉化為現實,只需透過海量影片資料的瀏覽,便能讓機器自主學習。
除了大模型能力的加持,機器人視覺硬體也在同步迭代。傳統機器人視覺依賴單一感測器,如 RGB 攝像頭或雷射雷達,透過灰度 / 彩色影像或點雲資料完成目標識別與定位,但存在環境光干擾、測距精度不足等問題。當下的視覺感知在硬體上也已經在從單一感知向多模態融合。比如早期聚焦車載雷射雷達的企業 RoboSense 在今年 3 月釋出了機器人視覺全新品類 Active Camera 的首款產品 AC1 及 AI-Ready 生態,其中 AC1 提供深度、色彩、運動姿態硬體級融合資訊,讓機器人感知構型擺脫堆疊感測器的傳統方法。

室外 AC1 拍攝畫面及建圖資料,圖片來自速騰聚創官網影片截圖
聽覺、味覺與嗅覺
當前的具身智慧感知技術研究中,聽覺、味覺、嗅覺往往是作為補充性功能,疊加視覺或者觸覺,讓機器人的感知更加全面、精細。
比如聽覺主要用於語音互動和環境聲事件檢測,像異常警報,但其核心價值還是依附於視覺與觸覺的協同,例如透過聲音輔助定位目標物體等等。味覺和嗅覺的應用場景目前也高度垂直,如食品檢測、醫療診斷中,主要依賴電子鼻這類的化學感測器和特定演算法,技術通用性差,例如葡萄酒檢測機器人需定製紅外光譜儀,難以遷移到其他場景。
工業和服務機器人更關注抓取、移動的基礎操作能力,而聽覺、味覺、嗅覺的研發成本高、商業回報週期長,所以我們常見以觸覺或視覺為核心的具身智慧創企和團隊,但很少有以聽覺、味覺、嗅覺為核心的創企。應用場景上同樣,智慧家居中視覺門鎖、觸覺機械臂已普及,但氣味控制機器人仍屬於小眾市場
多模態融合
業內在感知方面研究較深的帕西尼,其靈巧手在掌內可以內嵌多顆攝像頭,透過觸覺與視覺的融合,能有效避免因角度遮擋帶來的識別失誤,同時提升複雜操作的穩定性。比如在物流倉儲場景下,它能自主判斷並完成掃碼、貼標、分揀等動作,無需額外人工干預。

觸覺 + 視覺的融合是具身智慧感知方面最常見的融合之一,觸覺感測器能夠捕捉物體的質地、硬度、溫度、滑移狀態等物理特性,而視覺感測器擅長獲取形狀、顏色、空間位置資訊,二者結合便更容易在複雜動態場景中實現類人化的環境理解與精準操作。
事實上,關於多模態融合的研究也是始於對人類多感官協同機制的探索。早在 20 世紀 70 年代,心理學領域便關注到人類交流中非言語模態,如肢體動作、聲音的主導作用;到了 2002 年,加州大學伯克利分校的 Banks 團隊透過神經科學實驗首次揭示了人類視覺與觸覺的天然融合機制,發現觸覺資訊能有效彌補視覺遮擋或模糊時的感知空缺。
這一發現不僅證實了多模態融合的生物基礎,更直接推動了工程化研究 —— 例如,MIT 團隊隨後開發了結合視覺觸覺感測器的 GelSight 系統,透過觸覺影像重建物體表面紋理,並將觸覺資料與視覺特徵對齊。
隨著深度學習技術的突破,多模態融合從生物啟發式建模轉向資料驅動的跨模態表徵學習。
2010 年代,基於深度玻爾茲曼機的多模態模型首次實現視覺與觸覺的聯合編碼;至 2020 年代,Transformer 架構的引入使跨模態語義對齊能力顯著提升;去年年底,卡內基梅隆大學機器人研究所、加州大學伯克利分校等共同組成的研究團隊提出了一種名為 NeuralFeels 的方法,將視覺與觸覺感知相結合,透過多模態融合的方式,使機器手能夠對未知物體持續進行 3D 建模,從而更精確地估計掌上操作物體的姿態和形狀。
政策也在指引多模態感知融合研究。今年 2 月,《北京具身智慧科技創新與產業培育行動計劃(2025-2027 年)》印發。

其中重點任務的第一項便是 “突破多模態融合感知技術”:支援高校院所聯合優勢企業,研究多感測器資料的時空同步與校準技術,高效整合不同感知源資料;研究跨模態學習演算法,加強不同模態資料的相互作用和互相補充;研究互動式感知、主動感知、多模態資料補全等演算法,實現規模化多模態資料高效自動對齊;研究具身環境中高效、魯棒的視覺-語言-動作多模態統一表徵與融合方法,提升機器人感知理解能力。
行業落地:工業場景搶跑,服務市場蓄勢
工廠就像個規規矩矩的考場,流水線怎麼擺、零件怎麼放都是固定套路,這種環境對機器人來說簡直就是量身定製的舞臺。
越是結構化、可預測、標準化的互動環境,機器人行動起來越是自如。所以目前我們看到的機器人應用也多是在工業場景中,在固定的產線佈局和標準化的作業流程中,機器人做起汽車焊接、貨物分揀、貼標籤等工作來得心應手。
今年以來,也有不少廠商官宣了機器人 “進廠” 的動態。綜合來看,機器人在工業領域的應用主要集中在焊接、搬運、質檢、裝配四大場景,核心技術包括多模態感知、AI 大模型和自適應學習。廠商透過垂直行業需求定製解決方案,推動降本增效。

除了在流水線上做工人,市場也正在讓機器人走進家庭做服務,下到地裡做農民,爬到山上做救援…… 技術進化的箭頭正在轉向更復雜的非標領域。
IDC 最新發布的報告顯示,2025 年人形機器人有望在商用服務、特種作業領域從事運動速度、節拍要求較低的生產服務任務,預計將實現千臺量級的小規模商用。商用服務如展廳、商超、機場等公共場的服務機器人,特種作業則是指在安全巡檢、應急救援等特殊作業場景替代人類從事重複勞動、高風險的任務。
相較於開放環境中的複雜挑戰,家庭生活場景中的清潔任務因其重複性強、空間結構相對標準,成為具身智慧技術最先攻克的一站。目前,家庭生活場景中,家庭清潔任務的重複性強、空間結構相對標準,是具身智慧最容易落地的場景之一。
在海爾與穹徹智慧聯合研發的衣物管理系統中,機器人透過 3D 視覺掃描髒衣簍,機械臂基於 AnyGrasp 演算法抓取堆疊衣物時,能自動識別蕾絲裙裝與牛仔外套的材質差異,前者採用真空吸附避免勾絲,後者切換三指抓取確保承重。
當技術突破不斷重新整理場景落地的可能性,商業模式的創新也在同步重塑產業生態。隨著應用場景的變遷,具身智慧機器人市場的商業模式也正在從 “賣硬體” 擴充套件到 “賣服務”。深圳火狗智慧以 “機器狗租賃” 降低使用者門檻,北京探索 “開源開放 + 賽事展演” 推廣模式。頭部企業更傾向 “HaaS 硬體即服務”,透過訂閱制分攤研發成本 —— 銀河通用、智元機器人已獲美團、華為等戰略投資,押注長期生態價值。
《2025-2030 中國具身智慧行業發展創新策略》:預測 2030 年全球市場規模突破 5 萬億元,技術研發與商業化投資佔比超 60%
中國《政府工作報告(2025)》首次將具身智慧列為未來產業,配套資金與稅收優惠直接推動實驗室與產業鏈擴張。
歐盟《地平線計劃 2030》撥款 120 億歐元支援具身智慧技術研發,美國《國家人工智慧倡議法案》明確每年投入 50 億美元。
感知技術的突破,正在讓機器人從執行工具進化為具有環境互動能力的認知主體。這場融合硬體、演算法與資料的 “認知戰爭”,正在重構人機協作的底層邏輯。儘管異構感測器協同、跨模態語義對齊等技術瓶頸仍需攻克,但全球超百家實驗室的聯合攻關與萬億級行業投資驅動下,具身智慧的 “感知革命” 已不可逆。
從工廠車間到家庭空間,從標準流程到非標服務…… 人類教會了機器人感受世界,而它們的反饋也將重塑智慧邊界。
END
熱門文章