從春晚機器人扭秧歌,看具身智慧發展的“攔路虎”與突破點

這也揭示了具身智慧發展過程中的重大瓶頸—如何使機器不僅能“做到”這些動作,而且能夠像生物那樣“自然地做到”。
從春晚機器人扭秧歌,看具身智慧發展的“攔路虎”與突破點
本文摘編自《具身智慧:人工智慧的下一個浪潮》

劉雲浩著
2025年蛇年春晚,舞臺上出現了一幕令人眼前一亮的場景:一群機器人帶來了一場別開生面的扭秧歌表演,吸引了全球觀眾的目光。在張藝謀導演的《秧BOT》節目中,這些機器人身著東北特色的花棉襖,隨著音樂節奏翩翩起舞,動作精準流暢,手中的手絹轉得虎虎生風,與人類舞者相比也毫不遜色。
這些驚豔眾人的機器人,來自杭州的一傢俱身智慧創業公司。它們的亮相,不僅向全球觀眾展示了中國具身智慧機器人技術的飛速發展,更引發了人們對具身智慧機器人產業的廣泛關注與深入思考。
具身智慧機器人,作為人工智慧與物理世界深度融合的結晶,正逐步成為未來科技發展的關鍵方向。清華大學全球創新學院院長、自動化系教授兼博導劉雲浩在其新書《具身智慧:人工智慧的下一個浪潮》中,以通俗易懂的方式剖析了什麼是具身智慧,以及如何實現從人工智慧到具身智慧的跨越。
如何使機器“自然地做到”
小狗在草地上歡快地奔跑,小鳥在空中飛翔,這些行為都不需要動物的大腦進行復雜計算或過度努力。但要想讓機器人能做到跑步、跳躍,那可就費勁了。首先,智慧體需要準確地感知環境和物件的狀態,這包括物件的位置、大小、形狀和紋理等資訊;其次,智慧體需要根據感知到的資訊進行運動規劃,計算出如何移動自己的關節和肢體,以實現預期的動作;最後,智慧體需要精確地執行這些動作,這不僅要求其對關節和肢體的控制精度,還要求其能夠適應環境的變化和不確定性。你看看波士頓動力—這家公司花了數十年的時間在工程研究、機械設計、感測器整合以及演算法開發上,才使得其機器人能在高度控制的實驗室條件下實現類似動物包括人類的奔跑、跳躍。
在我們的日常生活中,很多看似簡單的任務如切菜、刮鬍子、整理收納等,人工智慧都沒能很好地完成,一個不小心智慧體還會掉入所謂的“恐怖谷”。這個術語描述了當機器人或仿生物件接近但尚未達到與真實人類或其他生物無法區分的程度時,引起的不適感或恐懼。
這是因為,日常任務雖然對人類來說輕而易舉,但對機器人來說卻涉及複雜的運動控制和精細的感知能力。例如,切菜不僅需要根據食物的硬度、形狀和紋理調整力度和切割角度,還需要避免切到手,也不能造成不必要的浪費;刮鬍子則要求機器人能夠精準識別臉部輪廓,輕柔而有效地去除毛髮,同時避免刮傷皮膚;整理收納則涉及對物品的識別、分類和空間規劃,需要機器人具備一定的空間智慧和組織能力。
這也揭示了具身智慧發展過程中的重大瓶頸—如何使機器不僅能“做到”這些動作,而且能夠像生物那樣“自然地做到”。
“具身智慧”由兩個片語成,一個是“具身”,一個是“智慧”。我們先來說“具身”。
動物尤其是人類能夠做到運動控制,需要一個複雜而精細的過程,它涉及神經系統、肌肉系統以及感覺系統的協同工作。運動控制的核心在於神經系統與肌肉系統的協同作用。神經系統透過發出電訊號來控制肌肉的收縮和放鬆,從而實現各種動作做到運動控制是由演化決定的。
對於智慧機器,我們希望其行動能夠做到準確、迅捷、協調。可是,要讓機器變得如此靈巧,又談何容易?
從維納的控制論開始,行為主義在這一領域做了大量的工作。時至今日,從波士頓動力翻跟頭的機器人到穿街走巷的無人駕駛汽車,從流水線上組裝零件的機械臂到夜空中飛舞盤旋組成各種圖案的無人機叢集,我們已經目睹了大量靈巧的智慧機器。
但是我們仍然不滿足,因為這種靈巧還不夠“通用”,還有很多工做得並不好,就連最普通的家務,目前也並沒有哪一款智慧機器能夠包攬並達到商用的程度。
那麼,這些任務到底難在哪裡呢?互動是關鍵。在沒有外界互動的情況下,對智慧機器的控制已經得到了廣泛的研究並取得了顯著成果。但一旦牽涉與環境的互動,機器行動的難度便急劇上升。擺在互動面前的三座大山分別是“物件”、“環境”和“動態性”。
首先來看互動的物件。物件的型別無窮無盡,可能是一件衣服、一個櫃子、一座山、一片海、一個人或者另一臺機器。每個物件都有其獨特的屬性和特性,我們與它們互動時的體驗和需求也截然不同。比如,雕刻木頭與堆雪人所需的技巧大相徑庭,抓住水杯與拿起豆腐所需的力度迥異,擰開藥瓶蓋與開啟微波爐門的動作也各有不同。
其次是互動的環境。物理世界中的互動總是發生在複雜紛繁的環境當中,充滿了各種噪聲和干擾。以晾衣服這一簡單任務為例,我們需要在可能的風力干擾下,從一堆洗淨的衣物中挑選一件並將其固定到晾衣架上。對於無人駕駛汽車而言,雨雪天氣、道路障礙物等都可能對其行動造成重大影響。
最後是互動的動態性。互動的過程往往充滿了動態性,互動物件的變化、環境的變化等都無法在行動之初就確定下來,甚至這些動態性也會導致行動的階段性目標發生變化,進而需要智慧機器及時進行調整。
不過,當我們將視角轉向較為簡單可控的環境,針對少數物件的互動時,現代智慧機器已經展現出了卓越的成就。例如,在生產線上,焊接機器人面對的互動物件和環境在一定時期內是恆定的,因此即便需要快速完成多個焊點,這些機器人也能精準高效地完成任務。
事實上,就重複性工作效率和精準度而言,機器已經超越了人類。再如,就乒乓球這項對人類運動控制能力要求極高的運動而言,在我們將互動環境限定於固定的球檯一側、將物件僅限於球拍和球之後,智慧機器已經能夠與人對戰,展現出不俗的技藝。
知者敏於行
面對互動之難,到底該如何提升智慧機器的行動能力呢?“頭痛灸頭,腳痛灸腳”歷來飽受詬病。要想解決互動中的挑戰,除了提升控制演算法和執行器的物理效能(這些內容在其他教材或文獻中已有廣泛討論),我們還需要聚焦於“知”的深度與廣度。這裡的“知”,涵蓋了從感知到認知的完整過程,即我們對行動主體與客體的全面理解。
該怎麼提升“知”的深度與廣度?還是從我們最熟悉的人類來入手進行分析。人類之所以能擁有卓越的行動能力,並非僅因肢體結構的複雜性,更在於我們擁有強大的感官和神經系統。例如,我們用刀切肉時,首先是透過視覺給出的資訊將其定位到正確的位置和姿態,然後結合視覺以及握持刀柄的手傳來的觸覺訊號來決定施加多少力度和施力的方向。而如果我們假設執行者是一個僅具備視覺感測器的智慧機器,當肉裡面有一塊骨頭時,它就很難做出快速而準確的響應了。
人的手部皮膚能夠感知到痛覺、溫度覺、振動覺、移動性觸覺、恆定性觸覺等多種資訊,包含17000多個觸覺小體,能夠實現細粒度精確的觸覺感知。在這方面,當前的智慧機器顯然存在極大不足。
因此,我們要發揮具身智慧特有的優勢。雖然智慧機器人沒有那麼多神經和感官,但是它的形態和感知能力也同樣不受基因限制。事實上,人短時間內不可能在腦袋後面進化出一雙眼睛,但是讓智慧機器擁有“腦後眼”並非奇事,因此它們能在不受傳統感官侷限的情況下,探索一個更廣闊的感知世界。
例如,魔方是一種很多人喜歡的益智類玩具,但是恢復魔方對很多沒有經過專門練習的人來說很不容易。就算經過一定學習,以我本人來說,也需要3分鐘左右。OpenAI在2019年釋出了一個用機械手解魔方的系統。研究人員為了測試機械手的極限,不僅要求其單手完成復原,還在實驗中設定了多重障礙:戴上橡膠手套,部分手指被綁住,甚至還有一隻長頸鹿走過來干擾。儘管面臨這些挑戰,系統仍然展現出了卓越的魯棒性。
這個用來玩魔方的機械手,來自ShadowRobot(英國暗影機器人公司)的ShadowDexterousHand(靈巧手),它被安裝在一個裝備有RGB攝像頭和PhaseSpace動作捕捉系統的方形籠中。其控制策略基於強化學習,以機械手的手指當前位置和魔方的狀態為輸入,輸出機械手下一步的動作。在OpenAI公開的一個影片中,機械手在約4分鐘的時間裡成功還原了一個三階魔方。魔方的狀態透過三個不同角度的攝像頭來估計,而機械手指尖的位置則透過3D(三維)動作捕捉系統追蹤。這個系統展示了一個核心理念:儘管只有一隻機械手在執行動作,但其感知能力卻遍佈整個空間。機器能夠隨時給自己選配很多強大的感官。例如在自動駕駛汽車上,最新的雷射雷達已經能夠實現超過百米範圍的高精度三維掃描,熱成像感測器也能夠讓機器在黑夜裡發現有溫度的目標。這同樣帶來一個新的問題,即如何使多種感官能夠很好地協同工作。人類的感官融合是長久以來的進化結果,而在這方面,機器智慧剛剛起步。
DenseFusion採用了一個創新的異構網路架構,能分別處理RGB和深度資料。這種設計使各種資料能保留其原始結構,而不是簡單地將它們融合為單一通道。在單獨處理完資料後,DenseFusion首先對兩種資料分別進行預處理,然後使用一個密集融合神經網路進行整合,使得模型在保持資料結構的同時,有效地利用RGB和深度資料的互補性。
提出TAVI(Tactile Adaptation from Visual Incentives,從視覺激勵中觸覺適應)這一新框架的作者認為,僅依靠現有智慧機器的觸覺感知無法提供足夠的線索來推理物體的空間配置,這限制了糾正錯誤和適應變化情況的能力。因此,他們提出可以透過使用基於視覺的獎勵來最佳化靈巧策略,從而增強基於觸覺的靈巧性。
機器也不是一直都能夠打“富裕仗”,在很多應用場景中,由於受到體積、成本等諸多方面的限制,智慧體必須學會充分利用有限的感知資料。
抓取是具身智慧體一項基礎而複雜的能力,它要求精準控制力度,以避免物體受損或滑落。不同的物體需要不同的抓取策略:滑溜的陶瓷杯和粗糙的橡膠球,它們的抓取方式截然不同(畢竟我可不希望自己精心淘來的卡洛曼設計的咖啡壺被打碎)。AnyGrasp就提出一種新的用於抓取的感知技術,讓機械夾爪能夠對大量堆疊的、形狀不規則的、沒有見過的物體進行穩定抓取操作。感知部件僅為一臺普通的深度相機。得益於對大量真實世界資料的學習,機器能夠主動避開障礙並且透過感知零件的質心以提高穩定性,這兩項特性在人類的視覺抓取行為中是經常能夠看到的。而在另一項研究中,Takahashi等人提出了一種透過影像來估計觸覺特性的方法,這對於具身智慧體與環境的互動至關重要。例如,如果智慧體透過視覺觀察到某物體表面比較滑膩,它可能會採取更緊的抓握方式以防滑脫。
除了提升感知能力,如何使機器具備真正的認知能力也是目前具身智慧研究的前沿,包括圖靈獎得主楊立昆近期提出的關於世界模型的理論在內,大量的工作正圍繞這一問題展開。
智慧化熵增與具身導航
網際網路和物聯網時代,連線已經深入人們的生活,網路變得無處不在。你也許會疑惑:連線不就是交換資訊嗎?它如何能夠影響認知甚至是推動智慧發展呢?
1.連線傳遞認知。
當沒有連線的時候,感知以及認知是如何達成的呢?靠的是觀察和猜測。沒錯,人類做判斷的過程本質上也是一種猜測,即根據觀察到的某種訊號並結合自己的認知進行猜測。很顯然,感知是有盲點和誤差的,認知也存在侷限和錯誤。我們的視覺可能會被遮擋,看到的也可能不是真相。比如,同樣是在昏暗中看到模糊的身影,有的人可能會因為恐懼或迷信而認為這是“鬼魂”;而另一些人則可能基於理性分析,認為這不過是光影效果或視覺錯覺造成的“正常現象”。
所以,假設智慧機器的任務是從一堆水果當中尋找1個蘋果,它必須努力克服遮擋的影響來尋找蘋果的特徵,然後發現了一個非常相似的目標,但這可能是一個外表非常相似的塑膠蘋果。智慧機器將其抓起來後甚至可能發現重量也和真的蘋果差不多,於是只能考慮聞聞味道(如果配備了嗅覺感測器的話)或者切開再繼續觀察。單方面的感知或者認知總是困難重重。
如果智慧機器能夠與所有互動物件建立連線,那麼它們的行動是否將變得更加簡單和直接?
在這一點上,智慧機器和人類相比反而更具有優勢。人類主要的交流方式是語言,且不說和一塊石頭交流,就算是跨省的方言我們可能都聽不懂,因此人類與外界的交流很多時候還要藉助智慧機器。而反觀機器,從連線的媒介(無線訊號、聲音訊號、光訊號)、連線的“語言”(協議)、連線的頻寬等多個方面來看,都要強大很多。
另外,多個智慧機器之間可以比人類更充分地共享它們的認知,這樣每一個機器都能夠獲得更多的資訊,有利於規劃自身的行動。這樣的群體智慧顯然超越了個體智慧。
2.連線創造認知。
除了傳遞認知,連線本身也創造了認知。連線的載體即各種訊號本身就是能夠被感知並且被認知的,它們攜帶著物理世界的印記,賦予我們豐富的資訊。
例如,在無線導航的研究中,我們利用無線訊號的強度與距離的相關性估計距離。通常,距離的測量依賴專門的感知模組,如尺子或雷射測距儀,而無線訊號的距離估計能力是連線本身所固有的。更進一步,透過觀察無線訊號的相位變化,我們曾經提出過一種精度達到毫米級的定位技術,比同期技術的定位精度提高了40倍。
無線訊號的相位變化還可以用來感知高頻率的振動,這對於即時監控機器裝置的狀態至關重要。最常見的無線訊號還能夠賦予機器“透視”的能力。比如,我們平時使用的Wi-Fi路由器就能夠穿牆透視,讓我們“看到”牆後的人。這聽起來像是某種“超能力”,但實際上,透過分析Wi-Fi訊號的微妙變化,科學家確實已經能夠探測到牆壁另一側人體的移動。
這種連線的建立本身就是一種認知成果。它不僅代表著物理上的臨近和可達性,我們還可以透過這些連線所形成的網路構建起一種拓撲圖,反映實體間的相互關係和連線的複雜性。舉例來說,社交網路中的六度分隔理論揭示了人類社會關係的緊密程度。它告訴我們,任何兩個陌生人之間最多隻隔著6個人。這個理論也反映了透過連線可以實現認知擴充套件。在機器的世界裡,類似的原理可以應用於物聯網裝置,它們透過無線訊號相互連線,形成一個龐大的感知網路,使得每臺裝置都能夠感知到網路中其他裝置的狀態和位置。
在這種方式下,連線不僅是資訊傳遞的媒介,還是智慧系統認知世界的一種方式。
3.連線影響智慧分佈。
在生物出現在地球上之前,智慧如同沉睡的種子,尚未萌芽。隨著時間的推移,植物和動物逐漸演化,最終,人類以獨特的智慧在生命之林中脫穎而出,智慧就此出現。智慧的集中賦予了人類無與倫比的地位。人類不僅成為探索這個世界的主導者,更成為塑造這個世界的主要力量。
隨著資訊科技革命尤其是人工智慧的發展,智慧機器誕生並開始輔助人類。網際網路和物聯網的普及正在改變這種不均勻的智慧分佈。借鑑資訊理論中熵的概念,我們可以把這種現象稱為“智慧化熵增”。如果智慧與非智慧界限分明,我們認為熵較低;反之,如果智慧遍佈世界的每個角落,我們認為智慧化熵在增加。
例如,一臺終端裝置本身運算能力可能有限,但一旦聯網,它就能從雲伺服器獲得強大的算力和知識,從而增強自身的能力。也就是說,智慧化熵增降低了智慧機器對自身固有感知和認知的依賴。
我們還是回到具身導航的例子。一輛無人駕駛汽車利用自身攜帶的攝像頭、雷射雷達、無線模組感知周圍的環境,做出加速、減速、變道、超車等行動。在傳統的導航中,路徑規劃和行動決策依賴於提前獲取的地圖,透過衛星訊號等方式定位,引導汽車行動,不斷縮短當前位置與目的地之間的距離。汽車如果具備感知周圍環境的能力,就不一定需要把自己對映到地圖上才能導航。我們指路的時候,也很少直接指定幾個座標地點,更常見的方式是“往前走兩個紅綠燈,左轉前行,看到路左邊一個商場,右邊的白色寫字樓就是目的地”。這樣的導航,完全是依賴感知進行路徑引導的。我們可以證明,感知資料所構成的感知空間,也符合線性空間的基本定義。只要定義恰當的距離函式(數學稱為範數),就可以讓感知空間和物理空間保持尺度不變性:物理空間遠的,感知空間也遠;物理空間近的,感知空間也近。如何定義恰當的範數,就完全是一個數學上的技巧了。實際上,我們都知道物理空間是三維的,而感知空間是遠遠高於三維的線性空間,這就讓我們有很多的數學技巧可以施展,以透過最佳化實現感知空間和物理空間的一致性,即“感知空間—物理空間”一致性理論。
我們還可以有一些其他的推論,比如:感知空間是一個完備的賦範線性空間(數學上稱為巴拿赫空間);存在感知子空間與物理空間同構,兩者存在單一對映關係;物理空間的移動,可以被該感知子空間的時間函式唯一描述;物理空間任兩點之間的距離函式,等於該感知子空間像的距離函式;等等。這些推論表明,在物理空間內進行導航,等價於在感知空間內進行導航。也許有一天我們的導航完全是在感知空間內進行的,只是透過具身智慧體表現為在物理空間中的移動。
在實際場景中,感知空間的維度太高,計算複雜度也過高。即使是最聰明的無人駕駛汽車,我們也經常會在新聞中看到它們在路上躑躅不前。而有了車聯網之後,單體智慧逐漸走向群體智慧,車輛之間透過連線實現了資訊的共享,使行動決策變得更為簡單高效。2024年1月,五部委聯合釋出的《關於開展智慧網聯汽車“車路雲一體化”應用試點工作的通知》,使得這個連線的範圍進一步擴充套件到了雲端、道路單元。試著想一下,數百米外的交通事故被道路單元發現並通知給即將駛來的車輛,這是任何老司機都沒辦法做到的。一輛無人駕駛汽車駛進停車場後,也不必到處轉悠找車位了,停車場會直接給出空位的指引,然後車子自己就倒車入庫了。是不是很便利,也很自然?
從另一個維度審視智慧化的演進,我們不難發現,隨著智慧化熵的增加,智慧體的邊界正在逐漸消融。這種轉變意味著,機器不再侷限於其物理形態,而是開始將外部環境融入其智慧系統的內部。這就像是將外部世界變成了智慧體的延伸,將原本的外部行動轉化為了內部的自然互動。先是人駕駛車輛,然後是智慧機器駕駛車輛,而在未來,我們把道路及車輛的集合看作一個具身智慧體,也就是由道路來開車。道路能夠全面感知其上的一切情況,掌握所有車輛的即時動態,從“上帝視角”出發,進行全域性的交通調控。在這樣的未來,交通事故或許真的只存在於歷史之中了。
【新書推薦】
劉雲浩著
中信出版集團
2025年1月
作者簡介:
劉雲浩,清華大學全球創新學院院長,清華大學自動化系教授、博導,ACMFellow,IEEEFellow,ACM主席獎、國家自然科學二等獎、教育部技術發明一等獎、中國計算機學會自然科學一等獎和中國電子學會自然科學一等獎獲得者。在清華大學自動化係獲得工學學士學位,在美國密西根州立大學計算機係獲得工學碩士和工學博士學位。曾任清華大學軟體學院院長和美國密西根州立大學計算機繫系主任。
內容簡介:
人類已經完成了“人工智慧初級階段”的原始積累,正式進入向“更高階段”邁進的時代。在人工智慧誕生之初,其目標或許是實現具身智慧–這種智慧體不僅擁有物理形態,還能與物理世界進行互動。
具身智慧這條路徑能通向通用人工智慧嗎?邏輯學、統計學、神經科學和計算機科學等領域的研究者分別從符號主義、聯結主義和行為主義三個綱領出發研究人工智慧。打造通用人工智慧是否需要第四種綱領?還是依靠這三者的融合就能解決?這些問題現在給出確定的答案還為時尚早,但知古而論今,本書以當前比較火熱的具身智慧話題為引,討論人工智慧的過去、現在和將來。
END
推薦閱讀
十點公社
一個時代的記錄
自由評論
只為蒼生說人話

相關文章