對話智元首席科學家:把具身智慧過度類比大模型,是對它最大的誤讀

必要的泡沫。

於麗麗
來源|暗湧Waves(ID:waves36kr)
封面來源IC Photo
當下的具身智慧賽道正陷入某種奇觀。
一邊是朱嘯虎這樣的投資人高調逃離泡沫,一邊是這個在去年年末就被很多投資人預判為“下注視窗期已結束”的方向,屢屢被高額融資啟用。
這其中,除一些新入局的智駕背景公司之外,還包括去年估值就大幅飆升的一些公司。騰訊最新押注的智元機器人,就是最受矚目的之一。而這也是騰訊投資在具身智慧領域的首次押注。
早在2023年,這家由原華為計算產品線總裁鄧泰華和“華為天才少年”稚暉君等人建立的公司,就創立過成立僅1月即完成3億天使輪融資的記錄。非但如此,它還在之後幾個月內,估值快速抵達10億美金,成為全球最快躋身獨角獸的一傢俱身智慧公司。
在中國頭部幾家具身智慧公司中,智元無疑是最高舉高打的一家。市面也從不缺少它的聲音。
繼3月釋出首個通用具身基座大模型後,智元又宣佈與具身智慧公司 Physical Intelligence(Pi)達成合作關係。牽線人恰是昨天宣佈加入智元的首席科學家:羅劍嵐。
據瞭解,羅劍嵐曾在Google X、Google DeepMind從事研究工作。在伯克利人工智慧實驗室(BAIR)做博士後期間,他曾是深度強化學習領域重要人物,Pi創始人之一的Sergey Levine 教授團隊的核心成員。
關於自己為什麼加入智元,以及外部對於具身智慧賽道的諸多誤讀,羅劍嵐和幾家媒體一起做了分享。以下是其中部分問題的摘錄,經暗湧編輯整合。
笑到最後的
一定是軟硬體一體的全棧路線
提問1:因為朱嘯虎的逃離,現在很多人覺得具身智慧已有大量泡沫。
羅劍嵐:泡沫本質上也意味著關注度和資源,是提前下注。大筆資源,一湧而上,到了某個點,發現預期達不到,就開始往下降,可能過一陣再開始往上升,這是非常正常的。
每一次技術正規化的轉移都會經歷這種階段,像自動駕駛也如此。自2016年Waymo始,自動駕駛到現在才真正看到可以商用、落地的曙光。具身智慧,是一件更復雜、系統的事,決定了它需要更長時間技術積澱,而不是靠算力或模型堆疊就能突破。
提問2:具身智慧的火熱,最關鍵變數是大模型嗎?
羅劍嵐:把具身過度類比大模型範式,是外部關於這個行業最大的誤讀。
兩者有相似之處,大模型有些技術也可以遷移到具身和機器人上,但不能簡單的劃等號。
比如,像大模型LLM有百分之五六十的準確率就可以用。因為你有人的大腦,ChatGPT讓你去喝農藥,你不會喝,因為你可以自己判斷。但在機器人身上,這個準確率一點用都沒有。
想象一下你的家庭機器人每三個小時,把你家的茶几上的杯子摔一次,把你的手機往窗戶上丟一次,或者送咖啡的機器人每20分鐘把咖啡隨意潑一次。就像智駕,跟十年之前相比,完全兩個物種,成功率已經很高, 但大家還是會要更高。因為每一個類似的失敗動作,都會有一個物理世界的後果。
所以用大模型的週期去類比具身,是低估了作業智慧和行動智慧的獨特挑戰。
提問3:隨著不同階段的演進,大模型代表的軟體部分和涉及製造的硬體部分,重要性會有哪些變化?
羅劍嵐:軟體和硬體同等重要。目前軟體沒有收斂到點,硬體也沒有收斂到點,關於兩者如何整合,目前行業也沒有共識。
提問4:在軟體和硬體上,目前最關鍵的卡點分別是什麼?
羅劍嵐:軟體方面,大模型雖然強,但還沒有長時間memory ,在跨任務嘗試,分層控制和即時反饋上,都是難題。用不用模擬,需要多少真實資料,多少合成數據,都沒有定論。包括用不用RL,因為RL在真實世界用的話,樣本效率、訓練穩定性、還有泛化能力,都是挑戰。
硬體像一些高效能的硬體平臺,成本還是很高,有些感測器反饋不夠精細,像觸覺感測器就沒有到一個成熟狀態,還有可靠性,都有很大提升空間。
目前也有很多本體,方案,包括執行器。我覺得後面不會是一個本體解決所有問題,而是根據不同行業,有幾個相對標準化的本體,有一個方案。
提問5:資料問題好像是爭議最大的,但這也很像一個蛋生雞,雞生蛋難題。
羅劍嵐:對,看起來像頭尾在迴圈。沒有資料,沒到一定程度,也很難把機器人部署到真實世界。
但你設想下,如果1000臺機器人在星巴克,24小時乘以7的時間裡,打咖啡送咖啡,一個月傳回來的資料,也能超過現在我們見過的機器人資料集的scale。
而且機器人和汽車還有一個區別,汽車如果沒有100%的把握,你很難拿到真實世界去,因為車的安全性各方面太嚴格。
但機器人可以先從一些封閉、半封閉空間開始,有百分之七八十可能性就可以轉起來,這樣就可以把更多資料傳回來,來improve這個系統。
提問6:自動駕駛早期也有過很多關於資料問題的討論。
羅劍嵐:自動駕駛2016年剛開始時,也因為資料匱乏,有過很多爭論。但現在是資料太多了,特斯拉去年公開的路上資料是500億英里,資料中心都已經裝不下了,所以我們應該擔心的不是有沒有多少資料,而是應該做哪些演算法設計,把資料更好銜接起來。所以,那些掌握產品和生態,有能力自己去部署機器人的具身智慧公司,先發優勢會很大。
提問7:在你看來,軟硬一體的全棧路線是必要的嗎?有的公司就只想做好本體部分。
羅劍嵐:自動駕駛早年,也有專做大腦的,但現在主機廠都開始做自動駕駛。十年前,無人機很火時,中美出現一大堆無人機公司。美國公司說不做硬體,記得當時好像英特爾在美國開了20多個實驗室,就做這個無人機導航線這些東西,當然這也因為美國沒有製造業,沒有產業鏈,所以只能做大腦,但現在這些,你都記不住了,因為他們都已不存在。我們現在記住的名字是:DJI(大疆)。
雖然只做大腦也可以跟硬體結合一起,但我認為一定是軟硬體一起迭代的全棧路線,會笑到最後。
如果機器人真的實現manipulation
這就是AGI
提問8:智元已經有CTO稚暉君,包括智元機器人研究院執行院長姚卯青也是技術背景。你們之間存在彙報關係嗎,會如何分工?
羅劍嵐:我們內部是一個比較扁平、高度協作的團隊。稚暉君在系統工程方面有一些深厚的積累,姚院長在戰略方向上會把控全域性,我會更多的負責一些演算法路線的推動,還有一些外部技術生態的融合。
我們之間是平行互補關係,更強調的是共識驅動,專案導向。
提問9:這次,智元選擇和PI(Physical Intelligence)合作,是基於什麼背景?
羅劍嵐:首先是智元與PI在理念上有很多契合,都強調真實資料的重要性,都從實際出發推動具身智慧落地,這個是合作的大背景。
此外,它是由具身智慧領域的先驅Sergey Levine和Chelsea Finn等教授創立的,是目前國際上做具身智慧最好的公司之一。
提問10:在具身智慧創業公司裡,智元也一直在用一種生態打法做公司,很像在用大公司方法運作創業公司,這是有意為之的嗎?
羅劍嵐:我們覺得具身智慧的複雜性,遠超單一公司所能承擔的。所以我們強調開放協同。一方面幫助一些外部公司實現他們的一些迭代,另一方面,也把他們的能力引入到我們的生態體系內。
提問11:為什麼在具身領域,還沒有出現類似OpenAI這種引領型的明星公司?
羅劍嵐:因為這個行業還沒有收斂到非常確定性的一些技術方案,所以還不存在哪家遙遙領先,具有很強的話語權。
提問12:現在大家看到很多關於機器人的demo影片,很酷炫,但終究還都是人類在遙控,怎樣才能實現自主決策?
羅劍嵐:自主決策和遙控的差別,就類似你以為是和ChatGPT對話,但其實是背後還有另一個人在另一臺電腦上打字,完完全全是兩回事。
本質是機器人對不確定性的分析和建模,然後換成可執行的動作鏈。對機器人來說,位置變了一下,顏色變了一下,就跟它記到的東西不一樣了。這套感知、預測、生成機制的泛化能力,是最關鍵的技術。
提問13:最近具身智慧廠商都願意拿來秀肌肉的技能展示,很多都集中在執行長週期、複雜任務,每家技能點也不太一樣。你是怎麼定義長週期和複雜任務的?
羅劍嵐:長週期是一個比較主觀的詞,我們可能更關注的是一個任務,先後存在的一些比較複雜的依賴關係,和它的泛化能力,而不是某種絕對條件下,一分鐘是長週期,小於一分鐘是短週期。
至於複雜任務,至少在manipulation(操控)上,宇樹可能更多是一些local motion(區域性運動)這些東西。而manipulation上有一些沒有解決的問題。比如機器手和外界有接觸後,會產生非常複雜的物理現象、物理模型。然後是在多模態、高維度的視覺輸入下,怎麼完成一些比較靈巧的任務,同時達到非常高的成功率。
這個是manipulation50年以來的,最關鍵的challenge,我們現在會嘗試做一些這類的工作。
提問14:manipulation,機器人操控問題,也是當下關注非常高的部分。
羅劍嵐:如果機器人真的實現了manipulation,就是 AGI。是比LLM更高階的智慧 。如果人類文明是零到十,LLM 最多算三,而如果把manipulation實現了,最少得有七到八吧。
現在是具身智慧入局
最佳時間點
提問15:實現機器人AGI這件事中,什麼是你最感興趣的?
羅劍嵐:怎麼讓這個系統有更強的自主學習能力、泛化能力。2016年,谷歌發出第一篇深度機器人學習的paper後,用這些基於learning的機器人,真正被部署到現實世界的,一臺都沒有,但當下會不一樣。
我們在智元新成立的具身智慧研究中心,不是單純的科研機構,也不是單純的工程化落地機構。它是一箇中間態的,希望它能打通從基礎科學到技術落地的鏈路。
提問16:受大模型的影響,在具身智慧領域,強化學習也開始成為潮流。
羅劍嵐:現在大家都在開始看這個方向,因為我們有了 DeepSeek R1,有了GPTo1。有50年曆史的機器人領域,雖然很多教授做了先驅性的工作,解決了一系列這些控制的穩定性等,但過去十年,我有個觀察,就是這個領域的進步總是來自於別的領域,比如CV或者 NLP。
現在有幾波人在做具身智慧, 一些是做CV的,一些是基於learning的,還有一些做核心機器人,大家視角都會不一樣。
提問17:現在陸續很多大廠、產業方,包括消費電子公司也都在入局具身智慧,你覺得像智元這樣的創業公司有何獨特優勢?
羅劍嵐:很多人下場,其實是一個積極訊號,說明關注越來越多。作為下一代的智慧終端,機器人天然就是消費電子公司的關注點,他們在使用者體驗、產品化,成本控制、供應鏈整合都有非常強的積累。
像智元這種團隊,優勢更多在於對行業底層邏輯的理解。他們可能會更垂直,更精緻,我們可能會更擅長智慧,最終兩個方向也會聚合。
提問18:你覺得具身智慧當下處於何種週期,還是入局的好時機點嗎?
羅劍嵐:從2016年看,我覺得具身已走過大概十年的探索期,剛開始它叫機器人學習。
我覺得現在是一個非常exciting的時間。幾年時間內,我們會在一些特定場景裡看到一些成功。
其實,現在全世界,有500萬臺機器人被部署在真實世界裡,但它們都是盲的機器人,操作靠絕對的定位,做的是重複性的程式設計和工作。而隨著智慧的提升,我們已經進入機器人的應用視窗期了。
雖然那些理想型的,全能機器人可能十年甚至更久才能到來,但在特定場景下具備使用價值,且有持續學習能力的機器人會提前到來。
所以現在是入局,還有突破的最佳時間點。


相關文章