盧策吾,作為中國具身智慧領域的先行者之一,他的職業生涯起步於2002年,學習通訊與資訊系統,並在中科院和香港中文大學深造,逐步為後來的具身智慧研究打下基礎。他認為,儘管自己跨越了多個領域,但資訊學科培養的全域性視野和嚴謹思維對他後來的研究至關重要。
2013年,他開始研究三維視覺,探索如何將二維影像與三維物理世界結合,為機器人智慧的突破奠定了基礎。2015到2016年,他在斯坦福大學AI實驗室工作,參與具身智慧的前沿探索,儘管當時該領域的關注度較低,但他與團隊依然保持著熱情與創新。
回國後,盧策吾成為上海交通大學的教授,並與王世全共同創辦了“非夕科技”,這段創業經歷為他後來的穹徹智慧奠定了基礎。他認為,從科研到產業化的轉變,要求高水平的綜合素質,而這種從實踐中獲得的經驗,讓他更深刻理解整個技術閉環。
如今,盧策吾不僅是中國具身智慧領域的領軍人物,也在推動AI與機器人技術融合方面取得了顯著成果。他的目標是讓機器人更好地融入人類生活,成為真正的合作伙伴。
ReSpark 本期邀請了穹徹智慧的創始人盧策吾和投資人Tim作為本期訪談的嘉賓,可以在小宇宙和Apple podcast搜尋ReSpark收聽播客。以下為訪談文字總結。

訪談要點
第一節:個人經歷
1.學術經歷
2.非夕經歷
第二節:穹徹智慧
3.穹徹的資料路線
4.如何採集機器人資料
5.機器人開源資料集
6.機器人的力控
7.穹徹的具身基座模型
8.穹徹大腦的進展
9.長程任務如何解決
10.怎麼適應多種硬體
11.視覺–觸覺融合
12.怎麼看商業落地
ReSpark:您是2002年讀的本科,也是85後,但確實具身智慧領域國內最資深的教授,您一開始本科學的是通訊與資訊系統,後來去了中科院讀電磁場與微波技術的碩士,從博士在香港中文大學學習計算機科學與工程是不是才真正意義上跟現在的具身智慧的工作有關聯?
盧策吾:從本質上說,具身智慧依然是人工智慧的一種,因此早期在人工智慧領域的訓練對之後的具身智慧研究產生了極大的幫助。再往上延展一些,人工智慧本來就源自資訊學科的發展;而資訊學科的學習過程強調全域性視角和縝密的科學思維,同時也注重從理論到工程的完整訓練。表面上看,某些領域或技術之間似乎相距甚遠,但當回過頭來審視時,你會發現這些早期的資訊學科積累往往能在後來提供潛移默化的支撐與幫助。
ReSpark:您後來2013年去到香港科技大學做博士後的研究,你博士後研究的是什麼?
盧策吾:其實,當時我的研究已經逐漸與具身智慧產生了聯絡。那段時間,我主要在做三維視覺,因為我希望能從二維影像的研究走向真實的物理世界,而三維視覺正是最直接的切入點。如果你檢視我當時發表的論文,就會發現其中有不少內容與三維視覺和三維世界的理解相關。雖然正式發表可能是在我離開香港科大之後,但從時間軸上能看出,我在那個階段已經開始探討如何從影像世界走向三維物理世界。
ReSpark:2015年到2016年你都在斯坦福大學AI實驗室從事博士後的研究,那個時候你就在Leonidas J.Guibas和李飛飛的組裡,你覺得那個時候有沒有一些有意思的事情和體會可以跟我們分享的?
盧策吾:其實,關於‘模擬流派’之類的說法,我並不認為當時存在什麼流派之分。那會兒大家都意識到具身智慧是下一步的發展方向,所以都在摩拳擦掌,處於非常早期的思考和嘗試階段。只要能做出成果,方法並不拘泥於某一固定流派。
當時的氛圍非常有趣:我們那一群年輕人都相信這是未來,於是聚在一起天馬行空地討論和做實驗。很多實驗當然都不成功,但這並沒有澆滅熱情。那時外界對無人駕駛、智慧醫療等話題還比較關注,但對於我們正在做的機器人或具身智慧方向,很多人不太理解或看不懂。
我記得那時發一篇跟機器人或人工智慧相關的論文都挺困難的,外界對這些新想法也比較陌生。不過我們內部卻很享受這種‘在小圈子裡做前沿研究’的狀態。就像早期的哲學思考一樣,我們不僅在腦海裡暢想,也著手去實踐。
我和王世全(他在機械系)那時嘗試了很多想法。雖然周圍人並不明白我們在做什麼,但我們自己感覺很快樂,也產生了很多大膽的設想。如今,這些設想中已有一部分逐漸變為現實,而相信未來會有更多想法能實現。
ReSpark:離開斯坦福之後,你就在上海交大一邊任教,一邊和王世全一起創業“非夕科技”,這段“非夕”的經歷對於您再出發創立穹徹有哪些方面的幫助?
盧策吾:幫助非常大。從科研到產業化,對個人的綜合素質要求非常高,這不是僅靠讀書就能完全掌握的。前期的科研突破或許是教授們能做到的,但把這個突破變成真正紮實有效的產品,就需要很強的產品化思維。隨後,要讓產品創造從無到有的增量價值,還得具備商業思維與企業家、科創家能力。再往後,團隊管理和組織建設也同樣是個巨大挑戰。
過去雖然讀過一些書,但當自己真正‘下場’去做時才發現,從最初的科研成果到最終為使用者創造價值,這個閉環中有無數環節需要打通。親身實踐後,再回頭看那些書,會對其中的道理有更深刻、完整的理解。
在創辦穹徹智慧的過程中,我經歷了科研、產品、管理、商業落地等多個階段。對於一家高科技或 AI 驅動型企業來說,雖然每家公司都有自己的案例,但在不同階段會呈現相似的關鍵矛盾和規律。如今,我的感覺就像‘地圖已被部分點亮’,雖然仍會遇到各種挑戰,但至少大致知道下一個‘怪物’在哪兒,也更清楚該如何應對。
非夕過去這八年中,既有成功的經驗,也經歷過不少曲折和挫折。這些都離不開大量時間與成本的投入,才能獲得如此寶貴的收穫與教訓。
ReSpark:公司怎麼想到取名“穹徹” ?
盧策吾:我覺得這件事情很有意思,它其實反映了我們創始團隊的一種追求。簡單來說,有兩層含義:第一層是‘穹’,即科學技術的前沿沒有盡頭,就像永無止境的探索;第二層是‘徹’,也就是要做到真正的根本性(fundamental),不僅要深刻,還要能夠紮實落地。可以把它形容為‘頂天立地’——頂天是指理論與技術在前沿領域上無止境地拓展,立地則意味著必須落實到現實應用中。這兩者的結合,既意味著我們要在無限前沿中不斷追尋,又要以深刻而實用的方式將其落地、實現價值。
ReSpark:外界對公司有一種偏見認知,認為穹徹主要做的是模擬資料?在這裡要不要澄清一下?穹徹都用一些什麼型別的資料?什麼時候用什麼樣的資料比較奏效?
盧策吾:我們在思考資料問題時,應先從‘具身智慧究竟需要什麼資訊’這一問題出發,而不是先入為主地決定‘我想要哪種資料’。也就是說,要基於具身智慧所需的資訊量來配置資料,同時還要考慮資料的獲取成本,以及它能否在規模化應用中被承擔得起。
因此,我們一般會把資料放在兩個座標軸上:一邊是所提供的資訊量,另一邊是獲取與處理的成本。只有找準二者的平衡點,才能讓最終效果最優,而非片面地依賴某一種資料來源。在我們的體系裡,我們收集了多種不同型別的資料,並且會科學地分析各種資料之間的互補關係,包括它們各自提供了哪些有價值的資訊、可能帶來怎樣的不確定性與噪聲等。
最終的目標是讓系統的整體效果做到最好,而不只是憑直覺認為某個資料來源‘重要’或‘不重要’,效果好才重要。舉例來說,我們當然也會使用模擬資料,但更關鍵的是要弄清楚模擬資料具體能帶來什麼、又有哪些限制,以及如何與其他資料結合,才能在資訊量與成本之間取得恰當的平衡。
關於模擬資料,它帶來了什麼?它其實有利有弊。優勢在於,模擬資料能幫助我們積累‘數字資產’,也就是在數字世界中建立並操作各種物體,從而實現物體從狀態 A 到狀態 B 的過程模擬。我們最近也提出了‘資料基因’的方法論,專門用於構建並管理這樣的數字資產。侷限在於,一旦涉及高強度、持續接觸的場景,純模擬往往無法準確模擬真實的物理互動。而且如果只靠模擬,不少真實世界的資訊依舊是缺失的。
因此,我們還必須獲取真機採集(真實機器人或硬體執行)的資料。但真機資料同樣面臨可規模化的問題——採集過程需要人工持續操作,成本高、效率低。此外,實際操作過程中也可能產生損耗或干擾,這些都限制了大規模真機資料的獲取。
為了解決這一難題,我們提出了‘可穿戴式外骨骼’的方案,讓人穿上外骨骼,並在日常工作中就能完成資料採集。這樣做能夠顯著降低成本、提升規模化的可行性,而且採集到的資訊能夠與機器人對應起來,減少環境與人機之間的差異。
總的來說,我們始終從一個更高的維度去思考:具身智慧需要什麼資訊?各種資料來源各自提供什麼資訊量,又帶來哪些誤差與噪聲?如何讓它們互相補償?在我們的體系裡,模擬資料可以提供‘世界在數字世界裡如何演進’的規則;真機資料則補足物理世界的真實資訊;還有一些常識性知識,可從影片或人類操作示例中汲取。透過這種‘火箭多級組合’的方式,我們才能在前面資料的幫助下,去削減後面資料的噪聲,並最終構建一整套穩定、完善的資料系統。
我們一直關注資料採集與使用過程的可規模化,也就是說,要讓整套資料系統在成本和效率上都能不斷擴大並可持續運轉。同時,這個資料系統也需要在實踐中不斷完善。
至於不同型別資料(如模擬資料、真機資料、影片等)在取樣比例上的配比,我們已經讓模型自己去‘做決策’——也就是透過最最佳化過程來選擇最適合的比例配置。雖然目前的自動化決策機制還在初期,可能未必是最終的最佳方案,但我們正在逐步匯入這樣的思路。
從長遠來看,究竟需要什麼樣格式的、什麼分配比例的資料,很可能不再由人來指定,而是由機器透過不斷迭代、以效能最佳為目標來‘自我決定’。我們正在嘗試把這個理念引入到整套資料系統中。
ReSpark:我看公司新推出了一套日常隨身攜帶的便捷資料採集裝置,今年上半年就會大規模鋪設,能不能簡單介紹一下跟市面上的解決方案相比較,這個裝置的特點和優勢?這對於資料採集和分析帶來了什麼迭代?價格如何?
盧策吾:我們可以先分析一下市面上現有的各種採集裝置,各有各的優點。但從我們自身的感覺出發,我認為我們推出的這套方案應該是相對最優的。當然,這也只是我個人的看法,不同團隊可能有不同觀點。要具體討論這個問題,首先可以提到‘遙操作機械臂’這種方式。
我覺得遙操作有一個我們很難忍受的缺點:它會影響人類的日常生活。歷史上所有通用智慧的採集,基本都沒有過多影響到人類本身的生活節奏,比如你每天發部落格、做美食評論,這些本意是滿足個人需求,卻‘順帶’為大模型提供了語料。無人駕駛也是同理,邊開車邊採集,不會讓任何人脫產;可一旦讓人脫產去標註,規模就很難做大。
在遙操作裡,人必須到實驗室裡操控機械臂,這顯然影響到人的生活與工作。更何況這種隔著機器臂的操控存在‘隔靴搔癢’的感覺,因為你沒有真正接觸到物體,不能直接感受力反饋。再者,這種操作通常離不開固定場所,而且需要買一臺機器人,還要專門有人來做這些資料採集,成本非常高。這樣一來,大多數遙操作採集只能停留在實驗室,不太可能拿到真實場景裡的資料。
與之相比,我們提出了一個‘伴隨式’外骨骼的方法。它的好處在於:第一,可以規模化,因為它不會過度干擾人的正常生產生活;人只是把這套裝置穿在身上,輕量化設計使得人依舊可以在實際工作中自然地操作物體。這樣從全社會的角度看,整個採集成本就大幅降低。第二,它是真實場景下的資料,因為你在人機互動中會接觸實際物體,而不只是實驗室裡的虛擬操作。第三,它整體成本也更低,裝置本身價格不高,便於推廣。
我之前也提到,對於一家創業公司而言,如果只是做學術研究,可能不太需要考慮社會成本和經濟成本。但要真正把技術落地,就必須在解決技術問題的同時,兼顧社會與經濟方面的約束。我們現在這套方法因為具有這些優勢,帶來了很多訂單,政府也希望我們儘快把這套採集系統推向更大規模。不過眼下我們在產能擴張上還需要時間,特別是過年前後這段量產計劃相對緊張。
另外,還有‘動捕(Motion Capture)’這種方式,但它和遙操作類似,都存在缺乏真實物理反饋的問題。舉例來說,如果你想用動捕來抓一個蘋果,你可能會出現‘穿模’現象,也就是你在虛擬世界裡看上去抓住了蘋果,但實際上並沒有真正接觸它,缺少了真實的力反饋。像那種人沒有任何觸覺反饋的操作方式,就好比‘皇帝的新衣’,明明沒有真實的衣服,卻要裝作在做衣服。這種狀況會讓人很難受。
然後還有一種手持式(手持裝置)的做法,我覺得它也不錯,因為便宜,而且能在現場使用。但是它存在一些問題。第一,它跟我們用外骨骼的方法不一樣:我們的外骨骼在數學上能保證和機器人是百分之百同構的,所以在資料遷移到機器人時不存在任何麻煩,因為兩者的機械結構就是一模一樣的。但手持式裝置需要在後端‘回算’骨骼和機械引數,這就很麻煩。比如說有些操作超出了機器人的運動範圍,但人並不一定能感知到。當人拿著手持裝置做一個動作時,實際已經超出機器人本身能承受的極限,結果產生的就是‘異常資料’,這些資料可能對訓練是有害的噪聲資料。這時只能依靠一些額外的虛擬演算法去過濾掉,但是這樣又會引入額外的間接誤差。
第二,關於成本。其實手持式方案跟我們的外骨骼在成本上幾乎差別不大。但外骨骼卻能夠確保資料質量更高,而且操作與真實的機器人情景更加一致。手持式採集所需的精準定位經常依賴 SLAM 或慣性測量單元(IMU)等方式,目前的定位精度還不算特別理想。當然,未來也許會有更好的技術去提升這方面的表現。但就我們現在的情況來看,我們自己也做過手持式裝置,我們內部也在解決手持式的這些問題。也許將來有更好的方案,我們keep open多條路徑嘗試。但目前對比效率對比下來,還是發現外骨骼方案在社會性、成本性和準確性三方面都更具優勢。
ReSpark:Pi預訓練有大量用到open x embodiment的資料集,我們穹徹團隊是這個全球最大的公開資料集的重要貢獻者,我們在預訓練是否也會用到這個資料集?他的開源資料對於很多公司來說價值多大?
盧策吾:我首先要強調的是,資料最重要的是質量,而不是數量。這點我反覆強調,相信大家也能認可。現有的許多資料,雖然數量很多,但很多情況下只是為了湊數,質量並不行。我們甚至做過實驗,把低質量的資料剔除,只保留高質量部分,結果反而效能提高了。資料量越大,同時也會帶來更多噪聲,我們必須辯證看待這個問題。
那開源資料有什麼用,其實今天的開源資料至少在學術界能讓大家試驗一下情況,但從長遠看,我們必須認識到資料規模一定會更大。所以,我們一直在追求那種‘伴隨式’的、可規模化的資料採集方式。外骨骼只是其中一種方法,或許將來會有更多方式,但目前至少這是一種可行的方案。你必須讓資料採集與生產生活相伴隨,否則參與資料採集的人太少了,從產業角度講,資料量遠遠不夠。
舉個例子,無人車的資料規模就非常巨大。無人車雖然決策在兩個維度上相對簡單,但它收集到了大量資料。因此,我們在資料上必須走可規模化的道路,讓全國,乃至全世界那些真正一線的勞動力參與進來。只有這樣,才能擁有足夠多的資料。而且,你會發現,與無人車相比,我們面臨的空間更大,資料需求也更高。這就要求我們一頭擴大資料量,一頭又要壓縮資料的冗餘和噪聲。我們做了非常多的工作,甚至涉及到構建一個物理世界大模型,這也是為了壓縮那部分無效的空間。
從我個人角度講,現在的開源資料肯定不足以支撐產業應用,它們可能作為學術演示(demo)還可以,但要達到穩定、魯棒、且在產業上可用的水平,遠遠不夠。因此,我們主要走兩條路:一是以全新的方法,從社會、經濟、成本和技術角度,聯合考慮資料採集,實現可規模化;二是從模型層面降低複雜度,引入更多的有效資訊,比如我們現在做的操作世界物理模型,將‘資料的兩頭’同時壓縮,只有這樣才能有希望將其真正產業化。
ReSpark:具身智慧的大公司和初創公司都在做自己的資料集,怎麼看這個問題?
盧策吾:其實關於資料集的問題,我想這樣講:資料集不應被孤立來看,也不應簡單地認為‘誰有錢,誰就贏’。在上一代大模型時代,情況可能確實如此,但在當前及未來一個階段,資料、模型、評估和系統必須一體化。也就是說,科研領域裡模型研究、系統評估和資料採集都是密不可分的。
你標註了很多資料,也許大家都在談‘狂標資料’;但問題在於,這些資料究竟有沒有用?如果無法證明其有效性,那麼資料量和資訊量就根本不成比例。我認為在未來的一段時期,我們可以分為兩個階段:非收斂期和收斂期。非收斂期的關鍵在於“認知”,就是你對哪些資料對模型有用、在產業場景中如何評估其價值、能否構建一個有實際意義的價值評估體系,這是關鍵所在。這就構成了一個飛輪效應:資料、模型和場景一起迭代,互相撬動。你採集的資料能否轉化為模型的提升,而模型的提升又能否進一步落地、創造價值,反過來指導你如何構建更好的資料,這一切都必須達到一個平衡點。
很多人往往只看到採了多少條資料,而忽略了其中的認知問題。現階段,,關鍵在於內部要清楚哪些資料對模型有效,哪些模型適合特定場景;而當認知收斂之後,才會進入純資源和資金比拼的階段。相比之下,語言大模型一開始大家對資料格式、有效資料標準都非常明確,所以一上來基本就是看誰的錢多、燒錢多。但在具身智慧或資源智慧領域,則首先拼的是認知:你需要建立一個數據飛輪,撬動模型飛輪,再推動場景飛輪,確保整個體系能有效迴圈運轉,而不僅僅是空轉、虛假的資料堆積。
為此,我們內部構建了一整套資料模型到評估的聯動體系,每採集一份資料都要驗證其有效性,透過反饋不斷迭代,確定哪些資料是飽和了(比如,某個場景下已經採集上千次開門動作,就沒有必要再重複採集),從而指導後續的資料採集和模型迭代。這樣,我們才能在認知與資源之間找到平衡,實現真正意義上的產業落地。
ReSpark:公司之前在力控方面有非常多的積累,目前具身的公司中,我們這方面的積累也是最多的。看到我們近期新發布了可規模化的力覺資料採集系統,精準捕捉記錄操作過程中的力、姿態及運動軌跡等多維資料,然後用模仿學習演算法透過對這些資料的學習,利用擴散模型從三維視覺中直接預測全空間的力及位置動作。比如在削水果蔬菜上面就可以做得很好了。這個對於我們拓展機器人的操作能力是否會有很大的想象空間?現在有什麼樣的積累了?
盧策吾:我們先跳出來討論一下‘力’的問題。其實我們做具身智慧並不是單純認為‘力’很重要,而是必須從任務需求出發來分析。具身智慧需要完成的任務可以分成兩類:一類是‘自由移動’這種任務,不涉及接觸,也就不需要考慮力;另一類則是大多數高價值的操作任務,這類任務都帶有物體接觸,此時‘力’這個維度就不可避免。它不顯性存在,但又決定著任務是否能完成,以及完成的程度如何。
舉個簡單的例子,開瓶蓋這個動作,看似非常簡單,你可以說不使用力,慢慢移動也能勉強完成,但實際上不使用力量的話,動作的完成度就會很低;同樣地,擦桌子如果完全不考慮施加合適的力量,軌跡雖然可能保持一致,但結果往往偏差較大。只有真正按下去、施加足夠的壓力和合適的傾向力,才會讓操作達到高完成度。這也解釋了為什麼很多涉及接觸的操作(例如刮鬍子等),如果完全拋開力的參與,其結果往往難以滿足要求。
這種‘力’的模式具有高度的泛化和魯棒性,例如開礦泉水瓶、開藥瓶、甚至操作煤氣爐和水龍頭,在力學模式上都有共性;只要大致確定物體的位置,再結合合理的力度模式,基本就能實現。這也是我們長期以來對力的模型進行研究的原因。由於我們擁有大規模的相關資料,訓練出帶有‘力’的模型與單純依賴軌跡的模型相比,難度完全不同,因為這不僅是簡單的模仿學習,而是需要構建一個完整的‘力空間模型’。
第二點為了實現資料的規模化,我們最初提出了手持式方案,後來進一步將其升級為外骨骼方案(手持加外部裝置),以便全面採集和利用大量的力資料。實際上,我們已經積累了相當多的力學資料,但同時發現仍有必要將資料規模提升到更高的層次,這正是我們一直在努力推進的方向。
第三點我們可以這樣設想:試想一下,如果沒有‘力’的參與,我們純靠軌跡進行操作,能否完成許多工?其實你不妨自己實驗,採用搖操作,僅憑軌跡去操作,結果會發現完成度非常糟糕。比如說,用搖操作來刮鬍子——這是絕對行不通的。因為沒有力的反饋,就可能把人刮傷,或者根本無法達到清潔的效果。
再舉個例子,我們現在有些落地應用,比如在農業領域,我們研發了一些裝置來幫助削皮瓜果。如果完全沒有力的參與,削皮的效果就會非常糟糕,就像被狗啃過一樣;或者效率會異常低下,猶如做手術時那樣,必須每一毫米、每一毫秒地精細操作,可能要花上幾個小時才能完成一項原本可以快速搞定的工作。而像開生蠔、開鑰匙、開門等動作,如果只是依靠位置資料,效果也會大打折扣。你可以嘗試這些操作,體會到沒有力反饋時操作的困難之處——缺少一個關鍵的維度。
我打個比方,就像當年解方程時,很多人發現沒有解,直到引入了複數,方程才有了答案。加入了力這一維度後,很多操作問題也就迎刃而解。它是必經之路,是逃不掉的關鍵因素。
ReSpark:過去的操作工作主要關注物體和場景的種類,現在趨勢是將更多維度的資訊結合起來,例如物體的屬性和可供性,以提供更強的邏輯推理支援。穹徹在這方面走在前沿,積累了大量知識庫,推動了機器人理解和推理能力的提升。
盧策吾:其實這當中還涉及到一個具身智慧思維鏈的問題。也就是說,一件事情究竟為什麼這麼做,人們是如何識別這些關鍵思維點的。當我們拆解到各個細節時,就會發現其背後包含了幾個核心要素:屬性(attributes)、可控性(affordance/control)和功能性(functionality)。舉例來說,即使我們看到一隻鞋子,也能聯想到它可能具有錘子的某些用途,這種聯想正是基於對其功能性的理解;而當你看到一把刀生鏽了,你就會覺得它的可控性下降,不願意使用。各種物品的屬性、可控性和功能性構成了我們對世界的基本感知。
在這一塊上,我們做了大量工作,可以說是最早涉足這一領域的團隊之一(至少從有跡可查的論文角度來看)。我不是說這項技術僅僅用於機器人領域,但在視覺領域中,我們透過對這些屬性的捕捉與推理,已經取得了領先。這裡還有一個關鍵:推理(reasoning)。在你提取到這些基本事件與特徵之後,如何進行有效的推理,完成整個場景的理解,這就是我們的核心挑戰之一。
實際上,我們團隊在這方面也進行了系統的整合,我們的系統能夠檢測並驗證所有這些可控性指標,而且我們發現,在很多場景中,我們的方法在某些任務上甚至比 GPT 系列表現得更好,原因在於我們不僅僅依賴於大量資料,更注重引入了鏈式思維(Chain-of-Thought, COT)的因素。
簡單舉個例子:如果一個物體開始生鏽了,說明它的使用價值下降;或者如果容器已經滿了,就沒有必要繼續倒。這類細節的推理,反映了一個更加智慧的決策過程。雖然大家現在都在談論端到端大模型,但我認為在這種系統中,僅僅依靠海量資料還不夠,還必須把 COT——即思維鏈這一層邏輯引入進去。我們在從資料到模型,再到理論方面都投入了大量工作,未來一段時間內,我們也會陸續釋出相關能力。這就是我們在構建具身智慧系統時,對思維鏈和推理能力的深度探索。
ReSpark:是否也會開源一部分來造福整個從業者呢?
盧策吾:會的,我也深有同感。每一家創業公司都應該開放共享彼此的共性成果,這樣大家才能共同成長,相互促進。我願意分享我們的觀點和經驗,因為這不僅有助於其他創業公司的發展,也能推動整個行業的進步。我相信未來這個行業會變得非常龐大,需要越來越多的公司一起參與,共同開創。因此,我們一直秉持開放的心態,在資料和程式碼上也做了大量的開源工作。本著這種精神,我相信透過共享,我們可以一起共同推動行業向前發展。
ReSpark:公司新發布了一個RISE+CAGE的具身基座模型架構,說是現在測出來的各項指標都超過現在很流行使用的diffusion policy, 泛化性更強(操作物體、背景、機器人操作空間、相機視角可泛化,跨機器人通用模型)。他主要解決了什麼方面的問題?你覺得未來產業會很多轉來用你們的這個新的模型架構麼?
盧策吾:我們這個方案在資料處理上非常出色:它可以穩定適應物體變化、背景變化以及鏡頭變化,這是一個非常關鍵的優勢。基於這種穩定性,我們在執行策略之後,各項指標都已經超過了當前主流方法。而且我們已經將相關程式碼和模型開源了,任何人都可以驗證這些成果。我相信未來會有越來越多的人藉助這一開源資源,為這個領域帶來更多創新。
此外,我們正在探索一種端到端的軌跡規劃方案,我們對其泛化能力也進行了深入研究。儘管在學術上我們已經公開了相應模型,在產品化模型方面可能暫時不便開源,但我們學術模型的效能已經證明,從底層機理上看,它比現有的 diffusion policy 以及其後續衍生版本表現更優秀。另外,我們支援3D視覺這一點也非常突出,目前許多方法對三維點雲處理存在計算量大、成本高的問題,而我們完全解決了這一難題。
ReSpark:穹徹大腦的進展如何?(快速部署模式,學習單任務僅需小几十次示範,無須引入預訓練模型,相機視角變化性強,不同位置泛化性高)
盧策吾:其實這其中可以看成有三個層面的考量。第一層面是基礎模型層:這是整個系統的核心,我們已經構建了一個能夠理解世界的模型,也就是我之前講到的混合‘力’的模型,它就像大腦的引擎一樣,決定了系統能否真正理解和執行任務。第二個層面是整個資料飛輪。關鍵在於你該採集什麼格式的資料,這個資料格式必須與大腦(也就是模型)緊密相連,能夠迅速驗證資料的有效性,並反饋指導後續的資料採集。最終,這個通用模型會對上層構建出一整套應用介面,正如你所說,只要做出簡單的示範,就能把事情做得很好。當然,這個示範操作的簡單程度還是與任務的複雜性掛鉤,我們也不敢說所有任務都只是簡單的釋放型操作。
在這個過程中,我們還引入了一個‘機器人的提示器’的概念,也可以理解為提示詞或者引導操作。無論是透過語言示範、實際操作還是其他方式,目標都是儘量讓傳授和溝通的成本降到最低,就像師傅帶徒弟,越簡單直接,成本就越低。這樣的話,我們就能夠更快將系統落地到實際專案中,使得整個落地過程足夠迅速。就像你教一個新來的助手,如果他夠聰明,就能學得很快;相反,如果本身存在智商上的不足,教導的成本就會很高。
因此,我們的任務歸根結底可以看作兩點:一是讓系統足夠聰明,二是讓系統的互動足夠友好,即溝通成本足夠低。畢竟,有些人雖然聰明但溝通成本高,這也不利於整體效率的提升。近期我們會在這方面加快發展。從整體上講,我們既有基礎模型構建、資料飛輪的高效運作,也著眼於如何透過簡單示範實現低成本高效率的應用落地。這整個體系將保證我們在真實場景下的應用能夠迅速、穩健地推進。
其實目前存在一個問題,就是很多指標還沒法量化,因為缺乏一個標準。與傳統大模型不同,我們雖然刷出了大量資料,但我們只能大致觀察和判斷系統的基礎能力是否足夠聰明。這裡主要考察三個方面:一是系統的學習和資料吞吐能力,也就是它‘吃資料’的能力;二是它的智慧程度,即基礎能力是否夠聰明;三是它的溝通能力,也就是讓人與 AI 之間的溝通成本保持在較低水平。
溝通成本低這一點非常關鍵,因為只有這樣,才能讓系統快速推廣。這裡有兩個成本問題需要考慮:其一是落地成本低,落地專案時不需要投入大量工程師和科學家,因為這些資源是有限的;其二是讓幫助落地的人儘可能成為‘機器人的教師’。我們希望每個人、每個普通生產者都能成為教師,不用一定依賴專業的科學家。只要按照我們的說明書操作,買一臺機器人,就能夠輕鬆教會機器人,從而大幅降低整體成本,促進擴充套件。
這正是我們強調的原因:如果你落地一個專案,需要投入大量高成本的人力,這會成為一個瓶頸。我們的目標是讓每個人都能輕鬆地去教機器人,這樣整個體系的推廣和落地才能變得可擴充套件。
ReSpark:真機演示長程任務方面,穹徹確實是走在同行的前列。如何做好這些長程任務的?我看到我們近期也推出了“基於可規模世界模型構建的長程操作概念學習新框架”,這一套框架的理念是否方便分享一下?
盧策吾:我認為在長程任務上,我們主要涉及三個關鍵問題。第一,目標的理解和拆解。也就是說,把一個大目標分解成多個可執行的步驟。從學術上來看,大模型在這方面做得還不錯,特別是在產品中,大的步驟都是明確的——這一層我就不贅述。
第二個問題是對中間狀態的監控和判斷,這在智慧系統中非常困難。因為在一個任務的執行過程中,機器人可能在失敗的時候根本不知道自己失敗了,也不清楚當前處於哪一步。因此,我們提出了一個最深層的思維鏈(Chain-of-Thought,COT),也就是之前提到的因果關係鏈,它綜合了物體的屬性(attributes)、可控性(affordance)和功能性(functionality)。透過這種因果鏈,系統能夠判斷出任務執行的狀態。例如,在倒水這個簡單場景中,如果沒有反饋機制,你可能會不斷倒水,直到水滿卻無法感知;而加入因果鏈之後,系統就能知道‘水已經滿了’,從而停止繼續倒水。這種機制能讓系統更準確地判斷狀態,避免單純依賴純資料統計得出低效率的結論。
第三個關鍵問題在於底層技能的穩定性。簡單展示一段五分鐘的影片或許效果不錯,但在長程任務中,往往涉及十幾個甚至更多的技能模組。如果每個模組的成功率只有90%,那麼串聯起來整體出錯的機率會急劇增高。我們的系統在這一方面做了大量工作,透過精細的因果反饋機制,使得每個技能模組能夠在整個任務鏈中實現準確銜接。比如說,在開門動作中,系統不僅需要判斷門是否開到合適的角度,而且能透過力反饋避免把門拉斷。再比如在插入操作時,你可能無法單靠視覺確定是否插好,但透過檢測左右細微的力變化,就能準確判斷是否已經完成插入。正是由於這樣的因果網路機制,我們能夠大幅提升系統的魯棒性。
在實際測試中,我們對比如疊衣服、消防操作等場景進行了連續多天、上萬次的演示,幾乎沒有發生故障。總的來說,我們的目標就是打通從目標拆解、狀態反饋到各技能穩定銜接的整個鏈路,使得系統在面對長程任務時,既能保持高精度,又能具備極高的魯棒性。希望這樣能基本說明我們的思路和努力方向。
ReSpark:現在除了對單臂、雙臂的適配,對於靈巧手的適配進展如何?我們對於跨硬體本體適配的能力如何?
盧策吾:首先,我來回答一個關於硬體裝置的問題。雖然之前可能已經討論過,但我認為隨著時間推移,學術界逐漸形成了一個共識,那就是硬體適配不再是一個大的問題。我們的實驗也已經證明,硬體適配已經不再是障礙。最近,我們有一篇論文正在《Nature》子刊上審稿,內容非常有趣。我們使用了一個兩指模型,透過少量的校正,就成功實現了五指抓取。
其中一個根本原因在於,我們在進行操作時,資訊量的分佈主要集中在對世界和任務的理解上,而機械引數的差異所佔的資訊量比例較小。因此,採用我們的方法進行遷移並不困難。舉個例子,就像一個人的靈魂出竅後進入一隻黑猩猩的軀體中,雖然身體不同,但智慧部分依然能夠完成複雜的工作。這說明,智慧才是關鍵,機械結構的差異並不是大問題。從三個角度來看——個體差異、哲學視角和道理角度——硬體適配並不是一個大障礙。我們的實驗也證明了這一點,從產品角度來看,硬體適配更不是問題,因為我們專注於自適應設計,從產業角度考慮,成本也沒有增加太多。
接下來談談靈巧手的問題。靈巧手是一個非常有前景的科研方向,我們在這方面也做了大量工作,包括觸覺與視覺的結合研究。從學術角度看,研究靈巧手非常必要,但當前學術界存在一個問題,即很多人沒有真正理解靈巧手研究的本質。靈巧手的核心在於‘in-hand manipulation’,也就是說,操作過程中手上的反饋和調整。例如,當你拿一個鐵錘,最初可能拿得不好,透過手上的調整位置,你能逐步掌到對的位置;或者拿剪刀時,初始位置不準,透過調整,最終能夠準確使用。這類研究的價值在於提升操作的精確性和靈活性,而不僅僅是依靠簡單的兩指操作。因此,我們實驗室專注於這類研究,近期也會有相關成果發表。
關於靈巧手技術能否產業化,我們主要考慮三個關鍵因素:第一,穩定性,我們要求產品能夠在高強度、複合環境下連續執行幾個月,並達到工業級別的效能標準。比如,靈巧手是否能滿足這種穩定性的要求,目前我不對具體指標進行評價,只是提出這個問題,讓大家自行判斷。第二,成本,這裡主要指ROI——投入與產出比以及人工成本。如果產品售價高達數萬元,那麼成本控制就必須十分嚴苛,確保價效比能夠與人力相比,甚至更優。第三,必要性,這是指在實際應用中,該技術是否解決了一個‘非你不可’的問題。如果一個任務即使使用簡單的兩指操作也能完成,那麼追求更復雜的靈巧手技術的價值就會打折扣。我們希望看到的是一種簡單穩定、適用於真正無法用兩指輕易解決的操作場景,同時具備更好的生態支援。
這三個條件交叉在一起,就決定了靈巧手技術未來的產業空間及其成熟的時間節點。換句話說,我們可以建立一個包含這三個要素的評估體系,列出各項指標,判斷什麼時候達到產業化的標準。
另外,還有一個要素是AI靈巧性的問題。由於靈巧手涉及更多的關節和複雜操作,AI需要具備更高的適應和學習能力,才能跟上靈巧手技術的實際需求。只有當AI的靈巧性與硬體水平都達到要求時,整個系統才可能真正落地。
最後,我想說的是,不管產業界如何發展,我始終鼓勵學術界和我的學生關注靈巧手的研究。我的理念是:如果一個操作任務二指就能輕鬆完成,那麼我們就沒有必要去研究靈巧手。只有當任務是二指無法勝任,或者簡單方式無法滿足要求時,我們才真正需要靈巧手的技術。因此,我常對學生說:‘二指能做的事,就別做靈巧手了;只有二指做不到的,才有研究靈巧手的意義。
ReSpark:最近你們在Nature自然雜誌的子刊上發表了一個文章,是一個基於視覺–觸覺的聯合學習框架,包括視覺系統和一套可伸縮的觸覺手套,解決了剛性物體和可變形物體高精度重建的問題。現在視覺和觸覺聯動是很多公司都在研究的話題,可以分享一下你們的方案的領先性具體在什麼方面?
盧策吾:這屬於我們長期的研究儲備,我個人認為在短期產品中可能並不一定會用到這些最前沿的技術。不過,我們一直在做產品儲備工作。例如,我認為觸覺與視覺聯合學習將會對世界建模帶來顯著提升,不僅能提高建模的精度和穩定性,還能增強各種功能表現。
這裡面一個核心問題是:在從底層硬體到 AI 的多人協同開發過程中,是選擇原生聯合研究,還是採取各自組合的方式?我們團隊幾年前就開始與感測器專家緊密合作,共同打磨裝置,這樣感測器設計就能夠根據 AI 的特點進行最佳化,從而實現端到端的一體化方案。這樣的設計無論在效能上還是穩定性上,都遠超單獨開發的組合方案。
至於何時在產業化上會真正發揮這些先進技術的作用,我認為還需要一段時間。目前很多產品還未到需要極其精密建模的階段,但一旦應用於更高要求的場景,尤其是與靈巧手等系統結合後——例如靈巧手能否準確拿起剪刀、撿包裹等操作——這種技術的優勢就會顯現出來。雖然產業價值的具體大小還在討論中,但從科學角度而言,如果靈巧手真的能完成這些高難度的任務,那就證明了系統的巨大潛力,也意味著我們的研究成果將對未來的產品落地產生深遠影響。
ReSpark:公司怎麼想到定位做純軟體的模式?您覺得具身純軟體的模式是否有好的發展?
盧策吾:我覺得我們看問題可以從終局和過程兩個角度來考慮。從終局來看,軟體形成生態是最經濟的角度,就是建立一個大腦,賦能各類硬體,各司其職,這種方式既靈活又經濟。
就過程而言,我認為在中國做純軟體是有挑戰的,所以我們更傾向於以AI 軟體為核心,同時具備強硬體能力的團隊模式。這也正好契合我們的起源背景,我們脫胎於非夕,因此天生具備強大的硬體研發能力。
舉個例子,有些客戶需要的是一個軟硬體一體化的解決方案。我們的優勢就在於能夠從需求出發,迅速組裝出一個完整的硬體系統。某家世界 500 強企業曾提出需求,希望我們能瞬間整合各種軟硬體(比如哪家機械臂最好、哪家移動平臺最出色)並迅速組成一個樣機,後續還能實現量產。對於量產問題,我們有一整套成熟的方法論,即使量產不由我們親自執行,也能提供完整的解決方案。
我們的模式非常靈活:如果客戶已經有成熟的硬體,我們只需將我們的軟體載入上去即可;如果沒有硬體方案,我們能夠迅速組裝整套軟硬體方案,完成交付。所以,關鍵在於能夠滿足各類需求——無論是軟硬體一體交貨,還是單純的軟體支援。這正是我們的核心競爭力,憑藉這種能力,我們可以快速響應不同需求方的多層次要求。
我們不討論具體的商業路線——畢竟每條路線都在不斷摸索——但我總喜歡從最優經濟、最省錢、符合廣大人民群眾利益的角度出發。你想想看,如果我們必須固定使用某一種硬體形式,那麼這個硬體不可能適用於所有場景,不僅要考慮有效性,還要考慮成本因素。
我對於未來硬體終局的看法是:針對不同場景,可能需要配置最合適的機器人。比如說某些清理場景,其實只需要單臂配一個輪式底盤就足夠了,何必非得用雙臂呢?那樣不僅效果差異不大,成本卻會更高。所以,在市場上可以形成多個種類的機器人,每種機器人針對不同應用場景,配置不同,正如當年我們組裝電腦時,根據預算挑選不同的CPU、顯示卡、GPU等元件,再裝配成一臺完整的電腦一樣。如果我們只提供整機方案,市場反而會變得很小。
總的來說,我們的生態系統將基於最經濟、最高效的原則,讓硬體與軟體、應用場景之間形成一個靈活匹配的體系,從而最大程度上滿足不同使用者和場景對成本和效果的要求。
所以,從整體來看,在純軟體的基礎上,必須具備強大的硬體能力。當需求方需要實際硬體支援時,我們必須能夠迅速提供。我們的優勢在於與各硬體廠商都有深入的合作關係,我們清楚知道哪些公司在哪些方面最強、哪些方面相對薄弱,因此能夠快速對接,形成一個穩定的介面。
例如,當客戶需要一個機器人時,我們可以迅速整合來自不同公司的硬體模組:可能我們這邊採購一批TAB,那邊採購一個移動平臺,然後將它們整合起來,形成一個完整的機器人。我們已經構建了很多模板,這些模板可以生成各種組合和不同本體。由於與各硬體廠商的合作關係緊密,大家互相之間可以很順暢地配合,也不必擔心臨時出現問題。
雖然聽起來組合模組很簡單,但實際操作起來卻不容易,因為如何將各個硬體快速組裝、傳遞出穩定介面,並保證整體系統效能,這其中涉及大量細節和協調問題,需要硬體、軟體和介面開發之間高度配合,才能真正實現高效落地。
ReSpark:怎麼看商業落地?
盧策吾:其實我們的理解是這樣的,具身智慧是一個技術驅動市場的行業,而不是簡單由市場決定需求。換句話說,我們先看需求,事實上需求可能是無窮無盡的,甚至存在很多我們尚未想到的場景,而這些需求目前之所以不能完全滿足,是因為我們的技能還沒有達到足夠的水平。一旦技能跟上了,當技術進展到一定程度,就能迅速填補這些需求的缺口。
因此,整個場景的落地強烈依賴於科技進展和科研水平的提升。舉個例子,我們組在‘any grasping’方面的研究就是一個典型案例——通用抓取要求機器人能夠應對各種抓取場景。其實目前已經有一些技術成果落地了,不僅是我們,其他團隊也有類似的應用。在我們提出這套技術之前,很多場景是無法實現、也難以變現的;而一旦突破出來,就能夠解決部分問題,進而創造價值。所以根本上,這還是技術突破所帶來的結果。
關於技術突破,我們內部有一份時間表,也就是一個時間連結串列,會預判在什麼時間段哪些技能會相對成熟,達到一定水平(比如說能達到通用或部分成熟)。再輔以工程支援,比如說當成熟度達到90%左右時,透過一定的定製化,加上產業化的方法,即便不能直接達到100%,也能透過補充手段實現百分之百落地。我們內部對於技術成熟度有基本的定性預判,同時也會提前思考這些技術在哪些場景下能夠落地應用。當然,具體細節目前涉及商業機密,不便透露,不過我可以從定性的角度說明:未來會逐步有一批技能成熟度達到100%,另一部分達到90%左右,再輔以現場工程的支援,這樣便能解鎖出一批又一批的應用場景。
也有朋友會問:‘那具身智慧的 GPT 時刻何時到來?’其實這個問題的答案不可能是一蹴而就的,因為我們的系統要比語言模型複雜得多。未來將是分階段解鎖的形式:今年可能會有一批場景和技能得到應用,明年又會有新的場景出現,後年再推出一批。整體來看,將會呈現一種階段性的、行業式的‘GPT時刻’,背後驅動它們的是一批又一批不斷成熟的技能。就拿我們的 any grasping 技術來說,一旦達到非常高的產業化投放性,就能開啟一批場景應用。