
「偉大的事情從來不是一個人做的,而是由一群人做的。」
2015 年的一天,趙行走出 MIT的實驗室,收到了浙大本科同級朋友董思遠的訊息,向同樣涉足過光學的他了解 CSAIL 裡各位教授的具體研究方向,也想到 MIT 裡做些 CV 的工作。
兩年前,這兩位青年從浙大畢業後赴美深造,都圍著視覺打轉:趙行到 MIT讀博,先後師從Ramesh Raskar和Antonio Torralba教授,研究計算成像和多模態學習;董思遠到康涅狄格大學讀研,師從鄭國安,研究傅立葉疊層成像技術。
在接下來的十年裡,兩位從 CV 出發的年輕人都面對著同一個問題:做自動駕駛還是做智慧機器人?
迄今為止,他們已回答過兩遍這個問題,做出了兩次不同的選擇。
在 MIT 的頭兩年裡,趙行意識到,計算成像的應用,尤其是拍照的社會影響力不夠大——而自己想做能在現實世界產生價值、提高生產力的事。

2015 年,趙行決定不做計算成像後,開始參與多個專案探索自己感興趣的方向,首先找到了 MIT Cheetah 系列四足機器人的負責人 Sangbae Kim教授,提出做其機器人課的助教。
MIT Cheetah 是仿生機器人領域的里程碑式成果,透過全電機驅動系統和高效能控制演算法,實現了高速奔跑(最高時速達48 km/h)、複雜地形適應(如閉眼攀爬樓梯)以及動態平衡(如抗干擾穩定),推動了四足機器人從實驗室向實際場景(如救援、軍事巡檢)的落地,其在 2019 年開源的 Mini Cheetah,其中的準直接驅動器的設計,更是影響了一波中國機器人企業的誕生與成長。
彼時 Sangbae Kim 組裡有液壓的人形和五個電驅機器狗,從硬體、結構到控制均為團隊自研,研發成本奇高。因系統不夠魯棒容易損壞,上飛機需要安排貨運,參加一次展會的成本大約是 3 萬美元,團隊往往只得放棄展示機會。

2015 年釋出的 Cheetah 2
在Cheetah2專案裡,趙行負責搭建感知系統,是唯一的華人成員。他曾向 Sangbae 力推深度學習,但當時深度學習在控制領域效果遠不及模型預測控制(MPC),因此控制派學者並不認可,「做傳統控制的老師們都非常厲害且堅信自己的道路,所以幾乎都看不上沒有數學保證的深度學習。」
後一年,趙行開始接觸自動駕駛,參與John Leonard教授發起的Duckietown 專案,開發自動駕駛的研究和教學平臺,團隊有來自不同實驗室的十幾人,包括兩名博士生、博士後和老師,開設課程教授學生自駕系統各模組的知識。

專案連結:
https://hangzhaomit.github.io/papers/duckietown.pdf
具體來說,他們自己搭建一個微縮版的城市交通,並且自己設計低成本的輪式小車,裝上感測器和計算單元,就實現了自動駕駛車的硬體系統。軟體上,搭建一個 ROS 中介軟體,透過它定義自駕各模組的介面,如感知、建圖、定位、導航、規劃、控制、人機共駕、多機協同、車路協同等。之後,各模組的開發工作將分配給不同團隊的成員,最後大家共享專業知識,共同構建一個多智慧體的自動駕駛交通系統。
作為助教,趙行負責搭建整個平臺,並參與深度學習感知模組。該課程後來作為機器人系統的實踐課程,被全球 250 多個大學和 160 多個公司所採用。
而在多模態學習方面,趙行在Antonio的課題組提出了視覺-聲音跨模態學習方法 Sound of Pixels,解決語音領域長久以來的“雞尾酒問題”;和隔壁組的趙明民(現 UPenn 助理教授)合作提出視覺-WiFi 跨模態學習方法 RF-Pose,用WiFi實現人體姿態識別。兩項工作都是多模態學習領域的典範,獲得了 NBC、BBC、Science 等媒體的廣泛報道。
2019 年趙行畢業時,他的求職目標很明確:自己擅長的視覺和多模態學習對自駕和機器人很有價值。而既然機器人行業未成形,那便進入最有價值、最硬核的自駕行業。
加上自駕車輛配備如毫米波雷達、雷射雷達、相機、夜視儀等多種感測器,為多模態學習提供了廣闊的應用空間,如果能去頭部的 Waymo工作和學習, 將這些技術應用於自駕汽車,他就不再考慮其他機會。
當時的Waymo如日中天,眾多頂尖人才齊聚於此。例如,坐在趙行身邊的 PointNet 作者 Charles Qi,VoxelNet 的作者周寅,還有自駕領域最早開展模仿學習工作 ChauffeurNet 的作者 Mayank Bansal 等人。
在 Waymo 研究院,趙行主要聚焦兩個方向。
一是多模態感知,涉及視覺、雷射雷達、毫米波雷達和聲音等多感測器資料融合;二是學習驅動的預測規劃,主要建模車輛與環境的互動。
很快趙行便結識了自己的最強搭檔高繼揚,他早三個月加入 Waymo,其自驅力在公司內尤為突出:既能高效開發產品,又主動推進研究,幾乎是一人擔兩職。
彼時谷歌組織架構高度扁平化,內部合作極為靈活,二人便聯合 Google Research 的孫晨(高繼揚學長,曾引薦其師從 Ram Nevatia),三人跨三組合作自駕軌跡預測的系列工作 VectorNet 和 TNT。
另一邊,在趙行逐步深入自駕行業之際,董思遠也在 2015 年來到 MIT 讀博,先是加入了正從視覺向觸覺感測轉型的 Ted Adelson 小組,意外開啟了觸覺與機器人的研究,跟著師姐原文禎學習 GelSight 感測器的原理和製作。

博二時因組裡經費緊張,Ted 建議董思遠和其他老師多交流以實現聯合培養。
恰好此時亞馬遜要舉辦第二屆機器人揀選挑戰賽(Amazon Picking Challenge),由傳統控制大牛 Alberto Rodriguez 帶領的 MIT 隊決定同普林斯頓大學宋舒然團隊組成 MIT-普林斯頓聯隊參賽,因需設計一個基於觸覺反饋的抓取平臺,便提出同 Ted 合作。
董思遠得以參與其中,逐漸轉到 Alberto 小組,開始聚焦操作領域(Manipulation),透過將觸覺資訊融合至控制器與規劃器,系統性提升機器人任務執行效能。
到了博四,董思遠與 Ted 團隊合作自己最具代表性的成果——觸覺反饋夾爪的線纜操作研究,並獲得機器人頂會 RSS 2020 最佳論文提名獎。
針對柔性物體難以物理建模的挑戰——理論上具有無限自由度,無法像剛體用六維位姿描述——該研究創新性利用觸覺反饋追蹤線纜姿態,僅憑觸覺感知即可實現從線纜一端到另一端的精準操控,突破了傳統視覺方案對柔性物體建模的複雜度瓶頸。

論文連結:https://arxiv.org/pdf/1910.02860
受深度學習浪潮影響,董思遠開始探索其在機器人操作中的應用。但因兩位導師都並非深度學習領域,尤其 Alberto 傾向基於模型的方法,所以在 MIT 的最後一年,董思遠自行鑽研機器人學習在插拔任務中的應用,開發了基於強化學習的高維觸覺控制框架。
強化學習在處理高維感測器輸入(如視覺觸覺融合資料)的獨特優勢得以展現——透過深度網路構建端到端控制器,突破了基於牛頓力學的傳統控制正規化對低維抽象物理量的依賴,為高複雜度接觸敏感型任務提供了資料驅動的解決方案。

論文連結:
https://drive.google.com/file/d/15FSgNIV9BfjqL9Yekx0ui1kfzJb3NBSf/view
2020 年,想繼續鑽研 RL 的董思遠來到華盛頓大學做博士後,與 Byron Boots 合作,研究將學習演算法應用在四足狗上,使其在惡劣環境也能跑得更快,還幫助 Byron 帶著學生做了不少機器人操作與觸覺感測的探索。
2022 年 6 月,董思遠回國加入華為的終端部門,先是在機器人和具身智慧方向做了些探索,但他很快意識到,機器人離大規模商用仍十分遙遠,就連最頭部的特斯拉也僅是公佈了 Optimus 的原型機。
一年後董思遠所在部門面臨重組,他便帶著團隊去了離具身智慧機器人最近的自動駕駛部門,加入了華為車 BU,真正地走進自駕領域。
過去做科研時,董思遠需獨立搭建含控制器、規劃器等從軟到硬的整套系統,而更成熟的自駕領域則分工明確,僅需負責其中某模組;自駕重感知的模式也讓其技術棧也得以更新,點亮了過去並非自己強項的感知演算法。
最近,董思遠又轉向端到端框架,直接將感測器訊號對映為規劃指令,繞過模組分工實現「感知-控制閉環」,迴歸自己感興趣及擅長的領域,把機器人學習演算法運用在自駕領域。
在他看來,機器人與自駕在技術底層已高度趨同——當端到端架構興起後,車輛本質上已成為具身智慧在物理世界的延伸載體,二者的核心邏輯都是透過海量示範資料訓練控制器,使系統能模仿人類行為:自駕追求「類人化」的安全決策,機器人則需完成疊衣、烹飪等家庭場景任務。
差異僅在於任務複雜度,自駕面對的是規則化道路環境,而具身智慧需應對開放動態空間中的精細操作,這對硬體與資料提出了更苛刻的要求。
自駕之所以率先商業化,源於資料獲取門檻低和硬體生態成熟的兩大優勢。反觀機器人,操作任務的示範資料採集極其困難,需依賴高成本遙操作或僱傭專人生成資料,且硬體層面仍缺乏能精準復現人手靈活性的執行器,更難以說服消費者為高溢價卻低實用性的家用機器人買單。
「雖然具身智慧創業熱潮湧動,但核心缺失在於涉及更復雜的物理互動與價值閉環的操作能力,唯有攻克,機器人才能真正創造人類可感知的應用價值,這也是具身智慧商業化落地的必經之路。」
儘管決定繼續紮根自駕領域,董思遠卻不認為自己離開了具身智慧,「我反而覺得當前用海量資料去做學習訓練的經歷是非常寶貴的,這遠比實驗室小規模模擬更具工程價值,而且對於未來如果再做操作等具身智慧任務,也非常有借鑑意義。」
與董思遠相向而行,趙行則是從自動駕駛轉向機器人。
在 Waymo 的一年多後,趙行在 2020 年回國加入清華任教。因意識到深度學習使各領域邊界持續消融,他創立 MARS 實驗室,希望不侷限於單一研究方向,而做更廣泛的 AI研究,包括多模態學習、自動駕駛和機器人。
剛回國後,趙行與剛上任理想汽車演算法負責人的浙大師弟王軼倫討論起自駕的技術進展,基於共同興趣開展了視覺感知和無圖自動駕駛的研究,後來發展為了與理想的正式合作。
到了 2023 年,之前在Waymo的合作者高繼揚這時候找到他聊起創業,他們感覺到具身智慧領域的創業時機成熟,一切恰如 2016 年自駕的起步階段,並於年中正式成立星海圖智慧。
二人再次成為搭檔合作尤其順暢,最初計劃開發輪式機器人,但在許華哲加入後,經過深入探討,決定以仿人形雙臂輪式機器人作為首款產品,最終確定了產品形態。(許華哲加入星海圖的故事詳情在伯克利具身智慧圖譜:深度強化學習浪尖上的中國 90 後們)
「自駕和 AR/VR 是我畢業時最火的倆方向,兩者技術都有難度但自駕因社會意義大,儘管過去十年一直在燒錢,一直有社會各界的支援。」趙行認為做技術須兼具前沿性與社會價值,「相信具身智慧機器人同樣是各方會持續投入人力和財力推動發展的行業。」
看似殊途的趙行和董思遠,或許會在未來再次同行。
在董思遠加入 Ted Adelson 組讀博的 2015 年,團隊已從 CV 向視觸覺轉型,專攻 GelSight 的視觸覺研究和機器人應用的發展。
長久以來,觸覺感知總被視為具身智慧操作(Manipulation)的「最後一公里」,讓機器人在黑暗中也能「看見」物體的形狀、硬度與紋理,如同人類指尖在閉目時描繪世界的輪廓。
作為前沿中的前沿,觸覺感知的技術路線自然未收斂,但在一眾方案中,近年來受到最廣泛關注和認可的觸覺感測器 GelSight 正是誕生於 Ted Adelson 團隊。
從聚焦視覺觀測的感測器到結合上機器人觸覺感知的「完全體」,GelSight 的演進離不開兩個關鍵人物:李瑞和原文禎。
回到 2009 年,視覺認知和計算機視覺領域的泰斗、美國兩院院士 Edward (Ted) Adelson 和其博後Micah Kimo Johnson 在 CVPR 上首次提出 GelSight,其命名直指技術核心:透過有均勻反射塗層的透明凝膠材料形變捕捉資訊,再利用光學成像和光度立體演算法還原出接觸面的高精度三維形狀。
最初的 GelSight 是個邊長為 50 釐米的大盒子,跟機器人的觸覺毫無關係,更多是用來做物體表面微觀結構的檢測,比如說表面的紋理和凸起等。
同年,在新加坡南洋理工大學畢業的李瑞來到 MIT 讀博,從 2005 年起他就開始做機器人和計算機視覺方面的研究。
2011 年秋,想繼續鑽研自己感興趣的機器人和 CV 領域的李瑞在一次和 Ted 的交談中討論起做機器人也能用的感測器,幫助機器人更好實現類人的手眼協同操作,二人想法一致,便轉組加入了團隊,成為其機器人方向的第一位畢業的 PhD。

2011 年,Ted 和 Kimo 二人在 SIGGRAPH 上展示了更強大的第二代 GelSight:透過最佳化凝膠材料與多角度照明設計,將空間解析度提升至驚人的 2 微米,甚至能無懼物體表面的光學特性(如反光或透明材質)捕捉幾何細節——此時的 GelSight 用上了單反相機、已具備手持裝置的雛形,但仍和機器人觸覺無關,離機器人實際應用仍有較大差距。Kimo 也於同年創立了 GelSight Inc.公司,將 GelSight 技術主要應用於缺陷檢測領域,但也與機器人並無關係。
彼時機器人操作領域的工作多是與視覺的結合,李瑞十分認可第一性原理,認為機器人若要像人一樣操作,觸覺不可或缺,極為重要。結合 GelSight 自身形變等特性,在 CV 領域深耕多年的李瑞和 Ted 設想將其改造成機器人觸覺感測器。
李瑞從人的觸覺獲取靈感:一是能感知如紋理、形狀的物體本身性質;二是可獲取接觸狀態、反映在人的手指形變裡的資訊。
「此前的觸覺感測器其實更應該叫壓力感測器,僅能獲取很稀疏的法向力資訊,而 GelSight 接觸物體時會像手指一樣發生形變,我要做的就是透過攝像頭捕捉多維的即時的形變資訊,再用 CV 方法反推出觸覺資訊。這樣其中一大好處就是可以獲得超高解析度的多維觸覺資訊。」
專案牽扯到硬體、軟體、演算法等多方面的綜合,起初李瑞和 Ted 對能否成功都沒有十足把握,不過隨著李瑞完成視觸覺感測器 Fingertip GelSight 雛形,他們對此路線愈發堅定。2010-2015 年間,Ted 圍繞該方向陸續招收 3 名博士生,其他方向鮮少招人。隨著組內其他學生陸續畢業,資源自然向視觸覺研究集中。
看看 Fingertip GelSight 的研發過程。
2011 年,GelSight 已有的幾個原型裝置體積大、質量重、執行緩慢,用在機器人上既不實用也不合適,因此無論是電路、光路還是系統整合,都需要重新設計。
若僅算重大改動,主導專案的李瑞至少完成了二三十次版本迭代:為了兼顧滿足效能需求、成本低廉、反應快速與尺寸小巧,測試了 40 多種攝像頭;光路設計也歷經多次迭代,涉及諸多光源、彈性體、支撐板、導光板的選型等細節調整;軟體和演算法上也要做到非常即時和精準。
這些元件組合方式繁多,難以確定最佳方案,甚至不確定能否正常執行,探索空間極大。他要在有限時間內,研發出效能適配的感測器及演算法。
李瑞還跟 Ted 討論過是否將其更名為「GelFinger」以跟之前的 GelSight 作區分,最後師徒二人還是決定沿用原名,但加了個字首「Fingertip」。
在 CVPR 2013 上,李瑞釋出了包含 40 種觸覺紋理的資料庫,使感測器能夠透過接觸識別多種不同的布料、砂紙、木材等材質,識別成功率可高達99.79%。這也是最早用觸覺來識別物體材質的一個研究,得益於GelSight的超高解析度帶來的豐富觸覺資訊。
2014 年,在機器人領域頂會 IROS 上,GelSight 迎來了歷史性跨越,進化為現在大家所熟知的形態:李瑞與 Ted 推出全球首款超高解析度的視觸覺感測器 Fingertip GelSight(GelSight 指尖感測器,也稱 GelSight 2014),其尺寸僅如人類指尖,是個邊長約為 3 釐米的立方體。

論文連結:https://dspace.mit.edu/handle/1721.1/88136
這一設計讓機器人實現類人手指精細操作,如插拔 USB 介面、自適應抓取等。大部分人類操作需手眼同時參與,即「手眼協同」,這對機器人實現類人通用操作同樣關鍵。藉助視覺-觸覺閉環控制,機器人模仿人類「手眼協同」作業邏輯,完成精細操作:視覺粗定位與引導,觸覺精細化閉環控制,二者相輔相成,缺一不可。
李瑞展示的機器人插拔 USB 的操作,使用的是早期重複定位精度只是毫米級的協作機器人 Baxter,但透過 Fingertip GelSight 實現亞豪米級的精準閉環操作,還展示了自適應抓取雞蛋、薯片、樹葉等脆弱或柔性物體,機器人可依據多維力反饋動態調整動作,而無須事先設定好每個物體力的大小,實現類人的通用自適應抓取能力,大大提升了機器人操作的能力上限。GelSight Inc.公司於 2022 年所推出的 GelSight Mini 感測器,正是在這版設計上改進而成。

除了感測器自身的軟硬體和演算法升級外,GelSight 技術在機器人觸覺感知的應用也在不斷突破,為此從無到有搭建起體系並奠定了關鍵基礎的人,除了李瑞,還有晚一年進組的原文禎。
原文禎本科就讀於清華機械工程系,在張文增指導下參與靈巧手和器械結構設計專案,負責用視覺做手勢識別來控制靈巧手,參與過大量程式設計演算法相關的軟體工作。她發現,打造出色的機器人離不開智慧軟體與硬體的協同,希望找到二者最佳的結合方式,以此製造智慧機器人。
因此,2012 年來到 MIT 後,對感知領域產生了濃厚興趣的原文禎主動和多位研究人類認知科學與機械認知科學融合的教授交流,其中便有 Ted。
Ted 稱自己已從視覺研究轉向觸覺,並向她展示了 GelSight,說打算做機器人觸覺感測器,這與她想融合硬體與感知的想法不謀而合,遂決定加入團隊。

作為一名機械系學生,原文禎進組後受到了不小的衝擊。
GelSight 的核心硬體是帶塗層的透明軟膠,涉及化學流程,要親自準備材料、做模具、融合材料,表面噴塗難度極大。
Ted 把原文禎帶到實驗室,指著一堆瓶瓶罐罐,讓她抄錄,說是要做軟膠觸膜的噴塗。身旁 GelSight 方向的大師姐賈曉丹一邊教一邊說自己即將離開,之後這屋子和全組的軟膠研發製作就由她繼承了。看著滿屋子化學器材,原文禎直接懵了,「本來想多寫寫程式碼,結果卻先來搞化學了。」
在專注硬體開發之外,原文禎開展了 GelSight 力學建模研究,試圖從根本上理解測量訊號的本質。
原文禎以傳統機械工程思維開啟研究,聚焦機器人觸覺的核心問題——接觸力測量。面對複雜力學建模的挑戰,她透過大量實測建立基礎理論框架時,開創性地在物體表面配置黑色標記點,意外發現這些標記點的訊號變化與抓取滑動(Slip)高度關聯。
在與副導師、觸覺先驅 Mandayam Srinivasan 的深度探討中,她敏銳捕捉到解決「物體滑落」這一抓取難題的關鍵:將 GelSight 感測器的高維訊號優勢(精度較傳統觸覺裝置提升兩個數量級)與幾何學結合,耗時兩年最終構建出基於標記點的滑動檢測模型,並發表於 ICRA 2015,師兄李瑞也參與其中。
檢測抓取失敗、物體滑落是機器人觸覺領域的第一重要課題。此工作加上 2017 年同董思遠的合作,系統性地研究、論證了全新的基於觸覺檢測機器人抓取後物體滑落的方法——比起傳統方法更普適、更穩定,能真正地應用於機器人上。

論文連結:
https://ieeexplore.ieee.org/abstract/document/7139016
此時正值機器人觸覺領域低谷,受限於感測器硬體、機器人演算法及傳統感測器價格穩定性問題,行業認為觸覺應用天花板已至且實用價值有限,原文禎所發的文章也曾只有個位數的引用量、在會議上無人問津,甚至一度成為實驗室唯一的學生。
對未來感到迷茫的她透過跨領域的交流與反思,認識到關鍵在於「感知(Perception)」本身,要向整個機器人領域證明,高精度觸覺感測器本身如何將物理本質和認知結構結合起來,實現從未有過的認知能力——這種新式感測器能否催生新的感知正規化?
她將目光投向硬度檢測這一傳統難題:傳統感測器和純視覺方案均無法有效解決,是因為物體軟硬度必須透過接觸才能感知。
而基於對 GelSight 訊號的物理直覺,她設計系列實驗驗證猜想,成功實現複雜工況下的硬度檢測(接觸受力未知、物體形狀隨機且存在干擾力),並衍生出對布料/衣服等複雜可形變物體的感知工作。
這項探索分兩階段推進:她先嚐試描述物理現象並進行小規模測試,在化學實驗室手工製作不同硬度矽膠球后,透過分析 GelSight 接觸訊號,採用手動提取特徵方法,構建出能很好描述訊號的低維物理模型,這篇發表於 IROS 2016 的研究雖僅適用標準球體,但驗證了理論可行性。
彼時 Ted 的辦公點仍在視覺圖形組,同 William Freeman 和 Antonio Torralba 為鄰,正趕上深度學習在計算機視覺領域跨越式發展的時刻,原文禎便常和周博磊(UCLA AP)、吳佳俊(斯坦福 AP)、薛天帆(港中文 AP)等做視覺、影像的同學交流,學習最新的視覺領域進展,從中獲得靈感。
為了實現廣泛應用、測試任意物體的硬度,她與 William 組的 Andrew Owens 合作,將物理洞察與卷積神經網路結合——前者確保模型具備可解釋性,後者利用 CNN 和 RNN 處理高維訊號的優勢,最終實現對任意形狀物體的通用硬度檢測,並發表於 ICRA 2017。這項研究也讓原文禎成為了最早融合觸覺與深度學習的學者之一。

論文連結:https://arxiv.org/pdf/1704.03955
之後,原文禎積極探索其他將深度學習和高精度觸覺結合起來以增強觸覺感知的方式,比如以不同形式將觸覺和視覺結合在一起,使用深度學習,來獲取對布料、衣服的深入感知。
在 ICRA 2018 的工作中,她展示了機器人透過視覺定位主動抓取衣物,結合動態觸覺與深度學習,不僅能識別紋理,還能推斷厚度、蓬鬆度、光滑度等物理屬性,以及適用季節、洗滌方式等智慧理解資訊,初步實現了 Ted「做一個機器人在家裡給衣服分類洗滌」的願景。
「最早我認為做好機器人,要靠精妙的機械結構和用於感知和控制的優秀演算法,但事實證明機器人前沿發展的推動力,也依賴材料科學以及先進的製造技術。」原文禎感嘆,「機器人是一門綜合性很強的學科。」
對 GelSight 作出重要貢獻的二人至今仍在用不同方式探索著視觸覺領域,李瑞選擇了創業,原文禎則留在了學術界。
李瑞一直有著通用機器人的夢想,博士畢業論文裡開篇提到的場景就是未來的機器人可以在家裡和工廠裡幫人類做各種各樣的事,而視觸覺感測器和手眼協同便是其中重要的一環。
2015 年李瑞博士畢業時,Ted 問他要不要拿 GelSight 去創業,但他覺得時機未成熟,選擇在矽谷創立了無人配送小車公司 Robby Technologies,進軍更成熟的自駕領域,研發了純視覺和無需依賴高精地圖的技術,與特斯拉的技術路徑不謀而合,專案也入選了矽谷創業加速器Y Combinator(YC),並得到了 OpenAI 董事等的投資。
直到去年 1 月,一直密切關注視觸覺領域發展的李瑞認為機器人創業時機已到,便在國內成立了緯鈦科技,以通用機器人為目標,計劃根據核心視觸覺感測器、視觸覺靈巧手、整機的漸進式路徑研發,近 20 年跨領域的積累得以充分發揮,離其在博士論文中對通用機器人的願景更近了一步,「做真正心靈手巧的機器人。」
原文禎則在斯坦福做了一年博士後之後,在 2019 年入職了 CMU RI,先是帶學生做出了難度極大的觸覺感測器模擬器。她們同步推進基於學習的方法和物理建模的方法 ,都取得了很好的效果,後續還把它與機器人模擬結合,實現了模擬到現實的遷移。
來到 UIUC 任教後,原文禎還針對觸覺感測器硬體差異導致資料異構的難題,提出基於深度學習的跨硬體統一表徵網路,透過模擬器生成萬級異構感測器資料集訓練編碼器,實現跨硬體觸覺資訊的標準化表達,為觸覺大模型奠定資料基礎。
上月,她也因在機器人觸覺領域的突出成就和宋舒然、朱玉可與劉暢流等學者一同獲得了 IEEE RAS 2025 的早期學術生涯獎。從畢業時只有少數頭部院校發教職 offer 到 GelSight 成為當下最廣泛流行的觸覺感測技術,原文禎感嘆,「這也算是當年的堅持受到了時代的肯定了。」
MIT 的機器人研究曾長期由傳統方法主導——基於剛體動力學與精密控制,波士頓動力創始人 Marc Raibert 的早期工作(如動態平衡單足機器人)便是典範,加上 Russ Tedrake、Alberto Rodriguez 等大牛坐鎮,在學習方法展示出其能力前,自是沒必要顛覆過去的深厚積累。
但隨著環境複雜度提升,學習正規化崛起之風也逐漸吹向了 MIT,這從 Alberto 和 Russ 二位的學生的研究便可窺得一二。
Alberto 曾師從操作泰斗 Mathew Mason,屬於傳統機器人學一派,在 MIT 機械系帶領著操作與機械實驗室(MCube),研究自主靈巧操作和機器人自動化,在 2023 年到波士頓動力領導機器人操作後,依舊同 MCube 合作緊密。
2015 至 2017 年,亞馬遜連續舉辦了三屆機器人挑戰賽(APC),旨在推動倉儲自動化中機器人無序分揀技術的突破,賽事瞄準機器人操作領域的「聖盃問題」——Bin Picking(從雜亂箱體中抓取物體)。
Alberto 所帶領的 MIT 隊連續參與了三屆且均穩居前三,其中組裡的學生俞冠廷(Peter Yu) 作為「三朝元老」與技術架構總負責人自然功不可沒。

赴美前,俞冠廷先後在臺灣交通大學和臺灣國立大學讀完了計算機本科和碩士,並於 2013 年到 MIT 機械工程系讀博,師從精通靈巧操作的 Alberto Rodriguez 和擅長視覺導航的 John Leonard。
加入 MIT 的俞冠廷顯然是個比賽型人才。
2013 年,資助過十年無人車比賽的美國國防部高階研究計劃局(DARPA)轉而舉辦人形機器人挑戰賽,博一的俞冠廷加入 MIT 隊,也積極參與其中。
比賽賽程十分緊張:8 個月內準備虛擬機器人挑戰賽,暑假過後收到 Atlas 機器人,又要在短短 4 個月內憑藉真機再度參賽。MIT 隊從零開發了大量系統元件,比如相容最佳化的運動學和動力學引擎、完整使用者介面,還集成了現有複雜軟體,其中俞冠廷主要負責研究感知問題。

2015 年再次參與 DARPA 機器人挑戰賽的同時,俞冠廷也開始參與亞馬遜機器人挑戰賽,擔任感知和軟體負責人。
比賽場景設定在一個類似自動化倉儲的倉庫中,機器人有 20 分鐘的時間從貨架上揀選物品,並將其放入塑膠托盤中。貨架上的 12 個貨箱裡存放著 25 種產品,每個貨箱都有一個目標物品。機器人若成功揀選到目標物品,可獲得 10 分的基礎分,若貨箱雜亂或物品難以處理,還能獲得額外加分;若揀選了錯誤的物品、損壞或掉落物品,則會被扣分。
在 26 支隊伍中,MIT 最終以揀選 7 件物品、獲得 88 分的成績位居第二。不過在首屆賽事中,他們仍採用傳統感知-規劃-執行架構,重點解決物體識別、抓取規劃和軌跡計算問題,透過整合有限的感測器反饋(視覺、壓力)實現部分任務級驗證,但尚未達到完全的即時閉環控制。
因此在第二年他們決定和 Ted 組合作加上觸覺反饋以直接確認抓取狀態,同時還和普林斯頓組成聯隊一起參賽。
最終 MIT-普林斯頓隊獲得 Stowing Task(裝載任務)第三名、挑揀任務的第四名,並提出一種基於多視角 RGB-D 資料的自監督深度學習方法,透過全卷積神經網路分割場景並匹配 3D 模型,無需手動標註即可生成訓練資料,實現複雜場景下 6D 物體姿態的可靠估計。

論文連結:https://arxiv.org/pdf/1609.09475
第三年,MIT-普林斯頓隊再得裝載任務冠軍與 ICRA 2018 最佳系統論文獎。
值得一提的是,團隊所設計的機器人抓取-識別系統核心突破在於實現了對未知物體的零樣本操作能力。
該系統包含多可供性抓取框架與跨域影像匹配框架,前者基於全卷積網路,無需物體分割和分類就能規劃抓取動作;後者利用雙流卷積網路,無需額外訓練即可識別新物體——在比賽中以 100% 成功率完成倉儲任務,成為賽事史上首個在限定時間內精確處理所有已知與未知物體的解決方案。

論文連結:https://arxiv.org/pdf/1710.01330
2018 年 6 月,俞冠廷在博士畢業後,和同年畢業於 CMU 的好友周佳驥一起,在波士頓創立星猿哲(XYZ Robotics),為物流及工業自動化提供更好更快的機器人解決方案,成為最早一批機器人創業者。(周佳驥與CMU的故事詳情請看:CMU 具身智慧風雲榜:從傳統到全面)
深度學習對機器人領域的影響更劇烈地發生在了 Russ Tedrake 的小組裡。
2017 年,李昀燭從北大計算機系畢業來到 MIT 讀博,科研方向正從 CV 向深度強化學習拓展。想做智慧體與環境互動研究的他自然想到了機器人技術同 CV 的結合,而 Russ 和 Antonio Torralba(也是趙行導師)正好也想共同指導學生,三人就匹配成功了。
Russ 側重基於物理的模型及模型最佳化,Antonio 關注計算機視覺、深度學習和生成模型,雙方的應用領域和方法大相徑庭,讓李昀燭在博士階段初期協調起來頗為吃力,需在不同思路間周旋。但另一方面,這也是難得的成長契機,他得以同時接觸機器人和計算機視覺兩個領域的前沿成果和視角。

一開始,李昀燭啟動了視觸覺研究,探索視覺與觸覺之間的相互預測,側重多模態互動。朱儁彥(現 CMU AP)在加入 Antonio 組擔任博士後後也參與其中,協助李昀燭在模型訓練、除錯與設計等方面,推動專案順利開展並完成。隨後,兩人又與 Wojciech Matusik 的團隊合作,開展觸覺手套專案,李昀燭主要負責模型與學習相關部分。
為投稿《自然》雜誌,他們解答了為何選擇研發觸覺手套而非其他形式的觸覺感測器:手是人體與環境互動的核心部位,觸覺手套不僅能實現技術突破、捕捉多模態互動資訊,還能推動人類手部行為的科學研究,進一步啟發機器人領域的發展。
投稿後不久,評審就給出了非常詳盡的反饋。「這是我收到過最高質量的審稿意見,沒有之一,」李昀燭感嘆道。意見中提出了許多他們在投稿前已考慮到和尚未想到的問題。看到論文有望被接受,幾位作者多次召開長達四小時的會議,深入頭腦風暴如何恰當回應評審意見。最終,該工作成功發表在 2019 年的《自然》雜誌上。

被展示在 MIT 博物館中的觸覺手套
論文連結:
https://www.nature.com/articles/s41586-019-1234-z
此後,李昀燭持續深入觸覺研究領域,與 Wojciech 團隊的羅亦悅(現華盛頓大學 AP)合作,研發用於多模態大資料採集的觸覺織物與觸覺地毯,並推進柔性、可擴充套件的觸覺感測器設計。與 GelSight 的實現方法不同,他們希望透過超薄且可擴充套件的結構,使感測器能夠適應人手、機械手的抓握部位及機器人皮膚等多種複雜表面。
觸覺以外,李昀燭更重要的研究主線是如今的熱點——彼時被稱為「Intuitive Physics(直覺物理)」的世界模型(World Models)。
這一研究起源於李昀燭與 Russ 關於建模方法的深入討論:我們究竟應採用基於物理的建模與最佳化,還是應從資料中學習動力學模型?在具身智慧互動中,每個系統都涉及機器人狀態與環境狀態的協同演化。相較而言,獲取機器人的狀態較為容易,因為其感測器系統可由設計者主動配置;而環境狀態及其動態變化則更難觀測與建模。人類對環境的物理理解正是透過與環境長期互動中逐步學習獲得的。因此,李昀燭希望能夠學習環境的動態模型,即所謂的“世界模型”——這一方向也正是他與兩位導師共同關注的研究重點。
彼時 MIT 內吳佳俊和其導師 Joshua Tenenbaum 在該領域成果顯著,李昀燭便向他們請教,恰好吳佳俊也對直覺物理在機器人領域的運用很感興趣,雙方便開始了長期合作,共同研究環境的動態模型與世界模型。
博一下學期,李昀燭與吳佳俊合作提出了動態粒子互動網路(DPI-Nets),以粒子作為環境表徵,統一建模剛體、流體與可變形物體,並透過圖神經網路學習粒子間的動力學關係。該研究發表於 ICLR 2019,為解決物理模擬與現實之間的偏差問題提供了新思路。DPI-Nets 能夠將感測器資料轉換為粒子表示,從而實現多種物體動力學的高效模擬與控制,支撐機器人在複雜環境中操控不同材質物體,完成多樣化的操作任務。

論文連結:https://arxiv.org/pdf/1810.01566
作為一個複雜的系統工程專案,DPI-Nets 涵蓋模擬和現實世界兩部分,而那時的模擬技術的實現遠不如現在成熟,很多須用 C++ 和 CUDA 編寫。
為了將模擬與深度學習演算法接起來,李昀燭還給英偉達的模擬器編寫 C++ 包裝層,使其內部 API 能與 Python 對接;並搭建模擬環境,在其中進行資料收集、模型學習、模型配置、控制規劃;模擬環節後又再將整套流程遷移到現實機器人上。
對他而言,這是一次絕佳的鍛鍊:全程涉及圖形學、基於物理的模擬、模型學習、基於機器人模型的最佳化與規劃,以及模擬到現實的遷移,讓他對機器人系統有了更深刻的理解。
當時,吳佳俊在模型設計和專案規劃等方面提供了諸多建議,而 Russ 剛從人形機器人轉向操作研究,實驗室也剛開始搭建現實世界中的機器人作業系統,整體架構尚不成熟。透過這個專案,李昀燭不僅積累了大量實踐經驗,還系統性地認識到感知、學習、建模與 Sim2Real 等關鍵問題,研究視野由此顯著拓展,選題也變得更加順暢,其中不少思路至今仍在延續。
李昀燭的一系列工作讓 Russ 看到學習演算法在環境建模中的潛力;組裡 Peter Florence 和 Lucas Manuelli 的論文《視覺運動策略學習中的自監督對應關係》又讓 Russ 相信學習還能進一步用於策略制定;最後在豐田研究院,Russ 同宋舒然(現斯坦福 AP)團隊合作的基於擴散模型的機器人動作生成策略「Diffusion Policy」則讓這位堅定的「Model-Based 信徒」真正轉向了學習一派。
如今,李昀燭與 Russ 會在會議中偶然碰面,二人的討論發生了有趣的變化:李昀燭向 Russ 提出應在學習系統中新增恰當結構以提升泛化性與樣本效率;Russ 卻主張構建機器人基礎模型,像 VLA 模型和大型行為模型等,已然 all in 端到端的機器人基礎模型研究。Russ 還感慨,自己都未曾料到會有如此轉變 。
2021 年,李昀燭和許華哲、吳佳俊等人合作了 RoboCraft 專案:許華哲在吳佳俊組裡做博士後,二人經討論認為動力學模型學習(Dynamics Model Learning)是個不錯的方向,想起李昀燭之前做的 DPI-Nets 也是相關工作,便提出了合作。
次年李昀燭畢業,來到斯坦福,在李飛飛和吳佳俊組裡做博士後,順著 RoboCraft 繼續推進 RoboCook 工作,和史浩辰(斯坦福 PhD)合作,透過圖神經網路和預測控制演算法讓機械臂學會操控各種軟體材料,比如藉助工具完成包餃子任務,最終獲得了 CoRL 2023 的最佳系統論文獎。

論文連結:https://arxiv.org/abs/2306.14447
接著,李昀燭還和黃文龍、吳佳俊、李飛飛等人一起合作了 VoxPoser 專案。
一作黃文龍(斯坦福 PhD)曾在谷歌大腦參與 PaLM-E 專案,研究語言與機器人操作的融合問題。博士入學後,他在斯坦福與李昀燭等人展開深入討論,認為儘管基礎模型在高層次任務上表現出色,但在生成機器人動作等低層次控制上,仍需結合結構化框架以提升可靠性與可控性。
鑑於李昀燭之前在模型學習、基於模型的最佳化和規劃方面有諸多經驗,便建議將基礎模型的高層次能力與低層次最佳化相結合,從而充分發揮兩者優勢,由此產生了 VoxPoser 的想法。

專案連結:https://voxposer.github.io/
VoxPoser 將大模型接入機器人,把複雜指令轉化為具體行動規劃,無需額外資料與訓練;還結合大語言模型同視覺語言模型,在 3D 空間中分析目標及需繞過的障礙,以零樣本的方式合成軌跡為機器人規劃行動。
儘管仍處於實驗室演示階段,與實際商業應用尚有不小差距,該工作首次展示了機器人在更通用場景中,基於語言指令與視覺觀測完成多種複雜操作任務的能力。論文發表在 CoRL 2023 後,迅速引發學術界、工業界及風投圈的廣泛關注。此後幾乎每週都有多位投資人主動聯絡作者團隊,尋求進一步交流與合作。
離開斯坦福後,李昀燭先後在 UIUC 和哥倫比亞大學任職,帶領學生持續推進世界模型(World Models)、多模態感知(Multi-Modal Perception)與基礎模型應用(Foundation Models for Robotics)三大方向的研究,「核心目標是讓機器人能像人一樣,更加靈活通用地感知環境並與之互動。」
2019 年初,MIT 開始籌備成立一個虛擬組織——具身人工智慧研究小組(Embodied AI Group,簡稱 EI 小組)。
「在 EI 小組成立前,具身智慧並不是一個熱詞。」在李昀燭的回憶裡,此前大家更關心基於模型的方法,小組成立後合作交流更緊密。
EI 小組把研究計算機視覺、圖形學、機器人控制、機器人任務規劃等方面的老師聚集到一起,既方便申請資金,又組織講座等多種活動。
整個 EI 基本都在 Stata Center 的三樓,各個實驗室的距離都在百米內,老師們有單獨辦公室,而不同實驗室的學生則三兩交叉、混雜分佈在不同辦公室裡,以便更好地日常交流。
這年的錄取結果公佈後,收到 offer 的陳濤到 MIT 實地交流時,就已經瞭解到 EI 小組的不少安排:每學期會辦約八場講座,外部嘉賓和內部交流五五開,還設一對一交流和共進午餐等不同的機會;各大頂會前辦研討會,各組學生齊聚一堂互相分享討論投稿論文。
陳濤本科在上海交通大學的機械工程與自動化系,大四開始自學程式設計、機器學習、慢慢接觸 AI,畢業後先在人形機器人創企嶺先機器人工作了一年,探索室內導航的 SLAM 系統搭建、強化學習上真機、物體檢測等方向,把機器人系統所用的 AI 技術摸了個遍。
確定想研究用 AI 方法尤其是強化學習去控制機器人系統後,陳濤便決定出國深造,在 2017 年到 CMU 讀研,師從 FAIR 機器人部門研究負責人、現 Skild AI 創始人 Abhinav Gupta,做了關於智慧體無任務獎勵下自主探索現實複雜 3D 環境的工作。

兩年後,想拓展新圈子、跟隨年輕老師的陳濤來到 MIT 讀博,師從剛從伯克利畢業後到 MIT 任教的 Pulkit Agrawal,成為其首位博士生,二人共同感興趣的方向。此前 MIT 的機器人探索更偏「硬核」,在傳統控制和硬體研發上成果斐然,Pulkit 加入後,則新添了深度強化學習的色彩。
進組後,作為組裡少數了解真機的成員,陳濤先是負責搭建真機平臺及 Infra,用 Python 寫 AI的控制軟體及脫離 ROS、以少量程式碼實現機器人互動的庫。
接著陳濤又做強化學習打影片遊戲的研究,但因實驗室計算資源有限,沒能擴大規模;同時因 Pulkit 和 Sangbae Kim 的合作並行開啟了對四足機器人的探索,研究用強化學習演算法讓四足機器人跳過溝壑,帶著本科生寫程式碼;還會協助 Pulkit 備課,他首次在 MIT 熬夜便是幫 Pulkit 準備程式設計作業。
博一接近尾聲時,陳濤終於找到了自己最感興趣的領域:機器人操作與靈巧手控制。
2019 年 10 月,OpenAI 釋出的機器人轉魔方工作引起轟動,陳濤因此也有了做靈巧手的想法,於是在完成手頭的專案後,決定解決靈巧手中最難的控制問題,聚焦到把靈巧手做得更泛化(朝向任意方向),突破 OpenAI 靈巧手只能朝上的侷限。
起初實驗室沒有靈巧手,陳濤便在模擬器上開始探索,用強化學習和模仿學習訓練靈巧手控制器,並且展示了靈巧手在手面朝下此最極端的情況下也能轉動任意形狀的物體,而且還透過無模型框架重新定位了超 2000 個形狀各異的物體,具有非常高的通用性。
他們還發現,當靈巧手控制器足夠魯棒時,即使不知道物體形狀資訊,也可以以高成功率轉動任意物體到指定朝向。

論文連結:
https://proceedings.mlr.press/v164/chen22a/chen22a.pdf
彼時靈巧手控制領域十分冷門,傳統模型方法和遙操作方法各有難以逐一建模和資料不足的問題,用強化學習實現突破的 OpenAI 也裁撤了其機器人團隊,直到陳濤用強化學習完成遠超以往難度、眾人未曾設想的靈巧手控制任務——此工作獲得了 CoRL 2021 的最佳論文獎。
除了用強化學習訓練模型使機器人學習有用資訊外,團隊還將原本需數月的訓練時長縮短至兩天內以提升效率,並將模型從依賴大量裝置、成本高達幾十萬美金的 OpenAI 早期模式轉變為僅用一個幾百美金相機、一張 3090 顯示卡及一週左右即可完成訓練,透過網路架構最佳化提出新框架,極大簡化整機部署系統,提升資料採集效率 。
推進此工作時陳濤也意識到,模擬器中充足的質量、材質、摩擦係數等資訊其實屬於「作弊資訊」,儘管做了大規模的理論驗證說明它可以被遷移到真機上,但依舊難以在真機上部署,因此下一步得訓練出在真實世界裡能夠部署的解決方案,便緊接著發表第二篇論文解決在真機上實現時遇到的問題,投在了期刊雜誌《Science Robotics》上。
有了這個魯棒的機器人控制器框架後,陳濤開展了大量應用工作,解決如靈巧手抓物重定向、削水果蔬菜等問題,還製作觸覺感測器用於機器人在桌面或封閉空間精準定位目標物體。
2024 年博士畢業,一直對創業很熱衷的陳濤拉上了上交大小兩級的師弟秦譽哲,一起在加州成立了 Dexmate,主攻機器人的靈巧操作。
秦譽哲在 UCSD 讀博,博導正是陳濤在 CMU 的學長王小龍,兩人透過王小龍認識後發現經歷十分相似,同樣從機械系轉到 AI,並專攻相對小眾的靈巧手,因此思路非常契合。
目前,Dexmate 的產品已迭代至接近穩定的狀態,即將進行小規模量產。區別於一般的人形機器人,他們選擇「輪式底盤+雙臂雙手」的操作形態,但沒有設計胸腔,而是讓機器人既可以蜷縮、摺疊,也能展開到兩米多高。
「我們奉行實用主義,機器人要具備像人一樣的操作能力,而不需形態上像人,靈巧手也不一定是五指結構。」
而在陳濤讀博的最後一年,算得上是我國本土培養的首位具身智慧博士方浩樹也來到 Pulkit 組做博士後。
方浩樹在 2013 年入讀上海交大,是個在本科期間就嶄露頭角並敢於嘗試的年輕人。他在大三參加本科生研究計劃時跟隨閻威武學習機器學習知識後終於找到感興趣的研究方向,即神經網路和 CV;之後看到盧策吾的實習生招聘廣告,因興趣契合投遞簡歷並透過面試,就在大三結束後休學,在不同的科技公司實習,也去了UCLA訪問,同時一邊跟著盧策吾做實驗。

休學兩年間,方浩樹聚焦 CV 陸續以一作發表四篇頂會論文,又在 2019 年本科畢業時,拿到多個北美知名實驗室的 PhD offer,不過,他最終選擇直博到吳文俊人工智慧博士班,繼續留在盧策吾團隊。(盧策吾的具身智慧故事請看:3D 視覺派:斯坦福具身智慧人物關係圖)
過往的研究讓方浩樹對機器人越來越感興趣,便決定從視覺切入,先做抓取,開啟了基於二指夾爪的通用物體抓取工作 AnyGrasp,期間也提出了 GraspNet-1Billion 標準資料集。
耗時三年,方浩樹和團隊終於在 TRO 2022上發表了 AnyGrasp:它能高效生成準確、全自由度、密集且時間平滑的抓取姿態,面對較大深度感測噪聲時執行穩健;清理裝有 300 多個未知物體的箱子,成功率達 93.3%,與受控條件下的人類表現相當;單臂系統上處理速度超每小時 900 個物體;在動態抓取方面,還成功展示了水中捕獲遊動機器魚的過程。

專案連結:https://graspnet.net/anygrasp.html
這是機器人首次在任意場景抓取任意物體時,表現出堪比人類的能力,既無需物體 CAD 模型和檢測,對硬體構型、相機也無限制。因此,AnyGrasp 被很多研究者當作抓取的通用模型使用。
除了抓取外,方浩樹也在思考如何用新正規化做機器人操作。
2021 年 GPT-3 問世後,他發現採用序列建模,若資料充足,可借鑑 GPT 思路進行機器人學習。研究 GPT 及此前模仿學習方向文章,他們注意到從 GPT-1 到 GPT-2 有重大思想轉變:GPT-1 時語言模型各任務需分開訓練,GPT-2 則將不同任務作為輸入網路,使一個網路能同時處理不同任務,還引用了在機器人學習領域率先提出的單模型多工的元學習(Meta Learning)論文,證明在大規模資料下多工學習的可行性。
這讓方浩樹想用同樣方法研究機器人學習。他還參考腦科學文章,發現人類處理語言和日常操作的腦區高度重合,主要負責序列建模,且考古學文章表明語言因操作需求而產生,用於傳遞操作經驗,因此認為語言建模方式適用於機器人操作。
但當時更關鍵的是缺少合適的資料集,為此方浩樹和團隊花數年採集 RH20T 資料集,包含了超過 11 萬機器人操作序列,提供了視覺、力、音訊、運動軌跡、演示影片和自然語言指令等多種資料模態,釋出後不久便收到了谷歌的邀請,成為大中華區最早參與 Open X-Embodiment 資料集的一支隊伍。

專案連結:https://rh20t.github.io/
推進 RH20T 時,方浩樹發現基於遙操的資料採集方式並非最適合擴大規模的方式,從 2021 年起便開始用外骨骼代替遙操作,開發了雙臂外骨骼裝置 AirExo,讓人能穿著直接採集資料。
對硬體和靈巧操作的深入探索讓方浩樹意識到了觸覺的重要性,便打算再讀個博士後。恰好妹妹方曉霖在 MIT 讀博,同樣研究 AI 和機器人,她描述的MIT的研究風格深深吸引了方浩樹。在跟董思遠聊了之後,他認為視觸覺大牛 Ted Adelson 組的研究與他之前的研究十分互補。
方浩樹給 Ted 發郵件表達了自己對用於操作的觸覺很感興趣,Ted 十分高興,但是稱自己只做觸覺不做操作,之後又聯絡上了在MIT主攻機器人操作方向的教授 Pulkit。就這樣,方浩樹在 2023 年末前往 MIT,在兩位導師的指導下做博士後。
他先是作為共同一作負責學習演算法的部分,在 IROS 2024 上發表了 EyeSight Hand,用模仿學習做靈巧操作,讓配備了視觸覺感測器的三指靈巧手能完成切橡皮泥、單手開蓋等操作,這篇文章也獲得IROS 2024 RoboCup最佳論文提名。隨後,方浩樹也開始探索硬體設計。

專案連結:https://eyesighthand.github.io/
目前,方浩樹在 MIT 主要圍繞著靈巧操作研究,既設計靈巧手、外骨骼硬體和感測器,也鑽研新的資料採集方式和學習方法。MIT的研究經歷讓他逐漸從一個 Learning 背景的研究者轉變為對軟體硬體都有深刻見解的學者。
「不少靈巧手的功能與二指夾爪類似,主要用於抓取,電機數量的增加卻不能帶來能力上的提升。」方浩樹認為靈巧操作中仍存在許多待解決的科學問題,「市面上靈巧手雖多,但關於哪種手的結構、手指數量、自由度配置、觸覺感測器的密度、靈敏度及排布方式更適合日常操作等問題均未得到妥善解答。」
在 2019 年 EI 小組誕生前,MIT 就已經孕育了好幾撥具身智慧的探索者。
他們或從感測器出發,或先探索更成熟的自駕領域,或在傳統控制方法上深深紮根。十年光陰,AI 和 Robotics 終於開始雙向奔赴。
趙行和董思遠最早從視覺出發,如今前者在清華叉院和星海圖推進機器人研究,後者在華為車 BU 鑽研自駕,以不同的路徑探索著具身智慧;
李瑞和原文禎讓 GelSight 成為真正意義上的機器人視觸覺感測器,現在一位創立緯鈦科技從感測器開始做機器人,一位則在 UIUC 任教、探索觸覺大模型;
俞冠廷和李昀燭親歷 Learning 深刻改變機器人領域,目前前者仍在用心經營星猿哲機器人,後者則在哥倫比亞大學任職推進世界模型與多模態感知。
而在 EI 小組成立後來到 MIT 的陳濤和方浩樹則搭乘上最新的浪潮,無論是成立 Dexmate 研發機器人,還是作為博士後繼續科研,都在攻克著靈巧操作這一核心難題。
「分層系統與端到端 VLA 並不矛盾,當前因端到端控制存在速度慢、閉環能力差等致命缺陷,可行方案是採用大模型規劃 + 端到端執行的分層設計。」趙行認為,未來具身智慧的研究方向是將端到端與大模型融合為一個系統,「強調結合動作模型與視覺語言模型以提升執行能力,這在自駕和機器人領域的思路都是一致的。」
MIT 的校訓是拉丁語「Mens et Manus(Minds and Hands)」,譯為「手腦並用」。巧合的是,具身智慧同樣追求「心靈手巧」。
這些 「傳動軸」們的故事或許會成為新的啟示:在 AI 與機器人的交叉地帶,真正的「心靈手巧」從來不是某個天才的靈光一現,而是一群攻堅者們在齒輪咬合處的持續深耕——他們擰合的不僅是技術鏈條,更是讓智慧從「雲端」落地「指尖」的時代齒輪。
地基夯實,大廈將起。
對於 MIT 派系及具身智慧明星們的更多故事細節,歡迎新增 anna042023 交流。



更多內容,點選下方關注:

未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社群進行轉載!
公眾號轉載請先在「AI科技評論」後臺留言取得授權,轉載時需標註來源並插入本公眾號名片。
未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社群進行轉載!
公眾號轉載請先在「AI科技評論」後臺留言取得授權,轉載時需標註來源並插入本公眾號名片。
