
與位於宇宙中心矽谷灣區的伯克利、斯坦福不同,被視為鏽帶區復興唯一希望的卡內基梅隆大學(以下簡稱“CMU”)坐落在上世紀的工業重鎮匹茲堡。
計算機科學學院的機器人研究所(以下簡稱“RI”)成立於1979年,是世界上第一個致力於機器人研究的大學級研究所。
這座機器人搖籃在 45 年間誕生了無數耀眼成就,但在如今技術更迭到由 AI 方向領銜、以模擬與強化學習演算法方為“技術先進”之際,以傳統機器人學見長的 CMU 能否跟上具身智慧的熱潮?
答案毋庸置疑:有人加入了最前沿熱門的企業,或在OpenAI研究機器人基礎模型,或到特斯拉參與人形機器人Optimus 的研發;有人選擇了創業,賓通智慧、星猿哲、木牛、雅可比,涵蓋工廠、物流、商超場景;有人走進了高校,在北大、中大、USCD 等大學繼續具身智慧的研究。
回到紐維爾·西蒙樓,一切才剛剛開始。
人形機器人控制演算法的演進分為三個階段:一是經典模型控制,如 LIPM+ZMP,以 ASIMO 為代表;二是高階模型控制,即如 MPC+WBC 的動態模型和最優控制演算法,以 Atalas 為代表;三是模擬和強化學習的結合。前兩者均基於模型(Model-Based),第三代則轉為基於學習(Learning-Based)。
一般而言,“技術先進”指技術出現得更晚、更年輕。在這個概念上,由 CS、AI 人才主導的第三代演算法可以說最為先進,基於模型的方法也逐漸被稱為“傳統機器人學”。但同時也有很多人認為,在現實的應用中,世界上只有一種先進的技術,那就是行得通的技術。
2017年正值學習萌芽之際,機器人頂會ICRA中約40%的論文都與之相關,對於是否轉向,侯一凡與導師Matthew T. Mason有過一番對話:
Mason問他是否考慮轉向,侯一凡深思好久後回答,目前對機器人學習(Robot Learning)興趣不大,自己關注的重點在解決操作,而非用學習解決操作——他不在乎方法或流派,只關注效果,哪種方法對解決問題最有效,就會嘗試——當時學習的成本及效果上限都遠不及基於模型。
回到2015年,侯一凡從清華自動化系畢業,來到CMU成為了剛卸任RI所長、機器人操作(Manipulation)先驅Matthew T. Mason的學生。
二人的互選緣於12年進組的周佳驥:計劃讀博的侯一凡看到師兄周佳驥在知乎回答了不少CMU與機器人的問題,便主動私信探討課題,就此結為好友。侯一凡覺得周佳驥做的研究很有意思,來到CMU後在周的介紹下和Mason見面也相談甚歡,就進組開工了。
曾為清華火神隊隊長的侯一凡,2014年曾帶隊參加RoboCup,拿到了人形組AdultSize第三名,擅長運動控制和步態規劃。在CMU深入探索機器人系統後,他逐漸領悟到,要讓機器人變得實用,最大的瓶頸在於手部的操作能力,而非腿部的移動,便改變了研究重點。

侯一凡
操作和移動在理論知識上有許多共通之處,尤其是在運動規劃和軌跡最佳化方面,因此侯一凡起初打算將移動的思路應用於操作上。
在第一個手內操作(In-hand Manipulation)的專案中,他試圖將模型做得儘可能精確,花了半年時間研究摩擦力模型,以深入理解操作中的摩擦力。
然而,兩者在實際應用上差異顯著。對人類來說簡單的動作,想要精確建模卻異常困難。嚴格來說,摩擦力並沒有完美的模型,許多操作的模型也是如此。過分追求模型的精確性,往往導致模型過於複雜,限制了分析和控制規劃方法的應用,反而效果不佳。
漸漸地,侯一凡形成了對操作的清晰思路:若需建模,應選擇簡單模型,並以此設計出魯棒的控制和規劃方法。模型簡單則可利用強大的方法獲得魯棒的解決方案,再利用這些解決方案的魯棒性去應對實際環境中的不確定性和複雜性,而非試圖將所有複雜性和不確定性精確描述出來——這種偏向工程的思維,實際上非常有效。
受Mason的影響,侯一凡對操作的取捨也很明確。靈巧手多年來未廣泛應用並非因為技術難以實現,而是因為難以找到成本效益高的應用方法。傳統上,機器人主要用於工業,一旦確定了具體應用,通常能找到比靈巧手更適用的系統。
因此在研究手內操作時,侯一凡決定簡化手指的自由度,採用基本的兩指結構,微調硬體以便於在各種姿態下進行操作。他廣泛使用了“外部靈巧度”概念,即機器人透過與環境互動來彌補手部自由度的不足,如二指夾爪也能透過與地面的接觸來豎立一本書。
接著,侯一凡轉向了更具通用性的3D物品重定向問題,專注於規劃。但很快,他發現控制才是瓶頸——即使提供了精確的軌跡,當時的演算法也很難執行動作,尤其是在多接觸點操作中。
操作透過接觸傳遞力,每個接觸都有其模式(Contact Mode),如粘著、滑動或脫離。即使是粘著接觸,也分為點到面、邊到面或邊到邊等多種型別,這些離散狀態與運動的連續性形成鮮明對比。
在操作中,接觸模式的任何變化都可能導致環境約束和物體動力學的突變。如果控制器不能迅速適應這些變化,操作就會失敗。儘管一些機器人具有柔性控制,但往往只保證一般安全性,缺乏精細操作任務對機器人柔性的具體要求,難以在多接觸任務中有效應對不確定性。
簡而言之,如果能穩健地執行接觸模式,就能顯著提高操控控制的穩定性。
因此,侯一凡的博士研究分為三個步驟:首先,提出了量化接觸模式魯棒性的方法,透過精確計算接觸點位置和姿態來評估系統在不同控制下的穩定性;其次,基於這種魯棒性評估,最佳化柔性控制策略以增強操作的抗干擾性;最後,在量化魯棒性並最佳化底層控制後,將控制度量納入高階機器人規劃中,尋找一條從始至終都極為魯棒的軌跡。
侯一凡發表的論文讓機器人能夠規劃並穩定執行一系列接觸模式變化複雜的動作,而非簡單的抓取pick and place,這些動作能夠在模型並不準確的情況下做到穩定多次重複,而以往這些動作即使完成一次都很困難。同行也傳來了積極反饋,稱這套方法不僅演算法簡單,而且效果顯著。
彼時,在CMU同樣選擇傳統robotics的還有剛完成RoboMaster 2018總決賽的前大疆技術總監楊碩。
早在2016年底,一直想讀博但工作繁忙的楊碩就申請過不需提交託福和GRE成績的伯克利,並在次年初收到秋季入學的錄取通知。因想先完成好手頭的事,楊碩又推遲到2018年再入學。
2017年,楊碩在大疆深入研究了深度神經網路和強化學習,既為了探索新領域的知識,也為了籌備2018年的RoboMaster AI挑戰賽。
在研究深度強化學習(DRL)時,楊碩常感到一種難以名狀的挫敗:演算法難以穩定收斂,結果波動大,對引數極為敏感,稍有調整就可能導致截然不同的輸出,且調整缺乏理論支援。
尤其讓楊碩不適的是,DRL忽視了機器人學的核心——能量轉換和系統建模。在機器人領域,電能和磁能轉化為動能、力的傳遞產生運動,是一個複雜但可預測的系統。然而,在DRL中,這些原理被邊緣化,調整引數或神經網路結構時,依據的竟並非牛頓運動定律。

楊碩
3月,楊碩受邀到CMU RI介紹大疆的無人機技術和RoboMaster,然後又去伯克利參加了給博士生組織的校園開放日。
兩地的探訪經歷讓楊碩意識到,自己在工業界的經驗和程式設計技能,更適合以產學合作和大型專案執行能力強著稱的CMU。而且,匹茲堡作為美國傳統工業重鎮,總讓楊碩想起自己的家鄉太原——兩者都曾因煤炭和鋼鐵而繁榮,也都在國家發展新階段中面臨挑戰。
種種因素影響下,楊碩在2018年來到了CMU,成為了Howie Choset的學生,研究主線是足式機器人的長距離定位,應用在四足和人形機器人上。
讀博的頭兩年裡,楊碩機器人做得很好,卻一直未能發論文:他先是在六足機器人Daisy上面做狀態估計,優化了卡爾曼濾波器以更準確地估算機器人在空間中的行進距離;接著做了個兩自由度的猴子機器人,並利用iLQR演算法快速驗證了不同構型機器人的效能,輔助進行了機器人參數的選擇。
“花了兩年時間讓六足機器人上樓梯,但做出樓梯上得好的機器人不是一個科學問題,解釋清楚為什麼能上樓梯才是。”楊碩意識到,自己是重新解決了一遍已被人解決過的問題,再用較強的工程能力提升機器人效能,呈現的結果雖好,卻沒有解決某個新的科學問題。
茅塞頓開後,楊碩的第一篇論文推進的很順利,和過去重工程的工作不同,這是個非常數學且具理論性的工作,從有了想法到完成,只用了短短兩三個月。
2020年8月,楊碩復現了幾種帶約束的LQR演算法,意識到這類問題是領域內的挑戰,並萌生了將約束LQR與SLAM中的圖最佳化技術相結合的創新想法。他和SLAM圖最佳化先驅 Frank Dellaert 及其學生合作,用因子圖求解有約束的最優控制問題,併成功發表在ICRA 2021上。
2021年初,楊碩邀請RI新來的年輕教授Zachary Manchester做他的另一位導師。Zach最初從事航天研究,其博導曾任NASA首席科學家,後來Zach將航天和衛星控制中的數學和最佳化理論應用於機器人問題,取得了顯著成效。
在Zach的指導下,楊碩深入掌握了航天及機器人領域幾十年基於模型的控制方法,還花了半年系統性地學習了機器人軌跡規劃的各種知識,特別加深了對非線性最佳化、LQR和DDP的理解。至此,他把足式機器人的建模、狀態估計、底層控制、軌跡規劃每個環節都摸了一遍。
“所謂的傳統方法並不等同於過時,二者是平行的,只是側重點不同,並無先進與否之分。”同樣是從大疆到CMU的邱迪聰告訴雷峰網,“CS的人更傾向於基於學習的方法,認為它能解決所有問題,但實際上並非如此。”
回到2013年,在中山大學軟體工程系讀大三的邱迪聰就開始探索強化學習,並認為這是機器人技術中不可或缺的一環。
作為非傳統機器人領域出身且十分推崇強化學習的一員,邱迪聰卻覺得,自己真正深入研究機器人始於CMU。2017年,他來到CMU讀研,由“大白之父”Christopher Atkeson和場地機器人之父、自動駕駛先驅William(Red)Whittaker指導,研究多步最佳化決策和人形機器人的雙臂靈巧操作。
在實踐中,邱迪聰發現RL存在時代的侷限性,並不能立即廣泛應用,應將強化學習與最佳化或基於模型的方法結合起來,以適應更復雜的決策和技能學習, “畢竟目前純基於學習方法的機器人還沒實現任何落地,而無論黑貓白貓,能抓到老鼠的就是好貓。”

邱迪聰
在學術研究是否轉向資料驅動的學習方法的十字路口,CMU機器人研究所(RI)中也有學者選擇了不同的道路。
2017年夏,林星宇從北京大學資訊科學系畢業,進入 CMU 讀博士學位。本科階段,他主要研究三維視覺。然而,在即時觀看AlphaGo戰勝李世石的比賽後,他深受啟發:基於搜尋的機器學習演算法不僅能夠創造自己的策略,還可能推動通用人工智慧(AGI)的實現。
林星宇意識到,這種演算法的潛力不應僅限於棋賽或遊戲,而應應用於更實用的領域——機器人。
此時,機器人學與強化學習的交叉領域尚處於起步階段。伯克利人工智慧實驗室(BAIR)剛成立,全球從事此方向的研究者尖指可敲。恰逢此時,CMU機器人研究所進入了一位新加入的助理教授——剛從伯克利Pieter Abbeel組完成博士後的David Held。
林星宇被David的研究吸引,主動聯絡了進一步面談。兩人在第一次見面時一拍即合,就樣本效率、從影像中學習獎勵函式等關鍵問題展開了深入討論。幾天後,林星宇正式加入研究團隊,成為了David的大弟子。
初入實驗室時,林星宇開發了一種新演算法,透過增加探索獎勵,使強化學習智慧體能夠快速適應新環境,無需人工干預。
2017年聖誕前夜,在空蕩蕩的校園裡,他獨自進行實驗。當實驗首次取得成功時,他激動得從凳子上跳了起來。這部分科研成果的發表之路卻比較坎坷,幾次被會議拒稿後才發表在ICRA上。
在這個過程中,林星宇感到了些許挫折,但逐漸意識到了在機器人領域,有影響力的工作最終需要體現在學習新的機器人技能上。

林星宇
到2020年博士三年時,林星宇開始研究機器人對柔性物體的操作。
機器人操作領域對學習演算法的態度仍存在疑慮:傳統方法在處理複雜任務時表現出艱豔,研究者不理解為何要轉向資料驅動的強化學習演算法。
面對這種疑問,林星宇決定建立一個針對柔性物體的Benchmark,這也是該領域的首個此類基準測試。
“柔性物體的研究使機器人學更加完整。傳統機器人學假設操作物件是剛性物體,並在此基礎上做出了對物體狀態估計和動態估計的各種假設。柔性物體的操作挑戰幾乎打破了所有這種假設,是構建通用機器人的必經之路。” 林星宇解釋他聚焦柔性物體的原因,“假如這能解決,就相當於解決了最難的方向,能以相同的演算法或系統解決其他機器人任務,把成果遷移過去。
透過多種演算法試驗,林星宇發現一種簡單的搜尋演算法——Cross-Entropy效果卓越。該演算法基於試錯最佳化動作,其關鍵假設是:如果有模擬器能夠預測動作結果,就可以透過簡單的最佳化方式選擇最佳動作,無需依賴對複雜動力學的強化學習。這一發現使他認識到,學習世界模型或動力學是機器人學中最基礎也是最困難的任務。
此後,他將研究重點轉向資料驅動的方法,透過將柔性物體視為粒子集合,藉助圖神經網路模擬粒子間的相互作用和動態,為機器人完成複雜任務(如平整痕褶衣物)提供了可能性。
林星宇的博士研究逐漸聚焦於構建柔性物體的世界模型。
他認識到,領域內真正缺乏的是具有挑戰性的任務,而非傳統方法也能解決的簡單問題。透過建立Benchmark,他進一步意識到資料驅動的核心在於預測和動力學建模,一旦掌握了動力學建模,最佳化就相對簡單,可以透過搜尋不斷提升模型的能力。
“從這個角度,機器人領域走在了自然語言前面,因為語言模型是從預訓練ma慢慢走向測試時計算(Test Time Computing),而機器人作為一個決策任務,從一開始就必須要做搜尋。”林星宇認為,在處理複雜任務和即時決策方面,機器人可能比語言模型更早地面臨和著手了類似的挑戰。
除了林星宇的博導David Held外,CMU RI中的兩位印度教授、Skild AI創始人Abhinav Gupta和Deepak Pathak在AI+Robotics領域也十分活躍,但後者比較年輕,2020年9月才入職,所帶的博士生們都尚未畢業。
資深的Abhinav Gupta涉獵領域廣泛,多做視覺,也涉及機器人學與語言,是現UCSD助理教授王小龍的博導。
2014年,王小龍從中山大學來到CMU讀博,延續碩士時師從林倞的研究,繼續做計算機視覺,利用視覺資料的冗餘性進行深度學習的無監督學習和影片識別。
讀博期間,王小龍曾在FAIR實習,由何愷明和Ross Girshick指導,在CVPR 2018發表了了非區域性神經網路(Non-local Network)的工作,透過其創新的全域性上下文聚合和自注意力機制,在影片分類、語義分割、目標檢測等多個領域內提升了模型的效能,並且由於其計算效率高和易於整合的特點備受關注,至今引用量已近1.2萬。
2018年,隨著導師Abhinav創立了Facebook的匹茲堡實驗室與機器人組,王小龍也開始接觸機器人導航、操作等相關研究,並在ICLR 2019發表了自己的首個RL+Robotics的工作。
這是關於將語義先驗知識融入語義導航任務的研究。人類能利用多年來建立的語義或先驗知識來高效搜尋和導航,比如找杯子時會搜尋咖啡機附近的櫥櫃,找水果時則會檢視冰箱。為了讓機器人具備相似的導航能力,王小龍透過融合語義先驗知識到深度強化學習框架中,利用圖卷積網路提升智慧體在新場景中導航至目標物體的效能和泛化能力。
2019年9月,博士畢業的王小龍在BAIR做了一年博士後,受Alexei Efros和Trevor Darrell指導,期間也和彼時在OpenAI的吳翼一起指導過多智慧體強化學習的論文。
次年7月,王小龍加入UCSD視覺計算中心任教,帶領實驗室研究視覺與機器人技術,後者側重於研究機器人手部操作、腿部移動的學習和低層控制(Low-level Control)。

王小龍
除了王小龍外,在CMU從視覺切入具身智慧的研究者還有梁小丹與仉尚航。
梁小丹2013年起在中山大學讀博,是林倞的首位博士生,和王小龍是同門。
博士期間,梁小丹主要研究人物解析,提出的庫在當時是人物解析領域最大的,連續五年舉辦的workshop和比賽也吸引了眾多參與者,許多人像分割、解析和編輯的研究也都基於其方法和資料。在分割演算法後,因導師對複雜推理特別感興趣,梁小丹就轉向推理相關的研究。
視覺研究更側重於解決具體問題,如架構和影像模型的構建及因果關係的分析,她在申請博士後時希望體驗不同技術方向,特意選擇了與之前導師關聯甚少的邢波(Eric Xing),想在CMU的機器學習系(MLD)開闊視野,探索底層和基礎問題。
邢波也希望有些偏視覺的工作,梁小丹便在2016年7月來到CMU,成為當時組裡唯一一個視覺方向的博士後,延續影像分割的工作。
在CMU,梁小丹主要做機器人視覺語言導航。從軟到硬的轉變十分絲滑,讓機器人到達某位置最關鍵的是視覺導航,而視覺導航再往下就是對場景的分割理解、物體檢測問題,就是自己的老本行。
“很多分割演算法都被用在搜尋或編輯中,但跟機器人互動其實是非常自然的過渡,所以就是從 2D 走到 3D 世界和機器人互動。”
在梁小丹看來,具身智慧並非從天而降,“30年前SLAM也可以理解為具身智慧,而現在的具身智慧考慮落地應用,普遍認為抓取很難,SLAM等導航演算法非常成熟,其實是上一代的技術已被應用,現在開始想下一代的應用場景,探索下一代的技術。”

梁小丹
2018年底,在婉拒OpenAI、CMU與騰訊AI Lab等多個offer後,梁小丹回到母校中山大學任教。回國後,梁小丹也開始接觸真機,並與智慧工程學院裡的同僚們合作交流,特別是擅長硬體與控制的同事。
目前,梁小丹正帶領團隊做具身大模型,希望把多模態大模型加上3D感知能力,做具身智慧領域的GPT-4o。
此外,為了改善之前模擬環境缺乏真實感和細節的問題,梁小丹團隊還發布了模擬平臺InfiniteWorld,能透過簡單拍照將現實場景如咖啡廳等精確複製到虛擬環境中,實現物品的互動功能,以促進機器人在複雜環境中的泛化能力。
“以前的模擬平臺場景不太真實,也缺少紋理,因為在真機上訓練測試效能不佳,很少能被機器人廠商使用,所以首先得把虛擬環境的真實感提升上去。”
仉尚航也是在2013年開始讀博,她從北京大學讀完研到CMU,收到了博導José Moura教授(美國工程院院士、美國發明院院士、IEEE/AAAS Fellow、前IEEE主席)給的難題:對整個紐約市各路口監控影片中的車輛進行檢測計數與流量分析。
面對缺乏具體資料集和思路的挑戰,仉尚航自己定義研究問題,開啟了領域自適應(Domain Adaptation)的研究。此時正值深度學習初興之際,經過調研後,她提出了基於深度學習的解決方案。剛開始時,José不太信任此方法,在她彙報時經常一句接一句地提出質疑,讓她不停在白板上推公式。
因導師堅持採用非深度學習方法低秩迴歸(Low Rank Regression),仉尚航便採取了一個工作量倍增但“兩全其美”的解決方案:對同一個問題和同樣的資料,同時設計深度學習和非深度學習兩種方法進行研究,一年後均取得成功並發表在CVPR上。經歷了該工作從問題定義到資料收集與標註,從傳統機器學習方法到深度學習方法的完整過程,仉尚航的科研能力得到了很大提升。
此後,José就對她特別信任和讚賞,無論她提出什麼想法,總會頻頻點頭認可、大力稱讚,在此鼓勵下,她愈發敢於探索新方法、嘗試新研究,後來做科研也越來越順利,產出也越來越多,沿著模型泛化、領域自適應、有限樣本學習的方向繼續推進。
此時正是自動駕駛的火熱時期,仉尚航也透過高通創新競賽將研究場景從車輛檢測計數過渡到自動駕駛,並使用深度學習方法研究自動駕駛的泛化視覺感知,關注領域自適應和有限樣本學習的難題。
因其一直對機器人方向很感興趣,來CMU的最大動力也是因為其RI久負盛名,讀博期間,她經常跑到RI與在Matthew T. Mason組做博士後的北大師兄萬偉偉(現大阪大學副教授)和在John Dolan組讀博的董馳宇、許聞達探討,也發表了一篇關於機器人操作的工作。

仉尚航
2018年博士畢業後,仉尚航來到了“夢寐以求”的灣區,在Eric Xing的創企Petuum做了一年科研後,更加堅定了做教職的決心,就來到伯克利的 Berkeley AI Research Lab(BAIR)做了兩年博士後,在Trevor Darrell和Kurt Keutzer的指導下進行開放世界泛化學習的研究,包括領域自適應、零樣本學習等,主要應用場景是自動駕駛。
Trevor是BAIR的Director,同時和Kurt一起帶領Berkeley Deep Drive,在伯克利期間,仉尚航參與了DARPA、BDD等多個專案並和多位教授展開合作,此經歷成為她日後擔任教職的重要基石。
一直以來都有教職夢的仉尚航,經歷了灣區的工作和伯克利的博士後研究後,更加堅定了回國任教的決心。而且她驚喜地發現教課、做報告和登臺主持有異曲同工之妙,能滿足自己曾經有過的媒體夢(她很喜歡主持,曾在CMU多次擔任過華人春晚主持人)。
博士導師José十分支援她的決定,其妻子Manuela Veloso是CMU RI教授與RoboCup創始人之一,IEEE/AAAS/ACM/AAAI Fellow,曾任CMU Machine Learning Department Head,也很關注她的研究,專門參加她在CMU的博士答辯,對其很欣賞,夫妻二人在給她的教職推薦時讚揚“尚航能去世界上任何一所TOP10大學”。
現在想起José、Kurt和Trevor三位老師的指導和鼓勵,以及Manuela的支援,仉尚航還很感動,正是這些優秀的學者給她樹立了榜樣,讓她堅定了踏實科研、勇於探索、教書育人的決心。
2022年初,仉尚航回到北京大學任教,加入了碩士曾就讀的計算機學院影片與視覺技術國家工程研究中心,辦公室就在當年讀研的工位旁,讓她更有“勿忘初心,方得始終”的歸屬感。加入北大後,她開始專注於具身智慧領域的研究,將之前在自動駕駛、泛化學習、多模態大模型方向積累的經驗轉化到具身智慧研究中,在此方向迅速成長。
2024年夏天,仉尚航還成為北京智源人工智慧研究院的智源學者,帶領具身多模態大模型研究中心專注於面向具身智慧的多模態大模型與大資料構建,目前正在研究4D世界模型。她於近期釋出了大規模多構型智慧機器人資料集RoboMind,是世界上集中採集的最大規模資料集,捕捉機器人面對複雜環境、長程任務時的各種互動和經驗,從而促進能夠掌握不同操作策略的通用模型的訓練。RoboMIND包含5萬5千條機器人軌跡資料,涉及279項不同的任務,涵蓋了高達61種不同的物體,覆蓋了家居、廚房、工廠、辦公、零售等大部分生活服務場景,將打造具身智慧領域的ImageNet時刻。
2014年秋,走進地下負一層沒有窗戶的生物機器人實驗室,龔超慧得知了自己的蛇形機器人工作登上《Science》雜誌的好訊息。
四年前,2010年,龔超慧從哈工大畢業來到CMU RI讀博。下屬計算機學院的 RI 做機器人較偏演算法化,在機器人演算法三要素感知規劃決策的閉環系統頗有建樹。
在各實驗室輪轉上課時,龔超慧意識到,機器人自動化遠比自己的機械式理解更廣泛,除了預設程式與硬體外,不僅包括透過感測器進行感知和資料採集,還涉及到基於資料的智慧化控制和複雜規劃。
對規劃著迷的龔超慧決定加入此領域頂尖學者Howie Choset的小組。Howie除了在RI任教外,也是生物醫學工程、電氣與計算機工程的教授,研究蛇形機器人、工業機器人與醫療機器人。
第一次正式見面時,龔超慧在Howie的辦公室磕磕絆絆地分享了自己對規劃的一些基礎研究和文獻調研工作,感受到他的熱情後,Howie建議龔超慧嘗試參與組內課題。在蛇形機器人平臺上進行軟體開發並迅速取得研究成果後,龔超慧順利開啟了PhD階段,成為了Howie的首位華人學生。

龔超慧
進組後,龔超慧有兩個並行專案:一是研究蛇形機器人的運動,如控制轉彎、行進方向;二是定位和建圖的 SLAM 專案, 基於拓撲學的數學理論,研究如何透過機器人之間的資訊互動,包括不斷設計新的行進方向,快速地把未知環境的拓撲結構描述出來。
龔超慧從本科就開始“手搓”機器人,跟周谷越(清華AIR副教授、前大疆CV總監)同為哈工大機器人隊的主力成員。此前龔超慧的做事方式偏工程化,喜歡去實現機器人的某個功能,Howie卻告訴他,如果要成為一個PhD,必須對能認知、改變世界的方法論上形成新的觀點和突破,否則只是位工程師。
因此,龔超慧的研究核心放在了高維度數學空間的規劃問題,即如何找到最優解。
假設機器人有無窮個關節,那面對無窮個自由度,該如何控制變數才能讓它形成有效運動的最低能量,且運動速度最快?
這其實是一個非常抽象的數學問題,所以在做研究時,龔超慧接近數學方法論,專注於在高維空間中尋找高效的低維子流形(Submanifold)。透過降低機器人的維度,在更低維的空間中快速進行計算,並利用這一理論框架,研究生物和機器人的運動,從高維統計資料中提取低維特徵和模式。
導師Howie對學術有著近乎變態的苛刻,對於任何一個公式的推導,每個上下角標是否準確,每項異常資料如何解讀歸因,都要求嚴謹準確。在他的指導下,龔超慧陸續在機器人頂會ICRA、IROS以及《科學》雜誌和美國科學院刊上發表論文。
到博士後期時,龔超慧開始對廣義機器人的規劃與任務分配軟體感興趣,認為AI 和 Robotics 技術會在製造業裡有廣泛應用的機會,“工業 4.0讓物理實體裝置具有結合資料技術使其更智慧化的機會,而裝置智慧化後也是一種機器人。”
因此,龔超慧在2016年初繼續留校做博士後,除了收尾PhD時的工作外,也開始把研究重點往智慧製造的方向轉變。
在每週五下午的午餐會上,RI各組學生都會聚在一起喝咖啡閒聊,龔超慧結識了小兩屆的周佳驥,二人常討論機器人的商業化問題。
周佳驥本科畢業於東南大學吳健雄學院,2012年來到CMU讀研,次年在RI開啟其博士階段,師從Matthew T. Mason與視覺教授Drew Bagnell,研究抓取操作與視覺感知規劃。
2016年,周佳驥發表的平面滑動運動模型工作獲得了當年ICRA全會最佳論文,成為了ICRA創辦30年來第三位以第一作者身份獲獎的華人。

周佳驥與Matthew T. Mason
在兩位學術成果頗為優秀的年輕人中,更早產生創業念頭的是龔超慧。每次討論機器人時,周佳驥更關注深入的學術問題,龔超慧則更關注應用場景。
彼時富士康到美國找研究團隊合作,VP戴佳鵬資助了龔超慧團隊,龔超慧就開始研究如何讓生產更柔性和智慧,包括生產裝置網路化、智慧化後的叢集管理,以及AGV等裝置有移動能力後的排程來連線生產環節。
在同富士康交流的過程中,龔超慧發現,製造業中傳統的管理方法、技術都有大量的資訊不對稱,在資料的全面性、運算的智慧化、計算能力都有瓶頸,生產線上大量裝置也沒有自適應能力,導致生產效率不足。
看到產業機會後,此前認為自己肯定會走學術路線的龔超慧向Howie提出了自己的創業計劃。Howie非常驚訝,沒想到龔超慧會在學術做得不錯、有教職機會的情況下,還想要創業。
龔超慧向Howie解釋,學術研究存在的目的是解決實踐中遇到的問題,把它抽象出來突破,但既然部分機器人和AI 結合的技術已經到了可以工程應用和產業化的階段,更大的機會和空間應該在產業界而非學術界中。
龔超慧的想法得到了Howie的認可,再加上當時組裡的碩士生任中強(現上海交大AP),師徒三人於2017年1月在匹茲堡一起成立了賓通智慧(Bito Intelligence)。
很快,周佳驥也決定創業。他與在麻省理工大學(MIT)讀博的俞冠廷相識,後者師從操作與機制實驗室負責人Alberto Rodriguez,曾作為技術架構總負責人帶領MIT-Princeton聯隊在2015-2017連續三年參加亞馬遜揀選挑戰賽,均獲全球前三,並且獲得2017年裝載任務冠軍。
透過亞馬遜挑戰賽,他們意識到視覺揀選領域已接近可商用化的程度,便於2018年4月在波士頓一起創辦了星猿哲(XYZ Robotics),為物流及工業自動化提供更好更快的機器人解決方案,周佳驥的導師Drew Bagnell也參與了種子輪的投資。
不難發現,兩位CMU學子對產業機會極其敏銳,果斷抓住了機器人的第一波創業機會。伯克利的Pieter Abbeel與三位華人學生成立的Covariant,也是在同一時期誕生,並同樣以物流場景起步。(伯克利故事詳見伯克利具身智慧圖譜:深度強化學習浪尖上的中國 90 後們)
說起各高校的機器人人才,業內普遍認為,若想讓機器人達成商業目標、落地,CMU是首選,若關注具體演算法,則選伯克利和斯坦福。
據羅瑞琨介紹,CMU 學子多對機器人工程落地的全鏈條有系統性認知,從課程體系起,就要求學生除了必修數學和本專業外,感知、規劃、運動各方向都上夠學分,瞭解機器人整個系統。而且工程師和科學家協作制度完善,教授也分研究型和工程型兩類;RI 雖屬計算機學院,但卻很重視跨學科交叉,吸收了很多機械工程、電氣工程等專業的學生一起科研做專案,而非以單一的計算機專業為主。
2012年,羅瑞琨畢業於清華的機械工程自動化系,來到CMU讀研。起初他打算申博研究奈米機器人,後因聯絡的教授在歐洲,面試安排不定,擔心錯過截止日期的他就先接受了碩士專案的錄取。
因對人機互動感興趣,羅瑞琨加入了做多智慧體與高層次規劃的Katia Sycara小組,研究人體動作學習和預測,透過結合動作識別和活動學習,最佳化學習的準確性,並預測下一步行為。此方向當時非常熱門,其應用前景包括使機器人能預測人類行為,從而決定自己的行動,例如幫助做家務和做飯。

羅瑞琨
Katia不會干預學生的研究興趣,但對論文寫作尤為細緻,帶著羅瑞琨從頭到尾改完了他的第一篇論文。專案資金結束後,羅瑞琨又做了點 SLAM 及多智慧體的工作,便在14年順利畢業了。
在伍斯特理工與密歇根大學讀博期間,羅瑞琨專注於人機協作的實際應用,如工廠中的共同作業、問題檢查和裝配協助。他曾與蘋果供應鏈專家探討,發現機器人執行效率低,不如全自動化或人工作業,許多需求在實際應用中不切實際,是偽需求。
權衡過各類機會後,羅瑞琨以CTO的身份在2021年加入創企木牛機器人。他認為,過往積累的機器人互動的多領域知識、實踐經驗與對系統的瞭解,在大廠難以充分發揮優勢,聚焦工業場景落地的木牛更適合自己,加入後帶隊開發了一套從伺服驅動控制到上層感知決策的底層框架。
2024年10月,特斯拉「We,Robot」釋出會上,人形機器人TeslaBot(前Optimus)列隊出場,化身“酒保”走入人群調酒、猜拳、合照、蹦迪,現場儼然成為了一場賽博大派對。
釋出會後,楊碩站在TeslaBot旁,和它合照了一張。
就在2023年3月,即將博士畢業的楊碩看到Optimus專案在擴張,便在領英上與團隊取得了聯絡。很快,HR發來了面試邀請,在兩輪現場手寫C++程式碼和推公式的面試後,楊碩拿到了offer。
可以說,讀博時精進的工程能力,讓楊碩具備獨自完成推公式、模擬、做硬體、上真機實驗、處理資料全流程的能力,特別是對C++解決機器人控制和估計的鑽研,使他成為了最匹配的候選人。
特斯拉讓楊碩儘快入職,導師Zach瞭解情況後非常開明地同意了,讓楊碩努努力再整理投出一篇論文即可畢業。7月,楊碩正式加入,參與機器人控制核心演算法模組的開發。
2024年初,團隊發現第二代Optimus機器人的一項關鍵指標需遠超行業標準才能穩定執行。一次雙週會議上,Elon Musk對專案進展表示不滿。會後,楊碩主動提出在十天內開發一個新的演算法模組,兩千行程式碼加上後情況迅速有改善,便在下次會議上向馬斯克現場演示。
在特斯拉的一年半里,楊碩慢慢轉移到用深度學習、AI 的方法做機器人,過往對傳統機器人學的理解讓轉變十分絲滑。
“做機器人得不斷推翻自己之前形成的固有思維,之前無人機做久了我選擇去研究新東西,博士期間做傳統的方法,來到特斯拉又推翻,用比較主流的AI技術。”楊碩告訴雷峰網,“ 對基於模型的方法有深刻理解後,對無模型的AI方法,透過資料讓神經網路自己發掘模型,是更有幫助的。”
除了楊碩,侯一凡對新方法的態度也發生了轉變。
2021年博士畢業時,侯一凡認為科研問題已解決,自己完整的操作方案需要在實際場景中驗證效果,便加入了有著世界上最大的操作場景的亞馬遜機器人部門,研究物流場景中的儲存任務,負責自動化儲存過程中的柔性控制和運動規劃設計。
在亞馬遜的三年間,侯一凡意識到自己提出的解決方案效果不錯,但受限於建模的需求,在應對不斷出現的新場景(長尾效應)或者難以預先建模的家庭服務類場景時往往需要巨量的工程投入來解決。因此,如何在模型質量高度不確定時提高操作的成功率和效率,成為一個全新的挑戰。
一直關注著學術進展的侯一凡發現,機器人學習已進入激動人心的階段,儘管目前成果距離解決實際問題還有很大差距,但已完成了從0到1的轉變,讓非機器人背景的人也能快速做出demo。
不過,侯一凡認為,在接下來的5年或更長時間內,學習方法仍無法替代某些問題的最佳解決方案,特別是在機器人需要快速、高成功率地應對高度不確定場景時,因為這些問題用模型來處理更容易獲得可預測,解釋和調節的結果。
他意識到,後續想讓demo變得通用和魯棒既需要機器學習的泛化能力,也需要對機器人問題的理解和分析——機器人學習與傳統機器人學的結合有巨大的機會,而探索這些機會的最佳場所是學校,而非工業界。
侯一凡讀博時,因參加亞馬遜挑戰賽的MIT-普林斯頓隊中有導師Mattew的學生Alberto Rodrigue,雙方交流密切,就此認識了隊裡的宋舒然。
加上近些年自己最喜歡研究都來自其團隊,考慮重返學術界時,侯一凡便聯絡了宋舒然,兩人討論非常投機,侯一凡就在2024年3月來到斯坦福做博士後,依舊沿著解決操作的主線。
“以前認為解決操作的方法和學習關聯不大,所以做模型和最佳化,隨著對問題的瞭解和不同方法的演化,現在覺得是基於模型與learning的結合。”
同樣支援兩者結合的邱迪聰,在2018年碩士畢業後,先進入了更成熟的自動駕駛領域。
他同時接到了英偉達與MIT創企ISee的offer,在面對他“公司要做什麼”的提問時,雙方給出了不同的答案:英偉達想構建一個能在特定場景下工作的自動駕駛系統;ISee則致力於開發具有人性化思考的AI,目標不僅是自動駕駛。
ISee的願景更符合邱迪聰的規劃,在他看來,自動駕駛是當時最接近智慧化機器人的例項,其他技術要麼不夠先進,要麼雖能落地但缺乏革命性。
三年後,邱迪聰又先後加入瞭如祺出行與PIX Moving,負責搭建自動駕駛團隊,探索商業化落地。到了23年4月,在意識到開放推理能力開始有解決方案後,邱迪聰與CMU LTI(語言技術研究室)的師兄梁俊衛合作,共同創立了雅可比機器人,採取輪式方案,重點在操作以及機器人對開放世界和開放物品的理解。
雅可比以商超為切入點,下一步是餐飲服務、辦公場景,最終進入到養老以及家庭場景。“這樣每個場景積累的知識和經驗能直接應用於新場景,比如機器人在商超場景中學會識別鍋碗瓢盆等物品,當轉移到餐飲場景時,如清理餐桌,就已具備基礎能力,幾乎無需額外專用化投入,甚至能實現零樣本遷移。”
至於一開始就篤定learning路線的林星宇,則在2022年從CMU畢業。答辯前,David Held專門開了個告別組會,讓林星宇給學弟學妹們分享建議,還把二人的郵件往來與合照放在一起,配文“this is how we started”。
林星宇來到伯克利在Pieter Abbeel的組裡做博士後,從博士期間注重解決不同任務,如柔性物體的一個個建模,轉變為做更通用的基礎模型,研究如何利用基礎模型讓任務更通用,以及構建一個屬於機器人學的基礎模型。
在伯克利,林星宇和高陽的學生汶川合作,利用網際網路人類影片訓練機器人大模型,發表了RSS 2024的滿分論文。
林星宇發現,許多影片預測模型專注於紋理的真實感,卻忽略了物理真實性,就提出了學習微粒軌跡模型的想法,用於預測空間中每個點隨時間變化的軌跡。例如,當拿起並傾倒一杯水時,杯中水的微粒會沿著不同的路徑移動。最重要的是,這一模型能夠直接從影片資料中學習。
2024年8月,OpenAI風傳已久的機器人組終於重啟,林星宇成為了創始成員之一。
OpenAI成立初期,機器人技術就是其主攻方向之一,聯創Wojciech Zaremba領導的團隊最初試圖打造一個通用機器人,並在2019年發表了一篇工作,分享了他們如何訓練神經網路使用單隻機械手復原魔方。但在2020年10月,因缺乏訓練資料,機器人組解散。
加入OpenAI重整旗鼓的機器人組,林星宇經過了不短的思考:首先,OpenAI有研究機器人的經驗,重啟說明時機已經成熟;再者,產業界研究能比學術界更易於拓展。
更重要的是,很多機器人學的問題在於boot strapping(自舉,指機器人或AI系統透過自我學習和自我改進來提高其效能和能力),缺乏資料導致系統性能不佳,無法產出產品,資料積累陷入停滯,形成惡性迴圈——視覺語言模型能有效緩解這一問題,而OpenAI擁有最頂尖的視覺語言模型。
來到OpenAI,林星宇將繼續探索機器人基礎模型,“我一開始是想訓練一個模型做好可變形物體的任務,但逐漸發現真正需要的是海量資料,需要不同資料間有各種積極的遷移轉化,最終希望有一個模型來理解物理、空間來完成各種任務。”
站在是否轉向的十字路口,沒有all in機器人學習的CMU似乎慢了一步。
與從純模擬出發、始於影像或遊戲的模式不同,工業合作伙伴眾多的CMU攜帶著工程師基因,對解決實際問題習以為常,做專案的重要意義之一就是將技術真正應用於某個具體場景中。
可以說,如果將機器人學的研究工作分為0-1(概念創新)、1-99(技術發展)和99-100(產品成熟)三個階段,CMU更擅長1到99%的推進,甚至能夠製造出接近實用的高完成度機器人。
除了擅長實際工程落地外,CMU的強項還在於對基礎問題以及整個系統的深入理解。憑藉對傳統方法的深厚積累,CMU人才們能夠輕鬆而順暢地過渡到基於學習的方法。
楊碩、林星宇、王小龍、仉尚航、梁小丹、龔超慧、周佳驥、羅瑞琨、侯一凡、邱迪聰……成長於基於模型方法的CMU一派,用“傳統機器人學”搭起堅實地基,以學習為梯,讓機器人邁向了下一個階梯。
在具身智慧產學結合緊密的趨勢下,補上學習拼圖後的CMU派系,逐漸從傳統走近了全面。
此刻的他們,正搭建著下一塊臺階。
關於具身智慧領域的更多精彩群像故事,歡迎新增作者微信 anna042023 交流。
雷峰網成立了機器人讀者群,希望進群的讀者請新增編輯微信 aitechreview、並備註姓名-單位-職位。


更多內容,點選下方關注:

未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社群進行轉載!
公眾號轉載請先在「AI科技評論」後臺留言取得授權,轉載時需標註來源並插入本公眾號名片。
未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社群進行轉載!
公眾號轉載請先在「AI科技評論」後臺留言取得授權,轉載時需標註來源並插入本公眾號名片。