未來機器人的操作重心將超越單純的 pick and place，更注重「pick」後任務。

作者丨吳華秀

編輯丨陳彩嫻

五年前，在浙大控制科學與工程學院一間會議室裡，剛從劍橋微軟研究院回國的葉琦，向課題組描繪了她的長聘故事：五年之後，她希望把機器人拉來答辯會現場，由機器人為在座評委們逐一端茶倒水。

機器人、靈巧手、端茶倒水，這在當時還是一個頗有難度的研究任務。非機器人科班出身的葉琦，面臨著跨界探索的挑戰：她此前從未研究過機器人，還得從頭開始學新知識，“再當一回博士”。

在此之前，她一直沿著計算機視覺路徑開展研究。2008年本科畢業於北京師範大學後，她前往清華大學讀研，2014 年進入英國帝國理工學院攻讀博士學位。博士期間，她在學術頂會上分享的手勢識別相關工作，讓她得到了一位學術大牛 Jamie Shotton 的盛情邀約。

Jamie Shotton 彼時擔任劍橋微軟研究院微混合現實與人工智慧實驗室負責人，他邀請葉琦前往研究院進行交流。還未意識到這是一場面試的葉琦，在輕鬆的交談氛圍中與團隊聊得很是投緣，直到最後，她才發現原來是 “招賢令” 。

在與 Jamie Shotton 1v1 的飯桌上，葉琦有些拿不準究竟是加入微軟團隊，還是回到學術界做科研。葉琦面對著 Jamie Shotton，一個她讀研時常看的論文作者；還有一位中途臨時加入飯局的 Christopher M. Bishop，是經典教材 Computer Vision and Pattern Recognition 的作者，這兩人都是她大為敬佩的前輩。

能夠與讀書時候就一直欽佩的學術大拿們共事，而且還是她當時看好的技術方向——MR/VR 技術，她心中的天平開始向著微軟研究院傾斜，“不管三七二十一，先去幹兩年再說。”葉琦隨後加入 Jamie Shotton 團隊。

彼時 MR/VR 技術升溫，數百企業開始涉足相關領域，AR 眼鏡、頭顯裝置湧現。2019 年，微軟釋出的第二代 Hololens headset 頭戴 MR 裝置，正是由葉琦所在的的團隊負責。葉琦深度參與了 Hololens2 手勢跟蹤演算法的開發，後來也參與到數字人研究。

一年多後，因為更熱愛自由探索前沿技術，葉琦選擇回到浙大任職。浙大給予她充分的自由，讓她能夠自行選擇研究方向。最終，葉琦選擇轉向機器人領域，聚焦於靈巧手研究，為此，她也做好了“惡補”一番的準備。

只是她沒想到，機器人領域突然升溫，此前稍顯冷清的靈巧手領域，一下子湧進許多聰明腦袋。她留意到，靈巧手的研究進度明顯在加快。2024年，她們課題組一篇關於靈巧操作的論文剛被 ICRA 收錄，博士生還未來得及推進下一步，一篇基於他們工作的新論文很快投稿到 2025 IROS 並掛在 arxiv 上，“太快了，馬上就有人把我們計劃做的工作給做了。”

而原先頗有挑戰的課題任務，隨著大模型的發展以及技術的不斷磨合，開始變得有些輕鬆了。

這在此前是難以想象的。當初葉琦轉向靈巧手時，她一度苦惱於這一領域形同荒地開墾。一面，她作為新人，得和學生一同學習機器人知識、解決問題；另一面，五爪相關研究較少、研究者也少，意味著一篇文章能有的引用量上限並不會太高。

之所以選擇迎難而行，是因為看見機會。計算機視覺出身的葉琦，曾目睹過計算機視覺與計算機圖形學的融合，新技術方向隨之而生，3D 領域的論文也由此成為頂會常客。彼時她堅信，未來機器人與計算機視覺、計算機圖形學也會融合在一起，催生出一個新領域，歷史將再度重演。

葉琦的預言在當下得到了驗證。具身智慧熱潮下，不同學科背景的人陸續匯聚在新的交叉口上，影響開始顯現。例如，原先機器人領域缺乏統一標準，難以衡量工作好壞、復現他人程式碼，更別提在他人工作基礎上進行迭代。現在，不少原計算機視覺、圖形學的人才加入具身智慧社群，和機器人領域的研究者們一起開始搭建屬於機器人領域的“Benchmark”，推動著機器人邁向更為開放的社群。

今年 1 月，葉琦課題組釋出並開源了大規模靈巧手抓取動作資料集 GraspM3。它包含超 100 萬條抓取軌跡，涵蓋 8000 多個物體，軌跡自然流暢，有詳盡語義標註，且經兩個模擬環境驗證，為機器人抓取研究和應用提供了全面的資料資源。

兩天後，葉琦又在社交平臺上推出了視觸預訓練與靈巧操作的資料集與基準。她們收集了 10 個人類操作的日常任務與 182 個物體視覺-觸覺資料集，還提出了一種新穎的基準用於檢驗工作效果。這一工作也將會陸續開源。

“等所有程式碼、平臺開源之後，靈巧手整個領域，大家的進入門檻會低很多。”葉琦告訴 AI 科技評論。

談及研究目標，葉琦希望實現的核心是：讓任何配備觸覺感測器或其他感測器的靈巧手，都能自主完成各類操作任務。她的研究聚焦於靈巧操作的智慧化技術，較少涉及硬體設計本身。

以下是 AI 科技評論與葉琦的交流。

正因為難，才要做靈巧手

AI 科技評論：你的研究興趣非常豐富，是在本科階段就對計算機視覺、圖形學與機器人交叉領域產生興趣了嗎？聊聊你的研究經歷吧。

葉琦：大四時，我接觸了影像處理相關課程，發現影像處理與其他領域有所不同，它能給予明確反饋，像演算法優劣、影像去噪效果以及高斯平滑運算元應用於影像後的成效等，你所做的任何工作都可以直接獲得反饋與對比，我覺得還挺有趣，所以從本科畢設開始做的就是影像相關。

在清華讀研期間，研究方向依舊與影像相關，導師專注於數字手寫、數字字元識別領域。本科及碩士階段，我側重於影像處理中的演算法與運算元研究，例如經典的 SIFT 運算元，主要從改進運算元的角度去探究問題。到博士階段，我從事手勢跟蹤研究，透過影像或深度點雲來恢復手的三維骨骼，這對人機互動意義重大，如今 Meta、Apple的頭顯裝置中，手勢跟蹤不可或缺。此外，博士工作還涉及人工提取特徵，運用隨機森林開展，我的博士課題則圍繞深度神經網路進行研究。

後來，我前往微軟亞洲研究院實習，實習內容也是影像相關，側重安全方面。大家會看到部分網站利用含有歪歪扭扭字元的圖片來防範惡意訪問。這些字元設計目的是讓機器無法識別，卻可被人識別。我們的研究旨在探究這樣的設計機制是否真的能防止機器自動識別，為此我們嘗試對圖片進行分割、分析，再交由OCR引擎識別，看它的安全性、魯棒性表現如何。

AI 科技評論：你離開微軟後加入浙江大學，從產業界轉向學術界，是出於什麼考慮？

葉琦：在劍橋微軟研究院工作時，正值疫情期間，一個人在劍橋待著挺孤單，加上家人都希望我回來。

另外，去了工業界後發現，做產品與開展前沿技術研究之間存在很大的 gap。產品落地會涉及很多工程化問題，過程中需要解決大量難題。雖然劍橋微軟團隊非常好，但工作內容更偏向產品側一些，難以完全自主地去做研究。在公司裡，研究方向往往由高層決定，但我特別喜歡自己去深入鑽研，只要覺得特別有意思的，我就特別想去做。但在公司裡並沒有這樣充分的自主決定權，可能還得向領導論證你所選的方向，說服他們認可其可行性及落地可能。

經過這些體驗，我發現自己更喜歡在高校從事研究工作。我進入浙大後，並沒有人告訴我你要做什麼方向，我可以根據自己的興趣來進行研究方向的選擇。

AI 科技評論：你自己選擇了機器人領域？

葉琦：是的。

AI 科技評論：為什麼決定轉向機器人？一個看似和你此前研究經歷並不太相關的方向，是看到什麼新變數嗎？

葉琦：我進微軟前，CV（計算機視覺）和 CG（計算機圖形學）相對而言是兩個不同且方向相反的學科，很少交集。CV 旨在從視覺角度理解並重構物理世界；而 CG 則是假定存在一個虛擬世界，去給它做渲染，基於成像原理計算出一個物理世界影像。

那時候這兩個學科基本不會融合於同一領域。但在2018、2019年參加 CVPR 時，我看到一篇論文將影像渲染過程設為可微（differentiable）過程，當時我就跟導師探討，覺得未來 CV 和 CG 會融合成一個方向。

CG 研究的是從模型到影像，以往採用光線追蹤（Ray Tracing）等方案，因其各種複雜計算過程，不一定是非常好的可微可導，導致難以實現從影像到模型，再從模型到影像的迴環。

舉個例子，用手勢影像重構出三維手勢，再將該三維手勢渲染回手勢影像，以往這一過程可能是割裂的。以前要評價一個重建的三維模型好不好，靠的是人為標註資料。後來部分工作將三維模型渲染回影像的過程變為可微過程，這樣一來，渲染影像就能夠直接與輸入影像對比，不一定需要人力標註。

透過這一過程，可以實現從視覺推理三維世界、再從三維世界渲染回圖形，也就是完成 2D 到 3D、3D 到 2D 的迴環。畢竟有正過程與逆過程之分，CV 與 CG 天然具備共同研究的基礎。以前 CV、CG 領域各自為政，較少邁進彼此的領域，但現在可以看到一個二者共同參與的新興研究領域。

例如，隨著可微渲染和後續NeRF等工作出現，整個三維視覺領域蓬勃發展起來。觀察 CVPR 這類頂會的論文投稿量便能發現，過去以 Segemantation（分割）、Tracking（跟蹤）、Classification（分類）為主，近五年則變成了三維重建、新視角渲染等 3D 相關話題，還包括當下熱門的憑几張圖片直接重建或者生成一個三維場景的研究。

鑑於不同學科、底層技術的新融合會催生出新的研究方向與結合點，當時我覺得這或許是個機會。基於過往經驗，我轉入機器人領域，就是因為預見機器人未來會和 CG、CV 相融合，就像當初 CV 與 CG 融合一樣。

所以我經常跟我的學生講，我是在圖形學、機器人以及視覺的交叉方向上開展研究，這三個領域是相互貫通的。

AI 科技評論：機器人領域有很多方向，為什麼偏偏是靈巧手？

葉琦：當時選擇研究靈巧手時，我心裡也有些打怵、不太確定。在2020、2021年前後，雖然世界上也有一些做靈巧手的機構，但遠不像計算機視覺領域那般熱門。當時做“二指夾爪”的單位不少，但著手做“五爪”的卻非常少，而且那時機器人領域整體也尚未大熱。

我走訪了很多企業進行調研，以按摩機器人為例，每進行一項按摩操作，可以更換不同按摩頭；在工業分揀應用方面，二指夾爪不行時就換個吸盤，靠著二指夾爪與吸盤的相互配合，基本上就能完成大部分工作了。

既然如此，我當時就一直在問自己一個問題：既然二指夾爪就能抓起很多東西，那我們為什麼還要去做靈巧手？是不是為了解決問題而解決問題、為了難而難？

因為高自由度的靈巧手，其操作難度相當於五個機械臂協同工作，這麼難的問題並沒有受到廣泛的關注。當時我之所以決定研究機器人靈巧手，正是因為它還沒有被很好解決，而且很少有人去鑽研，我覺得這其中還有很多問題待攻克，於是便開始研究。說實話，我當時也沒看到它有多大的價值。

AI 科技評論：選擇去解決困難的問題，這需要坐冷板凳。

葉琦：對我們而言，這冷板凳也不是那麼好坐。五年前我剛進入浙大時，給我們課題組描繪的願景是：五年之後，我會拉來一個機器人，讓它給在座的各位評審們端茶倒水。但我此前沒有機器人研究基礎，這相當於我要從頭開始鑽研機器人，其難度不亞於再讀一回博士。

建立機器人 Benchmark 很有必要

AI 科技評論：從你深耕的原研究領域跨界到新研究方向，這個轉型過程中，在知識體系重構、研究方法適配等方面，有遇到哪些超出預期的挑戰嗎？

葉琦：肯定是有挑戰的。如果我繼續深耕原來的研究方向，那我還能夠持續發論文。可一旦轉換到新領域，我要和學生一同成長，那這一兩年的時間裡，我或許就無法產出論文，或者相比同齡人而言，產出速度會慢一些。

像我以前從事視覺領域，我很少接觸強化學習以及機器人硬體相關內容。而轉向機器人領域後，我得跟學生一起 debug（解決問題）。我經常跟我學生說，在這個新方向上，我不懂，你們也不懂，那我們就一起學。這個過程並不輕鬆，壓力巨大。

例如，購置機器人裝置並不像買伺服器那般簡單，我們從英國採購一臺機械手，光買裝置這一環節可能都得耗時一兩年；建設實驗室更是要完全從零開始，哪怕是購買每一個感測器，都會與自己的學生一起討論。前期要投入大量精力與資源，到了後期，要讓自己儘量不被其他人影響，得時刻提醒自己，這沒什麼問題，我所選擇的是新方向，要允許自己和學生在這段時間內即便沒有成果產出，也要去大膽嘗試一些新事物。

對學生而言，轉向機器人領域的過程同樣會給他們帶來壓力。機器人領域與視覺領域並不同。在視覺領域，大部分視覺演算法的程式碼都是公開的，不僅有原始碼，而且平臺也搭建好了，各項引數都已除錯妥當，只需從 GitHub 上把程式碼下載過來，就能直接執行，隨後在其基礎上做些修改就可以。不少學生覺得，那我做計算機視覺相關工作，就不用除錯硬體，自己只需要在別人已經完成的基礎工作上接著做就行。

AI 科技評論：在這種壓力下，五年前你向學院課題組提出的讓“機器人端茶倒水”的任務難度會不會很高？

葉琦：其實沒那麼難，當時我想的是，五六年時間，我應該能夠達到預期程度。但我沒想到機器人操作突然會這麼火。如今火了之後，發展速度確實加快了，尤其是這兩年的發展，讓我覺得這件事變得更加簡單了。

AI 科技評論：怎麼理解這種簡單？

葉琦：因為有很多人在做。之前我研究五爪時，整個 Community （社群）中做相關工作的人相對較少。人少，大家推進的速度就慢。現在人多了，速度也就快了。

比如我們 2024 年在 ICRA 發表的一篇論文，很快就有人據此開展工作並投稿至 2025 年 IROS。因為我博士生忙於其他事務，本想讓他順著該論文繼續後續工作，沒想到論文剛發表就有人 follow 了，把我們 2025 年計劃做的事做了。說明這個領域真的匯聚了很多聰明的腦袋，大家一起在推動這個領域向前發展。

隨著 VLA、多模態大模型等技術發展，不少人嘗試技術融合，進行上層平臺、基礎模型相關工作。我們取得底層技能突破後，將上下層能力結合時，我發現不用再從頭做上層工作，已經有不少的工作可作基礎，讓我們省力不少。我們把所做的資料集開源，對他人而言，也省去了從頭收集資料的麻煩。

等程式碼、平臺全部開源後，靈巧手領域的進入門檻會大幅降低。此前我會覺得五六年實現端茶倒水任務較難，但經過這幾年發展，你會發現它變得容易多了。

AI 科技評論：你提到靈巧手的發展加快，有人表示靈巧手在過去很長一段時間裡一直沒有什麼實際性進展，現在也還有很多問題沒突破，比較悲觀，並不看好靈巧手的發展。你怎麼看待這一觀點？

葉琦：有悲觀的聲音很正常，但我覺得技術的發展並非線性過程，而是經歷轉折點後迎來爆發式發展。

為什麼靈巧手在過去幾十年間發展緩慢？一方面，靈巧手的硬體研發難度高，相當於要將五個機械臂集成於狹小空間內。硬體機械結構高度整合化，能否實現高自由度是個難題。現在靈巧手多是5、6個自由度，也有一些宣稱十幾、二十個自由度的靈巧手，但我還沒接觸到。在我們經費可承受範圍內，目前還難以買到非常好用的靈巧手，而我們的研究又依賴於本體。沒有硬體基礎，那研究基本無從談起。

另一方面，近年來圖形學領域中關於人手操作生成的工作數量不少，而操作生成離不開對於手的數字化描述。Michael J. Black 團隊 2017 年提出了針對手的引數化描述—— MANO 模型。可以看到，即便在純圖形模擬層面，這樣高質量且便於使用的開源手模型，也是直至2017年才提出。

此外，以往採用模型預測控制（MPC）等傳統控制最佳化演算法來求解，這需要對手進行精確建模，涉及摩擦、運動等方面，操作難度極大。即便完成建模，相關技能也很難泛化到其他場景，對應的研究方法較少。如果你說傳統方法不好，轉用強化學習，這也可以，但問題是強化學習需要訓練場，即一個可互動的三維虛擬世界。然而要建立這樣一個虛擬世界也不容易，需要藉助模擬平臺。

總體而言，演算法方面存在限制，若採用更先進的學習演算法，又得依賴於模擬平臺和圖形處理器（GPU）。過去，從演算法到機械本體，再到軟體平臺，各方面都存在不足，導致導致靈巧手很難取得良好發展。

現在人形機器人火熱，國家也在積極推動，從政策扶持到經費撥付，都給了有力支援。經費往這一方向傾斜，促使我們的研究也更側重這塊領域，相當於吸引了更多人才投身其中。今年，我們還與機械系老師共同申請了浙江省相關專案，就是研究靈巧手。

隨著大模型的進步、硬體的最佳化，加上 3D 生成技術能夠為我們提供訓練場，我覺得用不了多久，只需給定語言輸入，便可生成任意廚房的排布情況，這相當於為機器人提供了訓練場，能讓數百個機器人在數百個廚房裡高速平行計算與探索。如今看來，這個問題似乎也沒有那麼難了。

AI 科技評論：聽起來靈巧手領域出現了不少新變數，正在重構行業。

葉琦：我看好靈巧手方向。雖然在未來五年內，想要妥善解決靈巧手相關問題有些難度，但我個人秉持樂觀態度。

受益於機械本體的不斷進步、大模型的蓬勃發展、3D生成技術的日益成熟，再結合強化學習以及諸多底層能力的整合，在未來 5 到 10 年，靈巧手會是一個極具 promising（發展前景）的方向。在一些限制性場景下，針對部分特定需求，機器人是能夠完成大部分操作的，比如疊衣服這類任務，肯定是能實現的。

然而，要想在十年內讓機器人實現與人並排行走，並且可以在非結構化的空間中自由地與人互動，我認為會有挑戰。但若是極為常規化的工作，像把碗放置到池子裡，或者將瓶瓶罐罐擺放整齊，我覺得機器人是能夠做到的。

AI 科技評論：作為一名跨界研究者，哪些底層理論或方法論的遷移讓你產生了新理解？原領域的思維慣性有帶來哪些新視野嗎？

葉琦：原先機器人領域存在一個問題，大家的硬體系統並不一樣，也沒有公開統一的 Benchmark、資料集和評測標準，沒法很好對比不同演算法。過往研究往往侷限於單一問題，透過採集小規模資料、針對特定任務展開，完成後就結束了，難以客觀評價演算法優劣。多數情況下，就是用一個實物機器人去做一個demo，去跑一跑，看著效果還不錯。

但就我自己來看，我的東西和別人的東西雖然看起來差不多，但我很難知道哪個更好。

當我從視覺領域轉向機器人研究時，我會覺得很奇怪，因為視覺領域會有公開的 Benchmark，能夠衡量演算法好壞，也有大量資料集可以做 Learning，但機器人沒有。機器人本體異構性是該領域獨特的挑戰。

儘管如此，這一兩年裡，你可以看到無論是學界還是產業界，都在著力構建資料集、VLA及公開平臺，試圖將分散的資料集整合統一平臺，降低使用門檻。

從計算機視覺領域跨界而來的研究者，正將“視覺方法論”引入機器人領域：建立公開 Benchmark、共享平臺以及標準化評測任務，讓大家能夠基於此開展評測，可以更直觀比較演算法優劣。在這一基礎上，機器人領域才能夠更好地快速發展，不然會很難復現別人的程式碼，也就沒法在上面持續迭代最佳化。

堅持人類影片資料採集路線

AI 科技評論：聽說你們在資料集的構建上有很多創新性突破，你們最初設計資料集的核心動機是什麼？

葉琦：我們很早在做資料集，GraspM3 資料集的生成演算法在 2024 年 ICRA 上釋出了。ICRA24 的工作提出，主要是因為發現現有的抓取動態動作的資料在數量和軌跡上都比較有限，所以我們想自己先做一個數據集。因為不想進行人工標註和採集，所以我們設計可以自動生成抓取軌跡演算法，透過模擬獲得資料集。

我們有兩個資料集在推進中，有一個論文已經被 ICLR25 錄用。我們採集了十幾個人類操作的任務，涵蓋擰瓶蓋、插拔等二爪難以完成的複雜操作，這也是業界首次實現帶觸覺的靈巧手操作資料。基於這一資料，我們訓練了 6 個任務，能實現兩個靈巧手間物體拋接、擰瓶蓋、傳遞薯片等任務。

透過我們初步的帶有視覺、觸覺的訓練資料集，經過預訓練後顯著提升對下游任務的執行效果。在完成上述複雜操作任務時，當前成功率已經能達到 80%。關鍵是，我們沒有采用任務的supervision，只使用了 MAE 自監督方式去學習，發現學習出來的 attention 機制可以直接注意到手指接觸物體的瞬間，比如注意到手指開啟盒子時的那一瞬間。我跟學生說這太牛了，我壓根沒想到居然可以學習到這種程度。

AI 科技評論：這個現象為什麼讓你這麼詫異？

葉琦：我們對比的只有視覺，沒有觸覺。以何凱明的 Masked Auto Encoder（掩碼自動編碼器）工作為例，透過預訓練可以助力下一個工作，但如果沒有觸覺訊號輔助監督，是根本不會 attention 到物體將要發生變化的區域，也不會 attention 到手指的區域。我們沒有引入任何監督訊號，只是做了個多模態的自動編碼器（Autoencoder，AE），也只有一個影像和觸覺訊號，沒想到實驗效果非常出乎意外。

我最近在看腦認知領域的一些工作，發現人腦也有類似機制：透過神經元將人的動作與觸覺、視覺進行聯合處理。而我們的研究表明，引入觸覺模態後，網路能夠自動集中在物體動態區域，並且我們都沒有用多幀、只是單幀形式。從實驗情況來看，這與神經科學中的部分理論形成了印證，這也是我自己在這些工作中感到很驚喜的瞬間。

也是因為這些成果，讓我們更加堅定要走這條路，從觸覺-動作態關聯入手，透過影片採集更多人類操作資料，逐步推進上半身及全身操作的工作。

AI 科技評論：從你們之前釋出的靈巧手操作影片中可以看到物品抓取流暢，這項工作主要是解決什麼問題？

葉琦：主要是解決靈巧手抓取異形物體的難題。以抓取杯子為例，人類習慣手持杯柄，而現有靈巧手 demo 中大多抓取杯身；抓取高腳杯時，人類傾向於握持底部，靈巧手依然還是抓杯身，它抓底部可能就握不穩了。

靈巧手的抓取與二爪可能有點像。反觀工業領域的二指夾爪技術，上海交通大學盧策吾教授於 2020 年釋出的 GraspNet-1Billion 資料集，已經實現對各類物體抓取策略的全覆蓋，能夠解決工業領域大部分“拾取-放置”（pick and place）工作。二指夾爪相關工作，盧老師已經做得很好了。

未來人形機器人的操作，無論是二爪還是五爪，重點其實不在 pick and place上，而是 pick 之後要去完成某個任務，比如把杯子抓起來後，還能遞給別人，或者是能夠在一些比較挑戰的區域把物體順滑抓起來。這不是簡單“拾取與放置”，得去服務於特定目標。

我們希望透過我們這一資料集實現靈巧手對物體難握區域的流暢抓取。純粹依賴強化學習策略，只是將物體抓起來。因為動作行為是由 reward 機制驅動，難以精準定義一個“優雅抓取”的動作特質（如目標抓取方位等），也就難以設計一個獎勵機制。

為此，我們資料集的構建方法是：透過靜態抓取手勢，比如我知道大部分人是抓取杯子把柄，那最後我生成軌跡就是針對這一行為生成動態手勢，讓靈巧手的操作更符合人類的自然抓取習慣。

AI 科技評論：在構建資料集時，你們優先採用的核心資料採集策略是什麼？更側重真實場景實操採集、模擬環境批次生成，還是虛實結合的混合方案？

葉琦：遙操作獲取資料是有價值的，但我認為比較便捷的資料來源還是人類自身行為資料。這基於兩點依據：其一，以 GPT 為例，其核心能力源於對人類問答資料的學習，先透過大規模人類資料訓練，再借助強化學習最佳化 reward 機制。同理，我認為要賦予實體機器人或人形機器人以通用操作能力，其資料也應該是來自於人類。

其二，遙操作依賴人類操控機械臂採集資料，儘管資料質量高，但成本太昂貴了。像馬斯克一套採集裝置可能都得幾十萬、一百萬，而一個工廠裡可能需要幾百套裝置，按每小時 50 美元的人工成本計算，開銷巨大。

儘管未來硬體可能降價實現降本，但遙操作多采用二爪或五爪機械臂，資料遷移時會面臨操作末端的異構性問題，要進行動作資料重定向。如果人手可視為一種抽象的異構機械臂，為何不直接從人類行為資料中學習？透過影片採集人類操作，既能以更低成本獲取海量資料，又能支援大規模訓練，為機器人注入通用能力。

我的研究思路是：不一定透過機器人遙操作資料採用 VLA 方式，而是透過解析人類影片資訊（如動作軌跡、觸覺位置）提取操作先驗，將其與機器人自主探索訓練相結合。例如，透過影片重建操作場景、定位人手運動軌跡，這些是能直接訓練機器人的資料。具體而言，機器人技能訓練分為兩個部分：一是透過強化學習最佳化靈巧手底層控制策略，提升執行精度；二是從影片中重建場景，理解人類在真實場景中的操作邏輯。

我們的資料集價值在於實現“無遙操作的人類經驗遷移”，直接從影片中最大程度提取人類經驗學習，再結合模擬環境進行技能校準與泛化。這一思路也符合人類學習本質：並非別人的動作是什麼，我們觀察後每一步都能做到精確復現（我們也無法精確復現每一步）。就像小孩學習，媽媽先透過演示教一遍，後面還是小孩自己一步步與環境互動後逐漸掌握技能，要是沒抓住東西掉了，那就再抓緊一點。

AI 科技評論：儘管基於影片的視覺模仿學習在效率上有著顯著優勢，但現在可以看到很多企業還是會選擇透過遙操方式進行資料採集。

葉琦：我覺得選擇遙操方式是他們壓力所在，遙操可以直接透過監督學習快速得到一個不錯的操作demo。一開始我們課題組有老師專門做遙操，我嘗試後發現遠端操控靈巧手抓取物體很難，更別提大規模高效地採集類似擰開瓶蓋等任務。我發現這條路線搞不動，馬上就放棄了，決定轉向影片資料採集。

我去參觀一些企業時，體驗了他們的遙作業系統，我發現需要來來回回操作好多次才能把物體抓起來、放下去。一個人經過訓練後可以快速上手，但如果未經過特定培訓，一個簡單的“抓取-放下”動作，一分鐘都不一定能夠完成。

AI 科技評論：相較於遙操作，透過影片獲取人類學習資料時，主要面臨哪些獨特的技術難點？

葉琦：如果是有每一步的動作資料，演算法相對會更直接一些。影片資料肯定是沒有那麼精確的，會有噪聲，沒法直接做 VLA 模仿學習，從這一層面看，演算法挑戰會更大，但它帶來的潛力也可能會更大，因為它更便宜，規模量可以上去，而且更自然。

我不知道最後是 VLA 更強，還是從人類影片學習路線更強，因為 VLA 也可以迭代，剛開始是採集小資料，特別是對工業界來講，可以先在一些有限場景裡操作起來，後面透過批次賣出機器人，能利用採集回來的更多資料進行訓練。但對於高校研究而言，沒法在工業裡實現資料迭代。不過這兩條技術路線在未來是可以融合在一起，相當於低質量資料與高質量資料相結合。