從模擬資料到物理世界理解,這位準博士生想為機器人構建更高效的“感知——行動”正規化

Next Gen

歡迎來到“Next Gen”。人工智慧的邊界每日都在被拓展,一群富有遠見卓識的青年學者正站在浪潮之巔。我們追蹤並報道這些 AI 領域最具潛力的明日之星,展現他們在科研前沿的突破性工作,以及對未來智慧時代的獨到見解。他們是誰?他們如何思考?他們又將把 AI 帶向何方?與我們一同發現那些正在定義未來的 AI 新生代。
“我從小就對機器人痴迷,《鋼鐵俠》裡的智慧管家至今讓我熱血沸騰。”陳天行的科研初心,藏著一份未改的少年熱忱。作為剛剛本科畢業於深圳大學計算機科學與技術卓越班,即將在今年 9 月開啟香港大學讀博生涯的 00 後學者,他正以多重身份活躍在科研與科普領域——既是 Lumina Embodied AI 社群聯合創始人,是擁有超一萬粉絲的小紅書科普博主,也是超過 6.4k Github Stars 專案 Embodied-AI-Guide 的發起人。

圖丨陳天行(來源:tianxingchen.github.io)
在具身智慧研究領域,陳天行正用一系列硬核成果讓曾經對於科幻的憧憬,轉化為對技術的工程實現:從 RoboTwin 系列研究透過生成式技術解決了雙臂機器人高質量訓練資料短缺的核心難題,到 G3Flow 則攻克了 3D 操作語義表徵的一致性問題,再到 Text2World 創新性地提供自然語言到可規範化世界描述的轉化評測。這三項入選 CVPR 和 ACL 的研究工作,共同構建了機器人理解世界並實現精準操作的新正規化。
在當下大模型與機器人融合的浪潮中,陳天行始終保持著“問題導向”的研究風格。他專注解決“資料高效生成”和“物理世界理解”這兩個制約具身智慧發展的核心瓶頸。陳天行認為,讓機器人具備通用智慧,既需要強大的基礎模型,更離不開精準的操作落地與海量、高質量的資料方案。
他在模擬資料生成、跨場景和例項泛化等領域的突破,為實現“讓機器人走進千家萬戶”的願景提供了切實可行的技術路徑。
RoboTwin:為機器人雙臂操作策略提供大規模多樣化合成資料與評測基準集
在機器人研究領域,雙臂協同操作的資料長期以來處於匱乏的狀態。與單臂系統相比,雙臂系統的狀態空間維度更高,即便單臂強化學習尚能勉強推進,雙臂系統的複雜度卻讓這一路徑變得舉步維艱。
更嚴峻的是,該領域長期缺乏統一的基準測試平臺(Benchmark),導致不同研究團隊開發的雙臂控制策略難以進行公平的橫向比較。從資料合成的技術層面來看,領域內既缺乏成熟的雙臂資料合成管線,在真實到模擬(Real-to-Sim)的資料遷移方面仍處於空白階段,同時也沒有高可擴充套件性的開源解決方案可供參考。

圖丨 RoboTwin 1.0(來源:CVPR 2025)
面對這一系列挑戰,陳天行與上交 ScaleLab、港大 MMLab 等團隊開啟了 RoboTwin 系列工作的研究。其核心思想是:透過預定義物體的互動邏輯,使機器人無需經過傳統訓練流程,僅依靠預設程式碼即可執行操作任務。
具體而言,首先為每個目標物體編寫完備的互動邏輯,再透過大模型自動生成程式碼以編排機器人動作序列,從而實現了“零訓練”的任務執行正規化,並在實驗階段系統性地驗證了該資料生成方法對真實操作效能的提升效果。
(來源:RoboTwin 官網
近期,陳天行與團隊共同推出了 RoboTwin 2.0 版本,透過引入多模態觀測以及模擬在環的迭代最佳化進一步增強了自動化專家程式碼生成能力,同時提出了一套強魯棒的“大規模隨機化資料生成”方案:實驗證明該方案不僅能顯著提升策略操作效能,還具有更強大的跨本體資料生成通用性——任何實驗室只需接入標準介面,即可基於自有機器人平臺生成高質量訓練資料。
陳天行對 DeepTech 解釋道:“現實場景中採集的桌面資料往往過於乾淨單一。若要人工佈置具有多樣性的雜亂場景,即便只是簡單的餐具擺放任務,若要求每條軌跡中的物體位置、遮擋關係、光照條件和表面紋理都各不相同,其工作量將呈指數級增長——每次採集後都需要徹底打亂場景重新佈置,既耗時又難以保證可重複性。”

圖丨 RoboTwin-OD 物體資料集(來源:arXiv
團隊透過實驗驗證了一個關鍵發現:僅使用 RoboTwin 2.0 生成的“雜亂桌面”模擬資料進行預訓練,再輔以少量真實場景的微調資料,所得模型就能泛化到完全未見的雜亂場景。這意味著未來可能只需採集少量乾淨桌面的真實軌跡,其餘訓練資料可均由模擬系統生成,這將大幅降低真實資料採集成本。
RoboTwin 2.0 的另一重要突破是其構建的大規模基準測試體系。研究團隊建立了 RoboTwin-OD 物體資料集,涵蓋從廚具到工業零件的各類物件,包含 147 個類別、731 個例項,每個例項均標註了語義資訊和操作相關特徵。基於此資料集,研究團隊開發了專業的資料合成流程,生成了超過 10 萬條經過領域隨機化增強的專家軌跡,覆蓋 50 種雙臂任務和 5 種機器人本體。
實驗資料顯示,經過領域隨機化訓練的視覺-語言-動作(VLA,vision-language-action)模型在未知真實場景中的任務成功率提升了 367%(42.0% 對比 9.0%),而僅使用合成數據訓練的零樣本模型也實現了 228% 的相對效能提升,充分證明了“域隨機化模擬預訓練+少量真機微調”這一技術路線的有效性。

圖丨 RoboTwin 2.0 流程框架(來源:arXiv
RoboTwin 1.0 的相關論文以《RoboTwin:基於生成式數字孿生的雙臂機器人基準測試》(RoboTwin: Dual-Arm Robot Benchmark with Generative Digital Twins)為題發表在國際計算機視覺與模式識別會議(CVPR 2025,Conference on Computer Vision and Pattern Recognition)[1],並獲得歐洲計算機視覺會議(ECCV 2024,European Conferenceon Computer Vision) MAAS Workshop 最佳論文獎。

圖丨RoboTwin 獲得 ECCV 2024 MAAS Workshop 最佳論文獎(來源:RoboTwin 官網)
RoboTwin 2.0 的相關論文以《RoboTwin 2.0:用於魯棒雙臂機器人操作的可擴充套件資料生成器和具有強領域隨機化的基準測試》(RoboTwin 2.0: A Scalable Data Generator and Benchmark with Strong Domain Randomization for Robust Bimanual Robotic Manipulation)為題發表在 arXiv[2]。

圖丨相關論文(來源:RoboTwin 官網)
RoboTwin 系列研究透過模擬資料彌補現實世界的資料缺口,用程式化方法替代人工勞動,最終為雙臂機器人訓練構建了一條具備可重複性、可擴充套件性和可評估性的完整技術鏈路。
據悉,RoboTwin 已被地瓜機器人、松靈機器人等企業用於測試操作策略,同時作為第十九節挑戰杯“人工智慧+”專項挑戰賽、CVPR RoboTwin 雙臂協作挑戰賽、張江人形機器人創新創業大賽等競賽的官方賽題,進一步推動該技術在領域的應用和發展。
G3Flow:從單視角觀測到完整 3D 語義理解的技術突破
G3Flow 的核心目標是透過將物體級別不完整的單視角深度圖轉化為精確完整的 3D 語義流,使機器人獲得強大的物體姿態感知能力和操作泛化能力。
這一技術突破的關鍵在於其創新的三步處理流程:首先利用 3D 生成模型來補全單視角觀測中缺失幾何資訊,擴散式生成模型基於大量真實資料訓練,能夠僅憑部分 RGB 觀測輸入就能以重建完整物體幾何,將部分影像觀測轉化為完整的數字資產。

圖丨G3Flow 概述(來源:CVPR 2025)
經過對齊處理的 3D 語義流隨後被轉換為 2D 特徵圖供下游任務使用,這些源自無噪聲模板的特徵使得抓取和插拔策略在新物體、新環境條件下仍能保持更高的成功率。
陳天行指出,整個系統的精妙之處在於生成模型和語義流技術的協同配合:前者負責補全視覺盲區,後者則確保補全結果與物理實際觀測觀測的精確匹配,共同解決了單視角感知的固有侷限。
目前 G3Flow 已在國內知名企業的人形靈巧手專案中得到實際應用,其長遠目標是構建類似 GPT 的通用機器人感知系統。透過大規模模擬預訓練結合少量真實資料微調,系統正在向多工操作規劃方向發展。儘管現階段對柔性物體和細小零件的處理能力仍有提升空間,但團隊正在探索採用隱式表徵技術來增強系統對複雜物體的適應性。
相關論文以《G3Flow:用於姿態感知和可泛化的物體操作的生成式三維語義流》(G3Flow:Generative 3D Semantic Flow for Pose-aware and Generalizable Object Manipulation)為題發表在 CVPR 2025 [3]。

圖丨相關論文(來源:CVPR 2025)
大模型真的能理解世界嗎?Text2World 構建語言-世界建模評測基準集
如何讓大模型不僅理解自然語言,還能將模糊的口語描述建模為精確、可執行的世界?陳天行與所在團隊使用規劃領域語言(PDDL,planning domain definition language)作為規範化的世界建模語言,構建了首個大規模、多領域的基準測試體系 Text2World,包含了數百個多樣化的領域,涵蓋了多種任務型別,如路徑規劃、任務分配等,為評估大模型的世界建模能力提供了全面的框架。
具體實現分為三個關鍵步驟:首先根據自然語言對場景的描述,建立場景的“規則”,包括固定不可移動的桌面座標、可移動剛體屬性以及物理約束等基礎設定;然後將給定的自然語言動作(如“移動物體”),建模為嚴格的 PDDL 語言,要求模型必須精確建模動作的前提、影響等條件。“這種轉換能力直接反映了模型對物理規則和邏輯關係的細粒度理解。”陳天行說。

圖丨Text2World 概述(來源:ACL 2025)
研究團隊設計了雙維度評測指標:在語法層面考察 PDDL 的正確性與模擬器驗證成功率;在語義層面則透過動作前提、影響的完備性判斷世界建模的效果。為全面評估模型效能,他們構建了包含 101 個任務的測試集,涵蓋桌面操作、導航和流體互動等場景。
每個測試案例都提供抽象自然語言描述與標準 PDDL 語言,從而實現對模型”語言到世界”轉換能力的精準量化評估。這一研究突破了大模型停留在文字理解的侷限,為其在真實世界中的可靠應用奠定了基礎。
相關論文以《Text2World:面向符號化世界模型生成的大語言模型基準測試》(Text2World: Benchmarking Large Language Models for Symbolic World Model Generation)為題發表在國際計算語言學年會(ACL 2025,Annual Meeting of the Association for Computational Linguistics)[4]。

圖丨相關論文(來源:ACL 2025)
創造連線:Lumina 具身智慧社群與 Embodied-AI-Guide
陳天行說:“在我的具身智慧研究起步時,也曾苦於沒有開放的平臺進行學術交流,因此我也想為大家創造連線。”他作為聯合創始人,在今年 5 月創立了 Lumina 具身智慧社群,目前參與人次已經突破了一萬五千人次(社群、Github、自媒體平臺)。

圖丨Embodied-AI-Guide Github 倉庫(來源:https://github.com/tianxingchen)
為了幫助更多人走進具身智慧領域,陳天行發起了 Embodied-AI-Guide 專案,帶領超 40 名學者編寫了超 3 萬字的具身智慧技術指南,目前專案獲得了 6.4k Github Stars,成為了領域內最知名的技術指南之一。

圖丨陳天行的小紅書主頁(來源:小紅書)
同時,陳天行還在小紅書平臺上擁有超過一萬粉絲。他說:“我希望能夠將自己的經驗和想法,更多地分享出去。”
實驗室就是他的“臥室”

圖丨陳天行在上海交大 ScaleLab 做真機實驗(來源:陳天行)
陳天行的博士導師、香港大學羅平教授曾教導他要做有影響力的工作,不要太在乎一些表面的東西。這份教誨,讓陳天行在科研道路上展現出超出常人的投入和毅力。“我基本上每天都睡在實驗室,本科四年有三年是這樣過來的。”陳天行說。從最初在宿舍打程式設計競賽,到後來在本科實驗室的床鋪睡了 2 年,再到上海人工智慧實驗室通宵達旦地寫程式碼、做實驗,這種“硬核”的科研作風,是他取得一系列成果的基石。
圖丨Lumina 社群 logo(來源:https://lumina-embodied.ai/)
這種投入也帶來了豐厚的回報:在 CVPR、ACL 等頂級學術會議上以一作或主要貢獻者身份發表多篇論文、獲得 ECCV 具身智慧研討會最佳論文獎、CCF 優秀大學生(全國 99 人)、荔園卓越之星(深圳大學本科生最高榮譽)、ACM-ICPC 區域賽銀牌、睿抗機器人開發者大賽全國亞軍……這些榮譽的背後,是他對科研目標的清晰認知和從中獲得的持續正反饋。“當你的工作能產生影響,能看到實實在在的進展,就不會覺得累。”他說道。

圖丨陳天行目前已有的學術成果(來源:谷歌學術)
儘管在學術上已經取得了不俗的成績,但陳天行並未止步於此。他明確表示,目前已有創業的計劃,並預計在未來幾年內啟動,方向依然是機器人操作,一個演算法與硬體緊密結合的領域。並且,會嚴格地讓自己的學術方向往產業上、往最終會落地的方案上靠。他認為,技術積累和個人影響力的形成至關重要,這也是他現階段努力的方向。
陳天行從導師羅平教授那裡學到,若作為 CEO,自身的“上限”將決定公司的“上限”,因此必須不斷提升自己的技術力和領導力。他也深知團隊的重要性,“一個人的力量是有限的。”他希望未來能吸引更多志同道合的人,共同推動機器人技術的發展。
“我們這一代人,不再僅僅追求物質的滿足,更多的是精神上的富足。”陳天行認為,當代年輕人應該更清楚地思考個人理想、個人發展如何與國家發展的大潮相結合。“改變世界聽上去可能有些‘中二’,但現在我覺得,人是要有信念的,要有一個東西支撐著你不知疲倦地去工作,因為你真的覺得做這個事情是有意義的。”他說。
陳天行希望透過自己的經歷和自媒體平臺,給更多同齡人帶來力量,鼓勵大家勇敢闖入科研的“無人區”,做有特色、有深度的研究,最終“讓機器人走進千家萬戶”,併為國家的發展貢獻一份力量。這位對未來充滿憧憬的年輕人,正以其堅定的步伐,在具身智慧的星辰大海中,書寫著屬於自己的“鋼鐵俠”傳奇。
參考資料:
1.https://arxiv.org/pdf/2504.13059
2.https://arxiv.org/pdf/2506.18088
3.https://arxiv.org/abs/2411.18369
4.https://arxiv.org/pdf/2502.13092
運營/排版:何晨龍

相關文章