阿德萊德大學吳琦:VLN仍是VLA的未竟之戰丨具身先鋒十人談

視覺導航不復雜,VLN卻不容易。
作者丨賴文昕
編輯丨陳彩嫻
2018 年 6 月,在澳大利亞機器人視覺研究中心(ACRV)做博士後研究員的吳琦和博士生 Peter Anderson 首次將 VL(視覺-語言)和彼時機器人領域主流的導航方向聯絡起來,在 CVPR 2018 發表了第一篇 VLN(視覺-語言-導航)工作;緊接著,Abhishek Das 作為一作發表的 “EmbodiedQA(具身問答)” 又讓 “Embodied” 一詞走入科研視野。
一個月後,一年一度的 NLP 領域頂會 ACL 在冬季的墨爾本召開。在火熱的會場裡,吳琦、Peter Anderson 和 Abhishek Das 舉辦了一場題為“將語言和視覺與動作聯絡起來” 的 tutorial,真正地開啟了 VLA(視覺-語言-動作)這個全新領域。
會上一眾 NLP 學者都很好奇,紛紛向他們瞭解何為“VLA”,而三人除了談到 CNN、RNN 等基礎方法外,也分享了對機器人資料和環境模擬器的看法,包括強化學習在這些工作中的運用。
對 VLN 的探索也讓吳琦意識到,除了學習和理解多模態資訊,機器還要能與真實環境進行一定程度的互動,才能解決實際問題,便在原有的 VL 基礎上加進“動作(Action)”,提出“V3A”的概念,即 “Vision(視覺),Ask(提問),Answer(回答) and Act(行動)”。
吳琦本科畢業於中國計量大學資訊與計算科學專業,在英國巴斯大學完成碩士和博士後,又到澳大利亞阿德萊德大學做了3年的博士後研究,並在2018年開始留校任教。此外,他還陸續獲得了澳大利亞科學院羅素獎與南澳大利亞傑出青年科學家稱號,目前谷歌學術的引用量已超1.4萬。
作為最早一批研究 VL 的學者,吳琦在 MS COCO 資料集釋出提出了影像描述方向後立即在2015年跟進,又立即在視覺問答(VQA)此新方向上發表工作“Ask Me Anything”,並於2018年開啟了 VLA 領域。
七年過去,VLA 已搖身一變成為當下具身智慧領域內最火熱的話題,海內外誕生了英偉達的 GROOT N1、Figure AI 的 Helix、Physical Intelligence 的 π0、清華的 RDT 等機器人 VLA 模型。
而開啟了新領域的吳琦,則選擇在 VLN 方向上繼續紮根,並從去年開始著力於一系列真機研究。目前他正在澳大利亞阿德萊德大學任副教授,帶領自己的實驗室“V3A Lab”,還在澳大利亞機器學習研究中心(AIML)裡擔任視覺與語言研究方向的實驗室主任。
聊到具身智慧與 VLA,吳琦表示 VLA 不應侷限於上半身的操作任務,“很多人認為導航問題已經被解決,manipulation 更好和產業結合並落地,但其實 VLN 仍有很多尚待突破的空間。”
以下是 AI 科技評論與吳琦的對話。
1
VLA 的“七年之癢”
AI科技評論:2018年您提出了“V3A”的概念,在原有的 VL 上加進 action,當時是受到什麼啟發促使您開始了 VLA 的研究?
吳琦:最早在 CVPR 2018 上我和 Peter、Abhishek (Embodied VQA作者) 碰在一起,覺得大家的論文都很有意思,決定在馬上舉行的 ACL 上一起辦一個 tutorial。當時我認為 VL 已經被講過很多次,再辦 tutorial 的意義不大,應該加些新東西進來,而我們做的導航和 Abhishek 做的問答都屬於 action,那不如就做一個關於視覺(Vision),語言(Language)和動作(Action)結合的講座,算是非常早期的VLA的概念。
我們的首篇 VLN 工作打開了這個新領域,但主要是提出了 R2R 資料集和任務,不溫不火。到了下一年,CVPR 的最佳學生論文,即王鑫用模仿學習和強化學習一起去解決 VLN 的工作,徹底讓此領域火了起來。
因為很喜歡 VLA 的概念,我就提出了“V3A”,即“Vision(視覺),Ask(提問),Answer(回答) and Act(行動)”。先是希望機器人或虛擬的 agent 基於視覺輸入能回答,這說明它能聽懂;接著是當時 VQG(視覺問題生成)的研究認為提問比回答更難,這說明它有更強的推理能力;而在有自然語言對話能力後,我們希望模型能執行如導航等動作,也提出了“Remote Embodied Visual Referring Expression(遠端具身視覺指稱表達)”,就是讓機器人能完成“幫我找個勺子”這類導航任務。
AI科技評論:在您看來,2018 年前後的那波 VLA 與現在具身智慧領域的 VLA,有什麼不同之處?VLA 的發展經歷過哪幾個比較重要的階段呢?
吳琦:我們剛提出 VLA 的概念時,manipulation 這一塊還不熱門,那時的 action 可能更 high level,離機器人還更遠一些,比如理解對應場景去回答問題或導航走到指定位置去找某一東西。而且資料量的差距也比較大,以前 VLA 的資料量相對於現在來說都是小量級的。
Embodied QA 出來後 VLA 有一段停滯期,因其所用的資料存在版權問題導致大家沒法繼續使用;而 VLN 在 VLA 裡發揮了非常大的作用,我們的工作很早期地把 VL 和 action 結合起來,再加上王鑫在 CVPR 2019 的工作,VLN 和 VLA 受到了很大關注;時間再往後就是上交大盧策吾老師把 manipulation 和具身智慧結合起來,提出了很多新的資料集和任務。
接著是非常關鍵的節點,GPT 系列的出現。此前儘管有 VL 大模型,但在解決很多 VQA 問題上的表現都一般,當時普遍認為在解決好 VL 問題前,還去結合 action 是不太可能實現的。而 GPT 的出現(特別是引入多模態後)解決了很多 VL 解決不了和解決不好的任務,甚至是其零樣本的表現都遠超當時最大的 VL 預訓練模型,因此大家就普遍認為 VL 的一些基礎任務已被解決,所以開始引入更高層次的維度,即利用將視覺語言結合起來去預測、輸出 action,而不是單純地做 VQA 這種難以落地的東西。
AI科技評論:具身智慧熱潮之前爆火的是自動駕駛行業,在您看來,自駕與機器人分別對 VLA 提出了怎樣的獨特要求?如果單純從導航的角度來看,對人形機器人(雙足)的研究意義大嗎?
吳琦:自駕某種意義是也是 VLA,V 是戶外場景,L 是使用者需求,A 就是汽車所執行的操作。當然這裡 A 的操作可能會分為汽車本身的動作,比如轉彎,加速, 減速等等,也可以車機系統的操作,比如執行播放音樂,導航至某地這類動作。
機器人的 VLA 除了無人機之外,大部分可能還是在室內場景中,V 主要是針對室內場景和物體,而 A 則是要求動作精度更高的 manipulation 或者移動精度更高的 navigation。
我們去年基本把 VLN,就是的單純視覺語言導航這一塊,在實體機器人上實現了部署和執行,包括四足的機器狗\掃地機器人和輪式的機器人。我覺得在雙足上的部署問題也不大,因為我們目前大腦和小腦的開發還是分開的,雙足這邊的控制沒有問題的話,對於我們 VLN 來說是一樣的,就是根據當前 VL 資訊,輸出一個機器人要執行的線速度和角速度,而據我所知,無論底盤式還是足式,都可以接受這兩個資訊完成下層的動作指令。
具身智慧導航團隊成員與機器人合照
AI科技評論:在經歷了 VLA 從坐冷板凳到如今大熱的過程後,您是如何看待現在大家對 VLA 的熱情呢?
吳琦:VLA 的大熱其實是產業和學術發展的雙重結果。從產業視角來看,任何落地場景均需處理多模態輸入,並依賴一個 high level 的推理模型輔助完成複雜的規劃與行為決策。人類大腦的工作機制即是典型例證——透過整合視覺、聽覺、觸覺等多模態感知資訊,經中樞神經處理後生成具體動作指令,這一整合決策過程在日常場景中不可或缺。從學術研究趨勢而言,自然語言處理(NLP)與計算機視覺(CV)領域的核心任務已取得顯著進展,研究者正積極探索新的前沿方向。
值得一提的是,VLA 領域的研究者需精準定位應用場景,弄清楚 L(語言)的核心價值,即為機器人提供了一種更簡便的人機互動方式。這種互動模式具有高度的靈活性與自然性,能夠支援使用者以隨意的方式下達指令,由此衍生出一系列全新的技術挑戰——不同於傳統預設任務的固定模式,VLA 面臨的任務往往具有顯著的臨時性特徵,需要即時響應非預定義的動態需求。
2
VLN 之於 VLA
AI科技評論:那您認為導航的難點和重要性在哪裡?怎麼理解 VLN 跟 VLA 之間的關係?
吳琦:視覺導航作為任務本身可能是簡單的,但視覺語言導航(VLN)還是比較難的。
舉個例子,食物掉下餐桌後讓現有的掃地機器人清掃,要不選全屋清掃,要不把機器人搬到附近讓它轉圈掃,或者再聰明一些的能在 APP 上把餐桌的區域畫出來讓它轉圈掃。
但 VLN 能實現的是——給一個指令讓它去餐桌附近清理食物,它能利用這資訊知道,先導航到廚房餐桌的位置,使用視覺資訊找到食物殘渣位置,只去清掃這一塊區域,而且相比過去的導航任務和方法,VLN 更擅長處理很臨時性的事件我們最近在掃地機器人上也基本上實現了這些功能,對這個技術感興趣的掃地機器人或家用機器人公司,也可以和我們聯絡討論。
當然,VLA 中的 action 有很多,VLN 只是其中一個子集,需要具體場景具體分析。有些時候可能並不需要 VLN,比如機器人如果處在工廠、超市這樣的固定場景下,做分揀或清理貨架這些聚焦上半身的任務,它們以非常固定的軌跡去運動就可以了。
但是將來如果到了家用的實際場景,還是需要機器人不斷移動的,這時的導航問題就比較難解決。我和北大的王鶴老師也討論過,室內場景還是有很多挑戰,除了建模不準外,還有人移動或互動的影響。
AI科技評論:人的移動或互動這類動態場景對 VLN 最大的挑戰或難點在哪裡?目前都有哪些可行的探索方向?
吳琦:其實動態場景帶來最大的影響就是之前基於slam建圖式的導航不再適用了,提前利用地圖資訊規劃好的導航路線因為動態場景可能不再能完成任務。
這個時候就需要類似於 VLN 的技術來輔助,就是利用當前的視覺資訊以及最初的語言指令,來做出短程的導航路徑規劃,甚至是隻預測下一步往哪裡走,而到了下一步,再結合資訊做出新的預測。
我們最近也提出了一個新的資料叫 Obstructed VLN,考慮的就是這個問題,就是在行走過程中發現出現了路徑的遮擋,需要做出臨時性的調整,大家可以關注。
AI科技評論:之前林倞老師團隊發表的綜述也將 VLN 列為具身智慧的一大關鍵任務,那VLN發展至今已經七年了,除了開山之作外,您認為哪些工作是關鍵呢?
吳琦:很榮幸我們主導了 VLN 領域多個關鍵節點工作。在提出三個資料集後,相繼採用CNN、RNN及注意力機制等方法開展研究。
Transformer架構誕生後,率先基於該架構提出“VLN-BERT”,能基於 Transformer 處理 VLN 任務;2022 年 CVPR 發表的“Discrete-Continuous-VLN”則首次探索 VLN 在離散與連續環境間的學習鴻溝彌合;去年推出的 NavGPT 是首個將 LLM 引入 VLN 的工作;而今年 ICRA 的 Open-Nav 則首次實現 VLN 在真實機器人上的落地應用。
其他組也作出了很多關鍵的工作,比如早期的,Hao Tan 在 NAACL 上提出的 EnvDrop,還是有 Chen Shizhe 也提出過好幾個非常關鍵的模型,比如現在常用作 baseline 的 DUET。我們的 ScalVLN(目前的SOTA)也是基於 DUET 的工作過。要提一下,Shizhe 也曾經在我們 V3Alab 訪問過一段時間,非常優秀。
AI科技評論:當前具身智慧領域裡大家對操作任務的熱情高漲,但您更關注具身導航。
吳琦:可能還是落地導向吧,現在很多落地場景式工業場景,或者商業理貨場景,大部分時候機器人可以以固定路徑,並且在相對固定的場景裡移動。而家用場景目前落地還比較難,所以很多人還沒有體會到室內視覺導航這塊的難度。
很多人認為導航已經是被解決完的問題,室內導航只需建好圖就能讓機器人指哪到哪,不像 manipulation 那麼難。但事實上,假如把它放在具身智慧領域,其實還要一定的時間。畢竟,機器人只有在走到對應的位置上,才能完成之後的動作。
如果認為具身行動就是和上半身有關的抓取或 manipulation,其實是沒有真正思考清楚什麼是具身智慧。關於具身智慧眾多的定義裡,我最喜歡的是 CVPR 2024 的一個關於具身智慧的討論,即 AI agent 需具備看、聽、說、行動和推理五項基本能力,再能將模擬的機器人解決方案遷移到真實的機器人和現實世界中。
也就是說,只有把視覺資訊、語言能力和具體執行的任務(無論是上半身還是下半身的動作)最後實現在真實機器人上,才能稱之為一篇真正的具身智慧研究。
AI科技評論:那這和自動駕駛中的導航有哪些不同呢?
吳琦:自駕的導航是室外導航,有很多可利用的資訊,比如 GPS 提供精準定位,結合高精度地圖、視覺感知(如車道識別、路標檢測)及雷達系統(實現障礙物檢測與規避)。
而我們做的 VLN 其實是室內導航,面臨多重限制。由於缺乏 GPS 訊號且環境資訊(如地標、紋理)稀疏,無法直接複製室外方案。早期技術主要依靠視覺 SLAM(同步定位與地圖構建)實現環境建圖,透過攝像頭即時採集資料構建區域性地圖以確定自身位置。但該方案對環境依賴性強,常需人工預處理(如標記特徵點、最佳化場景紋理)以提升建圖精度,難以實現完全自動化。
最大的難點在於收集資料,尤其是大量的室內 3D 環境資料。我們希望獲取儘量真實的 3D 環境,但這些環境資料本身就很少,也沒有一個特別好的模擬器,而掃地機器人這類真實資料又存在隱私問題。我們因此也曾做過室內設計相關的工作,是基於視覺和語言的裝修風格生成,和裝修設計公司酷家樂合作,他們所提供的 3D 場景資料就特別有幫助。
AI科技評論:儘管室內不受天氣影響,但也可能會在低光、煙霧等極端感知條件下,視覺輸入失效。是否需為 VLN 引入多模態備份方案(如超聲波雷達、紅外感測)?如何實現多模態訊號與語言指令的即時對齊?
吳琦:確實,隨著 simulator 變得越來越好,我們可以模擬出這些複雜的情景,也可以考慮引入其他的感測器來輔助導航。我覺得這點上倒是可以參考無人駕駛的一些解決方案,實現多模態資訊的對齊和處理。
3
卡脖子的資料也最易突破
AI科技評論:在 VLN 和 VLA 領域裡,當前 Top 3 的研究問題都有哪些?
吳琦:我認為目前面臨的核心挑戰首要是資料問題。當前缺乏足夠優質、大規模的資料集支撐 VLN 或 VLA 模型訓練,這與 GPT 依賴海量語料形成鮮明對比。具體而言,資料問題可拆解為三部分——
一是模擬器(Simulator)的必要性,與機器人技術結合的場景中,模擬器是訓練和測試的基礎載體,其效能直接影響資料生成質量。這裡有很多東西可以去考慮,像材質摩擦力、摩擦係數、環境重力、甚至是熱互動等物理特性,我們常見的物理定律在目前的模擬器裡面體現得並不夠,要做真正的世界模型( word model ),數字孿生不能只是孿生表面,還要涵蓋其本身的物理特性。
二是高質量 3D 環境構建的稀缺性,僅有模擬器不足夠,還需在其中構建多樣化真實場景(如家庭、工廠、購物中心等),這類 3D 環境不僅稀缺,且製作成本高昂。
三是專用應用資料的獨特性,區別於傳統 AI 資料(如 NLP 的純文字、CV 的影像標籤),VLA/VLN 需要特定任務資料(如抓取、操作、導航等資料),其資料格式需整合模擬器、環境及應用場景三類要素,缺一不可。因此,構建大規模複合資料集是 VLA/VLN 的關鍵發展方向。
第二個挑戰是 Sim-to-Real 的遷移鴻溝。模型在模擬器中完成高效訓練後,需在真實機器人和環境中部署,但二者存在多重差距——包括環境差異(如光照、物體物理屬性)和機器人硬體差異(如執行器精度),如何彌合這些 Gap 是技術落地的核心難點。
第三個挑戰與工程部署相關。VLA/VLN 任務涉及複雜推理和模型計算(如導航模組與GPT大模型的結合),依賴高效能GPU支援,而在機器人終端實現高效模型壓縮,平衡算力需求與裝置輕量化,是亟待突破的技術瓶頸。
AI科技評論:在這些瓶頸中,哪一個是最有可能率先被突破的?
吳琦:雖然資料是最大的難題,但其實它也是最容易突破的,尤其是圍繞著如何構造更好的資料集、模擬器和環境出發,並利用好它們去訓練一個更好的 VLA 模型。
比如我最近在思考環境生成的工作,之前和酷家樂的合作就是透過輸入語言描述生成三維的房間環境,包括房間、傢俱的佈局、牆壁的顏色、地板的材質等,但因當時模型還不夠強,效果比較一般,但現在或許可以重新拿出來實現一下。輸入可以是各種模態的,如對環境的語言描述、已有環境的圖片、影片、結構資訊,希望模型能按照使用者需求快速地生成一個精準的符合要求的環境,再把此環境匯入到桃源或 Isaac Sim 等模擬器裡供大家進行訓練。
AI科技評論:那針對最關鍵的資料問題,現在都有哪幾種技術路徑呢?
吳琦:資料構建主要存在三種技術路徑。第一是真人操控採集,透過人工控制機器人完成行走、抓取、傢俱組裝等任務,同步記錄動作軌跡與環境互動資料,直接用於模型訓練。這種方式依賴真實場景操作,資料貼合實際應用但採集成本較高。
第二是 Sim2Real 模擬生成,藉助高逼真度物理模擬器(如NVIDIA Isaac Sim、上海AI Lab桃源系統)構建虛擬環境,透過演算法自動生成機器人執行各類任務的資料。該路徑優勢在於低成本批次生產資料——無需真實硬體介入,即可在模擬環境中完成海量訓練,訓練後的模型直接部署至真實機器人。
第三是影片資料驅動,聚焦網際網路海量公開影片(如導航、烹飪等場景),透過分析影片中的高層決策邏輯(如任務規劃、動作序列)訓練模型。此路徑規避了傳統資料採集的繁瑣,僅關注“做什麼”的高層規劃,無需處理機器人“如何執行”的底層控制細節。
AI科技評論:您很早就開始做 VLA 相關的 simulation,在您看來,這些年來模擬最大的進展是什麼?當前最亟待突破的卡點又是什麼?
吳琦:確實當時我們在設計和釋出 VLN 這個任務的時候,就做了一個基於 MP3D 資料的 MP3D simulator,這個 simulator 也僅僅是為 MP3D 提供的 environment 資料以及 VLN 這個任務來服務的,非常的簡單。
我覺得隨著具身智慧的發展,大家越來越關注 simulator,包括前期 Meta 釋出的 Habitat 1.0、2.0,再到最近的 Nvidia的 Issac-Sim。我覺得 simulator 還是要大廠來做,因為他是一個比較工程的問題。
而 simulator 這塊,我覺得有三塊內容比較重要,一個是場景模擬,就是說這個場景看上去要非常真實。這個就涉及到渲染,追光,建模,紋理這些的內容。第二個是物理模擬,就是能夠模擬我們的物理現實,比如重力、摩擦力、碰撞等等物理現象。第三個我覺得是這個 simulator 一定要高效,不能因為執行的速度拖延模型的訓練,尤其是加入 RL 之後,需要在訓練時和 simulator 互動,那麼 simulator 的執行效率就很重要了。
AI科技評論:那又有哪些方法能解決Sim2Real Gap和工程部署這兩大問題呢?
吳琦:如果說我們普遍選擇相信 scaling law 的話,我認為解決 sim2real 的問題其實就是解決資料的問題。
想象一下我們如果有一個非常龐大的 environment 的資料集,包含了各種各樣的場景,而這些場景又非常真實並且能夠匯入到 simulator 裡供我們訓練一個足夠大的模型,那我認為是有可能解決這種 gap 的。我們目前就在和酷家樂(群核)這邊合作,在大量的生成這些 environment 資料,因為他們之前積累了大量的3D資產。
說到部署,我覺得作為機器人本體公司(比如宇樹),可以發揮更好的作用,提供對應的、相對易用的部署工具。這是一個生態問題。英偉達之所以成為英偉達,關鍵還是生態做的好,推動了整個行業的發展。硬體公司應該要有這樣的前瞻性,提供好的工具,建立好生態,硬體才賣的出去。
更多內容,點選下方關注:

未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社群進行轉載!
公眾號轉載請先在「AI科技評論」後臺留言取得授權,轉載時需標註來源並插入本公眾號名片。

//
推薦閱讀

相關文章