萬字實錄:VLA正規化,具身智慧的曙光與迷霧丨GAIRLive

攻堅深水區,VLA 面臨哪些坦途與荊棘?
整理丨賴文昕
編輯丨陳彩嫻
VLA(視覺-語言-動作模型)作為具身智慧領域的關鍵新正規化,能有效整合視覺資訊、語言指令與行動決策,顯著提升機器人對複雜環境的理解和適應能力,對推動機器人從單一任務執行向多樣化場景自主決策的跨越至關重要 ,已成為當下學術界和工業界炙手可熱的研究焦點。
2025 年 5 月 9 日,雷峰網、AI 科技評論 GAIR Live 品牌舉辦了一場主題為“具身智慧之 VLA 的實踐與突破”的線上圓桌沙龍。
圓桌主持人為北京大學計算機學院助理教授、智源學者仉尚航,並邀請了清華大學交叉資訊院助理教授、千尋智慧聯合創始人高陽,清華大學交叉資訊院助理教授、星海圖聯合創始人趙行,與北京大學人工智慧研究院助理教授、北大-靈初智慧聯合實驗室主任楊耀東一起進行了一場深度的討論。
會上,主持人仉尚航帶領討論 VLA,先是探討其定義、起源及相關模型區別;接著分析技術路線與新成果,探討不同路線的優缺點;隨後圍繞機器人常見任務,剖析核心技術瓶頸與主流輸出正規化;還研究強化學習結合、泛化能力提升、異構資料利用與協同訓練;最後關注落地場景,並探討執行長程任務的難點與可能。
其中,三位嘉賓圍繞 VLA 在具身智慧中面臨的技術瓶頸分別提出了自己的獨到見解:
高陽認為,推理與資料是當前 VLA 面臨的兩大核心挑戰,推理方面雖已有諸多研究探索 VLA 與推理的結合路徑,但尚未明確最優方案;資料層面,不僅量級遠不及訓練 VLM 的資料,多樣性更是嚴重不足,目前資料多采集於簡單環境,且陷入“資料不足限制模型能力、模型能力有限制約資料採集”的惡性迴圈,破解資料困境成為 VLA 研究的關鍵所在。
趙行表示,VLA 在實際應用部署中,系統執行頻率單一化存在經濟成本與最佳化難題,基於哺乳動物動作高頻控制、高層次思維低頻閉環的原理,設計類似人類的高低頻自適應閉環系統仍是未解決的課題,實現端到端訓練以整合多層次、不同頻率的大系統是最終目標。
楊耀東則提出,當前 VLA 訓練存在割裂問題,大腦(VLM)和小腦(底層策略模型)多分開訓練,缺乏端到端訓練及類似人類大小腦的雙向互動,雖有部分研究嘗試探索端到端架構,但聯調困難;同時,VLA 缺乏“測試時計算閉環”,僅能由大模型生成中間訊號驅動小模型輸出動作,無法像語言模型透過強化學習在測試時持續計算最佳化推理能力 。要突破這些困境,需借鑑語言模型經驗,採用端到端架構結合強化學習,賦予 VLA 動作空間的閉環推理能力,但面臨工程化落地和資料等難題,若不解決,VLA 難以真正釋放具身智慧潛力。
以下是此次圓桌討論的精彩分享,AI 科技評論進行了不改原意的編輯整理:
1
VLA 的前世
仉尚航:大家好,我是本場圓桌的主持人仉尚航,非常榮幸能邀請到來自清華大學和北京大學、在 VLA 領域非常資深的幾位專家老師我們今天的主題是關於 VLA 的實踐與突破,首先請各位老師做個自我介紹。
高陽:大家好,我是清華大學交叉資訊研究院的助理教授,同時也是千尋智慧的聯合創始人,非常高興今天能和大家交流一下 VLA 的相關知識。
楊耀東:非常感謝尚航和雷峰網的邀請,今天來跟大家各位同仁探討一下對 VLA 的思考。我來自北京大學人工智慧研究院,現在研究院這邊也和靈初智慧一起在探索 VLA 在靈巧操作上的應用。
趙行:大家好,我是清華交叉資訊研究院的趙行,我研究機器人和自動駕駛,在這兩方面都做 VLA 的探索,在機器人方面也在星海圖從機器人本體、採資料到訓練 VLA 模型都有全鏈路的經驗,今天也趁這個機會和大家互相交流分享。
仉尚航:我們今天討論的主題是具身智慧最火熱的話題之一VLA。作為熱身,咱們可以先簡單聊聊什麼是 VLA以及大家在探索 VLA 過程中的一些經驗心得,比如應該如何定義 VLA?大家是怎麼開始轉到 VLA 這個賽道上面的?VLA 現在這麼受關注,大家什麼感受?怎麼看待 VLA 的技術路線? 
高陽:我認為 VLA 源於大模型的技術變革。我讀博時做自動駕駛,接著是機器人,最初技術棧以計算機視覺、模仿學習和強化學習為主,雖能在單個或少數任務表現良好,但難以實現一個模型做所有任務。隨著 VLM 和 LLM 帶來的變革,出現了將不同任務操作能力整合於一體的視覺-語言-動作大模型新正規化,我們組前年起全面投入 VLA 研究。儘管 VLA 是新興領域,但其下的模仿學習、強化學習等技術,與傳統同類技術存在相通之處。
仉尚航:我們看到了高老師發表的 Spirit VLA 等工作,也很受啟發。之前具身智慧大會在北京舉辦時,也在論壇上聽到了高老師關於 VLA 的介紹,確實在這方面的研究很有基礎,也期待你未來在 VLA 方向上的更多工作。接下來請耀東老師也介紹一下對 VLA 的定義以及開始研究 VLA 的原因吧。
楊耀東:高老師的闡述很全面了。從大模型視角,ChatGPT 後技術從語言模態逐步拓展到視覺與行為動作空間模態,推動大模型從“缸中之腦”向能與物理世界互動的具身智慧體轉變;從行為動作決策控制視角,傳統控制需從簡單的 MPC(模型預測控制)、閉環控制,向具備常識推理與物理接地(physics grounding)能力的通用控制拓展,這恰好契合大模型特性。
兩條發展路徑並行推進,使得機器人與大模型領域學者都紛紛聚焦 VLA。作為具身智慧的技術亮點,相比前代技術突破,VLA 憑藉大幅提升的智慧水平,有望顯著增強機器人在動作決策與行為空間部署上的能力,在未來發展中佔據重要地位。   
仉尚航:沒錯,正如耀東老師所言,VLA 也是咱們大模型技術和具身智慧的一個很好的結合,你過去也做了很多關於大模型對齊相關工作,正好也可以把它應用到具身智慧領域上。也請趙行老師談一談你對於 VLA 的定義、開始的契機以及自己的觀察和感受吧。
趙行:謝謝尚航老師。我對 VLA 的出現有挺大的震撼和感慨的。23 年 3 月 GPT-4 釋出前,ChatGPT 等工作都是純語言模型,儘管整個 AI 行業挺受震撼,但對我們做視覺、機器人和自動駕駛的研究者來說,和我們的關係不是太大,而 VLM 即帶視覺的 GPT 的出現就不同了。
我印象非常深刻,GPT-4 釋出那晚我們在看它的技術報告,裡面展示了很多有意思的視覺理解能力,包括一些理解數學題裡圖案的例子。有一個案例是,影像里路上有臺車,後面有人在燙衣服,GPT-4 能理解場景裡的情況,那麼很自然的,我們就能想到說,對於在路上看到有人燙衣服這種幾乎不可能見到的長尾問題,可以讓模型幫我們做一系列後續的決策和規劃。  
我們當晚就著手寫一個 research proposal,要把視覺語言模型用到帶規劃決策的下游應用上,開始做一個基於雙系統 VLM 加上端到端的模型設計。之所以我們先從自動駕駛領域關注到這些,是因為自動駕駛有長尾問題,而長尾問題意味著沒有資料可訓練。沒有資料可訓練,端到端也就無從談起。要解決這種長尾問題,只有透過有理解和推理能力的 VLM 和 VLA 模型。  
往後看,我覺得未來的機器人或具身智慧大領域都會如此。當我們用具身智慧機器人解決越來越多的問題,一定會遇到從沒見過的場景,不是靠收集資料就能簡單解決的,模型範式一定會進化到 VLM、VLA 這類正規化上,所以自此就比較堅定往這方向探索。
仉尚航:這個觀察非常敏銳,在 VLM 剛出現時就能想到把它應用到自動駕駛領域確實有很好的 Sense。大家剛剛提到 VLA 模型裡面很重要的 VLM 和 LLM 的能力,VLM 也是源自於 LLM,那麼大家覺得 LLM 或者語言模態在 VLA 中的作用是什麼?
以及我們在做 VLM 時比較容易觀察到的一個侷限是,它關於一些細粒度、區域性、幾何資訊的感知,可能不如傳統純視覺模型那麼精準,比如說分割、深度估計、bounding box(邊界框)座標的感知,但在具身智慧領域,我們又非常需要機器人準確地抓取物體,那如何去彌補 VLM 缺失區域性空間資訊的挑戰呢?
高陽:那我先拋磚引玉一下。首先對於第一個問題,我們人類讓機器人做一件事情要傳達給機器人,傳達的方式其實大多數是語言,L 在這裡就起到一個指定任務的作用;V 和 L 之間的對齊也很重要,因為我們在指定任務後,機器人需要能理解當前的場景。語言是“拿一個水杯”,那這個水杯對應的圖片到底在哪個位置?以及很多時候人類的語言描述有些上下文資訊是關於影像的,那麼把這兩個模態結合起來,就可以讓這個模型更好地去理解人類的意圖,這些能力其實都依賴於 VLM 的預訓練。
仉尚航:對的,語言模態本身也能帶來很多對機器人有用的額外資訊,包括互動指令的接收等,然後可能也可以透過語言和視覺的對齊來增強視覺模態上的泛化性。那關於第二個問題,如何補充缺失的區域性資訊?不知道趙老師有沒有什麼想法?因為趙老師做自動駕駛,也有很多非常需要精準感知的任務。
趙行:我簡單分享下我的經歷。GPT-4V 釋出當晚,我就和同學們開始計劃該怎麼做。作為做應用的 researcher,從解決問題反推方法,VLA 和 VLM 的價值核心在於填補了具身智慧領域此前模型普遍缺乏的常識能力,common sense,比如道路交通規則、人機社交規則等,這些被視覺語言模型包含在內的常識能幫助解決資料覆蓋不到的長尾場景問題。
從實現路徑看,既然 VLM 具備這種潛力,即便其 3D 感知能力有限,也可先與現有成熟的、達到 80-90 分表現的 3D 視覺感知模型結合,透過架構設計取長補短。未來只有 VLM 而沒有其他模型,這也是個比較高機率的結果。長期來看,當前 VLM 預訓練資料缺乏物理世界具身智慧資料,未來若能將更多3D幾何、時間等物理常識資料融入訓練,這很可能會發展為一個主流技術的探索方向。
仉尚航:謝謝趙老師的分享。首先我們可以把在 3D 感知上面效果好的模型和 VLM、VLA 結合,其次還可以在資料上面多引入物理規律,對落地和應用也很有啟發。不知道耀東老師這邊還有要補充的嗎?
楊耀東:前面兩位老師已清晰描述了現狀。如今大模型已在語言模型上取得突破,以往是將計算機視覺領域的好模型往語言模型上遷移,現在則是把自然語言處理上好的架構應用到計算機視覺架構中。一方面,Transformer的成功推動了這一轉變;另一方面,人工智慧在語言模態上實現了大模型、大資料、大算力的三位一體,產生了Scaling Law。
從哲學角度看,維特根斯坦認為語言認知是世界的邊界,語言能表達所有事物,且語言處於離散空間,在建模上會更容易。然而,如何從語言模態突破到視覺和動作模態仍是挑戰。目前工程上透過拼接,比如將高質量視覺模型、底層動作模型與語言模型結合,能解決部分問題。
但從通用智慧體和 AGI 的角度出發,未來需要技術變革,將各模態融合,還是期望有大一統的表徵,把所有變數納入其中,但這個維度太高了。若相信所有模態能投影到低流行空間(柏拉圖假設),那將有助於 VLA 和具身智慧的大一統,以及實現更強的智慧突破。目前 VLA 剛起步,語言和 VLM 有一定突破,拼接思路已現,未來技術革新可能會解決如 3D 資訊感知不準確等問題,雖然不知所需時間,但應該不會太久。
2
VLA 的今生
仉尚航:我們剛才討論了 VLA 的前世,現在來聊聊它的今生,即 VLA 目前有幾種技術路線,以及看看老師們有沒有關於最新進展的一些分享,比如像海外 Physical Intelligence 團隊釋出 π 0.5 模型、Figure AI 的 Helix,高陽老師最近釋出的 Spirit v1,還有星海圖和 PI 緊密的合作,包括我們團隊最近也和靈初智慧在合作。大家作為資深專家,談一談各位對 VLA 技術路線及最新進展的看法吧。
高陽:VLA 多年技術進展集中於架構與資料兩方面。架構上,從谷歌無預訓練的 RT-1 到 RT-2、Sergey Levine 做的 OpenVLA 到 π 0.5,發展依託於 VLM進步。隨著開源 VLM 架構最佳化與訓練方法革新,相關成果拓展至 VLA,同時 Flow Matching、Diffusion 等技術提升了機器人動作生成能力。
資料層面,從谷歌用 Everyday Robots 採的私有資料集,到 Open X-Embodiment 等開源資料,包括仉尚航老師也做了些很好的資料集工作,國內外機構積極探索,透過新採集、歷史資料處理等方式豐富資料來源。此外,π 0.5 並非暴力採大量資料而是轉向網際網路資料,我們千尋智慧也嘗試用影片預訓練。資料質量決定模型上限,這是 VLA 發展最根本、持久的驅動力。
楊耀東:我從模型架構角度再說說,按對 action 的表徵方式,VLA 可分為兩大型別:將 action 作為連續動作處理時,需採用 diffusion 類生成式模型(如 π 系列工作),因為自迴歸模型主要處理離散 token;若把 action 抽象成語言模型中的 token,則以 Helix 為代表。這兩類模型都依賴 VLM,旨在將語言空間的常識對映到物理空間的 action,我們最近也在寫一個 VLA 總結,探索 action 表徵為離散或連續空間的更優方式。
進一步而言,行為動作空間無論是離散還是連續表徵,都可類比為人的大小腦(雖此類比有待商榷),其中 VLM 如同大腦負責推理決策規劃,action 的 token 化或 diffusion policy 則類似小腦執行精細化操作,這兩種技術正規化不斷發展演變,衍生出眾多變體,但始終圍繞這兩大主流框架。
在訓練方法上,當前 VLA 主要採用監督學習,與兩年前大模型領域類似,依靠百萬級資料集輸入指令以實現跟隨人力指令效果。然而,如何提升 VLA 在測試時的推理能力,充分發揮語言模型的推理優勢,仍是亟待解決的關鍵問題。
趙行:我較關注的切入點是雙系統。剛才提到我們做應用的人更關注到底解決什麼問題,說到現在的具身智慧都缺常識,而 VLM 解決常識,那就把 VLM 和現有的端到端模型合作以實現一個雙系統。  
VLM 是一個推理速度較慢的模型,部署後大概能實現 2-3 赫茲的推理速度,而端到端模型能實現 10-20 赫茲的推理速度,它倆進行某種合作實現雙系統。我們最早在自動駕駛實現並且落地了,這是我們一個挺自豪的成果,接著我們主要關注機器人領域的 VLA 設計,簡單分解為以下幾類。  
首先是最有代表性的 π 0,我稱之為緊湊的一段式 VLA,即影像、語言指令作為輸入,直接輸出動作,和端到端模型差不多。Hi Robot 是雙系統設計,由 VLM 拆解高層次指令為原子動作後交給 VLA 執行,模式和自駕的雙系統差不多,VLM 是一個低頻率運作的系統,VLA 是一個高速運作系統。
相似的雙系統工作有 Figure AI 的 Helix 和英偉達的 GROOT N1,但和 PI 稍不同的是他們沒有訓練 VLM,那個 VLM 是從網際網路上拿大家訓練好的開源模型去提取 VLM 的中間特徵,把中間特徵作為一個額外輸入給一個端到端的 DP(動態規劃)模型,然後讓 DP 模型最後輸出動作,是一種 VLM 不訓練、提取其特徵傳給 DP 的設計。π0.5 和 Dex VLA 則以視覺為輸入,中間做個 COT(思維鏈)解釋它為了完成動作所要做的推理和規劃,最後再把動作輸出來,算是一段式的、有中間輸出的 VLA。  
最近有一個比較有意思的方向是,谷歌提的 embodied reasoning(具身推理),即不那麼著急地訓練一個 VLA 模型,因其本身從感知到規劃的能力不是特別強,不如先把具身的推理模型訓練好,當給模型指令時,模型看到圖片能指出應操作圖片裡的哪一個物體,如把它從 a 位置放到 b 位置,它的 3D 空間位置是 1.5 米還是 2 米,訓好後再把裡面的知識蒸餾給 VLA,連上後面的 action decoder,側重在 VLM 模型本身的能力。
仉尚航:確實是乾貨滿滿。你在自動駕駛領域也是很早就開始做雙系統,關於剛才提到的這幾種技術路線,會覺得哪一種更有可能實現或勝任開放世界的更落地或者是 Out Of Lab(脫離實驗室)的任務呢?
趙行:其實這個答案我也不知道,目前 VLA 框架設計仍處於百花齊放的狀態,有緊湊式、中間輸出、兩段式、並聯或串聯等各種組合。但大趨勢是,無論原本做 VLM(從大語言模型出發)還是做機器人(專注 planning model、action model)的團隊,都在做全棧開發。
為提升 VLM 能力,現在會引入動作資料進行聯合訓練,目標是訓練出具身推理模型,甚至是到動作級別的完整模型 VLA。無論是大語言模型公司,還是做具身智慧的研究者 / 企業,都在朝這個方向發展。大語言模型陣營會向 VLA 延伸,融合視覺與動作能力;機器人陣營則從解決精細操作的原子任務入手 —— 過去一個 Benchmark 包含 10 個動作就能證明模型能力,現在需要覆蓋 100、200 甚至 500 個 task。在堆積大量任務的過程中,大家發現簡單拼湊任務不可行,需要一個高效的 VLM 編碼器和解碼器來做跨模組融合。兩股力量正朝著終局的 VLA 共同努力。
仉尚航:現在 VLA 確實是一個百花齊放的狀態,就像人工智慧在最早期的符號主義、連線主義也是百花齊放,但隨著研究程序慢慢地收斂。目前像 Gemini Robotics、Nvidia GROOT N1、Hi Robot、Helix 等都在做雙系統也釋出了相應的 Demo,也許這種雙系統是在近期可能會更容易讓大家覺得更具有落地或泛化潛力的設計,但未來還不好說。
VLA 包含各種各樣的 Action,對於機器人中現在研究最多的 Manipulation、過去的 Navigation(VLN)和 人形機器人相關的 Locomotion 三大任務,各位能否請各位結合自身研究,分享一個您認為該領域最需突破的核心技術瓶頸呢?
高陽:我認為推理是當前一大難點,執行復雜任務時往往需要推理,趙老師、楊老師等學者在 VLA 與推理結合方面也開展了諸多研究,但我覺得哪種路徑最優仍無定論。
另一個核心挑戰是資料。當前資料量級遠不及訓練 VLM 的資料,且多樣性不足更為關鍵。我們採集的資料多來自簡單環境,理論上若有無窮多樣的資料,VLA 難題或可迎刃而解,但現實中存在“資料不足限制模型能力,模型能力有限又導致資料採集困難”的雞生蛋問題。如何破解資料困境,是 VLA 研究的重中之重。
仉尚航:Reasoning(推理)能力和資料這兩點的確是很大的挑戰,要不請耀東老師也分享一下,你所遇到的核心技術瓶頸是什麼呢?
楊耀東:我覺得當前 VLA 訓練仍處於割裂狀態,大腦和小腦分開訓練,很少端到端訓的。這不像人類大腦與小腦的雙向互動(小腦執行中的反饋會即時作用於大腦),現有雙系統架構是訓練產物而非生理結構。如何打通端到端訓練是關鍵,若底層策略(如diffusion模型)與上層架構脫節,聯調難度大,雖有清華 RDT、PI 等嘗試探索端到端架構(PI雖是 frozen 的但具備端到端能力),所以打通大小腦是一個比較重要的問題。
另一個問題是,語言模型透過強化學習在測試時(test time)持續計算最佳化推理能力(輸出行為反哺輸入形成語義閉環),但 VLA 目前僅能讓大模型生成中間訊號(embedding/token/condition)驅動小模型輸出動作,缺乏真正的“測試時計算閉環”——動作執行後無法迴流至VLM形成迭代最佳化。
要突破這一點,需借鑑語言模型經驗,用端到端架構結合強化學習,賦予 VLA 在動作空間的閉環推理能力。這一技術方向已被關注,但工程化落地(結合高老師提到的資料難題)仍是 VLA 亟待解決的核心課題,否則它可能只是模組拼接產物,難以釋放具身智慧的真正潛力。  
第二個問題是,打通訓練後如何透過我們在語言模型上已經看到的、利用強化學習的方法顯著提升其推理能力。現在的 VLA,它所有推理能力都來自於 VLM,但這遠遠不夠,因為我們知道在語言模型推理能力強的大部分原因是因為它能做 test time compute,在測試時間不停地思考,準確度越來越高,所以在語義空間能形成閉環,即輸出的行為能在變成輸入到 VLM 去。  
但對於 VLA 來講,現在大模型生成一箇中間產物,如某種 embedding、token 或 condition,然後到了小模型小腦輸出了一個行為就沒了,這沒辦法 test time compute。真正的 test time compute 是一個視覺或指令輸入,輸出一個 action,這個 action 還得回到 VLA 裡去,這樣才能形成閉環,加之以測試時間的算力提升,徹底提升整個行為動作空間的泛化性、準確性和魯棒性等。  
這背後需要攻克的技術難點是怎麼利用端到端架構賦以強化學習訓練的知識和 knowhow,復刻出我們在語言模型上已經取得的成功。這一技術方向已被關注,但工程化落地及高老師提到的資料難題,仍是 VLA 亟待解決的核心課題,否則它可能只是模組拼接產物,難以徹底釋放智慧到具身智慧中去。
仉尚航:其實我下一個問題就是關於怎麼結合強化學習來提升閉環反饋能力,耀東老師正好先幫我回答了。我們繼續請趙老師談一下你覺得 VLA 的核心瓶頸是什麼
趙行:我剛剛提到的各類 VLA 正規化,並聯、串聯、一段式、中間輸出等大多是簡單的線性無環圖,而我們理想中的 VLA 應讓視覺、語言、動作三模態形成閉環,這個耀東老師解釋得已經非常清楚了。
另一個可能的挑戰是,實際應用部署時,我們不希望整個系統以單一頻率執行,這不僅涉及經濟成本,也是系統最佳化層面的難題。從哺乳動物的角度來看,動作控制需要高頻執行,實現快速感知反饋,而高層次思維閉環的頻率則應更低。從這個第一性原理去思考,應該設計出類似人類的高低頻自適應閉環系統,但至今仍是未被攻克的課題。
仉尚航:你說的高頻率、低頻率,Helix 這個工作是不是這種結合?
趙行:對,我們現在設計出了一種不閉環的架構,比如 Helix 的設計,它的 VLM 是 frozen 的,沒有訓練就是把 feature 拿出來加上一個 action 的 diffusion policy model,是串聯式的,但我覺得可能不是最好的,它需要把動作反饋回來,但一旦反饋回來後,不同頻率的兩個系統如何實現閉環?我覺得這是個比較大的挑戰,那當然希望終局有一個端到端的訓練方式,把這種多層次、不同頻率的一整個大系統都能訓練起來。
3
RL 之於 VLA
仉尚航:系統級的閉環設計確實是很重要的。剛才耀東也提到和強化學習的結合,那 VLA 已有大量的預訓練,也體現了一定的泛化能力、推理能力。但剛剛提到的 Reasoning 還需要進一步提升,比如和強化學習的結合,也許是一種不錯的思路。先請耀東來補充一下 VLA 和強化學習如何更好地結合?
楊耀東:解決這類問題沒有“一招鮮”的方案。從語言模型推理模型的發展來看,無論是 OpenAI 的 o 系列還是 DeepSeek 的 r 系列,背後都是一套完整的工程 pipeline,不是跑一個 RLHF 或 GRPO 就解決的,涉及冷啟動、迭代蒸餾、資料製造與合成等多個環節。我們在與靈初的實驗室合作中的嘗試雖有初步成果,但確實沒達到終局。
從資料角度看,相比離散空間問題,連續動作空間的研究難度更大。以 AlphaGo 為例,僅靠 3000 多萬條人類動作樣本(約16萬局遊戲)就能解決下棋這類離散控制問題;而 Helix 使用 500 小時資料,折算後達 1 億 – 5 億條。離散問題用千萬級資料尚可解決,但連續動作空間,尤其涉及靈巧手操作時,資料的質量和多樣性會嚴重影響 VLA的訓練與強化效果,而當前大部分的 VLA 其實還在做夾爪。
回顧語言模型發展,早期指令跟蹤需百萬級資料,如今幾萬條就能實現不錯效果。資料需求會經歷從“多”到“少而精”的階段,往下發展肯定是 less is more,但這個 less 沒有 more 的階段,是沒法認知裡頭的結構的。目前的資料採集多采用監督學習思路,如透過遙操作獲取抓取軌跡,雖能用於冷啟動,有一個不錯的小腦 policy,但和大小腦聯動的強化學習自訓練正規化還不是一回事。
好在我們現在有 Issac Gym、Issac Sim 等提供免費合成數據,可以在虛擬環境中大量訓練,結合 sim to real 技術有望緩解資料問題。但如何利用強化學習實現資料自合成、自訓練,尤其是在靈巧手應用場景中,目前研究仍較少,挑戰巨大。
仉尚航:感謝耀東的分享,其中提到的觀點極具啟發性——VLA 與強化學習結合時,資料準備不應遵循自監督訓練框架,而需採用面向自訓練的模式,類似 AlphaGo 之後 AlphaZero 透過自訓練提升棋力的路徑。作為強化學習領域的專家,能否請高老師分享一下兩者如何更好地結合?
高陽:我認為強化學習是 VLA 發展的必由之路。如同大語言模型從預訓練起步,經 GPT-1 到 3.5 逐步開展 SFT 微調、RLHF 微調,VLA 發展大機率也會歷經這三個階段。RLHF 對 VLA 作用與單一語言模型相似,可減少幻覺和動作錯誤。
但目前仍存在許多未解問題。比如在 VLA 的 RLHF 中,如何激發類似 COT 的行為?對機器人來說,怎樣的連續動作序列才符合 COT 標準?這些概念尚無明確定義,我們實驗室正在探索。
將強化學習應用於實體機器人與在模擬器中有著本質區別。在現實物理世界開展強化學習,面臨安全性、資料量等挑戰,亟需深入研究解決。一旦突破這些難題,機器人或能在現實世界實現自主訓練。
仉尚航:就像高老師說的,RL 與 VLA 結合有多種方式,比如在真機上用線上強化學習做下游任務微調,或結合離線 RL 與模仿學習進行 VLA 預訓練。目前這仍處於早期探索階段,思路多樣。趙老師怎麼看強化學習與 VLA 的結合?是否有更好的結合方法? 
趙行:我來討論一個大家可能沒提及的任務。我們做了很多機器人全身運動的研究,從四足機器狗到雙足人形的運動控制,這個領域強化學習已得到驗證,比如讓機器人跑酷、跳舞、打拳等都能出色完成,這表明強化學習用於訓練 low level 的控制是可行的。
再看上層,一般會用到 VLA 模型,它有更多推理步驟。從未來發展看,強化學習和 VLA 模型必然有融合趨勢,強化學習訓練的模型梯度有機會從控制模型反向傳播到上層 VLA 模型。不過,融合的具體細節還需大家進一步探索。
4
真實資料、模擬資料還是網際網路資料?
仉尚航:沒錯,這確實是個很有意思的研究方向。不僅 RL 能助力 VLA,VLA 也能反哺 RL,最佳化運動控制。剛才大家都提到了資料,我正好也準備了相關問題。就像 π 0.5 和許華哲老師報告中展示的資料金字塔,底層是網際網路資料,中層是模擬資料,上層是真機資料,這體現了多源資料訓練的有效性
我想請教各位老師,VLA 訓練該用真機資料,還是混合資料?若選擇混合,該如何配比?不同訓練階段(預訓練、微調、後訓練)又該如何選擇資料?高老師先談談吧。
高陽:我認為資料的多樣性最為關鍵。我們曾在論文《data scaling law in imitation learning》中提出,資料的絕對數量並非核心,多樣性才是重中之重。基於此,我對模擬資料是比較悲觀的。雖然模擬資料容易大量生成,也能透過域隨機化增加隨機性,但目前沒有模擬器能復刻物理世界的豐富多樣性,無論是物體種類還是互動形式。
因此,模擬資料或許可用於粗糙的預訓練,過往一些抓取類模擬器和資料集在現實應用中也取得過一定效果。不過,除了簡單抓取和區域性運動控制,涉及複雜通用操作任務時,模擬器的能力仍遠達不到現實世界的複雜度。所以我認為,豐富的網際網路圖文資料、人類影片資料以及現實場景採集的遙操資料,才應是 VLA 訓練的主要資料來源。   
仉尚航:我在具身智慧大會聽到你的報告也專門介紹瞭如何更好地利用網際網路資料,要不再給大家介紹一下? 
高陽:千尋智慧投入大量精力探索如何利用網際網路資料最佳化 VLA 模型,其中代表性工作之一是提出 Any-point Trajectory Modeling(ATM)。我們從網際網路人類活動影片中提取關鍵點運動資訊,讓模型預測這些關鍵點軌跡,以此學習人類行為模式。透過對預訓練後的模型進行微調,其泛化能力顯著提升,尤其在場景適配和物體型別識別方面表現出色。網際網路資料豐富多樣,我們覺得這一方向極具潛力,還有大量資料尚未被充分挖掘和利用。   
仉尚航:非常贊同,資料和模型是相輔相成的。若想更好地利用低成本的網際網路資料,對模型設計的要求會更高;而使用高成本的真機資料時,模型設計或許可以更簡單直接。關於資料方面,高老師提到模擬資料因不夠真實,對訓練的幫助有限。想問問另外兩位老師,對於 VLA 的資料,尤其是模擬資料,你們是同意這一觀點,還是有不同的看法呢? 
楊耀東:我可以補充一下。首先我也認可網際網路資料的重要性,但它存在信噪比低的問題,就像金融資料,看似豐富卻難以篩選有效資訊。網際網路資料雖有人的行為軌跡和操作影片,但對不同任務場景的適用性差異很大。比如專注夾爪(Gripper)操作研究,網際網路資料幾乎派不上用場,因為影片中的人類動作難以直接遷移到機械末端執行器,即便遷移到上肢部位,對實際操作幫助也有限。在靈初智慧的實踐中發現,若要實現靈巧手的精細化端到端操作,網際網路資料作用不大,反而是外骨骼裝置採集的精準資料,對 sim to real 和後訓練 VLA 而言,更能有效提升效能。
這一認知與傳統學術研究觀點不同。通常認為資料多樣性越高越好,論文常展示模型在跨實體、跨任務場景下的表現,但這裡存在一個誤區:過多無關資料會稀釋關鍵資訊,導致模型策略效能下降。雖然通用人工智慧(AGI)需要多元資料融合來提升效能,但畢竟現在通用智慧還比較遠,具身智慧就更渺小了,而在具體任務的場景裡,這些更高維度、更廣域的資料反而是有害的,這是我們在實踐中得出的經驗。
仉尚航:好,耀東這邊關於網際網路資料提出了一些不同的想法,不知道高陽老師有沒有想補充或者討論的?
高陽:我非常同意,其實網際網路上資料我們統計下來可能只有 1% 的資料是有用的,大量資料都是無效的,這就需要大量的資料清洗工作。只有捕捉到人手操作物體,以及物體間互動關係的影片資料才具備價值。這和大語言模型不同,大語言模型雖也需清洗資料,但即便不清洗,也能訓練出尚可的模型;而網際網路影片資料必須經過嚴格、大量的清洗,才能用於訓練 。
仉尚航:是的,網際網路資料容易獲取,是個大寶庫,但得想辦法挖掘其中有價值的部分。關於 VLA 訓練中網際網路資料和模擬資料這塊,真機資料的價值是毋庸置疑的。趙老師對這方面有什麼想法呢?是和剛才老師們觀點相同,還是有不同之處?
趙行:我最初和高陽老師觀點相似,對模擬資料持悲觀態度。因為構建完全真實的模擬環境太難,不僅要視覺真實,還得實現幾何、物理和行為真實,sim to real gap 會巨大。但後來發現,計算機視覺領域的可微分渲染技術(如 3D 高斯 NERF)能縮小這一差距,主要解決物體紋理和幾何真實性問題。
在我看來,模擬資料的作用是放大真實資料。以我們在星海圖的工作為例,透過“real to sim to real”閉環鏈路,先拍攝機器人作業場景影片,再進行幾何重建、新視角渲染,拆解重組場景完成資料增廣。這不是憑空創造資料,而是基於現有資料拓展。如今影片生成模型越來越強大,甚至能僅憑一條拍攝資料重建場景,這是個不錯的方向。
不過,這條技術路線非常依賴真實資料,影片生成模型還無法理解物理幾何規律,不能替代物理模擬器。目前可行的技術路線,是透過半重建、半生成的方式將現實對映到虛擬世界,實現數字孿生和資料放大,再與真實資料聯合訓練。但模擬終究只是輔助,真實世界採集的資料才是關鍵。 
仉尚航:是的,我印象深刻。去年8月世界機器人大會,我和高繼揚老師一同參加論壇,當時他興奮地跟我提及星海圖即將釋出 Real2Sim2Real(從現實到模擬再到現實)相關成果。正如你所說,若模擬資料足夠真實,其價值會顯著提升,像 3D 高斯這類技術助力重建,讓模擬更逼近現實。
但我一直在思考物理特性模擬的問題。3D 高斯等技術或許能在外觀層面高度還原,可物體的物理規律,諸如重力、摩擦力、紋理觸感,以及材質重量、表面紋理細節等,要實現高度逼真模擬,似乎還有很長的路要走。所以我想請教一下,模擬資料若要更具價值,是必須全方位接近真實,包括這些物理特性,還是僅外觀接近就足夠了呢? 
趙行:對,就像剛才提到的 Real2Sim2Real 技術以及聯合訓練,更多是解決泛化性這個寬泛概念裡的具體問題。比如在 Sim2Real Gap 中,包含視覺紋理、幾何、物理動力學以及行為等方面的差距,目前這些技術只是儘可能地縮小其中視覺泛化性方面的差距,對於物理和行為互動等方面的泛化性問題,我們還需要一種技術來攻克後面這些Sim2Real Gap。
5
如何提高泛化性?
仉尚航:好,我們接著 Sim2Real(從模擬到現實)以及泛化性的問題繼續探討。之前我們討論過 VLA 的推理能力,而泛化能力也很重要,各位老師在報告中也常提及。那麼,該如何進一步提升現有 VLA 的泛化能力呢這其中包括跨本體、跨場景、跨任務、跨物體等方面的泛化能力。想請老師們給出一些建議,高老師能否先說說呢?  
高陽:我認為就 VLA 的泛化能力而言,最簡單直接的方式是利用大量網際網路的視覺語言資料進行聯合訓練。比如加入各類不同的相關資料進行訓練,還可以引入影片,並使用輔助的損失函式。
提升泛化能力方面,無論是大語言模型還是視覺語言模型,都沒有演算法上的奇蹟。主要是透過各種方式生成大量資料,這些資料一部分來自真實世界,一部分是透過模擬方法得到的。當模型接觸到豐富多樣的資料後,就能自然地學會避免神經網路中的一些捷徑,從而泛化到新的場景。對於 VLA 來說,在這方面也並無太大不同。
楊耀東:我覺得有個角度值得思考,即把 VLA 當作大模型來拓展其泛化能力。從資料、模型架構和訓練角度來看,剛才提到資料要多樣,模型架構可能改變,訓練要增加強化學習、端到端等。在此基礎上,或許需要跳出現有框架思考下一代技術。
比如在大語言模型方面,訓練大模型很困難,而人類的強大在於能不斷線上自適應學習新技能。這對大語言模型意味著測試時的計算、訓練或對齊,即在不動或只動一點權重的前提下,快速適應新結構、任務和物體。這在小腦方面尤其重要,因為人類小腦的可塑性很強,小孩的靈巧操作能力,比如13、14個月大的孩子看幾次示範就能學會擰發條。
目前在純語言大模型上已看到一些好跡象,如 John Schulman 提到,模型訓練到一定程度後,發現俄語中的一個錯誤,他用 20 條對應的英語資料調整後就修復了錯誤。所以我們要追尋一種下一代的正規化,即無需大動干戈就能快速學會新能力的方式,也就是研究神經網路的可塑性,這可能需要演算法上的革命,像現在一些 TTT 正規化就值得關注。
另外,我們還需突破現有“大腦加小腦”的大模型認知侷限,這種認知較為片面武斷,或許是出於商業化或面向大眾、投資人的考慮,便於大家理解“大腦小腦”概念。但人類生理機制複雜,以呼吸和心跳為例,按“大腦小腦”分析本應歸屬小腦,但實際由腦幹控制。
目前的 VLA,無論是 Helix 還是 π,都缺失“腦幹”這樣的結構。所以,對架構進行創新至關重要,這可能是實現強大泛化能力、推動 VLA 向下一階段規模化發展的關鍵。當然,當下也需做好資料最佳化、強化訓練、實現具身認知等工作,但要實現真正的泛化,還需付出更多努力。   
趙行:我認為未來機器人會像地球生物一樣形態多樣。大機率不需要單一的大腦或 VLA 模型,耀東老師提到的後訓練或 test time training 正規化更適合具身智慧。機器人各有獨特本體和作業空間,不像自動駕駛車追求通用,比如亞馬遜最近展示的倉庫機器人,用帶觸覺的雙面履帶夾爪,減少對視覺的依賴,特定任務效率更高。
但我們更需要一套完善工具,包含預訓練 checkpoint、後訓練或 test time training 工具,能針對具體場景採集少量資料完成適配,最後去把這個問題給解決到 99.9% 的成功率。我們既要重視預訓練資料採集,也要關注後訓練正規化發展,甚至可以在其中融入機器人本體聯合最佳化,實現策略訓練與本體引數調整同步進行。最終目標是讓各類機器人如同生物多樣性般,在不同場景高效作業。   
仉尚航:趙老師提到,提升泛化性不應侷限於單一模型,而需要演算法、資料與本體設計協同的整體系統或工具。觀察到星海圖與 Physical Intelligence 的合作,他們的論文也涉及用你們的本體及硬體調整,這讓我思考:VLA是否需要特定構型配合?是否並非所有機器人構型都適合 VLA 模型,若想增強其泛化能力,或許需要針對性的構型設計。比如耀東老師提到的靈巧手自由度高,增加了 VLA 實現的複雜度,那是否採用三指夾爪反而更利於完成泛化任務?
總結一下,我想和老師們探討:VLA與本體構型設計存在怎樣的關聯?為了讓 VLA 更準確、更具泛化性,是否需要設計特定構型或構型系列?我們對國內多種機器人做過實驗,發現了這一現象,也希望聽聽各位在產業界有豐富經驗、參與本體設計的老師的看法。 
高陽:這個問題很有意思。理論上,VLA 模型和機器人本體沒有必然繫結,不同手臂、手部數量的機器人都能執行任務。但首先要承認,硬體存在固有侷限,VLA 無法突破這些物理限制,比如兩隻手就操作不了專為人類五指設計的剪刀。
其次,若 VLA 能力足夠強,就能充分發揮每個本體的硬體上限。最後,關於本體數量,我認為未來可能只需少量通用本體。為每個本體單獨匹配 VLA,從商業和構建成本上看都過高。即使人類作為強大的 VLA,切換操作不同本體也需大量練習,其他機器人切換本體同樣會產生高額成本。所以,我傾向於少量通用構型的機器人更可能佔據主導,它們能降低硬體、軟體及演算法開發的綜合成本,還能勝任各類任務。
千尋在設計本體時,目標是讓機器人能完成世界上90% – 95%的任務,這樣才能覆蓋成本、廣泛應用。我們的機器人採用全身力控設計,各關節靈活,力控功能對於機器人與現實世界互動至關重要,就像學術界常用的 Frank 力控機械臂。為平衡初代產品能力,我們選擇輪式底盤而非雙足形態,因為輪式底盤透過性好、佔地小,不易受空間限制,這是我們的底層邏輯。   
仉尚航:力控確實非常重要。關於本體構型設計和 VLA 模型的關係,耀東老師有什麼想討論的呢?我們其實很關注靈初,最近也多謝耀東老師的支援,陳源培在和我們合作研發關於靈初的手和臂做收銀任務,也預期能在智源大會上一起展示。
楊耀東:我不算典型的具身智慧研究者,就是懂些靈巧操作。從 2022 年做雙手靈巧操作的實踐來看,這是個極具挑戰性的問題。一方面,它涉及高自由度控制;另一方面,傳統模仿學習難以解決,網際網路資料也無法直接應用,因此我們從一開始就選擇了強化學習路線。實踐證明,強化學習在雙手配合、操作任務等方面效果顯著,2022 年我們還實現了雙手高速拋接。
這段經歷讓我認識到,很難有通用模型能解決雙手靈巧操作問題,甚至要設計出通用 VLA 來徹底解決雙手操作也非常困難。人的大腦都無法將右手經驗直接應用到左手,在模型引數層面實現技能和軌跡遷移更是難上加難,後訓練成本極高,不如針對特定硬體架構,用垂域資料和訓練方法定製模型。
所以在靈初的研究中,我們沒有采用端到端大一統模型,而是自下而上,基於硬體設計外骨骼採集裝置,針對超時打包、掃碼補貨等特定場景採集真人資料訓練。結合 VLM 的常識和物理 grounding 能力,在這些場景中獲得了比傳統機器人更強的泛化能力,具備一定商業化潛力,但距離實現人類 95% 的日常操作仍有很大差距。
從宏觀角度看,如今大家都在討論大模型 Agent。Sam Altman 的說法是,Agent 只要能完成人類 3% 的任務,AGI 就算實現,因為乘上人類的 GDP 是個巨大的數字。但目前具身智慧離這個目標還很遠,能完成人類 0.3% 的任務就已十分了不起。這需要產學研深度融合,探索各類應用場景,像高老師、趙老師等眾多科研人員,包括智源開展的 RoboMIND 專案,都非常有意義,若能成功,將為國家乃至人類帶來巨大貢獻。
仉尚航:是的,從資料到模型到硬體本體到系統,其實都需要聯動以及我們多方結合去努力,甚至最終形成一個生態。趙老師有什麼可以分享的嗎?
趙行:在這個問題上,我們起初就有深入思考。星海圖最早提出“智慧定義本體”,這並不完整,這裡的“智慧”涵蓋智慧模型演算法、資料採集難度以及可解決問題的數量。正如高老師所說,能解決 90% – 95% 的任務,這些因素共同決定合適的本體形態。所以第一階段,我們選擇輪式底盤加雙臂夾爪的機器人形態,它便於智慧模型控制、資料採集,也能處理不少任務,後續再逐步新增靈巧手等複雜部件。
需要說明的是,我們認為未來機器人生態會豐富多樣。但在 ToC 端,面向家庭消費者,大機率會出現通用人形機器人,因為人形是人類世界的“最大公約數”,能解決更多問題;而在 ToB 端,商業和工業場景中,預計會有幾種主流形態的機器人,針對具體應用場景,通過後訓練、test time training,或本體與任務協同設計,進行手臂加長、輪子加大等細化改造。這就是我們整體的思路。
6
長程任務與商業落地
仉尚航:最後 20 分鐘有一個我自己非常關注的問題,就是關於長程任務。我們通常用 VLM 拆解長程任務為原子任務,再由 VLA 執行。但 VLA 只能做原子任務嗎?它能否直接完成長程任務?目前相關研究很少,VLA 大多仍在執行短程任務。我想請教大家,VLA 是否有潛力獨立完成長程任務?若有,我們是否該朝此方向探索?如果要實現,該怎麼做,才能避免先由 VLM 拆解、再讓 VLA 執行短程任務的模式? 
高陽:我認為這並非最關鍵、最急需解決的問題。若 VLA 能完成大量短程任務,那搭配上層任務排程器,就能解決現實中多數問題。屆時,主要挑戰在於排程器與 VLA 的協同。直接用 GPT 等做排程器可能效果欠佳,因其不瞭解 VLA 的能力邊界,但可透過少量 prompt 使其掌握下層的能力邊界。雖然這種任務拆解方式並非最優,卻足以應對90% – 95%的任務。所以,這個問題有研究價值,但建議先搭建好基礎框架,再深入探索會更有意義。
仉尚航:明白,高老師認為這不是我們特別緊急要解決的第一個優先順序,那耀東覺得 VLA 是否需要儘量去解決長程任務?還是也像高老師這樣覺得說其實配合一個大腦模型做拆解就可以了。
楊耀東:我認為這是個很迫切的任務。在組建靈初實驗室時,我邀請了北大專門做推理模型 VLA 的梁一韜老師。從 Nvidia 的話語體系看,第一代具身智慧是 Minecraft agent,雖操作滑鼠鍵盤的自由度不高,但開放環境下任務複雜。一年多前,透過語言智慧體,在 Minecraft 上的 VLA 運用 self reflection(自我反思)、correction(修正)、replanning(重新規劃)等技術,讓其玩三四個小時不犯錯,完成有稀疏獎勵且需使用多種工具的任務已沒問題。
與機器人操作相比,很多機器人操作影片時長大概 10 到 15 秒。而像超市補貨這類複雜任務,籃子裡可能有二三十個物體、幾千個 SKU(庫存保有單位),操作過程遠超 10 到 15 秒,這對現有 VLA 是很大挑戰,若不能自我糾錯和重新規劃,任務成功率會顯著降低。
在和靈初開發大腦和小腦時,VLA 的推理能力優先順序很高。最近做了個靈巧手打麻將的 demo,一鏡到底,機械臂不僅要計算出牌,還要考慮各種原子動作,如牌的抓取方式等。僅靠 VLM 或強推理模型,沒有端到端且具備embody COT(具身思維鏈)能力的 VLA 是解決不了問題的。打麻將是這樣,補貨、掃碼打包、物料分揀等場景也都需要這種能力。
仉尚航:就是又回到咱們剛才說的閉環了,要是 VLA 能同時具備記憶、未來預測反饋閉環,進而完成超長任務,確實很有價值。趙老師,你覺得近期的 VLA 研究是否要聚焦於這類長程任務?如果需要,該如何推進?高老師和耀東老師提出了不同思路,你怎麼看?
趙行:在我們的研究中,相對更關注動作能力本身。畢竟長程推理較難定義,而語言和視覺的定義相對清晰。我們見過不少視覺語言的 reasoning benchmark,但還沒有視覺語言動作的 benchmark,這就急需學術界共同去定義並形式化這個問題,然後全力研究。
在機器人任務裡存在一個大坑。比如做研究時,想讓機器人做咖啡,那為何非要用VLA模型呢?為什麼不自己寫個狀態機,訓練一些動作再串聯起來解決問題呢?作為評審時,也會問寫論文的人,為什麼要用VLA來解決問題,畢竟現有的狀態機寫100條規則就能處理所有情況。
所以,VLA 領域急缺一個好的推理評價體系,讓我們清楚 VLA 的長程任務是什麼,並且在長程任務中,清楚是哪幾步因為推理失敗而失效,而不只是因為動作執行、自適應控制或恢復等能力不足而失敗。目前對於真正的機器人 VLA 推理模型還沒有一個確定的結論,這點很重要。  
仉尚航:對,趙老師也分享了我們目前為止沒有討論到的層面,就是如何定義和評測推理能力。
趙行:對,現在大家覺得長程只是時間長,但我們還得從任務的複雜度以及所需的邏輯推理能力的複雜度這些角度來看問題,我覺得會更好。
仉尚航:定義、評價、評測的確重要。目前為止我們已經跟大家討論了關於 VLA 模型的架構設計、資料、訓練策略,包括 RL 等,但還沒討論到的問題就是它的輸出,這也是直播觀眾們比較感興趣的問題。
目前主流的 VLA 輸出正規化有四種,分別是自迴歸的 Next Action Prediction(OpenVLA,FAST),Diffusion 或者 Flow Match Modeling(Pi0,RDT-1B),和最簡單的基於迴歸監督的(RoboMamba,RoboFlamingo),同時利用自迴歸和 Diffusion 進行魯棒 Action 輸出(HybridVLA),大家如何看待這幾種輸出正規化的發展呢?
高陽:從推理即時性角度看,我認為 Diffusion 和 Flow Matching 不可或缺,否則難以保證即時性。至於預訓練是否採用 Next Token Prediction,這取決於技術發展,特別是能否提升 Flow Matching 和 Diffusion 的訓練速度,這些都有待進一步研究探索。   
楊耀東:我們認為 tokenization 至關重要,因為我們希望探索具身思維鏈(embodied COT)和測試時計算(test time compute)的實現方式。若要以此為基礎,無法將動作輸出轉化為模型輸入,就無法進行 test time compute。
因此,我們深入研究了多種 action tokenization 形式,這或許是短期內將大模型成熟技術正規化最快遷移到 VLA 訓練中的方法,能快速把大模型的經驗應用到 VLA 上。不過,其中存在諸多工程問題,特別是 tokenization 的形式和表徵影響很大,而且最大的弊端是速度問題。
這很考驗工程設計,我們可以透過分塊(chunking)方法規避,也能探索 hybrid 混合方法。目前來看,自迴歸形式依然關鍵,因為想賦予模型推理能力,從設計角度,diffusion 這類方法還未顯現出打造強推理模型的明顯趨勢。   
仉尚航:那你會認為 Hybrid(混合)的結構可能是近期比較 Promising(有潛力的)的一種方式嗎?
楊耀東:可能是的,我們從靈初這邊釋出的 VLA 角度來講,還是做自迴歸形式,主要目的是能讓它做 test time compute,這個是我們比較關注的點。
仉尚航:大家關注的這個側重點也不同,趙老師對 VLA 的輸出正規化這塊有什麼想法呢?
趙行:當下 diffusion model 熱度很高,我對其原理和方法也有不少研究。雖然擴散模型在文生圖、文生影片領域展現出強大能力,但尚未證明自身在預訓練,尤其是多模態預訓練方面的價值。現有的文生圖或文生影片模型,大多使用固定的文字編碼器提取特徵,將其作為條件進行從噪聲到影像、影片的生成,本質上更多是訓練一個較大的解碼器,始終未能證明可用於多模態或跨模態混合預訓練。
反觀下一個token預測(next token prediction)方法,在 VLM 的研究中,許多工作將影像切分 patch,經線性投影后放入大的 Transformer,用該方法訓練能取得良好效果。由此可見,至少目前來看,next token prediction 在預訓練方面的可靠性更高。因此,我更傾向於認為自迴歸方式在當下是更有潛力的研究路線。
仉尚航:好,最後一個問題相信也是大家非常感興趣的具身智慧的落地場景。很多投資人、老師們都在討論具身智慧第一步能落地的場景是什麼?各位老師在產學研結合上做得非常出色,對於產業也有很好的觀察,所以想請問一下大家比較希望具身智慧先在哪個場景下面落地?是工業、家庭、醫療還是其他? 
高陽:我認為在落地應用方面,工業場景最容易實現。儘管 VLA 前景廣闊,但目前其能力尚處初級階段,現階段適合在需求最迫切的場景落地。
從傳統機器人四大家族的情況來看,工業生產是對機器人需求最旺盛的行業。例如汽車產業鏈,大部分總裝線已實現高度機器人自動化,工業客戶清楚機器人能帶來的價值。相比之下,商業 B 端客戶過去很少使用機器人,不太瞭解機器人應用的意義和預期效果,較難接受。而且工業場景相對簡單,所以無論是從場景複雜度,還是客戶使用經驗來看,工業場景都是 VLA 最先落地的選擇。    
仉尚航:對,我和高陽老師、趙行老師比較相同的點是之前都做過自動駕駛,和車廠本來就有合作,所以對汽車產業也非常關注。那耀東老師覺得哪個落地場景比較 Promising 呢?
楊耀東:這個問題其實比較難,因為我們聚焦靈巧手研發,不涉及人形機器人下半身問題,在靈巧操作領域,類似莫拉維克悖論,看似簡單的任務(如用螺絲槍打螺絲),用靈巧手實現卻很難,從泛化性、準確性等維度看,現有技術都難以完全模擬人類操作,所以工業總裝線上雖有大量人工操作,但機器人替代並非易事,很多東西需要去試。
今年從整個產業上來講,國內目前約 50 – 100 傢俱身智慧公司,去年投資額約 100 億,現階段需要各公司多嘗試不同場景,探尋能提升生產力、產量大、盈利且有 sweet point 的場景,一方面真的能提升生產力,一方面產量又很大,一方面還能掙錢,真能符合這三個圈的並集的技能集,我認為不會很多,不太像是短時間內我們突然能夠海量生產、廣而告之,然後瘋狂往外撲的局面。
從工業及 ToB、ToC 角度分析,工業場景雖適合機器人應用,但工業機器人年產量僅 60 萬臺,產量有限,和預想的差距太大;ToC 領域,人形機器人雖有前景,但實際應用功能不明確,現階段難以落地;還有 ToBC 模式,即機器人賣給B端用於C端服務(如迎賓、倒咖啡),以及文娛類(扭秧歌、閱兵機器人)等新場景或許有發展空間,如同無人機用於煙花表演。當前最大挑戰在於機器人產量少,選擇應用場景時需考量規模和影響力,過小的場景即便能做也缺乏商業價值,這是我的一些思考。
仉尚航:是的,現在還需要耐心,不同公司探索不同場景,大家把整個生態做起來也還是蠻好的,可以不用拘泥於一格。那趙老師對落地場景有什麼看法呢?
趙行:每個做具身智慧的公司都會深入思考過這個問題,我們的結論是,這一代通用 AI 機器人不應與傳統機器人或裝置競爭,而要開闢新賽道。傳統機器人節拍高、精度高,新一代通用 AI 機器人應避開高精度、高節拍任務,主攻精度要求不高但需泛化能力的任務,這類任務在工廠裡很常見,比如處理形狀不規則、位置不定甚至柔性物體的低節拍任務,現有技術都可以解決。
然後我們認為更大機會在商業領域。商業場景中的任務同樣對精度和節拍要求不高,而且在這些場景裡,機器人不僅能發揮實用作業價值,還能提供情緒價值,大概八成實用價值,兩到三成情緒價值 ,這樣的場景是很好的切入點。
仉尚航:感謝分享,各位老師在落地實踐與場景探索方面見解深刻。今天交流了所有預設問題,感謝三位老師百忙中傾囊相授,讓我收穫頗豐。相信觀眾透過這場圓桌論壇,在科研、產業及落地應用方面均能有所啟發。平時報告通常僅 30 分鐘,兩小時深度交流尤為珍貴。期待未來看到老師們更多精彩成果,也盼望與各位加強交流、深化合作。今天的交流到此結束,謝謝大家!
更多內容,點選下方關注:

未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社群進行轉載!
公眾號轉載請先在「AI科技評論」後臺留言取得授權,轉載時需標註來源並插入本公眾號名片。

//
推薦閱讀

相關文章