
當ChatGPT在2022年橫空出世,大模型技術掀起全球科技浪潮時,它開始改變了人工智慧,慢慢又改變了語音對話,它進一步地試探進入到了互動領域,但很少有人能預見到,僅僅三年後,這股AI革命浪潮會深刻地改變汽車行業。
這場關乎智慧汽車的革命浪潮以一種名為VLA的技術展開,也是以一種“Agent”的方式。
如果你關注智慧輔助駕駛行業,應該瞭解這兩年的熱詞“端到端”。
關於VLA,全名則為Vision-Language-Action,作為視覺–語言–行為三位一體的大模型架構,不少業內人士將VLA技術視為當下“端到端”方案的進階版本——它將空間智慧、語言智慧和行為智慧統一在一個模型裡,由此它也擁有更高的場景推理能力與泛化能力。
簡而言之,有VLA賦能的車不再只是一個駕駛工具,而是一個能與使用者溝通、理解使用者意圖的智慧體,透過語言模型和邏輯推理結合在一起之後,它能夠成為一個聽得懂、看得見、找得到,真正意義上的“司機Agent”。
自動駕駛技術正在經歷的一場靜悄悄但深刻的正規化轉移:從規則驅動向學習驅動,從分散式感知–決策–控制向端到端一體化架構,再到今天VLA的多模態融合統一建模。技術不再只是模組疊加的堆疊,也不再滿足於“看得見”和“聽得懂”,而是要求AI真正“行動起來”。“司機Agent”也擁有像人類司機一樣理解環境、做出判斷並立即執行的能力——成為像人一樣在複雜世界中感知、理解、推理和行動的整體智慧體。
放眼矽谷到北京,大洋彼岸的Waymo到理想,在這種多模態模型與機器人框架的技術趨勢中,理想汽車成為了中國車企中走在最前面的一位踐行者。
在2025理想AI Talk第二季活動上,理想汽車董事長兼CEO李想聚焦理想汽車最新推出的VLA司機大模型,不僅展示了“司機Agent”,更透過他本人對AI與人性的深度思考,勾勒出了智慧汽車發展的新正規化——
AI不應該是簡單地將"汽車智慧化",而是真正實現"人工智慧的汽車化"。
1
從NOA到VLA,理想為何要實現AI三段跳?
理想並非是突然轉向VLA的。在此之前,也經歷了充足的技術積累。
實話說,李想此前在第一季AITalk上首次提出公司未來是一家領先的人工智慧企業的時候,很多人可能並沒有get到他在表達什麼。
但如果你觀摩了理想這連續的兩季AI Talk活動,大概能看出這家公司是如何奔向“連線物理世界和數字世界,成為全球領先的人工智慧企業”企業願景的。
在第一季AI Talk活動中,理想展示出了技術路徑其一:將公司汽車的銷量擠到中國市場的領先地位,賣出年銷量50萬輛的汽車,在車上全部部署上端到端技術、Mind GPT,隨後Mind GPT經過1.0/2.0,然後到3o多模態智慧體的迭代後,理想決定推出理想同學App,讓這個語音助手觸及到更多的人。
第二季AI Talk活動中,理想回顧了在輔助駕駛領域的發展歷程,我們也可以清晰地看到一條從量變到質變的技術演進路線:2023年年底,全場景NOA的推送標誌著理想輔助駕駛從高速向城市場景的延展,為使用者帶來了更全面的智慧輔助駕駛體驗。而2024年7月15日推送的無圖NOA功能,則首次實現了對先驗資訊依賴的突破,讓車輛能夠在沒有高精度地圖的情況下依然保持良好的駕駛表現。

2024年10月23日,理想汽車推送的端到端+VLM功能,真正意義上實現了One Model一體化端到端模型的大規模實踐應用,並首次將大模型部署至車端量產晶片。這一突破性進展不僅體現了理想在AI演算法上的深厚積累,更展示了其在車規級硬體與大模型融合方面的獨特優勢。
2025年3月18日,理想汽車正式釋出下一代自動駕駛架構VLA。這在業內算是一次質的飛躍——當眾多汽車品牌仍在為L2級輔助駕駛技術最佳化細節時,理想汽車卻完成了一場田徑運動中的"三級跳",透過層層遞進取得成績,理想汽車的智慧駕駛技術經歷了從規則演算法、到無圖NOA、再到端到端+VLM,最終邁向VLA司機大模型的"三段"進化。
如果從結果來驗證這其中的規律:從無圖NOA到端到端+VLM,再到VLA司機大模型,每一步都至關重要,且每一階段都是不可跨越。
比如NOA這一階段的核心在於感知能力和環境適應性的提升,是連線規則演算法和端到端模型的關鍵橋樑。
第二階段端到端+VLM功能,標誌著從規則驅動向資料驅動的根本轉變。
前兩個階段的技術沉澱,解決了兩個問題:一是前期沒有足夠的資料支撐模型訓練;二是缺乏規則約束導致的安全風險。
汽車駕駛不同於簡單的網際網路應用,它直接關係到使用者的生命安全,需要在實際道路環境中反覆驗證和迭代。
如果沒有透過前期收集的大量實際道路資料和規則演算法的約束,成功訓練出了穩定可靠的端到端模型,並將其與VLM視覺語言模型結合,就無法初步實現了系統對環境的"理解",只是簡單的"識別"。

理想的VLA從“輔助”到“智慧體”的躍遷,建立在前三個階段所有技術積累的基礎之上。如果沒有規則演算法打下的基礎,系統就無法理解基本駕駛規則;如果沒有無圖NOA階段鍛造的環境適應能力,系統就無法應對未知場景;如果沒有端到端+VLM階段的模型整合經驗,VLA的三位一體架構就無從談起。
從一定程度上來說,VLA技術的成功離不開中國本土AI市場的崛起。
另外,也正如DeepSeek在大模型領域的發展路徑所示,從構建叢集能力到基建、鏈路的最佳化,透過這些前期的積累,才能實現低成本和高效率的AI應用。DeepSeek不可能一步到位構建出強大的大語言模型,而是經歷了從基礎演算法研究、資料收集清洗、模型架構最佳化到最終產品落地的完整過程。
李想也在活動上強調:"如果規則演算法都做不好,根本不知道怎麼去做端到端;如果端到端沒有做到一個極致的水平,那連VLA怎麼訓練都無從談起。"這也再次證明,這個過程中沒有捷徑可走,每一步都是通往下一步的必要鋪墊。
1
司機Agent,VLA的實力
說了這麼多,VLA到底可以實現什麼樣的功能?
前面提到,VLA(Vision-Language-Action)是視覺–語言–行為大模型,代表著機器人大模型的新正規化。它將空間智慧、語言智慧和行為智慧統一在一個模型中,賦予了系統強大的3D空間理解能力、邏輯推理能力和行為生成能力,讓自動駕駛系統真正具備感知、思考和適應環境的能力。
在理想最新公佈的demo影片裡,理想的這個“司機Agent”展示了其“能聽懂人話”且“直接執行”的智慧輔助駕駛能力:

從技術原理上看,前文提到的端到端+VLM的階段,VLA並非簡單地將端到端模型和VLM模型結合在一起,而是所有模組的全新設計與整合。

據介紹,其工作流程可概括為:3D空間編碼器透過語言模型處理後,與邏輯推理結合,給出合理的駕駛決策,並輸出一組action token(動作詞元)。這些action token是對周圍環境和自車駕駛行為的編碼,隨後透過diffusion(擴散模型)進一步優化出最佳的駕駛軌跡。整個推理過程都發生在車端,並且實現了即時執行,這對計算效率和系統響應速度提出了極高要求。
我們嘗試簡單類比解讀一下:
-
視覺智慧(Vision):就像人類駕駛員透過眼睛觀察道路情況,VLA透過車載攝像頭和感測器"看見"周圍環境。但不同於傳統系統只是識別物體,VLA能夠理解場景的語義和空間關係。這就像是從"我看到一個紅色物體"升級到"我明白這是一個紅燈,需要停車,而且它位於前方十米處的十字路口"。 -
語言智慧(Language):如果說視覺智慧是VLA的"眼睛",那麼語言智慧就是它的"大腦"。透過強大的語言理解和推理能力,VLA可以處理複雜的人類指令,理解上下文,並將視覺資訊與語言知識融合。比如當你說"在前面路口掉頭"時,VLA不僅能識別出"路口"這個概念,還能將它與視覺中看到的道路匹配,理解"前面"這個相對位置,並執行適當的停車操作。 -
行為智慧(Action):這是VLA最與眾不同的部分,它不只是理解,還能採取行動。VLA將對環境的理解轉化為精確的駕駛決策,生成平滑、自然的駕駛軌跡。這就像一個經驗豐富的司機,不僅知道何時轉彎,還知道如何以合適的速度和角度完成轉彎,使乘客感到舒適。
相對直觀地理解VLA的工作原理,可以儘可能地將其想象成一個高效的駕駛決策鏈條。

理想稱,理想輔助駕駛系統從"端到端+VLM雙模型分立"向"VLA三位一體架構"的躍遷,本質上是突破了多模態協同效率與物理世界建模能力的雙重瓶頸。
多模態協同效率問題可以理解為:之前的雙模型架構就像兩個專家各自獨立工作——一個負責開車,一個負責理解指令,溝通效率低下。兩個模型工作頻率不同,聯合訓練和最佳化困難。想象一下兩個人合開一輛車,一個人負責方向盤,一個人負責油門和剎車,卻無法流暢溝通,這顯然會導致駕駛不協調。VLA則將這兩位專家的能力整合在一個大腦中,實現了無縫協作。
物理世界建模能力不足則更像是:基於千問等大模型的VLM雖然在網際網路2D圖文資料上訓練充分,但對於3D世界的理解和專業駕駛知識存在短板。就像一個在模擬器上學習駕駛的人,缺乏真實道路的立體感和空間認知。VLA透過專門的3D空間編碼技術和大量真實駕駛資料訓練,彌補了這一不足。
從影片上的效果來看,VLA能夠更好的處理人類駕駛行為的多模態性,可以適應更多駕駛風格。
這也是前文所提到的,語言模型和邏輯推理結合在一起之後,它能夠成為一個聽得懂、看得見、找得到,真正意義上的“司機Agent”。
“類似人和代駕的關係,人們怎麼和代駕說,就怎麼和司機Agent說。”
1
理想率先駛入無人區
很明顯,VLA技術的突破,在汽車座艙和車輛駕駛層面進行了結合,也拉高了智慧輔助駕駛系統的上限。
李想將智慧輔助駕駛拆解成了三個發展階段,用自然界中不同的物種進行了形象的比喻:
-
第一階段,昆蟲動物智慧。透過機器學習感知配合規則演算法的分段式輔助駕駛解決方案,需要有既定的規則,同時依賴高精地圖,類似螞蟻的行動和完成任務的方式。 -
第二階段,哺乳動物智慧。端到端階段透過大模型學習人類駕駛行為(類似馬戲團的動物),但其對物理世界的理解並不充分,此階段透過三維影像判斷自身速度和軌跡以及在空間中所處的位置,足以應對大部分泛化場景,但很難解決從未遇到過或特別複雜的問題,此時需要配合視覺語言VLM模型,但現有視覺語言模型在應對複雜交通環境時只能起到輔助作用。 -
第三階段,人類智慧。VLA階段可以實現類似人類觀察世界的方式,利用3D視覺和2D的組合構建更真實的物理世界,VLA擁有自己的腦系統,進一步理解物理世界,還具備語言和思維鏈系統,也就是VLA的司機大模型。
這同時也對應著李想本人對於AI工具的分級制度——資訊工具、輔助工具和生產工具,"我覺得人工智慧變成生產工具,然後才是真正人工智慧爆發的時刻。"

一定程度上,這也是在強調,司機Agent——VLA技術有望成為具備這種生產工具特徵的先驅者。
從人工智慧行業來看,VLA是“機器人模型”的一種,是Physical AI的原型。在ChatGPT、Gemini等數字智慧代表主導的軟體智慧浪潮之後,AI的下一個風口毫無疑問將是物理智慧。汽車,作為最複雜的物理空間智慧終端,是理想選擇的主要切入口。一旦VLA模式在車上跑通,空間智慧+語言智慧+行為智慧三者的融合,一定程度也將為其他領域的機器人模型打下正規化基礎。
OpenAI、DeepSeek等大模型公司雖強,但他們並未真正涉足汽車領域的空間智慧與行為建模,更沒有語料、資料和場景去覆蓋家庭使用者與真實路況的多樣性。正因如此,理想選擇了自己下場,打造自己的基座模型。實打實地講,Language層上藉助DeepSeek,但空間智慧和行為智慧部分也得靠自己一步步打磨,嘗試建立閉環能力的雛形。
“交通工具”能否能成“空間機器人”尚未可知,但司機智慧體確實是人工智慧汽車化的無人區。
這場變革,不只是理想的突破,更是AI進化的必然。
正如手機並非因通話而被重新定義,而是因其成為“數字生活中樞”才改變了世界——今天的汽車,也將在VLA的驅動下,從“移動交通工具”進化為“移動智慧空間”,成為AI與人的共生載體。
而這條從端到端走向VLA的進化之路,或許才剛剛開始。
