先讓AI學會害怕,再讓它握緊方向盤

以VLA模型,推動智駕從執行走向思考。
PART 1

破局:從路牌困惑到“讀懂”世界

元戎啟行研發VLA模型,在智慧駕駛無人區開啟“瘋狂冒險”。從概念到落地,他們用堅持詮釋技術信仰,讓智慧駕駛從“執行”邁向“思考”。
20246月的一個炎熱下午,周光乘坐測試車經過公司附近的一處紅綠燈,一個不起眼的交通牌提示"車輛左轉不受燈控",測試車依舊停下等待紅燈變綠。
那一刻,他盯著後視鏡裡不斷鳴笛的車輛,意識到:人類司機能瞬間理解這類特殊場景,但即便是當時最接近人類駕駛能力的端到端模型,也因無法理解文字路牌未能透過。
這個問題在他心裡種下了一顆種子,後續的內部會議上,他與研發團隊幾次提起這個問題。
與此同時,元戎啟行正在探索通用人工智慧的多元路徑。RoadAGI實驗室裡誕生了VLA原型,它具備環境語義理解能力,能完成取放物品、避障行走等簡單任務。
在一次Demo演示中,周光發現這個能根據環境資訊和語言指令自主決策動作的模型,與需要解讀複雜路況的智慧駕駛模型有著驚人的相似性,不同的是它能夠理解語義資訊。
這給了他很大啟發,彷彿密碼鎖最後齒軌的咬合,思路迷宮轟然中開。隨著ChatGPT等大語言模型爆發,周光與團隊更加確定:當現階段端到端模型陷入corner case泥潭時,融合語言理解的VLA或許能開闢新航道——這不是簡單的技術疊加,而是讓機器真正開始讀懂物理世界。
20249月,元戎啟行將VLA模型提升為公司級研發專案。
在技術發展的浪潮中,時間往往至關重要,這是一場早於行業的“技術豪賭”。引領者從不等“風口”,而是提前看見風的方向。
元戎啟行作為一家人工智慧企業,始終相信AI技術將重塑生產力關係,引領第四次工業革命的到來。在眾多AI衍生應用中,元戎啟行選擇智慧駕駛作為突破口,因為它能打破數字與物理世界的壁壘。
隨著輔助駕駛技術大規模上車應用,元戎啟行打造的基座模型將藉助駕駛行為與物理世界深度互動,進而洞悉其運作規律。無論是無圖方案、端到端模型,還是VLA模型,元戎啟行始終圍繞AI技術解決問題。
但最難的從來不是技術本身,而是在無人區找到那條對的路。VLA模型的出現,讓智慧駕駛從執行者邁向了思考者——它開始理解為什麼這樣開,而不僅僅是怎麼開
這是VLA模型的優勢,也是研發之路的開始。
PART 2

攻堅:在荊棘中定義“安全”邊界

當決定了新的技術方向,大家都興奮不已,希望作為行業技術引領者,率先研發出更好用的智慧駕駛方案。但當著手開始做,才發現了重重困難。
一方面,VLA在智慧駕駛領域研究應用少,可參考的專業知識匱乏,研發人員需大量閱讀資料後逐步摸索;另一方面,公司面臨客戶量產壓力,主線資源傾向量產專案,且新技術效果有不確定性,VLA研發只能保守推進,進度緩慢。
"最開始,我們都被VLA'語言天賦'迷住了。"產品經理石傑回憶道。
VLA模型具備強大的文字理解及OCR識別能力,團隊投入大量精力攻克潮汐車道、可變車道、待轉區等文字理解場景。
當測試車順利通過當初困擾大家的車輛左轉不受燈控指示牌,並給出文字解釋其駕駛決策過程時,車上的人非常激動,這解決了現階段端到端系統的黑盒問題,透過思維鏈(CoT)實現透明化推理,極大增強使用者的信任度。
同時,VLA模型在網際網路學習海量知識,能夠處理很多corner cases,例如識別超載小貨車、路面上的輪胎等等;還可以透過語音互動控車,即時對話駕馭車輛。
然而,一次測試中的驚險一幕,讓所有人對VLA的期待有所轉變。
測試車在橋洞正要左轉,目之所及沒有任何車輛,測試車勻速前進,突然竄出一個外賣騎手迫使車輛緊急重剎,車上的人都嚇了一跳。大家反思如果是老司機開車,一定會在橋洞盲區提前減速避免風險。
這點醒了所有人,安全才是輔助駕駛的生命線,使用者需要的是一個真正安全的輔助駕駛系統,能夠主動預判和規避風險,這比語音互動更為重要。
對整個場景的高階語義推理是目前端到端系統缺乏的,卻是VLA更擅長的,這一刻,防禦性駕駛成為VLA模型的核心進化方向。
技術可以不斷突破極限,但安全永遠是我們的底線。在安全、效率和舒適中,我們努力找到一種平衡,讓輔助駕駛成為使用者日常愛用的出行方式。
研發之路也充滿技術攻堅,VLA模型研發人員肖毅正在摸索。VLA模型的研發要經歷架構設計、資料探索和規模化、模型驗證、部署上車、持續迭代等流程。在架構設計時,起初肖毅計劃雲端推理,將大語言模型部署雲端,資料回傳至車端控車,但實車上路雲端到車端的時延太大,例如車速60km/h,假設時延需要2s,在拿到雲端結果時,車已經向前跑了33米,在這期間實際路況已經發生變化,對於需要及時響應的場景,行駛安全將受到極大威脅。一個月後,研發團隊放棄了雲端推理,改為本地部署模型。
對車端有限的算力來說,模型車端部署給模型設計、模型加速以及部署最佳化都帶來了全新挑戰。研發團隊壓縮了詞表,對模型做了剪枝(pruning)和加速,同時元戎啟行強大的推理引擎團隊對VLA模型做了大量的運算元最佳化、視訊記憶體最佳化、硬體新特性適配等,最終使得VLA在車端順暢地跑起來。
當然,還有另一個更大的挑戰。資料是一切AI模型的基礎,大規模的高質量資料對VLA模型來說是重中之重,靠人工標註,效率極低。後來肖毅透過迭代大模型自動給資料打標籤,解決了資料規模標註難題,目前元戎啟行也達到了千萬級Clips的資料規模。
"現在行業都在追逐大模型,但真正稀缺的是對駕駛本質的理解。"周光常對團隊強調。當行業忙著給系統載入更多語料庫時,元戎啟行的VLA正在深度學習"如何在不完美的人類駕駛環境中做出最安全決策"——這才是AI司機的靈魂。
PART 3

領航:駛向更安心的AI時代

今年,將有超5款搭載元戎啟行VLA模型的車量產,首款車8月即將上路。
對於VLA,我期待可以應用到Robotaxi上,成為真正的AI司機,讓使用者在安靜環境中與它直接溝通。它不僅能響應指令,還能主動守護安全。周光說到。
隨著VLA模型的迭代與應用,我們期待它不僅能成為使用者的“AI司機,更能推動整個行業向更安全、更透明的智慧駕駛時代邁進。讓每一次出行,都更安心、更自在。
VLA的研發,是元戎啟行技術信仰的縮影。不做追隨者,只做定義者,這條路很難,但值得。
穿行於行業發展的驚濤駭浪,元戎啟行深知VLA不過是航程中的臨時錨點,唯以技術研發為壓艙石,才能於風浪中穩馭船身,航向人類智慧深處。
未來,元戎啟行將不侷限於汽車載體,致力於訓練更先進的AI模型賦能多種智慧體,實現任意點到點的移動能力,先達成RoadAGI(道路通用人工智慧),最終邁向通用人工智慧,點燃人類生產力的質變奇點

近期熱門文章


相關文章