VLA是特斯拉V13的對手嗎?

VLA本土化破局。

2月底,特斯拉FSD入華了,國內全體智駕企業繃緊了脊背。
3月,特斯拉FSD“翻車”和“絲滑”同時出現,大佬們的笑容雖然回到了臉上,但心裡的焦慮就不得而知了。
回顧特斯拉FSD入華後的表現,有一種將《智駕迷惑行為大賞》和《智駕優秀生演示稿》放在一起排排坐的割裂感。一方面在上海陸家嘴,FSD把公交車道當超車道狂飆;廣州塔底下,導航明明顯示綠燈,車子卻因為把“前方施工”的警示牌看成了廣告牌突然來了個急剎。一方面,它在常規駕駛中,展現出了老司機的水準,能夠準確避讓非機動車,毫不遲疑地完成掉頭、轉彎等動作,給到使用者熟練絲滑的體驗。
FSD在常規駕駛中表現絲滑
造成這樣場面的理由也很簡單,特斯拉的底層AI技術積累雄厚,可以支撐智慧駕駛在常規使用過程中的絲滑體感,但由於搭載了端到端模型(對比傳統模組化的智慧駕駛模型,端到端模型雖然在感知、決策、控制等過程不會產生資訊的損耗,但本質上仍是依照指令實施相應的操作,不能理解潮汐車道等特殊路況的行駛規則)缺乏中國資料訓練系統,導致FSD並不瞭解中國複雜的人車博弈場景,看不懂特殊道路的行駛規則,這也演變出了特斯拉的“智駕迷惑行為大賞”。
而大佬們的集體焦慮症結也在於此,因為其強大的底層邏輯能力,特斯拉一旦補齊了國內短板,勢必會給國內車企造就一片“烏雲”。
在這時候,VLA出現了。
一個好訊息和一個壞訊息
好訊息是,VLA模型可以解決端到端的“短板”,融合了看、想、做三個動作,分別使用攝像頭+雷射雷達收集路況資訊,相當於給車裝上了24k大眼睛;大語言模型透過解決交通標誌、行人意圖等分析接下來的路況,不誇張的說連“行人要闖紅燈”都get到,潮汐車道、公交車道也應付得了;根據看到的和思考的,VLA可以為車輛做出最優路線並控制車輛,還能貼心解釋決策邏輯,如“減速是因為前方有兒童突然衝出”……
簡單來說就是VLA融合了視覺、語言和動作,給車輛賦予了“類人思維鏈”,從端到端的“看圖說話”演變成了“閱讀理解”。
既然VLA可以解決端到端的技術短板,那為什麼國內車企對特斯拉FSD進入中國還會感到焦慮?其實很容易理解,特斯拉FSD的基礎能力與學習能力是強大的,僅靠在網際網路上尋找中國道路的影片片段來訓練,就能讓系統展現出老司機的一面,一旦特斯拉補齊在中國的資料,克服在中國遇到的“水土不服”,它或許將成為中國市場最好的智駕之一。 在前幾天的百人會上元戎啟行CEO周光與博世中國區總裁吳永橋也直言,FSD V13在端到端智駕技術上領先國內高階智駕系統一個代差。
那麼,底層技術的參差是國內VLA可以跨越的嗎?FSD V13跟VLA在業界都被視為智駕大模型階段的產物。在周光看來,VLA的能力使其成為“通才系統”,即在垂直領域內具備廣泛的場景適應性。
“VLA則能補齊端到端模型的短板,是一位駕駛通才,看得懂語義資訊,能理解特殊車道的駕駛規則。只有先成為駕駛通才,才能成為駕駛領域的專家,即實現完全自動駕駛。”周光將VLA架構視為走向L5的轉折點,他認為VLA的本質是構建時空統一的認知框架,這為實現L5級自動駕駛提供了底層支撐。 
簡而言之,周光認為元戎啟行推的VLA是在保留核心AI能力的基礎上,向L5進發的較優方案,既滿足了技術追求也能滿足商業化。
好訊息足夠令人振奮,壞訊息就讓人多少有些不安了——那就是目前還沒有完全VLA車型落地。但是先別急,已經在做了。
四條路線的“逆襲”之路
現在國內市面上明確佈局VLA的玩家有四個,分別是資料“狂魔”理想、“合資”大戶奇瑞、“買買買專業戶”吉利以及激進派選手元戎啟行。
理想用的是“MindVLA”,融合了3D高斯編碼、MoE混合專家架構這些高大上的技術,複雜路況決策準確率確實領先同行。但關鍵問題是他們得同時養著端到端和VLM兩套系統,雖然資料(底氣)充足——動態資料湖覆蓋密度全行業第一,豪言要在2025年實現“資料自由”,但研發成本直線上升,馬上覆蓋一個造車新勢力的成本了。
合資大戶奇瑞的訣竅是朋友多,拉上華為、英偉達做出一個獵鷹智駕,計劃VLA模型在獵鷹900上實現,但它的世界模型(WM)預測能力還沒有達標,落地時間也定在了2027年。
“買家專業戶”吉利則是以“千里浩瀚”智駕系統為矛頭,祭出“全域AI+天地一體”的組合拳,試圖用生態碾壓單一技術。
激進派的元戎啟行則和前三者有著本質的區別,它不僅是極少數投入研發VLA的智駕方案供應商,而且已經把前者甩在身後走進了量產階段。不出意外,年中就可以看到搭載元戎VLA的車型上路。
別人剛開始研究,元戎已經在量產了?其實仔細看看元戎啟行的發展路線,就能發現其實TA一直在默默處於前列。2020年元戎啟行提出“無圖”智駕,到了2024年無圖的風才刮起來;2024年車企大肆談論端到端的時候,元戎啟行的端到端已經落地量產;2025年都在搶佔端到端市場份額的時候,元戎的下一代VLA已經量產進行中了。
周光曾直言自己是國內智慧駕駛技術的“啟蒙老師”,現在再來看,確實也不必驚訝。
在任何行業裡,落後就要捱打都是一個共識,智慧駕駛行業不外乎。車企都想自己是“最”領先,這個時候,選擇一個“成熟穩重”第三方的優勢就體現了。
已經實現量產的企業先一步建成了技術護城河:憑藉VLA技術所支援的長時間推理與全域性決策能力,將顯著提升城區NOA的實際使用頻率,進而為企業積累更大規模、更高質量的真實場景資料;基於Scaling Law(規模律),資料規模的提升將反哺演算法效能迭代,進一步提升使用者體驗。
譬如元戎啟行,不但已經進行到了量產階段,而且還已經跟高通達成了合作。透過在運算元開發層面的深研,未來有機會把VLA模型釋放到更多晶片平臺,支援純視覺和雷射雷達版本,這意味著作為一個第三方元戎已經生動演繹了什麼叫“活兒好,事兒少,跟誰都搭。”
當然,後來者想居上也不是沒可能。但這意味著不僅要耗費大量的資金和資金,最怕的就是,廢了九牛二虎之力做成了的時候,別人可能迭代到第3代甚至第4代了,白白錯失最佳發展的“黃金視窗期”。
總結一句,出力不討好。就像文學家張岱說的“不能為了喝一口奶去養一頭牛”。因為已經有了成熟的牧場,養殖(底層邏輯)-護理(AI技術的延展能力)-出品(量產能力)都已經成熟,實在沒必要。
當2023年宣佈FSD BetaV12(完全自動駕駛測試版)全面轉向端到端架構時,在一定程度上顛覆了行業的認知。當特斯拉將未滿血版的V13同步到中國時,國內智駕行業再起波瀾,車企高管們時刻警惕著自己的心臟能否承擔起特斯拉的資料量補齊後對自家產品帶來的衝擊。
當下,國內智駕領域的頭部企業都已實現量產,各家的工程化能力都處於同一水平段。
智慧駕駛的競爭也由工程化能力切換為AI模型的底層能力。可以預料的是,當今年國內搭載VLA技術的車型逐步上路時,或許特斯拉FSD和國內VLA孰強孰弱將有一個新的答案。


相關文章