關於智駕端到端,到底一段式好還是兩段式好?

頭圖來源 | 網路
作者 | 建武
編輯 | 蘇鵬
目前,端到端智駕非常火熱。聊到高階智駕,如果不說自己用上端到端,可能還會被說「不專業」。
雖然大家都叫「端到端」,但實際上,各家車企實現路徑也不盡相同。
目前行業主要分為一段式和兩段式兩個流派。
一段式方案是將感知、決策、規劃等模組整合到一個模型中,直接從感測器輸入外部環境資訊,直接輸出自車的行駛軌跡。
兩段式方案通常由兩個主要部分組成,即感知模型和規控模型。資訊在經過感知模型過濾後,再到規控模型。
對於這兩種路線,各家車企看法也不相同。
一段式玩家
一段式端到端的優勢在於,只要智駕大模型之前見過、學習過如何應對這樣的場景,即便感知側沒有對未知物體定義,依然能直接做出正確的應對策略。
關於一段式端到端的好處,Momenta CEO 曹旭東舉了一個很有意思的例子:清明節碰到燒紙錢火堆,怎麼去應對這樣的場景。
「碰到燒紙錢火堆,我也很緊張,不知道能不能避讓,結果我開過去確實避讓成功了,我專門開回去測試了五遍,都能成功繞過火堆」曹旭東激動的說道。
一段式端到端有極強的學習能力,所以對資料量的要求非常高。
這裡的非常高表現在兩個方面:
1、資料量
2、資料質量
對於一段式端到端來說,它能力提升,很大程度上來自於對資料的攝入量,資料越多,學習場景越多,能力提升也就越快。
一個很好的例子就是理想端到端智駕的訓練。
理想汽車智慧駕駛研發副總裁郎鹹朋表示:“隨著模型訓練資料的增長,我們發現智慧駕駛模型的效能提升規律也體現出了Scaling Law。資料的規模與質量已經成為模型效能的決定因素。
圖片來源:網路
來看這張圖,其中藍色是100萬Clips、綠色代表200萬Clips、黃色代表300萬Clips(現在已經增加到400萬)。
可以看到,不同資料量規模訓練,效果不一樣。目前,城市工況平均行駛里程接管次數從最開始10公里接管一次,9月底版本差不多30公里接管一次。
郎鹹朋透露,最新模型可以做到差不多40公里接管一次。「假設使用1000萬Clips資料量,根據剛才趨勢,城市工況接管里程將來到100公里。」
所以,理想還會加大劑量,繼續訓練。
目前理想汽車智慧駕駛的訓練里程已達25億公里,預計今年年底將突破30億公里。
圖片來源:網路
當然,資料量是一方面,另一方面資料質量也非常關鍵。
從大的方向來看,自動駕駛90%的技術難題已經被攻克,自動駕駛核心難點已經不在車道居中、車道巡航,而在剩下的10% corner case(長尾場景,比如剛說的清明節火堆)的處理(現在也可能是7%或8%),這些場景的資料價值才更高,對智駕模型提升也更大。
而在車企們收集到的資料中,絕大部份都是常見和重複場景,說句不好聽的,80%、90%資料都是垃圾。
這也是為什麼像特斯拉、蔚來這些公司都在車上搞了「上報」功能,可以把智駕過程中遇到的問題甚至影片片段直接回傳給特斯拉,供特斯拉後續進行資料訓練。
理想則是將百萬車主海量行駛資料,經過司機評價、場景挖掘來篩選出高質量樣本,以作為模型的訓練資料,不斷改進現有基準。
這些資料,才是真正有價值的資料。
除了場景資料,還有駕駛員駕駛資料質量。
要明確的一點是,並不是所有人智駕資料都適合拿來餵給模型,有些人駕駛風格激進,有些人過於保守,最終落在智駕上的體現就是不太好。
所以,像華為,就是在拿開國賓車退休的人,收集他們的開車資料然後讓智駕更平順,更擬人。
如此一來,就又篩掉了一大批垃圾資料。
圖片來源:網路
One Model 端到端就像水,你餵它什麼(相當於給他容器),它就會越像什麼。
所以,一旦有源源不斷超品質量的資料輸入,它的上限會非常高,最終會非常擬人,非常像一個老司機。
到這裡,你可以理解資料對一段式端到端的重要性了。
這也是為什麼車廠要擴大車隊規模,擴大資料採集量的原因。
一段式端到端很好,但是也有很明顯的短板。
今年8月餘承東曾講過這樣一個案例,之前在美國試特斯拉FSD,碰到靜止不動的白色貨車/綠色貨車,FSD不減速直接就撞過去了。
所以,餘評價特斯拉智駕「上限高,下限低」,其實不無道理。
一段式端到端本質是一個黑盒系統,而且缺乏透明度,工程師很難去debug下限很低的問題,因為不知道問題出在哪裡。
所以為了處理這些問題,採用一段式智駕方案的公司們想出了不同方式來補齊短板,提升體驗:
理想在端到端之外,加入了VLM大語言模型,並引入了快系統和慢系統和概念。系統1 主要負責應對駕駛車輛時95%的常規場景,系統2由VLM視覺語言模型實現,具備邏輯推理、複雜分析和計算能力,在駕駛車輛時用於解決複雜甚至未知的交通場景,佔日常駕駛的約5%,其接收感測器輸入後,經過邏輯思考,輸出決策資訊給到系統1。系統1和系統2相互配合,分別確保大部分場景下的高效率和少數場景下的高上限。
圖片來源:網路
Momenta則是引入一個「短期記憶、長期記憶」的概念,「短期記憶天級迭代 ,好的資料和方法得到驗證後,再進入到長期記憶模型學習,達到更好的效果」,現在在智己車上你就能體驗到Momenta的端到端。
元戎走的也是一段式路線,不過在一段式模型外,元戎還是加了一個「安全兜底策略」來作為兜底。明年元戎會基於NVIDIA Thor晶片研發VLAM(Vision-Language-Action Model,視覺-語言-動作模型),「透過VLAM,元戎啟行的智慧駕駛系統可以連線視覺、語言、動作,能識別和描述道路環境、交通標誌、道路參與者等,理解交通場景中複雜的互動事件、隱藏的語義資訊和邏輯推理。即便碰到罕見路標跟邊緣場景,系統也能有高效的場景泛化能力和穩定的駕駛表現。」說人話就是,智駕上限更高,更擬人。
至於小鵬,從架構來看,採用的是「感知神經網路XNet+規控大模型XPlanner+AI大語言模型XBrain」三網策略,說實話很像是兩段式端到端,不過官方表示「三張網路互相交疊、重合,且彼此之間採用神經元連線,而不是透過規則定義結構介面」。
兩段式玩家
一段式流派玩家很多,但兩段式也不少。
兩段式的好處在從感知到規控不是完全黑盒,可以進行debug系統在決策時的邏輯,而且有更好的可解釋性、安全性。
但是,就像商湯科技聯合創始人、首席科學家,商湯絕影CEO王曉剛:「兩段式『兩段式』方案資訊經過感知模型過濾後,再到規控模型,損失較多,同時還會面臨無法全面理解整個複雜場景、泛化能力和解決corner case的能力比較弱等問題。」
所以,兩段式也不算一個完美解決方案。
但是依然有不少玩家選擇了這條路徑。像現在公認的智駕頭部華為以及百度Apollo都是兩段式玩家。
圖片來源:網路
先說華為。華為的端到端用的是「GOD網路(感知)+PDP網路(規控)」的端到端組合,考慮到端到端還有20-30%的「幻覺」問題,即系統可能會產生與現實世界不符的感知或預測結果,有點類似於人類在某些情況下出現的幻覺,所以為了保證安全下限,華為在架構里加了一個保底的「本能安全網路」,提供類人的智駕。
百度Apollo也是目前兩段式端到端方案的擁躉。在百度看來,端到端改造上也是逐步演進也不是一蹴而就,即使是兩段式,一蹴而就會有很大的風險,所以是逐步逐步迭代演進的。「安全是規模化部署增加時的第一要素,這也是我們做技術選型考慮非常重的一點。」
此外,全球供應商巨頭博世也給出自己的判斷:兩三年之內,兩段式端到端方案是短期內較為理性的量產主流方案。
博世端到端智駕的規劃是這樣的:
2024年,基於 BEV+Transformer的感知系統+基於規則的預測、決策和規劃系統
2025年,兩段式端到端,感知端到端系統+決策和規劃到端系統
2026年,一段式端到端模型+Principle-based safety check
圖片來源:網路
總之,一段式和兩段式各有優缺點,沒有高下之分,最終還是要看最終實際體驗。
而從目前城區智駕功能推進速度以及整體體驗來看,華為依然是最快的那一個,之一。
端到端只是一個開始
在元戎看來,端到端只是進入智慧智駕的一個入場(開端)。
「至少就目前而言,大語言模型、生成式人工智慧、端到端還沒有實現完全打通,可能在下一步,可以做到三位一體。」
所以,高階智駕的卷還在後面。
說一個容易被大家忽略的細節:在其他玩家剛轉入城區智駕競爭,華為小鵬理想已經開始瞄著L3去了。
在2024中國重慶汽車論壇上,理想董事長李想表示:「我們認為最早在今年年底,最晚在明年的上半年,真正的L3(有監督的自動駕駛),就可以批次向用戶交付。」
10月23日,理想「端到端+VLM」已經開啟了全量推送,隨著這一波推送,理想能拿到的智駕訓練資料將從之前的萬人來到幾十萬人,後續智駕進步速度值得關注。
圖片來源:網路
至於華為,在前不久世界智慧網聯汽車大會上,華為ADS已經規劃到ADS4.0。而且目標是高速L3商用,城區L3試點。
小鵬也曾表示,2025年小鵬汽車將在國內實現類L4級智駕體驗。
圖片來源:網路
總之,接下來這幾年,自動駕駛行業玩家與玩家之間的差距正在逐漸拉大,即便是頭部玩家,也會看到更加明顯的技術差距。
技術進步確實值得期待,但在卷技術之外,其實還有一點不能忽視,那就是安全。
技術進步確實重要,但是背後的安全才是智駕的第一要義。
最近一段時間,因為智駕失誤不管是在行車還是泊車方面,都出了不少事情,我想大家也關注到了。
我覺得應該引起企業反思,企業不能為了搶佔輿論高地、為了快而快,否則會適得其反。
如果要在端到端智駕「更激進的技術落地」和「保守的安全」中選一個,那我寧願選後者。
親愛的讀者們,不設定星標,很容易錯過我們的推送,也無法看到封面圖片。請星標“未來汽車Daily”,及時接收每篇推文,期待為您帶來更多更專業的行業報道。

相關文章