元戎周光:AI大模型的出現,讓智駕系統擁有「通才」邁向「強專家」的可能性

頭圖來源 | 元戎啟行官方
作者 | 伍文靚
編輯 | 蘇鵬
AI正在逐步成為汽車的靈魂。
在本屆上海車展期間,元戎啟行宣佈與字節跳動旗下火山引擎達成深度合作,雙方將聯合車企共同打造下一代AI汽車。
據悉,雙方的合作聚焦在AI原生服務、智慧駕駛與大語言模型融合等領域。火山引擎將為元戎啟行提供算力支援,共同提升AI演算法訓練效率,催化VLA模型迭代。
“VLA的落地會解決很多人關心的可預期問題。因為在不具備語言能力之前,很多時候神經網路的行為是無法解釋的。”元戎啟行CEO周光在釋出會現場說道。
所謂VLA模型,實際上融合了視覺感知、語義理解與動作決策,透過多模態資訊互動處理,實現對複雜場景的語義解析與行為規劃;同時支援雷射雷達/純視覺輔助駕駛方案,適配多種計算平臺。
它與傳統技術的區別在於,能夠讓“AI汽車”具有更長時序的推理能力,理解特殊路段的行駛規則,更擅長處理複雜的人車博弈場景。
如果要拉動VLA模型進化,那麼一定少不了算力、資料與演算法這三駕馬車。
在周光看來,有了火山引擎的助力,算力問題已經得到進一步最佳化。而資料問題,在元戎啟行強資料閉環系統的推動下,已經提煉出了大量高質量資料。至於演算法,元戎啟行本身就一直在深耕。
“AI技術的迭代軌跡與人類智慧發展軌跡高度同源,都是要先成為一位通才,才能成為垂類專家。VLA模型就是智慧駕駛界的通才。”
按照規劃,今年,將有超5款搭載元戎啟行VLA模型的AI汽車量產。
元戎啟行CEO周光、火山引擎汽車總經理楊立偉與未來汽車Daily等媒體進行了分享和交流,以下是對話實錄(有刪改):
Q:眾所周知行業裡最近發生了一些事情,安全成為了非常重要的話題,兩位怎麼理解“安全”與“輔助駕駛”之間的關聯?
周光:元戎今年整個的技術發展會圍繞“安全”這個關鍵詞。比如,我們做模型的後訓練時,特別重視安全對齊,只有把足夠安全的系統推向市場,才是對行業、對消費者負責。
我之前體驗了特斯拉FSD V13(美國版),最大的感受是“沒有接管意願”,相當於使用者上車之後,AI系統預判了你所有的預判。我覺得一個好的智駕系統一定可以用“有沒有接管意願”來衡量。目前大家常見的接管分兩種,一種是真的存在碰撞的安全隱患;另一種是車輛會以stupid的行為來確保安全(比如一小時走50米),但是影響了通行效率,這樣也不行。智駕系統的發展要上一個臺階,就必須在保證安全的前提下,還要做到擬人化。
楊立偉:智慧輔助駕駛涉及到自車安全和行路安全(他車、行人),希望儘快看到框架性的規範能出來。
Q:車端的智駕系統擬人化現象很大程度上依賴於大模型的提升?
周光:舉個例子,ChatGPT剛推向市場的時候,大家都被震撼了。雖然它有時前言不搭後語,但是它的“擬人感”會讓我們會下意識忽略這一點。這其實特別像第一代端到端——雖然偶爾也出現幻覺問題,但我們仍然會覺得它有“intelligence”。
語言大模型發展到今天,基本已經很少“胡說八道”,這個趨勢我覺得在智駕行業也會逐步實現。
Q:元戎宣佈了與火山引擎達成合作,能詳細介紹一下合作的內容和合作意義嗎?
楊立偉:火山引擎是字節跳動旗下的科技公司,到今天為止,我們最大客戶一直是位元組內部的各個業務,比如像抖音、頭條、豆包。目前我們也在加大力度佈局汽車行業,因為這個領域既可以垂直縱深,也可以橫向擴充套件,無論是自動駕駛、還是終端聯網,都雲計算相關的需求。另外在智慧座艙方面,我們也能夠發揮自身在toC端積累的內容資源和人工智慧能力。
周光:我們跟火山引擎的合作是想要打造下一代AI汽車,其中“語言”非常重要。如果一個人不具備語言能力,是很難跟其他人交流。這也是接下來AI汽車需要具備的一個關鍵能力。
楊立偉:是的。大家平時講智慧座艙,更多討論還是集中在晶片層面。但現在語言大模型的發展速度非常快,擬人化程度也不斷提高。我們認為,在未來的座艙場景中,語言大模型要做一個好司機,也要做一個好的副駕駛,不僅要能開得好,還要與人進行自然的互動。我們也希望在汽車行業為使用者創造新的價值。
Q:元戎之前提到RoadAGI,RoadAGI業務與輔助駕駛業務如何聯動?
周光:我們提出RoadAGI的底層設想是,最終實現L5級自動駕駛。這應該也是所有做組合輔助駕駛的玩家的願望,但大家實現L5的路徑有所不同——之前行業都在追求地圖的覆蓋面積,但這條路徑現在肉眼可見地失敗了。
現在我們回過頭來看,智駕系統的發展其實就像人類考學,從高中到985本科再到博士級別,甚至突破諾貝爾獎水平。如果將之前的智駕系統定義為“弱專家”系統,只能解答限定範圍的難題;那麼,在AI大模型出來之後,可以針對性地進行大量通用場景訓練以及垂直場景訓練,智駕系統才有了從“通才”邁向“強專家”的可能性。
Q:元戎似乎一直在追求技術的上限,而不是選擇去做一些極致價效比的產品。VLA技術現在還不是行業主流,為什麼選擇它?
周光:我們不是不在乎價效比,只是要在正確的技術演進道路上去降本。舉個例子,我們認為未來技術的發展一定是基於端到端,那我們就不會因為省錢而倒退回rule-base路線、地圖路線。另外,我們最近釋出的基於高通驍龍8650的方案,其實就是一個成本友好的方案。
楊立偉:以前大家做rule-base路線的時候,習慣性堆大量的人員,頭部車企的相關團隊甚至有幾千人。但我們接觸元戎後才知道,他們現在做演算法的團隊只有百人左右。這其實跟我們做語言大模型類似,以前我們做推薦演算法也是人海戰術,但到了語言大模型時代,重點已經轉變為了人才質量和技術創新。招募一批優質的人才,給足夠的算力、足夠的資料,就可以產生足夠創新。
智駕系統走到VLA之後,隨著團隊人數的精簡,整體的人力成本會大幅度下降。儘管算力成本可能會在短時間內增長,但在全民智駕的背景下,規模化的量產車會進一步分攤軟硬體成本以及雲算力成本。所以我相信,隨著元戎的方案搭載於更多的車型,成本最終也會降下來。
Q:國內最先提出VLA概念的應該是元戎。特斯拉線作為海外智慧汽車的代表,似乎不提AI和VLA?
周光:特斯拉現在基本不會對外公佈技術路線細節。但我們會發現,特斯拉從V12到V13的進展很大程度上依賴於大模型技術能力。沒有提AI,不代表特斯拉就不做相應的東西。
我們可能是智駕領域最先引入VLA相關概念的玩家,實際上這個概念最早由谷歌提出。谷歌在這一領域做了大量的技術研究,也對AI行業的發展作出了巨大的貢獻,我們還是要心存感謝。
Q:VLA帶來的使用者體驗跟傳統技術有哪些差別?在互動上如何做更多讓使用者覺得安心的設定?
周光:VLA的落地會解決很多人關心的可預期問題。因為在不具備語言能力之前,很多時候神經網路的行為是無法解釋的。就像我們日常打車,如果司機在執行一個動作之前先向乘客解釋,那麼我們的安全感和信任感就會更強。
但也請大家不要過度宣傳。今天的智駕系統遠沒有到L5級,也許可以透過一些規則兜底實現限制場景的L3,但整體上還是屬於組合輔助駕駛。即便幻覺問題隨著AI的發展在不斷減少,也不能在短時間內完全解決安全問題。
楊立偉:除了技術突破,為了讓使用者更有安全感,其實大家在產品互動層面也做了很多努力。比如有一些友商做的,輔助駕駛啟動時,車輛會發出訊號讓周邊的其他駕駛員知曉,以此緩解心理上的緊張感。
Q:行業裡車位到車位逐漸鋪開之後,VLA已經被公認為是下一個內卷的方向。怎麼分辨VLA的好壞以及門檻?
周光:我們可以從“無圖化”的過往歷史來看。元戎推出無圖方案之後,市面上出現了很多相關方案,但其中也存在打補丁的現象,具體不方便再評價了。總之,安全是一定不能忽視的,如果為了追求流量和規模,推出一個不安全的系統,那是一件非常恐怖的事情。
Q:在當下以及今後的一段時間,車企和供應商透過什麼方式去處理資料才合理?
周光:現在基本上整個系統的know-how都在資料集裡,大家不太可能在模型變化不大的情況下去換資料集。
楊立偉:我們看語言模型發展。以前的重點是模型引數,尤其是2023年,大家都在比誰的模型引數更大;現在大家都是在講利用了多少高質量的資料集、把模型縮小了多少。這個縮小的模型,比上一代模型的實驗效果更好,並不是因為技術體系做得多好,而是因為在資料探勘、資料質量做得更好。
現在很多大模型都在開源,但最核心的壁壘就是資料集——如果資料集不開源,那隻相當於半開源。
Q:去年元戎參加了北京車展,今年第一次來上海車展。在行業競爭格局已經很激烈的情況下,參加車展有哪些意義?
周光:我們今年是第二次來上海車展。2023年上海車展,我們在展館外有大規模的體驗車隊,當時所有人都覺得行業離不開HD Map,我們率先發布了無圖的方案。前段時間GTC期間,一個頭部新勢力的研發負責人跟我交流,他們第一次聽說元戎釋出無圖方案時,還以為是假新聞。但是,過去兩年行業的發展已經證明了這條路徑的可行性。
去年北京車展,我們釋出了端到端的方案,也是行業裡比較早期分享怎麼去引入端到端、怎麼去模組化。我們現在佈局的VLA技術,相信明年也會有更多技術迭代。所以我覺得元戎在行業裡還是起到了一定的技術引領作用。
親愛的讀者們,不設定星標,很容易錯過我們的推送,也無法看到封面圖片。請星標“未來汽車Daily”,及時接收每篇推文,期待為您帶來更多更專業的行業報道。


相關文章