元戎啟行周光:智駕最終拼的是AI技術,不只是規模丨具身智慧對話#13

先有一個移動能力的 “通才”,才有更強的智駕系統。
張家豪
編輯程曼祺
全無人駕駛,始終被視作自動駕駛行業皇冠上的明珠,就像登頂珠穆朗瑪峰有 19 條路線一樣,不同的公司選擇了不同的路線通往無人駕駛的最終目標。
Waymo、小馬們選擇了基於高精地圖的 RoboTaxi 路線,在特定的路線已經實現了 RoboTaxi,為市民提供沒有司機的出行服務;以特斯拉為代表的車企與供應商,則是透過漸進式路線,賣車搭配輔助駕駛方案,收集資料一步步迭代方案,試圖逼近技術極限。
沒有人能篤定哪條路線一定能成功登頂,也還有不同的公司,在嘗試不同的登頂路線。
在今年的英偉達 GTC( GPU Technology Conference)上,元戎啟行周光提出了一套新的解法,他說,大語言模型的發展,經歷了從弱專家模型(初代 Siri)、到通才(ChatGPT)、再到強專家模型(垂直模型)的過程。智駕也可以複製這樣的路線,一個移動能力的通才,能開好汽車、能騎好摩托車、能讓配送小車隨時找到你,之後就可能進化到強專家模型——L5 級別自動駕駛,這套系統被元戎啟行稱為 RoadAGI,移動能力的通才系統。
在演示 Demo 中,一輛快遞小車除了可以在公開道路行駛外,還能在園區行駛、找到商店、避讓行人,進入寫字樓後,小車還能找到電梯,自己進出。周光說,如果沒有這套通才系統,元戎可能也實現不了 L5。
過去幾年,智駕供應商市場經過了幾輪技術正規化迭代。
從 Transformer 到 BEV,再到端到端,輔助駕駛技術正規化的迭代過去主要由特斯拉引領,特斯拉做出來,同行按照既定路線投入研發資源、攻堅。
特斯拉不再公佈技術路線和細節後,技術路線出現了分歧。當路線不再確定時,除了考驗研發能力與工程能力外,也開始考驗技術判斷。
周光說,元戎啟行是行業裡少數做技術判斷的公司。從最早提出前融合(感知階段就提前融合雷射雷達、攝像頭等資料),到無高精地圖、端到端,元戎啟行每次都是最早擁抱新技術正規化的公司。截至目前,元戎也是國內三家量產上車城市 NOA 的智駕供應商之一(另外兩家是華為、Momenta)。
今年以來,自動駕駛行業競爭持續升級。一季度,特斯拉 FSD 正式進入了中國市場,一條更大的鯰魚。周光說,中國 FSD 還不是完全體,不認識中國的路,但也沒法忽視它強大的基礎能力;與此同時,比亞迪、吉利等車企打響了智駕的普及戰,把智駕的門檻拉低到 10 萬元以下車型。
行業現狀是,真正有能力自研、還在持續自研的車企越來越少,大量車企最終還是選擇了與智駕供應商合作;但與此同時,智駕供應商也經歷了一輪洗牌,若干二線供應商被淘汰出局。
活下來的供應商一方面要繼續迭代技術,另外也要提升交付能力,服務更多客戶。周光說,元戎啟行的目標就是實現 L5、再下一步是物理世界的通用 AI,“一定要往 AI 走,而不是一味追求規模。你能抓住這個機會一定是你的 AI 能力足夠好,不只是你的規模足夠大。”
大模型和智駕的相同進化:初級專才→通才→高階專才
晚點:你們最近在 GTC 和百人會上都在提一個新概念 “RoadAGI”,簡單來說就是給所有移動物體都提供一套不基於高精地圖的自動駕駛能力,比如摩托車、快遞小車、移動機器人等等。為什麼此刻要提出 RoadAGI?希望透過它實現什麼?
周光:其實更準確說產品是 RoadBrain,RoadAGI 是戰略,是個更吸引眼球的說法。
我之前在 GTC 上分享過大模型的進化路線,最早它是比較初級的專家系統,比如初代 Siri,到 ChatGPT 出來後它變成了一個通才,但它最初是一個大專水平的通才。這之後,隨著在推理、數學等垂直能力上的強化,它變成了一個博士級的專才。再下一步是博士級通才。
類比到自動駕駛,如果我們定義 L5 級自動駕駛是開車和移動這件事上的 “博士級專家”,L2 是弱專家,那中間一定有一個 “通才” 的階段,我們現在要做的 RoadBrain 就是一個具備移動通才能力的這個中間階段。
元戎啟行認為智駕系統也會像大語言模型一樣,經過從初級專才到通才,再到高階專才的迭代過程。
如果這個通才模型能在腳踏車、摩托車等不同移動終端上都做到 1000 公里接管一次,這個系統再回去開車,就有可能做到 10 萬公里接管一次。而只靠在車上來突破,硬突破是突破不了的。
晚點:所以你認為如果我們想把一個車的智駕大模型做好,不光需要車的資料,也需要人走路的資料、腳踏車的資料、快遞車的資料。
周光:對,不同終端的資料會豐富你的知識,會讓你懂更多,模型都不用變,只是需要不同的資料。我覺得做單一的場景,理解是有限的,你一個小孩如果每天都宅在家裡不出去,哪怕你是愛因斯坦的智商,你對物理世界、通用知識的理解也不會很高。
晚點:你們已經有一些小規模實驗的結果了嗎?僅靠類比大語言模型,似乎不足以驗證這個思路能行得通。
周光:我在去年 3 月份就在想這個事,糾結了很久,下半年開始做,我做了一些思想實驗。我們要等到模型具備通用架構,我們最近的模型就是這樣的,它不能是過去那種專家系統,那是沒法遷移的。
晚點:你最近也提到過,你們的下一代車端智慧駕駛方案會是一個統一的、資料驅動的大模型,大模型和 RoadBrain 就是一回事嗎?它和現在大家提的端到端的關係又是什麼?
周光:不是一回事,端到端是說感知決策是一個模型,我們說的大模型,更多是指它是符合大語言模型的工藝和流程,以前的端到端更多的是傳統工藝。大模型不一定是引數量非常大,你要部署到車上也不可能弄那麼大。
晚點:為什麼現在要來做這件事?你們的同行現在的焦點都是拿下更多訂單、服務更多客戶。
周光:不衝突,我們也在服務客戶。而且,如果沒有這個通用能力,我認為我們也做不出車上更進階的能力。

我們也不會花太多精力去做 RoadBrain,如果這件事需要我們花特別多精力、還做得特別痛苦,那我們一定是走在錯誤的道路上。

晚點:你們在提出 RoadBrain 的同時,也釋出了一個配送機器人的 demo,這是為了展示技術,還是你們也會進入移動機器人市場,把它當做一個新業務。如果要成為一個新業務,怎麼分配投入精力?
周光:現階段更多是展示技術,不會是一個業務,所以也不太牽涉精力、資源分配問題。還是剛才說的,我認為實現 L5 需要其它的交通工具共同提供資料,先是通才再是專家。
晚點:從什麼開始有了這個想法的?之後怎麼推進的?
周光:大概是 2023 年 3、4 月份,我在白板上畫演算法的結構,當時我們做的事就是端到端、無圖,看怎麼把模組越變越少,到最後我發現,下一步就是隻有一個模組了。前融合少了一個模組,無圖少了幾個模組,端到端比之前又少了幾個模組,只有一個模組,這就是 single model,當時我就豁然開朗了。
晚點:當時有這個思考,是元戎本來的智駕方案遇到了什麼瓶頸嗎?
周光:我當時的感覺是 L5 太難了,要做到百萬公里一次事故太難了。但其他 AI 場景,比如大模型十句話裡就有一句錯的,也有這麼大商業化的價值。當時我就在想,我們這個移動的通用能力,如果放在其他場景,早就商業化了。
另外就是這套演算法是可以遷移的,如果是以前的演算法網路,你做一個新的場景,比如汽車到腳踏車,那少說得兩三百人,但現在沒有了。總之,我當時就覺得這個是應該做的。
晚點:你想做 RoadBrain 的出發點是覺得 L5 太難了,換言之,你想實現 L5,也認為 L5 可以實現?Waymo 前 CEO 約翰·科拉菲克(John Krfcik)之前說過 L5 遙不可及,普及還要幾十年時間。
周光:那肯定想實現,任何一個做智駕的人都想實現 L5。我覺得 AI 的皇冠就是把人類複雜、繁瑣的工作去掉,我覺得這就是 AI 的最終答案。
做量產就是掉一層皮
晚點:從最早的前融合、到無高精地圖、再到端到端、VLA,元戎是少數一直都在採用新技術正規化的公司,你們也是目前行業裡少數在推進 VLA 模型(視覺-語言-動作模型)的智駕公司。相比較端到端,在做 VLA 智駕的公司就更少了,你覺得行業對於 VLA 行業是有共識的嗎?
周光:沒有共識,我也不希望有共識,我巴不得大家都還繼續去搞高精地圖,對於我們來說,只要技術能做到斷代領先,那商業機會多的是,馬上就能洗牌。技術判斷是我們的優勢,現在我們現在工程能力也上來了,能接得住。
當時我們無圖做出來以後,好幾家車企找到我們,都給了車,但我們工程上接不下來,如果那時候有更強的工程能力,這些機會就都拿了。我們第一次量產沒有工程經驗,你如果都同時做就炸了,一個都做不出來。
晚點:那你們後來是怎麼提升工程能力的?
周光:做量產就是掉層皮。你必須要有體系能力,以前我們完全沒有,做完第一個量產專案後你就能建立體系了,有了體系才能規模化,才能迭代。比如我們現在接一個專案 30 人,之後再接專案可能只要 10 個人,那你就能同時接好幾個專案,繼續迭代。如果你工程能力上來了,技術能做到斷代,那訂單能全搶完。
我們有一個合夥人是專門管這個的,他帶著我們總結了很多工程化的經驗。能活到現在的智駕公司肯定都有自己的強項,我們也向同行去學習。
晚點:在智駕供應商這個行業裡,技術能力和工程能力哪個更重要?
周光:都很重要,缺一個都活不下來,我們意識到工程重要就補工程的課,有些公司是補技術。工程補課很痛苦,但工程是你只要捱打了就一定會長記性,但是補技術就不一定了。兩個難度不一樣,但是都同樣重要。有的公司是技術強,有的公司是工程強,各有各的活法。
晚點:你們現在量產的車型有多少臺?這個數量夠你們收集資料、迭代嗎?車數量的多少,會是接下來競爭的關鍵嗎?
周光:我們現在是 4 萬多臺,說少也不少,說多也不算多。有的供應商定點多,但是車本身賣得不好,我們車型少,但是賣得還可以,今年我們能做到 20 萬臺。
數量上,我覺得在一個數量級之內沒有區別,幾萬跟十幾萬沒有本質區別,可能到 100 萬會有區別,數量級要取 log(對數函式),你可以認為 10 萬跟 100 萬的差距是 1 倍,而不是大家想的 10 倍。今年也沒人能做到 200 萬臺,50 萬頂天了。
晚點:一個老生常談的問題是,你們跟車企合作,他們是很願意跟你們提供用來迭代模型的資料是嗎?
周光:這東西都是相互幫忙的,你不給我你也好不了,你給我是共贏,我能迭代,你也能有更好的效果,賣得更好。
抓住 L5 的機會:一定要往 AI 走
晚點:特斯拉 FSD 最近進中國了,你肯定在中國和美國都已經試過了,你怎麼評價 FSD 當前的水平?
周光:我覺得 FSD 在美國非常強,領先一代。中國目前智駕的水平也就是在 FSD V12 這個階段,跟 V13 差了一代。FSD 在中國,像是一個美國的好司機第一次在中國開車,他不知道中國的法律法規,不知道各種各樣的場景,但是車跟車之間的互動、博弈,FSD 還是非常強。
這也確實能說明,他們真的沒有在中國訓練。
晚點:可以描述一下你體驗 V13 相比 V12 最大的提升是什麼嗎?
周光:就是讓你完全沒有接管意願,它預判了你的預判。現在很多智駕你說是沒接管,但其實一路都想接管,只是你忍住了。V13 在美國真的可以做到讓你沒有接管意願,它跟 Waymo 的差距明顯縮小。Waymo 還是更好一點,畢竟它是開卷考試。
晚點:特斯拉 FSD 進中國之後,你覺得它會給市場帶來什麼影響?會讓車企更迫切地需要高階智駕方案嗎?
周光:現在車企都是防守型的,我們特別需要有人去進攻。總會有人跑得更快,當時我們是第一個做出無圖方案的,所有車企都是知道的,但是當時沒有無圖方案的車賣得很好,所以車企也不著急,都是防守心態。
後來華為是第一個交出無圖方案的車的,賣得特別好,所以我說華為是點燃中國智駕之火的公司。
我現在特別希望理想能做到斷代領先(理想也在推進 VLA 技術方案),那就又是一波技術洗牌,車企肯定就又慌了,我們就有更多的機會。
晚點:你覺得智駕到了終局有差異化嗎?還是同質化嚴重?之前地平線餘凱表達過一個觀點,就是智駕長期來看沒有什麼差異化,只有好和更好,不像車本身有五花八門的需求。
周光:智駕到終局就是一個司機,消費者要做的就是評價這個司機適不適合自己,有的人喜歡開快車,有些人喜歡開得平緩一點。最終可能確實沒有太多差異化,但是目前離這個階段還有點遠,現在的智駕還談不上真正好用。 
晚點:前幾年行業對自動駕駛供應商最大的質疑是,車企如果自研,就不會有供應商的市場空間。但近幾年實際情況是,真正能自研自動駕駛的車企其實非常少,大量車企還是依靠供應商的。你覺得為什麼車企自研智駕這麼難?
周光:網際網路科技公司離 AI 公司是相對更近的,新勢力、特斯拉這都算科技公司,在人才儲備方面有很大優勢。
晚點:智駕供應商,上游都是英偉達、高通這樣的大公司,下游是車企,也是大公司,你們都是在夾縫中求生存,上下游有可能擠壓你們的利潤和議價空間。有什麼可能改變這種情況嗎?
周光:我們希望 L5 早點到來,到時候整個商業模式都不一樣了。特斯拉現在進展很快,如果它能 3 年內跑通,那整個行業都變了,對我們是非常大的利好,對滴滴也是非常大的利好。
我覺得 L5 五年之內實現的機率不低,尤其是大模型這一套方法出來之後。
晚點:那你們怎麼抓住這個機會?
周光:一定要往 AI 走,而不是一味追求規模,你能抓住這個機會一定是你的 AI 能力足夠好,而不是你的規模足夠大。
“做成物理 AGI,我這輩子就不算一事無成了”
晚點:你參與的上一家創業公司 RoadStar 到最後是失敗了,公司內部有一些風波,你們幾個聯創到最後還有一些矛盾。你覺得你之前那些經歷,給你帶來最大的改變是什麼?
周光:最大的改變就是做決定之前要做全面的評估,我們做技術判斷都是很準的,但是在其他事情上的判斷太草率了,這可能也是 Roadstar 當時出問題的一個原因。
晚點:你從 Roadstar 出來以後,一開始就想好要重新創業嗎?你經歷過第一次失敗,為什麼投資人還願意投你呢?
周光:當時我們車子的表現非常好,我說如果我們技術不行,那失敗了我能接受,但當時我們技術是很牛的,因為這個原因失敗了,那我無法接受,必須重新搞,兄弟們都不能接受。就好比你玩遊戲前邊打得都挺好,最後因為踩了個香蕉皮摔死了,這誰能接受?
當時所有研發兄弟全部都是 “成建制” 跟過來的,兄弟們知道這個東西怎麼做出來的,我帶著大家做出來,他們也信任我。
晚點:我們瞭解到,雷軍曾經想投 Roadstar,後來他見了你們沒投的原因是,你們三個聯創股權太平均,遇到事情不知道誰來拍板。現在元戎你是最核心的人了,這段經歷給你的啟示是什麼?
周光:我覺得你幹這一行,一定要捨得跟大家分享,我特別希望我們公司的人比我更出名、比我更厲害,但是你想讓這樣的人來,那你一定要把足夠的利益讓出去,同時公司的控制權要留在手裡。
晚點:所以元戎創業最開始股權、期權池這些都是設計好的嗎?
周光:對,讓公司核心的人拿很多股權,但他們可以把投票權給你,你能控制公司,也讓厲害的人有足夠的回報,這個股權結構很關鍵。
晚點:這個過程裡你覺得最艱難、最沮喪的是什麼時候?
周光:最艱難的就是一開始沒融到太多錢,發了這個月工資就沒有下個月的了。我們一開始融的都是小錢,直到阿里投完了,我們才敢去做更難的事。
晚點:你第一次創業時是首席科學家,現在是 CEO。你怎麼適應這樣的角色轉換?你需要更多考慮的是什麼?
周光:CEO 最重要的事就是融資、商業機會,現在我比較少去考慮具體的技術了,更多是做技術路線判斷。
晚點:怎麼保證自己做技術判斷的正確率?
周光:沒有能力保證,我也不知道怎麼能保證,只能說 “you are what you eat”,保證你身邊團隊的人才質量,還有我自己 Network 的質量。
晚點:之前一個報道里提到,你在清華本科的時候一直玩遊戲,去了美國留學才開始重新努力。
周光:我在清華的時候就大一好好學習,剛去的時候壓力還是很大的,覺得身邊都是什麼競賽金牌、狀元,但是相處時間長了也覺得就那麼回事,我就開始打遊戲了,那時候基本上就是天天玩,從早玩到晚,中午去吃個飯,課也不上,考試前一天看一下,考個 80 分,也挺好。
晚點:那你從什麼時候開始投入到學習中的?為什麼一下子發憤圖強了?是去參加同學會受刺激了嗎?
周光:那差不多 14、15 年時,當時我其實不去同學聚會,沒臉去。我就是突然覺得,我都快 30 了,不會這輩子一事無成吧?
這之後就開始更系統性地鑽研 AI,然後去刷了個大疆的榜(周光在得克薩斯大學期間與團隊在 2015 年獲得大疆創新開發者大賽冠軍),拿了第一名。
晚點:做到什麼,對你來說就不算一事無成了?你長期想做的事情是什麼?
周光:剛創業的時候是想實現 L5,後來 GPT 出來以後,我們覺得實現物理的通用人工智慧會是一個更大的成就。
晚點:你的這個評價標準裡,沒有說一定要把公司做到多大、變成一傢什麼樣的公司。
周光:能讓跟我一起拼的兄弟們在財務上有好的回報,這肯定也是我的目標。但是達成了這個目標之後,更重要的就是去實現通用物理 AI。
題圖來源:元戎啟行 CEO 周光在中國電動汽車百人會論壇上演講。
這是《晚點 LatePost》 「具身智慧對話」系列的第 13 篇。該系列將持續對談智慧機器人和自動駕駛產業鏈頭部公司。往期文章見合集#具身智慧對話。
具身智慧對話
持續對談智慧機器人和自動駕駛產業鏈頭部公司
↓ 往期文章 
01
地平線餘凱
閱讀文章
02
Momenta 曹旭東
閱讀文章
03
小馬智行樓天城
閱讀文章
04
北航機器人研究所王田苗
閱讀文章
05
宇樹科技王興興
閱讀文章
06
智元機器人彭志輝
閱讀文章
07
銀河通用王鶴
閱讀文章
08
星海圖趙行、許華哲
閱讀文章
09
梅卡曼德邵天蘭
閱讀文章
10
逐際動力張巍
閱讀文章
11
新石器餘恩源
閱讀文章
12
維他動力餘軼南
閱讀文章
 FIN 


相關文章