

採訪|田哲 李勤
文|田哲
編輯|李勤
來源|36氪汽車(ID:EV36kr)
封面來源|企業授權
“我常對同事們說,團隊生命永遠只有半年,活過半年才能續命。”說話者,是商湯絕影智慧汽車事業群總裁王曉剛。
近幾年,汽車行業彷彿坐上一輛高速行駛的過山車,各類新技術層出不窮。不到三年,智慧駕駛量產落地就從高速道路,轉向全國城鄉道路,稍不留神,玩家們就會被市場遠遠拋下,失去下一輪遊戲的資格。王曉剛希望這句警句,能激勵團隊緊跟行業程序。
2021年,商湯釋出智慧汽車品牌“絕影”,以Tier 1的身份切入智慧汽車市場,由王曉剛掌舵。王曉剛是商湯科技的聯合創始人兼首席科學家,在此之前,他作為商湯研究院院長帶隊研究大模型。
商湯絕影的主要收入來源一度是智慧座艙業務,其與上汽、奇瑞等知名主機廠合作了上百款量產車型。然而,汽車行業更廣闊、同時變革更劇烈的賽道是智慧駕駛。而端到端大模型,無疑是當下影響智慧駕駛走向的最大變數。
在王曉剛看來,端到端大模型至關重要,是團隊實現智慧駕駛彎道超車的機會。
2023年,智慧駕駛進入開城競賽,各車企和Tier 1試圖研發低成本、通用性強的智慧駕駛系統。當年5月,特斯拉CEO馬斯克宣佈,特斯拉將釋出採用端到端大模型的自動駕駛系統,逐漸扭轉了行業智慧駕駛的研發方向。
端到端大模型旨在將智慧駕駛的所有流程,整合至一個統一的模型,只需輸入原始資料就能直接輸出最終結果,從而大幅提升智慧駕駛系統通用性。
這一輪AI與智慧駕駛深度融合的浪潮,讓商湯絕影看見了發揮大模型優勢的機會。
今年4月北京車展期間,商湯絕影實車演示了感知決策一體化自動駕駛通用大模型UniAD,據悉,僅透過純視覺和導航地圖,車輛就能在城市、鄉村道路智慧駕駛。
王曉剛告訴36氪汽車,商湯研究端到端智慧駕駛的契機是與本田的合作。2017年,本田汽車向商湯提出一個課題,要求商湯只用攝像頭,沒有高精地圖的情況下實現智慧駕駛功能。“當時我們在本田測試場實現了端到端的智慧駕駛,自那之後,團隊就持續研究端到端。”
這一次的合作,成為商湯絕影投入大模型研發的開端。2018年,商湯在上海建設超算中心,迄今已有超4.5萬塊GPU,總算力規模達到1.2萬PFLOPS,可實現連續30天穩定訓練大模型。充足的算力資源,意味著商湯絕影的模型迭代幾乎不受限制。
模型訓練離不開道路資料。王曉剛告訴36氪汽車,合作的量產車型在開發測試階段,團隊會定義一套資料操作標準,採集全套資料用於端到端大模型訓練。待合作車型上市後,商湯將能獲得更豐富的道路資料。
為了獲得非公開的高質量資料,商湯絕影還開發了用AIGC影片生成了世界模型,可根據需要生成指定的場景用於模型訓練。
決戰時刻將至,商湯絕影一改往日的學術風格,為團隊擴充了大量有著車企、Tier 1背景的新成員,補齊交付能力。
與大多數智慧駕駛解決方案商不同,商湯絕影不介意白盒交付。在王曉剛看來,只有車企真正理解技術,明白現有方案的不足,才能積極配合團隊共同開發,加速產品迭代。
商湯絕影把端到端大模型上車時間定在2025年,在王曉剛看來,這是商湯絕影的必贏之戰,“沒有Plan B”。
以下是36氪汽車與商湯絕影智慧汽車事業群總裁王曉剛的對話,經編輯:

談端到端大模型研發:現在依然是刪程式碼、加程式碼的過程
36氪汽車:自動駕駛的演算法從規則向著AI轉變,轉變的驅動力是什麼?
王曉剛: 首先,基於規則的自動駕駛每天可能遇到幾千個道路場景,每個場景對應著不同的規則,如果不斷編寫規則,時間長久後,可能會忘記初期編寫規則的作用,同時消耗的資源也十分巨大。如果用AI大模型資料驅動,自動駕駛研發效率能提升數十倍。
其次,GPT-4o的多模態資料流推理即時互動,人機互動體驗有著明顯提升。以前基於規則的體驗非常固定,反饋單調且不夠智慧。現在能調動車內外的攝像頭,隨時隨地和汽車大模型自然互動,創造很多內容,加上端到端多模態融合,非常契合汽車的使用場景。
36氪汽車:分段式端到端,是真正的端到端大模型嗎?
王曉剛:不是的。一塊一塊組合的模型能力很弱,不能真正理解場景中的複雜情況,而是解決被簡化的任務,這種大模型不需要大網路去喂資料,也不具備像人那樣的大腦。
打個比方,蜜蜂基於生物習性,對某個特定的簡單任務會完成得很好,但是它的頭腦特別簡單,不能像人一樣具備通用能力,在新場景遇到問題,會發明新工具解決新問題。蜜蜂和人,分別像分段式端到端大模型和一體式端到端大模型,分段式端到端大模型的神經網路模型很小,只會解決特定任務。
36氪汽車:端到端大模型智駕的上限很高,下限難以預測,如何把控下限?
王曉剛:初始階段還是要用規則兜底,端到端大模型越深入發展,規則將越少,就像感知模組的訓練少,要用許多後處理融合,但是隨著感知能力增強,規則就慢慢撤掉。
今天絕影的車道保持感知已經做得很好了,就刪去很多規則,如果將來場景變複雜了,就繼續增加規則,這是一個重複刪除程式碼、增加程式碼的過程,不過加強後的大模型所需的規則會越來越少。
實際上,ChatGPT在衍生出各種應用時,也有很多規則兜底。端到端大模型的核心在於通用能力,通用能力越強,就能完成更多的事情。
36氪汽車:有行業觀點認為,車企大規模量產無圖智駕方案後,才更利於端到端智駕方案落地,而商湯是直接跨越到端到端,兩者之間有什麼區別?
王曉剛:行業大多數端到端大模型智駕方案採用輕圖方案,配有簡單的標註。如果切換技術路線,成本非常高,相當於重新搭建研發體系。
所有基於規則的智駕方案,由上千名演算法工程師不斷寫規則、打補丁以維護智駕系統。這樣的方案量產上市後,還需要持續維護。如果切換技術路線,就相當於從頭開始研發。
現在基於規則的智駕方案,因為在車端上寫了複雜的規則,導致車端網路演算法比較複雜。端到端大模型智駕方案的特點是,車端上網路演算法比較簡單,後臺的任務比較複雜,因為不僅需要資料閉環,還要訓練、清洗資料、訓練大模型、把大模型分為小模型等等,以維持模型訓練的穩定性。

談端到端大模型落地:未來汽車行業只剩車企、晶片和AI公司
36氪汽車:訓練模型需要大量資料,商湯絕影的資料來源是什麼?
王曉剛:端到端大模型是一個長期發展過程,需要分步驟進行。商湯會採集資料,也會與車企合作。
商湯絕影合作的量產車型在開發測試階段,我們會定義一套資料操作標準,不同的量產專案車型是基於規則的智駕系統,我們採集的全套資料可以用於端到端大模型訓練。
合作車型上市後會有資料迴流,我們會和車企深入合作,選擇、清洗更豐富的道路資料。
資料採集越深入,就越難採集到想要的特定資料,採集成本也將提高,絕影用AIGC影片生成的世界模型,進行資料採集。
至於世界模型採集資料的成本,商湯是一家平臺型公司,開發的技術與不同行業合作進而分攤成本,還能和很多不同行業的合作伙伴聯合開發分攤成本。因此,商湯絕影未來也會和車企深入合作資料採集。
36氪汽車:商湯絕影在推動資料共享時,車企的態度是什麼?
王曉剛:車企目前很願意與我們共享資料,因為絕影的任務明確,車企知道哪方面存在問題,就願意開放相關資料以解決問題。不過,目前車企沒看到端到端大模型更通用的能力。如果看到的話,我想車企會更有動力和我們一起挖掘資料。
36氪汽車:端到端大模型的人才畫像是怎樣的?
王曉剛:端到端大模型的平臺體系非常重要,需要團隊具備非常強且全面的工程化能力。如果是模型訓練,相關團隊應該具備創新性,需要想辦法快速迭代。而在最終方案交付時,需要經驗豐富的團隊兜底。
36氪汽車:行業角度來看,端到端大模型團隊規模多大才合適?
王曉剛:現在許多端到端大模型團隊,大部分人負責資料採集、測試、分析等工作,真正參與大模型本身工作,團隊規模幾十人就算多了。
36氪汽車:現在行業有全棧能力的公司,還有晶片、演算法等公司,您認為汽車行業未來格局如何?
王曉剛:車企、晶片公司還有AI公司,他們之間的合作是核心部分,其他部分比如硬體、Tier 1等整合類公司可能會被吸收。

談商湯絕影商業理解:汽車是大模型落地的重要場景
36氪汽車:商湯絕影的商業形態是什麼?
王曉剛:商湯絕影有三大業務,分別是智慧駕駛、智慧座艙和AI雲,本質上絕影為車企輸出能力。
我認為終局是給車企賦能基礎能力,透過資料合作打造各種體驗差異化的應用,而不是交付標準化產品。
36氪汽車:其他Tier 1似乎不需要車企具有智駕能力,商湯絕影恰恰相反?
王曉剛:車企需要理解技術,絕影可以白盒交付車企,只有車企理解後,才能根據其需要產生非常有價值的資料,將有限的資源針對性投入,從而進一步增強大模型,推動整個體系不斷演進。如果車企遇到問題就找Tier 1解決,車企永遠無法實現跨越式的技術發展。
端到端給智駕大模型帶來了通用能力,基於這種能力可以生成很多新應用,這些應用會有很多想象空間和拓展空間,而不是隻限於單一任務的理解。
36氪汽車:意味著目前絕影的商業模式不特別注重交付嗎?
王曉剛:實現遠大理想有一個過程,要一步一個腳印,保證交付質量,與車企建立信任關係。現在商湯絕影的內部要求是客戶、質量放在第一位,必須第一時間響應客戶需求。
36氪汽車:商湯絕影如何提升交付能力?
王曉剛:我們之前AI方面的人才比較多,現在我們引入了大量經驗豐富、來自Tier 1、車企的人才。在組織機制上,後端有研發人員,前端有綜合的交付團隊,已經具備足夠力量調動交付資源,同時我們的質量體系也在積極建設。
36氪汽車:您在商湯如何分配精力?
王曉剛:我的精力絕大部分在絕影上,和集團研發也有很多交流。
今天來看,汽車是能推動大模型落地的重要場景,因為大模型的核心就是人機互動體驗,現在人機互動介面只有手機、汽車、機器人三個。
手機現在只是文字性互動,其本身的金融屬性決定了沒辦法透過多模態語音、影片進行互動。機器人的互動和汽車關聯,甚至能複用,但是機器人沒有達到大規模量產應用階段,資料量很少,無法提供有價值的反饋,從而形成閉環。
而汽車車內外都能互動,是最好的多模態互動場景,並且產量龐大,消費者對多模態大模型的接受度會越來越高。在車內,使用者能和多模態大模型交流;車外,大模型能拓展延伸使用者的視覺,告訴使用者車外的交通情況、建築物、文字等資訊。
36氪汽車:對於商湯絕影來說,明年端到端大模型的交付落地,是必贏之戰嗎?
王曉剛:對,沒有Plan B。我常常和團隊說,我們只有半年的生命,半年之後可能再續命。我們有未來五年、十年的理想目標,但是生命永遠只有半年。


36氪旗下電動汽車公眾號
👇🏻 真誠推薦你關注 👇🏻


來個“分享、點贊、在看”👇
商湯絕影端到端大模