
上一次艱難時期的持續投入,成為特斯拉應對這一次艱難時期的武器。
文丨賀乾明
編輯丨黃俊杰
裁員 1 萬多人、大幅縮減重要專案 4680 電池團隊、負責三電系統的高階副總裁等高管離職……特斯拉 CEO 埃隆·馬斯克在 4 月 15 日發起的大調整,只是一個序幕。
之後半個月,特斯拉持續裁撤曾經的重點專案:4680 電池專案繼續裁員、北美的超級充電樁團隊完全解散、9000 噸以上一體壓鑄機專案被叫停,相關高管大批離職。接下來的 6 月,特斯拉還會在加州和得州兩地裁員超過 6000 人。
馬斯克的新賭注是全自動駕駛。無人計程車(Robotaxi)專案被拔到最高優先順序。馬斯克宣佈將在 8 月 8 日釋出產品,今年投入百億美元採購 GPU、研發車載晶片,用於改進自動駕駛系統。他曾多次說過,只要持續迭代這套系統,就會實現無人駕駛,讓特斯拉成為 10 萬億美元市值公司。
在特斯拉的第二大市場中國,馬斯克也期望用這套系統翻盤。4 月底,馬斯克到訪中國,被政府領導接見。不久後,他在內部信中說,特斯拉已在中國獲得測試部分輔助駕駛系統的許可。
今年開始大面積推送的 FSD v12 自動駕駛系統確實展現出一些不同尋常的潛力。車主的反饋都很接近:“就像人開車一樣”,跟上一代相比有進步,狹路會車、超車更從容。

自動駕駛公司元戎啟行 CEO 周光今年 3 月在美國體驗 FSD v12 後,承認還是低估了它的能力:“去之前我認為可能是 80 分的東西,但實際做到了 90 分。”
一家國內一線新能源企業負責人體驗後相信,特斯拉的自動駕駛會有革命性突破。競爭對手們不敢錯過,僅 4 月底北京車展前後,小鵬、華為、長城、商湯絕影等公司宣佈將推出類似 FSD v12 的自動駕駛系統。同期,軟銀、英偉達和微軟用 10.8 億美元投資與特斯拉路線相同的英國自動駕駛公司 Wayve。
沿著特斯拉的路線,一場新的自動駕駛競賽正在開啟。這一次不只要解決技術難題,還是一場資源競賽。來中國當天,馬斯克在社交媒體上劃出入局門檻:“任何公司,如果算力投入達不到百億美元 …… 就無法參與這一輪競爭。”
原理:砍掉 30 萬行程式碼,讓資料決定車怎麼開
2000 年代,DARPA 在沙漠中舉辦的 3 場無人車挑戰賽,是現代無人駕駛技術研發的源頭。Google 招攬了優勝者,趟出一條可行的方案,將自動駕駛拆成多個環節:
用雷射雷達、攝像頭等感測器收集車輛周圍環境資料,交給依賴人工標註資料訓練出的模型,識別出常見的重要目標和各種障礙物(感知模組),再配合高精地圖,讓系統瞭解道路會怎麼變化,最後依賴工程師用程式碼寫成的規則決定車怎麼開(預測、規劃模組)。
最初,特斯拉也按照 Google 開闢的路徑去做自動駕駛,為了節省成本和迅速擴大使用範圍,他們開發依賴攝像頭,而不是昂貴的雷射雷達和高精地圖的方案。推出 v12 前,特斯拉的自動駕駛系統工作流程大概是:
-
負責感知的視覺模組先工作,處理攝像頭等感測器捕捉的路況資料,識別出路上有什麼東西,大概怎麼分佈,哪些是動的,哪些是不動的,哪些是車道線,可以行車的區域有哪些等等。
-
然後是預測規劃控制模組,呼叫感知模型處理過的資訊,預測場景中人、車等動態目標接下來幾秒如何行動,結合模型和工程師提前寫入的規則,規劃安全的行駛路線,再控制方向盤、加速或剎車踏板,照路線行駛。

為了儘可能應對路上遇到的各種情況,特斯拉數百名工程師寫了 30 萬行 C++ 程式碼制定規則——相當於早期 Linux 作業系統程式碼量的 1.7 倍。
這不是人學會開車的方式,人不需要認出一條路上可能出現的大量物體到底是什麼,也不需要為每個複雜場景提前制定各種規則,就能開車上路。
這樣做出來的自動駕駛系統,很難保證絕對安全。真實世界千變萬化,再多的工程師也難以窮盡。現在商業化的無人計程車,只能在有限區域運營,車內沒有安全員,只不過是運營方把他們轉移到雲端,遠端盯著。
直到 2021 年,在路上遇到一排交通錐,Google 無人駕駛子公司 Waymo 的無人車還是有可能停下來拒絕行駛。此時 Google 已經帶著整個行業投入上千億美元。一批公司在那兩年關停已經耗資數十億美元的無人駕駛專案。
“付出 20% 的努力,就能獲得 80% 的能力。” 小鵬原自動駕駛 AI 負責人劉蘭個川去年在一場學術活動上說,傳統自動駕駛方案開發簡單,但繼續提升困難。現在他加入英偉達智慧汽車團隊。
特斯拉 FSD v12 學開車更像人。最大的改變是用了 “端到端” 架構:一端輸入攝像頭等感測器獲得的資料,另一端直接輸出車該怎麼開。
訓練這套系統時,機器從大量車輛行駛影片和人類司機在不同環境下打方向盤、踩加速踏板的資料中學習怎麼開車。
在 FSD v12 中,特斯拉工程師們寫的規則幾乎全被消滅,30 萬行規則程式碼僅剩 2000 多行,不到原來的 1%。
端到端自動駕駛系統學開車的方式,也只是有一點像人,並沒有系統能像人類一樣真的理解世界。所以人學幾天,就能開車上路安全駕駛,但 FSD 要看海量的影片學習。馬斯克去年在一次財報會上談到資料有多重要:“用 100 萬個影片 case 訓練,勉強夠用;200 萬個,稍好一些;300 萬個,就會感到 Wow;到了 1000 萬個,就變得難以置信了。”
“傳統自動駕駛系統就像一個漏斗,資訊一層層丟失。” 一位自動駕駛演算法工程師說,傳統方案的感知階段,工程師們通常會設定 “白名單”,重點識別行人、車輛、車道線、紅綠燈等重要目標,以節省算力。到了預測規劃環節,工程師會提前設定,根據需求呼叫感知模組輸出的資訊完成工作,資訊會再一次折損。因此傳統方案很難像人一樣用充分的資訊決定怎麼開車,要依賴工程師們提前寫的規則。
而端到端方案中,攝像頭等感測器獲得的資訊全部傳遞到決策環節,“資訊無損傳遞,模型可以從感知資料中捕捉更多資訊完成決策,提升系統應對各種複雜場景的能力。” 上述自動駕駛演算法工程師說,因為是端到端架構,模型的決策也會直接影響感知環節,讓它之後捕捉更多人意識不到但對駕駛有幫助的資料。
在許多場景,特斯拉 FSD v12 都有明顯提升。一位自動駕駛從業者(知乎 @EatElephant)告訴我們,他體驗後感覺到,與 v11 相比,v12 控制車輛的速度和轉向 “很絲滑”,“即使坐在後排,路口轉彎時幾乎感覺不到任何頓挫”。為了保證安全,傳統自動駕駛方案行車時,會時不時帶下剎車。
他在一篇文章中寫道,面對右前方有人騎腳踏車的場景,“v11 會過度小心,規劃出一條非常離譜的大幅繞行路線,v12 從容淡定,繞行幅度接近人類司機的選擇,速度控制和果斷程度也非常合理。”
那些難以用規則描述的場景,FSD v12 的應對方式有明顯進步。他舉例,比如遇到路邊開著雙閃的亞馬遜送貨卡車,能迅速判斷對向無車,立即借道繞行。而傳統的方案大多數情況下都會停下來,或者等一段時間才會考慮採取行動。
FSD v12.3 更新推送後,一批車主在 YouTube 上傳了車輛從容應對各種複雜的路況的影片,比如晚間穿越擁擠的紐約第五大道,30 分鐘全程沒怎麼碰方向盤。
面對興奮的車主們,美國公路交通安全管理局在 5 月 6 日發函要求特斯拉詳細說明,如何防止車主濫用輔助駕駛系統,比如怎麼提醒駕駛員 “把手放在方向盤上”。
基礎:最難的幾年依然堅持預裝硬體、研發晶片、採集資料
2018 年初,特斯拉深陷產能危機、面臨生死考驗時,馬斯克發郵件給 OpenAI 管理層,希望 OpenAI 併入特斯拉,共同研發 “基於大規模神經網路訓練的全自動駕駛方案”。
他認為,AI 研發需要巨資,而 OpenAI 需要建立盈利模式才能與巨頭抗衡。而特斯拉已經用 Model 3 和其供應鏈打造了火箭的 “第一級”,如果 OpenAI 能夠併入特斯拉,將會加速無人駕駛研發,打造火箭的 “第二級”,特斯拉會因此賣出更多車,OpenAI 也會有足夠的收入開展人工智慧研究。
馬斯克的提議被拒絕,最後退出 OpenAI 董事會。但在此之前,他就已經從 OpenAI 挖來安德烈·卡帕蒂(Andrej Karpathy),負責自動駕駛技術研發,帶隊訓練效果更強的模型。
多位自動駕駛從業者認為,卡帕蒂加入特斯拉是其研發 v12 版端到端自動駕駛模型的開端。
1986 年出生的卡帕蒂,是過去十多年人工智慧浪潮的親歷者,也是從中成長起來的人工智慧科學家。他 2011 在斯坦福大學讀博士期間和導師李飛飛一起完善催生 AlexNet 的 ImageNet 競賽資料集,在各個學術會議上發表數篇計算機視覺論文,在斯坦福大學開設了第一門深度學習課。博士畢業後,他是最早一批加入 OpenAI 的人。

2017 年 11 月,卡帕蒂釋出著名的《軟體 2.0》 文章,稱 “軟體吞噬世界,而人工智慧為基礎的軟體 2.0 正在吞噬軟體”。那時經過大量資料訓練的計算機視覺模型,識別物體的準確率超過人眼。AlphaGo 從資料中學到了擊敗人類圍棋冠軍的方法。
他相信,靠著大量資料,人工智慧在大部分有價值的垂直領域,“至少在涉及影像 / 影片和聲音 / 語音的領域,比你我能想出的任何程式碼都要好。”
在卡帕蒂到來前,特斯拉已經完成了自動駕駛的資料基建。
用大量資料訓練更強的模型,是非常適合特斯拉的技術發展路線。但特斯拉要投入大量資源研發自動駕駛技術,馬斯克從不缺乏冒險的決心。
2016 年開始,每一輛出廠的特斯拉汽車都搭載能執行 Autopilot 輔助駕駛系統的硬體,花錢買了軟體才能開啟功能。到現在也沒幾個汽車品牌會這麼做,更常見的做法是把同一款車分成不同的版本,把搭載自動駕駛硬體車型賣給感興趣的客戶。
標配輔助駕駛的時候,特斯拉啟用 “影子模式”(Shadow Mode),就算駕駛員不購買 Autopilot 功能,這套系統也會在後臺執行,記錄行車資料、規劃行車路線。馬斯克當時接受採訪說,它的作用是證明系統比人可靠,為監管機構批准技術提供資料支撐。
卡帕蒂加入後,影子模式成為特斯拉獲得訓練模型資料的核心來源——當系統選擇的路線與駕駛員的選擇有明顯偏差時,就會觸發資料回傳機制,系統會自動記錄攝像頭捕捉到的資料、車輛行駛資料等,等到連線 WiFi 後上傳到特斯拉的伺服器中。到 2018 年底,特斯拉就靠這套系統採集 16 億公里數據,超過現在絕大多數研發自動駕駛技術的車企。
特斯拉的自動駕駛團隊把大部分精力放到資料上,搭建了一套資料處理系統,專門分析、篩選收集到的資料,一開始用人、後來絕大部分資料用機器打標籤,然後餵給模型,持續改進自動駕駛系統。為了用大量資料訓練模型,特斯拉在 2019 年之前,就採購大量 GPU 建設名為 Dojo 的算力中心,並持續擴大,到現在已經積累了等同 3.5 萬張 H100 的算力。

2019 年 4 月,特斯拉釋出 HW 3.0 硬體,搭載兩顆 FSD 第一代晶片,算力達到 144 TOPS,是當時英偉達車載晶片 Xavier 的近 7 倍。和過去一樣,不論使用者是否購買輔助駕駛系統,特斯拉都這套硬體裝到每一輛特斯拉車上,而且免費幫買了輔助駕駛系統的老使用者升級。
“不僅讓我們能夠更快地運行當前的神經網路(模型),更重要的是,它允許我們在車上部署更大、計算成本更高的模型。” 卡帕蒂說。HW 3.0 也是特斯拉現在能大規模推行 FSD v12 系統的基礎。
特斯拉搭建這套基礎設施的時候,也是它開始量產車輛以來資金最緊張的一段時間。從 2017 年到 2019 年初,特斯拉都深陷 Model 3 產能危機。
到 2019 年 3 月,特斯拉的現金儲備只剩 22 億美元,只夠再燒不到半年。《馬斯克傳》記錄,當時馬斯克對妻子說,“我們必須籌集到資金,否則就完蛋了。”
馬斯克想了幾夜後,決定面向投資人辦一場活動,即特斯拉 “自動駕駛日”。他告訴華爾街的投資人,無人駕駛汽車未來能幫特斯拉實現鉅額盈利,接下來一年多時間會部署 100 萬輛無人計程車,重塑人們的日常生活。
沒人相信特斯拉的無人駕駛能很快到來。這場活動結束一個多月,特斯拉股價跌了 30%。靠著 Model 3 產能順利擴大,上海工廠迅速建成,特斯拉才緩了過來。但接下來的 5 年,是特斯拉自動駕駛基礎技術進步最快的階段。
實現:從模擬人眼開始,一步步擴充套件到整個系統
看影片學開車的道理聽起來很簡單,但中間需要解決無數問題。
2020 年到 2022 年,特斯拉每年都會公開一版 “感知” 模型,每個版本都朝著模擬 “人眼” 更進一步。
2020 年 2 月,卡帕蒂在一場學術會議上展示了特斯拉訓練 48 個神經網路組成的 “多工模型”HydraNet,可以識別 1000 多個目標,比如汽車、腳踏車、車道線、學校區域等。
HydraNet 用微軟亞洲研究院 2015 年釋出的 ResNet 模型當主幹,提取車身周邊 8 個攝像頭所捕捉畫面的通用特徵,交給不同的演算法分支完成不同的任務。這麼做可以避免用不同的模型重複從相同的畫面提取特徵,節省算力。
這是當時學術界和多數開發大型計算機識別系統公司的選擇,特斯拉把它做得規模更大,並實現工程化。但這麼做有侷限。HydraNet 只能從不同角度的攝像頭捕捉的畫面中各自提取資訊,攝像頭可能只會捕捉到周邊物體的一部分。就像新手司機很難靠後視鏡流暢倒車入庫一樣,自動駕駛系統也很難靠它實現真正的無人駕駛,還得靠各種雷達、高精地圖輔助。
不用雷射雷達的卡帕蒂團隊選擇使用一系列演算法,將 8 個不同方向的攝像頭收集的畫面拼成一個 360° 的鳥瞰圖(Bird's Eye View,即 BEV)模式,再讓模型 “理解世界”,規劃行車路線。但想讓這套系統效果良好,得儘量保證地面是平的,而且車周圍環境要簡單,否則系統就難以準確理解不同攝像頭看到的圖片之間有什麼關聯。
“當我們用它實現 FSD 時,很快發現達不到預想中的效果。” 安德烈·卡帕蒂在 2021 年特斯拉 AI Day 上說,他介紹了用 Transformer 架構開發的新版模型,能準確地把跨越多個相機的目標拼得更準確、穩定。

而且利用 Transformer 架構做成的模型,輸出的資訊可以直接用到後續的預測規劃模組,也為 FSD v12 做成端到端模型打下基礎。
與新模型配合,卡帕蒂還分享了一個名叫 “Spatial RNN” 的架構,用影片訓練模型時,模型能獲得短暫的 “記憶” 能力,理解周圍的場景如何隨著時間變化,從而具備腦補攝像頭視野盲區、即時構建區域性地圖的能力。
這次技術迭代,讓特斯拉的輔助駕駛系統不用高精地圖也能把車開好,再一次推高自動駕駛的能力上限,向人眼靠近。
等到 2022 年特斯拉 AI Day 舉辦時,卡帕蒂已經離開特斯拉。特斯拉的自動駕駛系統繼續迭代,繼任者阿肖克·埃盧斯瓦米(Ashok Elluswamy)介紹了 “佔用網路”(Occupancy Network),在 Transformer 架構基礎上引入 “高度” 要素,能把不同角度攝像頭捕捉到的畫面還原成 3D 場景,計算出一個物體在空間中佔用多少點,從而推斷出它的形狀。
藉助 Occupancy Network,特斯拉的自動駕駛系統不用雷射雷達,只靠攝像頭收集資訊,就可以識別出它沒有見過的障礙物,被視為 “純視覺方案” 的勝利。
特斯拉多年研發,終於實現馬斯克多年前提出的第一個要求:人靠雙眼就可以識別、還原 3D 環境,車靠攝像頭也應該可以。

在這個過程中,特斯拉還在逐步嘗試讓神經網路決定車怎麼開。在 2021 年的 AI Day 上,特斯拉就展示了用大量資料訓練出來的 “神經網路規劃模型”,當時只是作為輔助,為最終的規劃決策模組提供參考。到 v12 版本,神經網路正式接管預測規劃模組,完成端到端拼圖。
疑問:自動駕駛現在能不能有 Scaling Laws
FSD v12 距離真正的無人駕駛還有距離。像 ChatGPT 一樣,它有閃光時刻,但也常犯錯。廣受好評的 v12.3 版本上線後,車輛時有撞到馬路牙、損壞輪轂的低階錯誤。而在上一代方案中,很少會出現類似的情況。
特斯拉也沒敢全面依賴 v12。一位特斯拉車主從 FSD 的軟體包中發現,v12 僅適用於城市街道,高速場景還是用 v11。
“端到端系統的下限其實很低。” 一位自動駕駛工程師說,高速行車速度更快,規則更簡單,經過長期打磨的傳統方案,可能比當前的端到端方案更安全。“只有把端到端方案下限提上來,處理簡單場景比原本方案更好,才是真正的效能提升。”

“端到端的模型上線之前一定會有 ‘護欄’。它像是未來會成為博士的學生,但成長過程中需要小學、初中老師去帶,需要時間成長。” 英偉達汽車事業部負責人吳新宙認為端到端模型成為主流之前,還需要和原有模型配合工作,保證安全。
馬斯克願意更快一點。今年 4 月,馬斯克在一季度財報會上說,他們可以看到三四個月後的模型效果,已經可以稱為 FSD v13,“比當前車上的版本更強,但有一些問題需要解決。”
他相信特斯拉已經找到適用於自動駕駛的 “Scaling Laws”(規模定律):只要繼續擴大模型引數、投入更多資料和算力,不斷改進模型架構,就會有更好的效果。
過去多年,Scaling Laws 被視為 OpenAI 有底氣開發規模更大、效果更好模型的秘訣。而自動駕駛所在的計算機視覺領域,因為訓練模型需要的資料是與物理世界中相關的影片,需要模型理解更多物理規則,許多研究者擔心,用更多的資料、算力訓練更大的模型,會陷入瓶頸,能力不會提升,反而會下降。
“我們可以根據過去的趨勢估算未來的進展,從過去的資料來看,估算通常都是正確的。” 埃盧斯瓦米在財報會上說,特斯拉每週都會訓練數百個能夠生成不同駕駛路線的模型,再拿從使用者和測試人員那裡收集的數百萬影片片段測試,如果效果更好,就會給專門的路測團隊和員工測試,最後推送給更多使用者,迭代速度會越來越快。
我們瞭解到,特斯拉的 v12 系統目前並不能像 GPT-4 等語言大模型那樣,可以解答訓練資料中沒有的問題,還要從大量的資料中學習如何應對複雜場景。
隨著模型能力提升,改進模型需要的資料更多。馬斯克今天說,每 10000 公里的行駛資料,只有 1 公里能訓練模型。而且每訓練一遍,都需要消耗大量算力。
這對於特斯拉不是問題。路上數百萬輛特斯拉車可以源源不斷為它提供各種各樣的資料。特斯拉還在開發更強的模擬系統,生成各種資料訓練模型。去年的計算機視覺學術會議 CVPR 上,埃盧斯瓦米展示了特斯拉用收集來的資料訓練成的 “世界模型”(World Model),它可以根據提示詞和過去的影片,生成汽車繼續向前開會經歷什麼場景的影片,比如不同視角的攝像頭中,車道線怎麼延續,路口怎麼變化。
但建立在端到端架構上的自動系統,是一個 “黑盒子”,就連它的創造者都搞不清楚它如何把一堆資料變成結果。人們能做的,是給它處理好的資料,讓演算法自己提煉規律,並依此處理新的資料。如果出了問題,就給它更多的資料,讓它自己修正。
這不是自動駕駛獨有的問題,任何使用深度學習的應用都一樣。只是人們不那麼在意抖音的演算法推給你幾個不感興趣的影片,也能忍受 ChatGPT 有時 “胡說八道”,但非常在意 2 噸重的汽車為什麼在道路上失常。
“它可能會 ‘無聲地失敗’,當問題爆發出來時,通常難以分析和排查,因為模型已經變得非常龐大。” 卡帕蒂在《軟體 2.0》文章中談到了缺陷,這會是一個選擇題:“用我們理解的、效果達到 90% 的方法。還是我們不理解、效果達到 99% 的模型。”
特斯拉已經用行動做出選擇。他們相信,採用端到端神經網路、經過數十億公里現實世界資料訓練的純視覺模型,是實現大規模無人駕駛的正確方法。
馬斯克給自動駕駛團隊下達的命令是,想盡辦法提高 FSD v12 不需要人類能夠行駛的距離。他們在辦公室放了一面鑼,每解決一個問題,鑼就會響一次。馬斯克認為,只要有確鑿的資料證明,自動駕駛比人開車更可靠,就不會有太多監管障礙。
過去幾個月,特斯拉降低 FSD 價格、讓美國的車主免費試用,激進地把 v12 版本推向市場,一個季度就行駛 5 億公里。
從特斯拉開始研發輔助駕駛系統以來,馬斯克就對無人駕駛極其樂觀。2016 年,特斯拉第一次在車輛周圍放置了 8 顆攝像頭,擁有 360° 視角,馬斯克就安排團隊精心準備影片,宣揚無人駕駛即將到來。
之後每隔一兩年,馬斯克就會更新一次無人駕駛即將到來的時間表,然後被證明是過於樂觀。但每一次,自動駕駛技術又會往前多走一步。
題圖來源:少數派報告

1957 年,人造物體第一次進入宇宙,繞著地球飛了三個星期。人類抬頭就能在夜幕裡看到一顆小小的閃光劃過天空,與神話裡的星宿並行。
這樣的壯舉跨越種族與意識形態,在全球各地激起了喜悅之情。但並不是我們可能猜想的那種為人類壯舉所感動的勝利喜悅。根據政治哲學家漢娜·阿倫特(Hannah Arendt)當年的觀察,人們的情緒更接近於一種等待多時的寬慰——科學終於追上了預期,“人類終於在擺脫地球這個囚籠的道路上邁出了第一步”。
人們總是根據技術探索,快速調整著自己對世界的預期。當科幻作家的一樁暢想變成現實,往往是技術終於追上了人們的預期,或者用阿倫特的話說,“科技實現並肯定了人們的夢想既不瘋狂也不虛無。”
今天這樣的時候,多一點夢想是更好的。
這也是《晚點 LatePost》啟動 TECH TUESDAY 這個欄目的預期。我們希望在《晚點》日常關注的商業世界外,定期報道新的科學研究與技術進展。
這些可能關於一項前沿研究的進展、可能是對一個技術應用的觀察,也可能是對一些傑出技術、乃至一個時代的致敬。
這個欄目將從科學與技術的角度出發,記錄這個世界的多樣變化。在這個旅途中,希望讀者能和我們一起,對這個世界增加一分理解。
· FIN ·



