對話小馬智行樓天城:只靠端到端無法通向L4,模仿優秀司機令人絕望

五年時間重構技術路線,“我們沒有放棄在黎明前的那一刻”。
文丨程曼祺
編輯丨宋瑋
Waymo,百度,再到 8 年前開始的創業——小馬智行聯合創始人兼 CTO 樓天城,可能是中國最懂 L4(全無人級別)自動駕駛的人。
今年,百度蘿蔔快跑在武漢出圈,Google 旗下 Waymo 在舊金山的日均單量超過當地計程車,Robotaxi(無人計程車)和 L4 都在低谷反彈。
在小馬智行於美股 IPO 後,我們與樓天城聊了他思考和實踐著的 L4 技術:他幾乎沒提今年自動駕駛領域最火的 “端到端”。
在他看來,描述車端模型架構的端到端本就不是關於 L4 的 “對的問題”。
真正的關鍵,是訓練車端模型的虛擬環境,樓天城稱之為 “世界模型。
樓天城說,世界模型是車端模型的 factory(工廠),L4 自動駕駛技術的真正差別在 “工廠” 的精度,因為它會決定它所生產的產品,即車端模型的上限。
這套與流行的 “端到端” 相去甚遠的方法背後,是小馬智行過去 5 年經歷的技術路線切換,樓天城總結為:從 Learning by Watching(透過觀察學習)到 Learning by Practicing(透過練習學習)。
前者是學習人類駕駛行為的模仿學習,“端到端” 就是一種模仿學習思路:透過學習 “感測器資料” 與 “人類駕駛軌跡” 的海量對照,讓車端模型能做到輸入感測器資料後,輸出合理的駕駛軌跡。
而後者的關鍵則是透過 AI 生成技術,構造訓練車端模型的環境,這包括道路情況,路上其他車和人的行為,還有各主體間的互動,然後再用強化學習方法,讓車端系統在這個訓練環境裡自己進化。
樓天城分享了與這個技術切換相關的一些洞察:
  • Learning by Watching 最多是像人,但像人永遠無法做到 L4。
  • 越是優秀的人類司機,學起來越是反向最佳化。
  • MPI 為 1000 公里的 L2 產品不存在,因為它反人性。
  • 在 Learning by Watching 思路下,L2 做得越好,它的上限離 L4 越遠。
  • L4 也不會反向取代 L2。
樓天城說,過去 5 年,外界幾乎看不到 L4 公司的進展,他自己也是因 2019 年的瓶頸,對當時已做了 3 年的技術方法感到絕望,所以開始尋找新方向。
除了理性的技術判斷,感性上的挑戰在於:自動駕駛是複雜系統,技術切換並不立竿見影。
在小馬智行開始新方法的頭兩年,團隊內部也難感知到進展。“我就不斷告訴他們:這是正確的,我們應該這麼做。” 樓天城說,認知上的轉折,在當年的 L4 業界並非特立獨行,但真能做下來的不多,因為這需要一家公司部分放棄過去的積累,且熬過一個正反饋不明顯的階段,“很多人放棄在黎明前的那一刻”。
本次訪談的音訊也已在我們的播客節目《晚點聊 LateTalk》上線,可長按或掃描下圖中的二維碼收聽:
以下是我們與樓天城的訪談,文字有刪減、修改。
學習優秀人類司機是反向最佳化;MPI 為 1000 公里的 L2 產品反人性
《晚點》:2022 年,我們對小馬有過一次報道,當時的標題還是 “市場不相信無人駕駛了”,而今年 Robotaxi 水溫明顯回暖,變化是如何發生的?
樓天城:過去遇冷,是因為 2019 年之後,L4 公司的技術進展沒法被外界感知了。我們當時做的無人化 demo、拍的影片,現在可能也做不出更好的,因為 2019 年就已經很好了。
而隨著 Waymo、百度和我們開始真正規模化地無人運營,外界才感受到了進展。今年夏天,百度在武漢是 400 多輛車,Waymo 現在是 800 輛到 1000 輛,我們也是百輛級。
使用者拿 App 就能打到一輛無人車,它是一個產品了,這是最根本的。
《晚點》:如果過去 5 年外界感知不到明顯進展,那作為從業者你看到了什麼?
樓天城:技術至少有百倍到千倍的提升。就是車輛從幾百公里就會遇到一次危險性接管(MPCI,指不接管就會發生危險事故),到了幾十萬公里級別。但即使對自動駕駛很有熱情的人,也不會一連坐幾百公里的車,所以大家感知不到。
最本質的變化是,過去 5 年,我們重構了整個技術的做法,突破了 2019 年突破不了的門檻。
《晚點》:當時具體遇到了什麼瓶頸?
樓天城:其實就是 MPI 很難再上去了,也就是平均多少里程需要接管一次,它指向安全性。
在那之前,我們的技術路線是 Learning by Watching,是靠收集資料來模仿,但我當時意識到,模仿最終做不到 L4。
所以我們徹底換了方法,用 Leraning by Practicing 來做,就是在一個虛擬環境——我們後來叫它 “世界模型” 中自我訓練、自我演進。這是整個技術的路徑切換。
《晚點》:當時一定需要重構整個路線嗎?不可以加更多資料,大力出奇跡?
樓天城:Learning by Watching 是一種模仿學習,端到端就是這樣——輸入所有感測器的資料,可能還包括動力學或地圖資訊,輸出是車的軌跡。
但它有 3 個很嚴重的問題:第一,它沒法學習駕駛員是怎麼想的,比如駕駛意圖,和一些潛移默化的習慣模式。單純做模仿,沒法學到這些,因為就沒有這個資料,能蒐集到的資料是車怎麼開,不是司機怎麼想。
從學習的角度——這句話真正做深度學習的人會理解——就是從超高維到低維的學習,常常只能學到表層的 feature(特徵)。這造成,最後學的資料裡,1 萬幀中可能 9999 幀都是一樣的,而不一樣的那一幀的失效會導致嚴重錯誤。這叫知其然,不知其所以然。
《晚點》:馬斯克他經常說,人靠看見就能開車。你不同意嗎?
樓天城:他如果說的是狹義的 “看”,我不同意。人如果只看車上攝像頭拍的影片開車,也不一定能開得很好。人開車時還有很多超視距資訊,甚至位覺器官也在起作用,比如幫人維持平衡感的耳石,而它在耳朵裡。
《晚點》:Learning by Watching 的其它兩個侷限是什麼?
樓天城:第二個是雙標——人類司機可能因為嚴重身體問題失去駕駛能力,但人不接受機器失效。再比如一些鬼探頭的場景,人類司機盡力了,有時可以是無責,但大家不接受 AI 這樣。
所以 AI 就算真的完美模仿了人類司機,也不滿足人的要求。而 Learning by Watching 的上限只能做到像人。有人會說,向優秀司機學習是不是就可以了?
《晚點》:現在很多車企就是這麼說的。
樓天城:那他們還沒意識到問題,意識到之後,我不知道他們會多絕望。我先說說我的絕望。
越是優秀的人類司機,你向他學,越是反向最佳化。
因為人開車,是眼觀四路、耳聽八方,不是看感測器的資料,他有一些感測器沒法得到的資訊,包括他的經驗。所以越優秀的司機,讓他用感測器資料開車,(決策)偏差就越大。
這背後是 Learning by Watching 的第三個侷限,就是它是一個開環訓練。這時,自動駕駛車輛無法自己判斷是學得更好還是更差了,而向優秀司機學的策略,會放大系統和人類司機的輸入偏差。這兩個加起來,就會導致反向最佳化。
這裡還補充一個 MPI 卡住的非技術原因,就是世界上不存在一個 MPI 1000 公里 L2 的產品。1000 公里什麼概念?一個人如果一天開 30 公里,MPI 1000 公里就是一個月才接管一次。那我反問,到時你真能接管得了嗎?你開了 29 天都覺得挺好,第 30 天突然發生狀況,駕駛員真能有注意力嗎?這是做不到的。
如果 MPI 還沒逼近 1000 公里時,可能意識不到這個問題,但當你真接近時就會發現,它不存在,因為這反人性。
重點在於生產車端模型的 “工廠”,而不是車端模型本身
《晚點》:當你們發現 Learning by Watching 的侷限後,怎麼找到了第二條路?
樓天城:故事從閉環說起,就是我需要讓自動駕駛系統自己知道學得好不好,讓它自己能練習。就像學游泳,你看多少遍游泳影片,都不如自己下水管用。
具體技術上的思路,主要是轉向強化學習。這也不是一個新東西了。AlphaGo 和 AlphaGo Zero 做了什麼,你瞭解嗎?
《晚點》:AlphaGo 是學習歷史上已有的棋譜,AlphaGo Zero 是不學棋譜,自己和自己下棋來進步。
樓天城:其實 AlphaGo 也做了強化學習。這樣更可怕,你會發現,先學人類棋譜,再強化(AlphaGo),甚至不如從零開始強化(AlphaZero)。
《晚點》:圍棋是一個封閉規則的遊戲,更容易使用強化學習。你們在自動駕駛上怎麼使用 Learning by Practicing 的強化學習?
樓天城:關鍵是搭建訓練模型的虛擬環境,也就是 “世界模型”。它是四個東西的組合:資料生成器生成的場景資料,駕駛行為好壞的評估體系,高真實性的模擬,最後是資料探勘工具和引擎。
這四個裡,只有資料生成器是個模型,其它東西嚴格來說不一定是模型。
《晚點》:構建出目前這個世界模型的過程是怎樣的?
樓天城:首先是資料生成。在 2019 年時,小馬智行的資料也不少了,幾百萬公里。那之前我經常說,中國資料很多樣,但那個時刻之後,我基本放棄了之前說的優勢,開始用生成資料,生成資料不表示不使用真實資料,但生成能力是關鍵,資料量本身沒那麼關鍵了。
一個錯覺是:相比實際收集的資料,生成資料會不會覆蓋不了常規場景或 corner case?其實那都是沒做好,如果做得好,它的覆蓋率和一致性(consistent)遠超實際路採資料。
《晚點》:做好和沒做好的差別在哪兒?
樓天城:比如真不真實,比如路上的互動行為做得好不好。自己的車怎麼開,跟別人的行為是相關的,一個反常識的點是,車不是開得越謹慎越安全,因為太謹慎,會讓周圍的司機疑惑。
所以我們專門訓練了一個還真的挺大、挺複雜的模型來做這種互動。還要考慮對長尾場景的覆蓋,不能生成那些太難、不可能發生的事,但又要有一些會真實發生的場景,這背後是把握事件的整體機率分佈。以及我們剛剛不是聊到人的雙標嗎?還要理解人能接受什麼樣的 AI 行為。
《晚點》:所以在設計模型時,最初其實有很多主觀判斷?
樓天城:對,但不是對車怎麼開的判斷,主要是對世界是怎麼樣的判斷。
還有一個是評價體系,就是什麼叫車開得好,這也是當年構建世界模型的一個重要維度,它開始也是需要主觀判斷和透過標註來學習的。
《晚點》:我們 2022 年聊時,你就講了很多評價體系的事,說小馬 2020 年的一個重要決策是花 2/3 的研發力量做評價體系,但當時你沒提 “世界模型”。
樓天城:那時還差一個東西,就是自我演進的引擎,這是後來補充世界模型的關鍵。這個東西不是第一天做好的,第一天有很多人為的東西,後來慢慢自動化,變成一個 AI 司機能自我演進、自我學習,非常少的人類監督。
其實我 2022 年在公司講這個,很多人也不認同。後來我說,人的一生也很少經歷強化學習,我接受教育的前幾年都是模仿學習,直到差不多是高中時,我意識到人可以透過強化而不是模仿來變強。
本質就是,向未來的自己學習:透過一個虛擬環境去模擬未來,就能反過來想當下的判斷對不對。在駕駛任務裡,5 到 10 秒後的決策對不對,單純預測車的行為時不知道,但在環境裡是可以知道的,因為可以模擬 5 到 10 秒後的環境。
另外我把這個東西叫世界模型,也是不想和 Waymo 撞,他們叫 Foundation Model(基礎模型),這個詞很容易被誤解,它其實是整個訓練環境。
《晚點》:但 “世界模型” 現在的意思也很模糊,楊立昆(Yann LeCun)說要做世界模型,李飛飛新創業公司的目標也是實現 “大世界模型”。這些世界模型的異同是什麼?
樓天城:有一些技術,比如說生成式技術是相通的,但做的事完全不同。總之它是一個訓練環境,我也沒有找到另一個描述方式。
《晚點》:你講了這麼多世界模型,其實它並不是我們一般討論自動駕駛時說的那個車端模型。
樓天城:對,它是個車端模型的 factory(工廠)。
《晚點》:你認為,過去 5 年更重要的技術進化是在 factory,也就是訓練環境的部分,而不是 product,就是車端模型本身?
樓天城:沒錯,非常對。現在大家總喜歡會問,你是不是端到端?但其實自動駕駛技術的真正差別在於 factory 的精度,而不在於車載模型的能力。或者說,是 factory 決定了車載模型的上限,就像一個模具的精度決定了它生產出來的零件的上限。所以我們幾乎所有軟體研發的人都在參與做 “世界模型”。
Learning by Watching,資料量和算力是關鍵,Learning by Practicing,世界模型的精度是關鍵,這也是為什麼 Robotaxi 現在公司很少說自己資料多,因為技術的關鍵不在這。
《晚點》:當 “工廠” 的精度提高了,你們車端模型的實際變化是什麼?
樓天城:我們事故率降低得非常明顯,做到了 10 倍人類司機的安全性。當然 10 倍只是簡化的表達,其實是解決雙標問題。
《晚點》:這是從效果上,車端模型的結構上呢?大家還是會好奇,你們是不是端到端?
樓天城:我們現在車端的模型也含有端到端系統,打通了感知、預測、規控三個模組,而且已經上車應用了。
《晚點》:你們找到這第二條路的過程,是參考 Waymo 的,還是自己摸索的?
樓天城:從我的感受,各家剛好都在那個時候意識到這個方向值得嘗試,這是 Robotaxi 行業的共識。我是對之前方法絕望了,必須走的路我就去走。
《晚點》:你現在分享關於世界模型的思路,會擔心別人模仿嗎?
樓天城:Demon in details(魔鬼在細節)。
以及前面說的都是理性的東西。我說幾句感性的,我們開始這個新方向時,是先做了 3 年 Learning by Watcing,已經達到一個不錯的水平,然後 Learning by Practicing 從零開始追了近兩年,這個過程非常痛苦。這兩年別說對外,對內都很難展示進展。但我就不斷告訴他們:這是正確的,我們應該這麼做。
那時壓力巨大。有些公司後來沒有嘗試(這個方向),可能就是這兩年撐不住了。也許只要再堅持半年就可以了,但就在黎明前那一刻放棄了。
《晚點》:你沒有懷疑過自己的判斷嗎?
樓天城:我一直相信。當然我覺得有一個運氣,是疫情時整個行業比較慢,大家心態相對穩一些。如果那時我們就登陸二級市場了,可能我這麼做壓力會更大。
《晚點》:其實 2021 年你們計劃過上市,但沒有繼續推進。
樓天城:我就不說什麼 “天意” 了。競賽圈有一個說法:當年的迷失可能是為了今天更好的相遇。
《晚點》:世界模型的終極形態可能是什麼?
樓天城:我想過。我覺得是車不再發生由系統錯誤產生的問題和事故。
《晚點》:多久能實現?
樓天城:以十年記。這已經屬於探索 AI Driver 的極限了。
L2+ 和 L4,沒有誰做出錯誤的決定
《晚點》:在你經歷了從 Learning by Watching 到 Learning by Practicing 的轉變後,你怎麼看以特斯拉為代表的 L2+ 做法?——繼續用更多資料來學習人類駕駛行為,而且今年取得了驚豔的進展。
樓天城:我首先宣告,沒有誰做了錯誤的決定,因為目標不一樣。L2 是提供幫助以產生價值,L4 是減少人工需求產生價值。所以 L2 對成本和應用範圍都很敏感,L4 則有彈性,它不需要特別大的範圍,比如在一個城市裡也可以,所以這方面不是它最大的最佳化目標,安全性才是。
不做到 10 倍於人類司機的安全,L4 連牌照都沒有。而據我瞭解,今天大部分 L2 系統的 MPCI,就是如果不接管可能發生很危險的情況,大概最高到 300 公里,而 L4 至少是 10 萬公里級別。所以 L2 使用 Learning by Watching 完全沒問題。300 公里接管一次的車在效能上也沒問題。
還有一點,Learning by Watching,資料量是關鍵,所以也符合 L2 公司的核心競爭力,車越多,資料越多,是真正能發揮特長的路線。
而為什麼 L4 選擇 Learning by Practicing?是因為其它的不 work,別無選擇。同時,它要投入很多 engineering(工程研發),需要技術理解和時間積累,這也符合 AI 公司的核心競爭力。
就是說,不同公司有不同長項,用不同方法做不同的事,實現不同的目標,這非常協調。
《晚點》:現階段 L2  和 L4 確實用途不同。但市場之所以反覆比較特斯拉路線和直接做全無人駕駛的 Waymo 路線,是因為不少人相信 L2 再往下發展能覆蓋 L4。
樓天城:這要看有沒有越過那個分界點:比如長跑和短跑,對普羅大眾來說,強身健體可以同時提高二者的成績。但如果你想成為專業運動員,這兩個就不能同時練。
就像一個 Y 字型,開始可能是共通的:一些基礎架構、訓練環境等,但真過了那個點,才會理解這兩個東西原來有這麼大差別。我們也是到後面發現,人類司機的駕駛資料沒法共享。
而且 L2 和 L4 要最佳化的重點場景剛好是不重疊的:L2 會主動提醒接管,而這些需要人類接管的場景,才是 L4 的主要任務。
我還說過,L2 做得越好,距離 L4 越遠。這背後是那個雙標問題:就算我完美模仿了優秀人類司機,距離 L4 也有 Gap,所以 L2 和 L4 的區別是上線的區別,還不是距離本身,這就是越不過去的坎。
同時還有一個剛才說過的運營問題,就是我不能依靠車主實現 MPI 等於 1000 公里的產品,但漸進提升,又沒法直接從 100 跳到 10000。
反觀 L4 系統,它在價效比上沒有優勢,所以可能也很難反向取代 L2。
《晚點》:你覺得特斯拉現在來做 Robotaxi,它和 Waymo,和你們會有什麼不同?
樓天城:不會因為它是特斯拉,Learning by Watching 就能 work。將來總有一天,它會意識到這一點,也許今天馬斯克就已經意識到了。
《晚點》:你怎麼看出來的?
樓天城:比如馬斯克的 X.ai 就有 Learning by Practicing 的理念,就是要跳出模仿學習,但目前不是用來做自動駕駛。
不過這條路我們都走了 5 年了。特斯拉雖然有更多資源,也許也有決心,那也得走一段時間,先從它有 DMV license(加州全無人路測牌照)說起吧。
《晚點》:既然 L2 和 L4 的目標、方法都不同,為什麼你們現在兩個都做?這是為了技術積累,還是商業化?
樓天城:L2 也會產生價值。
《晚點》:你說過和 Waymo、百度相比,小馬資源更有限,這種情況下不能就做一個嗎?
樓天城:或者這麼說,就是因為我們兩個都做了,而且通過了分界點,才能很好地解釋前面那些問題。
規模運營目標:1000 臺有毛利
《晚點》:前面聊的都是技術,在 Robotaxi 的商業化落地上,可以看到現在 Waymo、百度、小馬等都在擴大常態商業運營的車隊數量。你覺得到什麼量,Robotaxi 才會真正開始賺錢?
樓天城:如果算毛利,我覺得千臺就可以,這是未來一到兩年的任務。
而毛利轉正之後,淨利轉正和規模擴大就是一個策略選擇問題了,你可以鋪更多規模,不要那麼快到淨利。我們的策略可能和 Waymo、百度不同,我們要在一個更優的成本結構下擴規模。
《晚點》:在擴大運營範圍這件事上,除了自動駕駛系統本身?你們遇到了哪些其它運營上的問題,怎麼解決的?
樓天城:有一些自動充電、插電槍的工作,這個也花了一些時間,但我沒那麼擔憂。因為計程車公司本來就能運維車輛,我們更多是透過和這類公司合作來做這些事。
《晚點》:在 Robotaxi 的成本結構裡,除了車——你們已經在和豐田、廣汽推進前裝量產的合作——另一個是人車比,就是遠端控制人員,一個人要盯多少車。之前有從業者說,人車比做到 1 V 3 後,再提升就比較難了。
樓天城:首先,遠端本來就不是控制,遠端直接接管反而危險。現在我們就比 1 V 3 高很多,未來還可以看到 1 比 30。這之後再往上漲,成本最佳化的意義也有限了。
《晚點》:在獲客上,今年你們接入高德後,看到了什麼變化嗎?
樓天城:接入高德的好處是它解決車數和區域問題,我可以在一個很大的區域裡有很少的車,他不是每次都一定要派我的車。現在我們 Robotaxi 車輛的日均訂單達到了 15 單。
《晚點》:最近,本來擔任滴滴集團 CTO 兼自動駕駛 CEO 的張博,卸任集團 CTO,all in Robotaxi。他告訴滴滴自動駕駛團隊,他和程維反覆討論後認為,現在是一個非常好的加大投入的時機。我們也瞭解到,中國有百度之外的科技大公司也考慮進入 Robotaxi。這些變化對未來的競爭有什麼影響?
樓天城:更多是先把市場做起來,我們加起來能有出行市場的 1% 就很不錯了。
自動駕駛經歷的所有事,大語言模型走向應用時都會遇到
《晚點》:你心中 Robotaxi 的最大價值是什麼?
樓天城:還是真正改變出行,改變人和路之間的關係。
《晚點》:創業 8 年,你自己覺得最自我懷疑或茫然的階段是什麼時候?
樓天城:談不上懷疑,就是不斷克服困難。如果有一天我真的有猶豫,也不會是因為困難,而是因為一些奇怪的誘惑。我一直說,大部分人不能堅持不是因為太苦,而是因為受到了誘惑。
《晚點》:過去 8 年,你沒有遇到其他的誘惑?
樓天城:沒有誘惑足夠大,沒有誘惑能跟這件事情相提並論。
《晚點》:大模型是個誘惑嗎?
樓天城:大語言模型很 fancy,但一旦走到應用,我做 L4 到今天所有的事,它將來都會遇到。
《晚點》:現在有這個苗頭。
樓天城:甚至你不覺得 L2、L4 已經發生了嗎?我覺得 MiniMax 這個公司它做的就是 L4。
《晚點》:很特別的角度,怎麼理解 MiniMax 做的是 “L4”?
樓天城:L4 的本質,就是嘗試做一個替代人的應用,而如果你做的是一個輔助工具,甚至包括我很喜歡的 Co-pilot,本質也是輔助工具——它應該值多少錢?將來會是一個很大的疑問。因為門檻會降低,會同質化競爭,價值不好 justify,它會遇到今天 L2 遇到的所有問題。
《晚點》:我也想聽你講講,作為高光、低谷,追捧、質疑都經歷過的創業者,你會對接下來可能面臨相似情形的 AI 創業者分享什麼經驗?
樓天城:我覺得對內很重要,外部可能因為認知或背景不同對公司有很多質疑,比如過去 5 年,外界其實看不到 L4 的進展,但在內部,事情不能這麼發生。
我們做的很重要的一點是內部設了很多里程碑,讓大家能感到在向前推進。這種里程碑,首先要能做到,不能完全不可能;同時要明顯。
尤其是當目標到了年度級別時,它得是一個,不完全理性,而是能帶來一定感性感受的進展,哪怕這個感受並不真的直接對應技術變化。
《晚點》:有什麼例子嗎?
樓天城:比如我們之前把安全員從駕駛位移到了副駕,嚴格講,這本質上沒有降成本,它從技術、商業化上是沒有太大意義,但它可感知。
《晚點》:之前小馬 CEO 彭軍告訴我們,小馬的創業過程像一群人在爬一座山脈,山脈意味著你能看到最高峰,但是達到最高峰的旅程不是一路向上;一群人意味著,不是你自己有目標和信念就可以,而是核心團隊要有共識。你會怎麼形容這 8 年?
樓天城:這個描述也很像我做 L4 的認知的變化,剛才我說了一些認知,我並沒覺得任何不這麼想的人是想錯了,可能只是他還沒走到那個地方,他不需要這個認知。
也就是認知和實踐是一種不斷螺旋上升的過程,我走到一個階段,才會發現原來自動駕駛是這樣子。
《晚點》:你最近對創業這件事,或者說前沿科技商業化這件事的一個螺旋上升的新認知是什麼?
樓天城:商業化節奏和商業意義間要找平衡。有兩個極端:一是過早追求商業化,二是一定要做最有價值的商業化,其實這兩者之間的平衡才是更好的狀態。創業前我沒這麼想過,而創業中我偏執過。
《晚點》:接下來有什麼因素會導致小馬失敗?
樓天城:想犯錯誤還是有很多的。但本質上,是能不能穩步增加運營車輛的數量。從牌照、運營到控制車的生產成本,整個是以規模化為目標,這也是當下的行業共識,當然我們追求的是合理成本結構下的規模化。
《晚點》:你是一個追求結果的人,還是更享受中間過程?
樓天城:我是追求結果到有點偏執的人。最終評論好壞的其實是結果。2010 年,西班牙拿了三個國際大賽的冠軍,大家都說是因為西班牙的傳控足球是最好的戰術,其實是因為他拿了冠軍,他的戰術才被認為是最好的。
《晚點》:這種想法可能怎麼影響你的決策?
樓天城:不要跳出結果之外,去跟別人的過程和方法,這可能誤導你,要選最合適自己的。
包括我們今天講的世界模型,不一定是因為我們掌握了最好的方法,所以做到了 L4;而是做到了 L4,它才成了最好的方法。
·  FIN  ·


相關文章