AndrejKarpathy：Tesla能實現自動駕駛領域的AGI｜AGIX投什麼

01.

自動駕駛和 AGI 很像

Sarah Guo: 你怎麼看今天自動駕駛的發展？還有多久我們會看到自動駕駛全面普及？

Andrej Karpathy: 我在自動駕駛領域呆了 5 年，我覺得這個領域非常有趣。從現階段這個領域的發展情況來看，自動駕駛和 AGI 之間非常相似，也可能因為我對自動駕駛領域很熟悉，但我確實覺得我們在自動駕駛領域已經快接近 AGI 了，比如現在已經有成型的產品可以讓使用者付費使用，Waymo 就是一個很好的例子，Waymo 現在在舊金山很常見，很多人都體驗過，我自己就常常體驗 Waymo，它已經成為了一個商業化的產品。

我第一次體驗 Waymo 差不多是 10 年前，當時有一位朋友在 Waymo 工作，他帶我乘坐 Waymo 環繞了一整個街區，10 年前從技術角度 Waymo 就已經很好了，但從 demo 到成為大規模鋪設在城市中的產品這個過程經歷了 10 年，當然今天 Waymo 也還在持續擴張。

Elad Gil: 從 demo 到成功的付費產品之間經歷了 10 年，有多少程度是監管的原因？你認為自動駕駛技術什麼時候就已經 ready 了？

Andrej Karpathy: 我認為自動駕駛其實在 10 年前就已經達到相當成熟的水平，但 30 分鐘的 demo 並不能完全展示他們過去 10 年所面臨的所有挑戰，demo 與實際產品之間有很大差距，當然這裡面會有部分監管的原因。

但我認為，我們已經一定程度上已經在自動駕駛領域達成了 AGI。與此同時，demo 和在全球範圍內得到推廣之間也存在著很大差距。雖然 Waymo 已經可以在舊金山執行，但從在全球市場普及角度，還沒有產生很實質性的影響和結果。這也是我認為 AGI 和自動駕駛相似的地方。

回到自動駕駛領域，許多人認為 Waymo 在技術上領先於 Tesla，但我個人認為 Tesla 實際上要比 Waymo 走得更前，這個觀點可能和目前的主流聲音不太一樣，但我對 Tesla 的自動駕駛確實很有信心。

Tesla 面臨的是軟體層面的問題，Waymo 的挑戰來自於硬體，相比較來說，軟體問題的解決要更容易。Tesla 已經在全球範圍內大規模部署了車輛，而 Waymo 還沒有達到這樣的規模。因此，我相信一旦 Tesla 的系統能夠真正大規模落地並高效運轉起來，效果會很驚人。昨天我剛試駕了 FSD 的最新版本，駕駛體驗非常流暢。Tesla 自動駕駛系統的一系列操作，讓我覺得 Tesla 今天自動駕駛上已經取得了相當不錯的結果。

整體上，我覺得 Tesla 的自動駕駛最大的挑戰在於軟體角度，Waymo 的挑戰則更多來自硬體。從今天的情況看，Waymo 似乎處於優勢位置，但我相信，如果從 10 年的長度來看，Tesla 會在規模化和收入模式上更領先。

Elad Gil: 你認為解決軟體問題需要多長時間？你剛剛提到 Waymo 的車輛上有很多昂貴的雷射雷達和感測器，這些硬體給軟體系統提供了支援，如果像 Tesla 一樣，僅僅只是依賴攝像頭系統，不僅能夠顯著降低成本，還能減少系統的複雜性，並且適用於更多車型。這種轉變大概什麼時候能夠實現？

Andrej Karpathy: 我個人希望未來幾年內就能解決。其實 Tesla 在訓練階段也使用了很多昂貴的感測器，還做了很多沒辦法大規模推廣的技術，比如無線感測器信任模型研究和地圖測繪等。而在測試階段，Tesla 將這些資料精簡成一個只依賴視覺系統的測試包，部署到量產車上。很多人可能並沒有意識到，這其實是一種很精明的感測器與成本之間的“套利”。因為攝像頭能夠捕捉到足夠的資訊，神經網路也有能力處理這些資訊。在訓練階段，這些感測器非常有用，但在測試階段，它們的作用並不那麼重要。所以，我認為只依賴攝像頭已經足夠。

Elad Gil: 自動駕駛領域最近出現的一個趨勢是，開始從基於邊緣案例設計的啟發式演算法逐漸轉向端到端的深度學習，背後的原因和邏輯是什麼？

Andrej Karpathy: 端對端其實就是我們一開始想要做的。我剛加入 Tesla 時，我們就討論過，神經網路最終一定會替代整個技術棧。當時系統中有大量的 C++ 程式碼，但今天測試包中執行的 C++ 程式碼已經很少了。神經網路逐步取而代之，一開始神經網路只是用在影像識別處理上，後面又擴充套件到處理多幀影像並生成預測結果，隨著時間推移，C++ 程式碼逐漸被替代。最終，系統只需要給出駕駛指令，神經網路就能輸出結果。

所以 Tesla 在做的就是端對端的 AI 駕駛，但 Waymo 應該是沒有選擇這個技術路線的。雖然他們有過嘗試，但效果不太理想。

我個人很相信端對端的路線才是正確的，是未來發展的必然方向。如果從這個角度看，十年後的 Tesla 系統很有可能會發展成一個端到端的神經網路，影片流輸入後直接輸出駕駛指令。當然，這個過程需要逐步完善系統的各個模組。我並不認為當前所有的中間預測(intermediate predictions)會對開發程序產生誤導，恰恰相反，它們是系統的重要組成部分。因為在訓練一個完全端到端的神經網路時，模擬人類駕駛的監督訊號十分有限，無法支撐如此龐大的網路進行訓練。中間預測則能幫助開發出特徵和檢測器，從而使得端到端的問題變得更加可行。因此，我猜測他們在進行大量的預訓練，以便未來實現端到端的微調。

總的來說，我認為神經網路取代整個技術棧的過程是必要的，但過程需要循序漸進。Tesla 目前的嘗試已經展現了初步成效，讓人對未來充滿期待。

💡

中間預測（Intermediate Predictions）：在模型訓練或推理過程中，生成的非最終結果或輸出。這些預測在多步計算過程中作為中間步驟，幫助模型逐步逼近最終結果。它們在複雜任務中非常有用，比如分層決策、機器翻譯或多工學習，可以透過評估這些中間結果來最佳化模型效能，糾正偏差或提高模型的訓練效果。此外，中間預測還幫助解釋模型的內部工作機制，並可能為模型調優提供參考。

02.

Tesla 也是一家機器人公司

Sarah Guo: 離開 Tesla 之前，你也參與過 Tesla 的人形機器人專案。從自動駕駛到機器人，有哪些技術是可以遷移的？

Andrej Karpathy: 基本上所有技術都可以遷移。但我覺得大家可能還沒有意識到這一點。機器人和汽車本質上並沒有太大的差別。我覺得把 Tesla 簡單理解為一家汽車公司其實是對它的誤解。

Tesla 其實是一家大型的機器人公司，它不僅僅是在生產汽車，而是在製造自動化的機器。大規模生產是一個很不一樣的領域，我認為 Tesla 是一家專注於大規模機器人技術的公司。

從汽車技術遷移到類人機器人技術，其實並不需要太多的額外工作。事實上，早期的 Optimus 機器人甚至還認為自己是一輛車，因為它使用了與汽車完全相同的計算機和攝像頭。有趣的是，我們在機器人上執行的是為汽車設計的神經網路，而機器人在辦公室裡行走時，識別的“可駕駛空間”實際上成了“可行走空間”。雖然需要一些 fine tuning ，但這確實展示了技術的通用性。

Sarah Guo: 從某種角度來看，Tesla 確實可以被看作是一家機器人公司，很多核心技術是可以跨平臺遷移的。生產機器人所缺乏的關鍵部分，其實主要在於執行機制和相關的行動資料。

Andrej Karpathy: 是的，雖然有些地方還不夠完善，但我想強調的是，很多技術是可以直接遷移的。比如 Optimus 專案的啟動速度相當驚人，Elon Musk 宣佈這個專案之後，相關的團隊和工具就已經迅速到位了。像 CAD 模型、供應鏈等資源都很快準備好了。當時我會感覺 Tesla 內部其實已經具備了相當豐富的機器人制造資源，這些都是從 Tesla 汽車那裡拿過來的。這個感覺有點類似於《變形金剛》裡面所展示的，車變形為機器人之後，所有的東西都一樣，只是需要對一些東西稍加調整、重新配置。除了硬體之外，整個思維方式、標註團隊、各個元件板塊之間的協調等都會變化。但總體上，有一部分經驗和資源是可以遷移的。

Elad Gil: 你認為人形機器人的第一個應用場景會是什麼？

Andrej Karpathy: 很多人會認為機器人可以幫助我們完成像洗衣服這樣的日常任務。但我認為這些技術的實際落地可能還需要很長時間。我並不認為直接面向消費者對於人形機器人來說是一個好的起點，因為我們目前還無法完全確保機器人在與老年人等人群互動時的安全性，比如避免“把老奶奶撞倒”這樣的意外，這類情況會帶來巨大的法律風險，所以我覺得這個方向並不太合適。即使在很多簡單互動場景下，機器人也很可能會直接撞倒人。

但今天的技術還不夠成熟，需要進一步改進。因此，我認為對於機器人開發商來說，第一階段最好的客戶應該機器人自己，如果機器人開發者們能夠意識到這一點的話，首先要做的就是應該在內部使用這些技術進行孵化，然後就可以在工廠中應用，比如物料搬運（material handling）等領域，這樣就也不需要和第三方籤合同，避免了涉及律師和合同等繁瑣的過程。

透過內部孵化併成功後，就可以進入 to B 市場，和一些有大型倉庫業務的企業合作，做物料搬運等任務。在這些合作中，機器人公司就可以搭建起市場的安全體系，在多個公司成功實踐後，再逐漸過渡到面向消費者的應用領域。我相信我們未來會看到很多面向消費者開發的機器人，比如 Unitree 開發的產品就很值得期待，我自己會想買一臺 Unitree G1.

等到機器人在各個場景都有普及的時候，會有一個完整生態，即大家會基於機器人平臺來開發各種型別的機器人。但從規模化的角度看，我認為逐步推進的路徑是最合理的。

最開始可能是處理一些物料搬運（material handling）相關的工作，接著逐步擴充套件到更為細分且需求量大的領域。我個人特別感興趣的一個專案是“吹葉機”。比如某一天我們可以看到 Optimus 機器人在街道上行走，輕輕地把每一片落葉拾起來，這樣我們就不需要再使用吹葉機了。我覺得這是一個非常棒的專案，希望這能成為早期應用中的一個場景。

Sarah Guo: 在機器人形態上，有人認為人形機器人會是更好的選擇，因為今天物理世界的很多設計都是依照人類行為習慣展開的，所以基於人形機器人的統一硬體形態開發模型就能完成越來越多的任務，另外一種觀點認為，人形機器人並不一定是通用機器人的唯一答案。你怎麼看這個問題？

Andrej Karpathy: 我覺得很多人其實都低估了不同機器人平臺的固定成本的複雜性，每種機器人平臺都要求很高的 fixed cost，因此通用機器人的路線就會更合理一些，我們基於一個統一的平臺來做各種嘗試。

所以我會認為人形機器人其實具有很大潛力，人類可以輕鬆地對它進行遠端操控，從而去幫助收集資料。同時，就像你剛剛提到的視角之一，整個世界都是圍繞人類行為習慣展開的，這是為什麼人形機器人會很重要的另外一個原因。

當然，在未來可能圍繞人形機器人還會有各種形態的變化，但對於任何一種新的機器人平臺來說，fixed cost 都是需要去考慮的重要問題。

我還想強調的是，透過不同任務之間的資訊共享和互相學習，你將能獲得更多收益。

在 AI 領域，我們想要構建一個能夠處理多工的神經網路，透過多種任務相互學習進而提升整體的智慧水平。語言模型的有趣之處在於它們作為處理文字的多工模型，能夠處理多種不同型別的問題，同時還能在這些任務之間共享資訊。但所有這些任務其實都是透過一個單一的神經網路進行的。

同樣，我們希望拾葉子任務中收集到的資料能夠幫助你完成其他任務，但如果專門為某個特定任務開發一個系統，那麼你的獲利範圍可能就會變窄。

Sarah Guo: 像 Unitree G1 這樣的機器人目前售價在 30 萬美元左右，就目前看來人形機器人領域實現低成本、高功能的平衡很難，但如果我們採用輪式結構，並在其基礎上增加機械臂來完成特定任務，是不是更有機會能實現一種更具價效比的通用形態的機器人？

Unitree G1機器人

Andrej Karpathy: 從硬體角度尋找更便宜的通用平臺是合理的。某些環境下，用輪子等其他結構代替雙腳來完成任務可能是個更高效的選擇，但我覺得這可能是在追求一種區域性最優解。從長遠來看，我認為選擇一種形態並將其打磨到完美可能是更明智的做法。並且從人類心理層面來說，類人形態的機器人優勢會更明顯，它讓人感到熟悉從而想要與它進行互動。

當然，考慮到恐怖谷效應，也許抽象的形態會更受使用者歡迎。因為其實我也不確定人們對不同形態的機器人會給出什麼樣的反應，如果我們最後用一個八輪怪物來完成工作，我不確定人們會喜歡它還是會更害怕。

Elad Gil: 機械狗也是一種形態路線，並且狗也屬於人類更熟悉的形態。

Andrej Karpathy: 是的，不過很多看過《黑鏡》的人可能會把機械狗與某些恐怖場景結合在一起，所以每個人的心理接受度也會不同，相比之下類人形態可能更容易讓人接受，也可以讓人更容易理解它的功能和行為。

Elad Gil: 如果要實現類人形態，從技術角度，還要實現哪些關鍵進展？

Andrej Karpathy: 我認為這個問題目前還沒有很明確的答案。這裡面有一個比較有趣的討論是，在人形機器人的設計中，下肢部分（the lower body）不太適合使用模仿學習來實現，這部分更多涉及到倒立擺控制（inverted pendulum control），對於上半身（the upper body），則更多依賴遠端操控、資料採集以及端到端學習等方式。從某種意義上講，機器人系統需要將多種技術結合在一起，但我目前還不太確定這些系統之間是如何起作用的。

💡

倒立擺（Inverted Pendulum）：涉及到使一個擺保持在不穩定的直立位置，作為一種經典的控制問題在機器人學、航空航天等領域有著廣泛的應用。傳統的倒立擺控制方法有 PID 控制、線性二次調節器（LQR）、滑模控制等。

隨著 AI 的發展，強化學習的方法逐漸被引入到倒立擺的控制中，RL 路徑下，因其具備無需精確模型即可學習最優策略的能力而備受關注。基於強化學習的倒立擺平衡控制演算法是一種非常實用的技術，在機器人學、自動化等領域有著廣泛的應用。

Elad Gil: 在和一些機器人領域的人交流時，我發現他們很關心動力驅動、操控以及數字操控（digital manipulation）等問題。

Andrej Karpathy: 是的，我覺得在初期階段，確實會有很多遠端操控的場景，比如讓機器人模仿人類從地上拾取物品，直到系統有 95% 的時間可以自主執行。然後逐步增加機器人的工作比例，讓人類從操作員變成監督員。

其實我認為技術上並沒有什麼特別的障礙，更多是需要做大量基礎性的工作。我們已經有了合適的工具和資源，比如 Transformer 架構，這樣的技術就像優秀的“協調者”，我們只需準備好正確的資料，經過訓練和實驗，最終實現部署。雖然過程繁雜，但其實並沒有特別多本質上的技術瓶頸。

03.

合成數據、小模型、LLMs 公司

Sarah Guo: 你覺得在 Large Blobs 研究上，我們走到什麼階段了？

💡

Large blobs research ：通常指的是在深度學習和計算機視覺領域中的一種研究方向或技術。Blob 是 “Binary Large Object”的縮寫，即“二進位制大物件”，是影像或特徵圖中的大塊連續區域，這些區域可能包含重要的視覺資訊或表示特定的物件或場景部分。研究這些大塊區域有助於提高模型對大尺度視覺特徵的理解和處理能力。

Andrej Karpathy: 我覺得我們現在正處於一個快速發展的階段。Transformer 並不只是一個神經網路，而是一種功能強大且通用的神經網路。

舉個例子，當大家討論 scaling law 時，其實很多時候指的是 Transformer 架構的特性。在 Transformer 之前，人們主要用堆疊 LSTM 來做一些工作，但並沒有發現明確的 scaling law。Transformer 是第一個讓這件事變得很清晰、並且可以有效擴充套件的模型。

💡

堆疊LSTM（Stacked LSTM）是指將多個LSTM（Long Short-Term Memory）層疊加在一起形成的深層神經網路結構。

Transformer 像一個通用計算機，更確切來說是一臺可微分神經計算機（Differentiable Neural Computer,DNC)。我們可以讓它做超大規模的輸入和輸出，並透過反向傳播法對這個計算機進行訓練，最終，它會成為一個可以自我進化的一個任務完成系統。

💡

可微分神經計算機（DNC）：一種特殊的神經網路，能夠儲存和檢索資訊，類似於計算機中的記憶體系統。它是“可微”的，意味著可以透過反向傳播最佳化它的引數，使其在解決複雜任務時表現更好。

Transformer 雖然是我們在演算法領域偶然發現的一個奇蹟，但它背後確實有很多個關鍵創新，比如殘差連線（residual connections）、層歸一化（layer normalizations）和注意力機制（attention block）。和傳統方法不同，Transformer 沒有使用那些會導致梯度消失的非線性啟用函式，而是像它們的技術論文裡提到的進行了創新技術的融合，極大的提高了訓練效率和效能。

Sarah Guo: 這段時間一直有關於資料牆（data wall）的討論，以及下一代模型再 scale up 的話成本會特別高。你怎麼看資料的問題？

Andrej Karpathy: 這也是我們一開始就討論的。我覺得今天神經網路的架構本身已經不再是瓶頸了，雖然在 Transformer 誕生之前，架構問題確實是一個阻礙，現在新的瓶頸主要集中在損失函式和資料集上，所以很多公司和研究者不再專注 Transformer 架構的變化，比如 LlaMA 也沒有特別明顯的架構創新。唯一比較大的變化可能是“旋轉位置編碼”（RoPE positional encodings）。過去五年 Transformer 本身並沒有太多變化，大家只是在現有基礎上專注於訓練、資料集和損失函式的創新。

💡

“旋轉位置編碼”（RoPE，Rotary Positional Encodings）：一種用於 transformer 模型的位置編碼技術。它透過旋轉向量的方式來表示輸入序列中的位置資訊，與傳統的位置編碼相比，RoPE 可以使模型在處理長序列時更具優勢。其關鍵特點是透過旋轉向量的角度來編碼序列中每個元素的位置，同時保持相對距離的資訊。這種方法允許模型在不同位置上具有更好的靈活性和擴充套件性，尤其適合處理長距離依賴關係的任務。

Sarah Guo:當網際網路上資料不夠用時，我們就要開始用合成數據，或者類似的更貴的資料收集方式嗎？

Andrej Karpathy: 目前很多研究都集中在語言模型上。雖然網際網路資料並不是 Transformer 最理想的資料來源，但它們可以作為一種工具，不斷去提升模型能力。網際網路資料只是大量網頁的集合，但真正有價值的是我們大腦中的“內部獨白（inner monologue）”——那些複雜、深層次的思維軌跡。

如果我們能擁有億萬條類似“思維軌跡”的資料，那麼就可能在某種程度上接近 AGI。但目前這些資料並不存在，所以現在的研究主要集中在將現有資料集重組，形成類似“內部獨白（inner monologue）”的格式，這就是合成數據的重要性。今天的模型可以幫助我們生成下一代模型，這是一個不斷迭代進步的過程，就像在爬階梯，一步步接近目標。

Elad Gil：合成數據的作用到底有多大？就像你說的，每個模型都能幫助我們去訓練下一個模型，或者至少能為資料標註等任務提供工具，其中一部分可能就是合成數據。

Andrej Karpathy: 我覺得對於模型能力提升上，合成數據是必不可少的，但在使用合成數據時要很小心，因為模型不知道什麼時候就“崩塌”了。比如，當我們讓 ChatGPT 給我們講笑話時，如果多試幾次我們會意識到它可能只知道 3 個笑話，雖然表面上看它懂很多，但其實它只知道那幾個，這就是“崩塌”，即單次輸出沒問題，但如果在這個特定方向的輸出上，模型的多樣性和靈活性大大降低，這就是生成資料時的問題，尤其在生成合成資料時很容易出現“崩塌”的情況，因為我們那實際上很需要資料的多樣性和豐富性，也就是“熵”，以免資料集過於單一而出現問題。

💡

模式坍塌(Mode Collapse)：這是生成對抗網路（GANs）中的一個現象，指的是生成模型開始生成非常相似或重複的樣本，而不是多樣化的樣本。這通常被視為一個問題，因為它表明模型沒有能夠學習到資料的豐富多樣性。

舉個例子，有人釋出了一個包含 10 億條虛構人物背景組成的人物形象相關資料集，比如“我是老師”或“我是藝術家，我住在這裡，我從事這個工作”等。在生成合成資料時，其實是讓它想象與特定人物互動的過程，這能給模型更多的探索空間，從而輸出更多的資訊，增加資料集的多樣性。因此，我們需要小心地注入熵的同時保持資料分佈的穩定性，這就是生成合成資料最大的挑戰。

Sarah Guo: 你覺得我們可以從這個研究中學到哪些和人類認知有關的東西？比如有人認為，理解思維軌跡的形成過程有利於我們去理解大腦是如何運作的。

Andrej Karpathy: 研究模型和人類認知是兩件完全不同的事情，但在某些情況下還是可以類比的。比如，我認為 Transformer 在某些方面比人腦更強的，模型是比人腦更高效的系統，但因為資料限制，它們目前的表現還不如人類大腦。不過這只是一個粗略的解釋。

比如就記憶能力而言，Transformers 在處理長序列時的表現要比人腦更出色。如果你給它一個序列，讓它執行一次前向和後向計算，它能記住序列的前後部分並完成任務，而人類記憶則很難做到這點。因此，在某些方面我認為基於梯度最佳化的訓練方式確實比人腦更高效，甚至未來在某些認知層面上，模型可能真的會超越人類。

Elad Gil: 記憶能力是計算機的優勢之一。

Andrej Karpathy: 是的，我認為人腦其實有很多限制，比如工作記憶（working memory）的容量非常有限，而 Transformers 的工作記憶相比之下則大得多，並且他們之間的差距還在不斷擴大。此外，Transformers 的學習效率也更高。人腦的執行會被很多隱性因素所限制，比如背景、責任、環境等等，這使得人腦系統更加隨機且受限。所以，我覺得其實在某些方面這些模型已經比人腦更強了，只是還沒發揮出全部潛力。

Elad Gil: 在人和 AI 的關係上，一種論調是說我們把它當作外部工具來使用，也有人說人類和 AI 模型會有更深層次的融合。你怎麼看這個問題？

Andrej Karpathy: 我覺得我們已經在某種程度上實現了人類和 AI 的融合，技術工具一直是人類能力的衍生，就像人們常說的，“電腦是人類大腦的腳踏車”。只不過今天模型的問題在於資訊輸入輸出過程中的瓶頸，所以人類與 AI 的融合還需要進行不斷的嘗試。不過在模型已經完善的情況下，使用這些模型是很簡單的，只需要簡單的動幾下手就可以實現。所以，雖然存在一些障礙，但現階段的技術已經讓這種融合變得相對容易和可行。

Elad Gil: AI 領域的一些人認為，如果未來我們與 AI 之間發生衝突，是可以

透過某種人類與 AI 融合的形式來解決的。

Andrej Karpathy: 是的，這與 Neuralink 的理念很相似。雖然我不確定這種融合的具體形式，但可以肯定的是，我們希望減少人與工具之間輸入輸出的延遲。可以把它想象成，在我們的大腦皮層上增加一個新的皮層，這個新皮層或許是基於雲的，本質上相當於大腦的下一層。

Elad Gil: 在 Accelerando 這本書中確實有類似的設定，所有事物都透過一種可佩戴智慧眼鏡傳遞給大腦。如果失去了這些眼鏡，就彷彿失去了一部分人格或記憶。

Andrej Karpathy: 我覺得這種情況很可能發生。現在的手機幾乎已經成了我們生活的一部分，像大腦的外接裝置一樣。每次我們把手機放下時，就感覺回到了原始狀態。

再比如如果我們有一個“通用翻譯器（Universal Translator）”並長期依賴於它，那麼當我們一下子沒有它的時候，可能就會失去和說不同語言的人直接交流的能力。就像有個影片裡面呈現的，一個小孩拿著雜誌想用手指滑動，他根本分不清什麼是天然的、什麼是技術帶來的。這讓我覺得，隨著技術變得越來越無處不在，人們可能會逐漸依賴這些工具，直到它們消失時才意識到自己無法分辨什麼是技術，什麼不是。特別是像翻譯器這樣始終幫你執行任務的裝置，會大大降低人們對技術和自然界限的敏感度。

Sarah Guo: “外皮層”（exocortex）聽起來是個很重要的東西，對於每個人都很重要。今天 LLM 研究是由少數幾個 AI Labs 主導的，只有他們有資源推動下一代模型訓練的發展。你怎麼看今天 LLM 研究中的這種結構？它會對未來 AI 技術的普及帶來哪些影響？

Andrej Karpathy: LLM 的生態系統今天確實是被幾個封閉平臺壟斷的，排名靠後的 Meta LlaMa 則相對開放，這個現象在某種程度上也是開源生態系統的對映。當我們 LLM 看作“外皮層”時，就會涉及到資訊和資料私密性的問題。加密領域有句話是“not your keys，not your tokens”，可能在 LLM 領域未來我們會去強調“ not your weights, not your brain”。如果 AI 是未來每個人新的大腦皮層，如果這個皮層被某個公司掌控，人們會覺得是在“租用”一個大腦，而不是真正擁有它。

Sarah Guo: 你願意放棄對自己大腦的所有權和控制權，去租用一個更強大的大腦嗎？

Andrej Karpathy: 我認為這是一個很關鍵的 trade-off，未來的趨勢可能是，大多數人會把功能強大的閉源模型作為預設選項，但在一些特定情況下，開源系統會成為備選方案。就像現在一樣，當一些閉源模型提供商的 API 出現問題時，人們轉向開源生態，也因此感受到更多的掌控感。

這或許也會是未來大腦技術發展的方向：當問題出現時，我們可以切換到開源系統，而在大部分情況下，我們仍依賴封閉系統。保持開源系統的發展是很重要的，但今天可能並不是所有人都意識到這個問題。

Elad Gil: 你怎麼看小模型？今天小模型的效能能到什麼水平？

Andrej Karpathy: 我認為模型的規模還可以縮得更小。因為資料集的問題，我們覺得現在的模型在儲存一些無關緊要的資訊上浪費了很多容量，小模型的關鍵是要聚焦在核心認知，而這個核心其實可以非常小。它更像是一種思維方式，當我們需要查詢資訊時，能靈活運用各種工具來獲取，而不是讓模型儲存大量不必要的細節。

從引數上，我認為可能只需要 1 億個引數就能達到我們的目標。高效的壓縮技術可以讓模型變得非常小，壓縮的原理很簡單：用一個非常大的模型或大量計算資源來 supervise 一個更小的模型，這個過程就可以把很多能力塞到小模型裡。

這件事的本質是，今天大模型處理的是網際網路資料集，而其中只有大約 0.001% 的內容與認知相關，其餘 99.99% 實際上是一些無關緊要的資訊，比如 Copy right 這種文字。大部分資訊並沒有對思維模式的提升起到實質作用。

Elad Gil: 這個過程可以被數學或者某種資訊學理論解釋嗎？模型規模和認知能力之間的關係是可以被量化的嗎？比如可能未來只需要一個 10 億引數模型就能有不錯的認知了。

Andrej Karpathy: 甚至可能用不到 10 億，模型就可以有這種認知能力，考慮到模型成本、端側裝置等。而且在我們要討論的可能不是一個單個認知模型，我認為模型應該具備並行處理的能力，而不只是依賴順序處理。這就像公司運作一樣，很多工作可以並行完成，但也需要層級結構來更好地處理資訊。因此，我認為未來可能會出現“LLM 公司（companies for LLMs）”的模式：不同的模型專注各自的領域，比如一個是程式設計師模型，另一個是專案經理模型，大家一起並行處理很多工作，彼此之間也可以協同合作，形成一個由 LLMs 構成的“群體大腦”。

Elad Gil: 這個 LLMs 叢集像是一個生態系統，其中每一部分都有自己獨特的專長和位置。

Andrej Karpathy: 我覺得未來一定會朝這個方向發展，雲端模型是最智慧的，可以看作是 CEO，還有很多更便宜的、開源模型是這個群體中的員工，但系統遇到很複雜的問題時，就會自動把任務升級並分配給群體的其他部分。

04.

AI 時代的教育

Sarah Guo: 你從 OpenAI 離開之後開始做自己的教育專案，為什麼選擇教育？

Andrej Karpathy: 我一直熱愛教育行業，喜歡學習、也喜歡教學，對這個領域很有熱情。

💡

Karpathy 創立了 Eureka Labs，這是一個以 AI 為核心的教育平臺，旨在透過人工智慧技術革新學習方式。Eureka Labs 的第一門課程 LLM101n 將指導學生構建自己的大型語言模型，目的是讓 AI 教育變得更加互動且普及。這個平臺計劃透過整合 AI 教學助手和人工課程設計來增強學習體驗，反映了他多年來致力於將 AI 與教育相結合的願景。

推動我進入這個領域的一個重要原因是，我覺得現在很多 AI 都是在嘗試取代人類，導致很多人失業，但我更感興趣的是那些能夠增強人類能力的技術。總體而言，我站在人類這一邊，希望 AI 能幫助人類變得更強大，而不是被邊緣化。

另外，我認為有一個可以實現所有學科輔導任務的 “Perfect Tutor”是一個相當不錯的想法，如果每個人都有這樣一個 AI 導師來指導他們學習所有學科，我相信每個人能取得更大成就。

Elad Gil: 從 80 年代開始，就有文獻明確指出一對一輔導能夠使個人的水平提高 2 個標準差，圍繞個性化 tutor 也有很多案例，你認為要怎麼把 AI 和 tutor 結合起來？

Andrej Karpathy: 我的確也從這些例子中得到了很多啟發。現在我正在構建一個完整的課程，目標是讓它成為人們學習 AI 時的首選，我之前教授了斯坦福的第一門深度學習課程，雖然學生人數只有 20 到 30 人，但效果不錯。現在的挑戰是如何將這種課程規模化，覆蓋全球 80 億人，考慮到語言和能力的差異，這很難靠一個老師實現。

因此，關鍵是如何利用 AI 來擴充套件優秀教師的作用。教師的核心任務應該是課程設計和編寫材料，而 AI 則可以在前端與學生互動，傳授內容。目前的 AI 還不能獨立建立完整課程，但已經足夠能幫助解釋和傳遞知識。透過這種方式，教師可以專注於後端設計，AI 則在前端使用多種語言與學生互動，幫助他們完成學習。

Sarah Guo: 可以把 AI 比做助教嗎？

Andrej Karpathy: 助教是我考慮的方向之一，我把它看作一個前端，直接和學生互動，帶領他們完成課程，我認為這是當前技術下的可行方案，而且市面上還沒有類似的產品，所以我覺得這個領域有很大的潛力，並且隨著技術進步，我們還可以對它做各種各樣的調整。我覺得今天很多公司對模型能力的理解並不足夠直觀，也因此，它們開發的產品過於超前或者還不夠準確。所以我覺得這個領域的潛力很大。

Sarah Guo: 有了好的工具之後人類能力極限可以到什麼程度？比如，如果類比奧運會的話，因為過去 10 年訓練科學和技術的進步，頂級跑者的表現也比 10 年要更好。

Andrej Karpathy: 我覺得我們今天還沒觸碰到潛力的最大可能。我們可以從兩個角度來想這個問題，首先是全球化，我希望每個人都能接受到高水平的教育，其次是個體的能力極限。這兩個角度都很有價值。

Elad Gil: 通常我們討論 1 對 1 學習指導的時候，都會提到個性化、自適應，即根據每個人的水平來給到相應的學習挑戰任務，你覺得 AI 今天可以做到這一點了嗎？

Andrej Karpathy: 我覺得今天 AI 教育領域的“低垂果實”還是翻譯這些應用，現階段的模型很擅長這類任務，能做的事情還是基礎的任務。

要做到適應每個人水平的個性化很難，但也並不是做不到，我覺得這也應該是 AI 要去重點發展的方向，它也明顯有潛力做到這點。但這個可能就會涉及到新的領域，可能比較簡單的模式是透過 prompt 工程來實現，但我覺得真正有用的方式還是要讓模型本身就有這樣的能力，它可以像老師一樣在工作。

我認為這確實涉及到一些目前尚未充分發展的領域。雖然簡單的版本可能不遠了，比如透過給模型提示就能得到一些幫助，但我說的是真正有效的解決方案，而不是僅僅在 demo 裡看起來不錯。我說的是它能像真正的老師一樣高效工作，理解每個人的背景，提供個性化的指導，這需要更進一步的發展。

Elad Gil: 我們是不是可以透過引入其他模型來實現這種自適應？

Andrej Karpathy: 我覺得這也是 AI 的一個特點。我覺得很多功能其實只需要一個 prompt 就能實現。所以我們經常看到很多 demo，但最終能不能提要到一個實際的產品呢？所以可能作出一些 demo 並不難，但要發展成可以被大規模使用的產品還有很長的路要走。

Sarah Guo: 幾周前你提到，學習和娛樂是不同的，學習應該具備挑戰性，也需要一定的激勵系統，比如社會地位、偶像效應等。你覺得激勵系統能在多大程度上改變人們的學習動機？你更關注提供資源，讓人們在自己的能力範圍內儘可能走得更遠？還是希望改變願意學習的人數、引導更多人開始學習？

Andrej Karpathy: 我希望讓學習變得更容易一些，畢竟有些人可能天生對學習不感興趣。很多人學習是出於實際需求，比如為了找到工作，這非常合理。在我們社會中，教育扮演著重要角色，因為它不僅能夠提供知識，還能提升一個人的經濟地位，這就是人們願意被教育激勵的原因。

Sarah Guo: 在後 AGI 社會中，我們的未來將會是怎樣的呢？

Andrej Karpathy: 在後 AGI 時代，我認為教育將更像一種娛樂。成功的教育不僅僅在於知識的傳遞，更在於深入理解和應用這些知識。

Sarah Guo: Eureka 的第一批受眾是誰？

Andrej Karpathy: 第一次課程的主要受眾是本科生，特別是那些在技術領域攻讀學位的人。如果你正在學習與技術相關的本科課程，那麼你就是這一課程的理想目標群體。

Andrej Karpathy: 我認為我們目前的教育觀念已經有些過時了。過去的上學然後畢業一直工作在今天的變化下會被打破，技術迅速變化，人們需要不斷學習。所以雖然課程是面向本科生水平，但其實受眾很廣，比如我覺得任何年齡段的人都可以參與。特別是對於那些有技術背景、希望深入理解相關知識的人，都會有收穫。

我計劃在今年晚些時候開設課程，明年年初可能會是一個合適的時間點，在此之前我會努力確保課程的質量達到預期標準。

Elad Gil: 如果你有孩子，你會希望他們學習哪些知識和技能？

Andrej Karpathy: 我會給出的答案是數學、物理、計算機科學等這些學科，這些學科實際上為思維能力的培養提供了非常核心的訓練。當然，這個觀點受到了我的背景影響，但我相信這些領域對解決問題的能力是非常有幫助的。即使在未來接近 AGI 的時代，這些技能仍然會發揮重要作用。在人們擁有大量時間和注意力的關鍵時期，我認為應該主要集中在那些操作相對簡單的任務上，而不是需要大量記憶的任務上。雖然我也認可學習其他學科的重要性，但我認為 80% 的時間應該專注於這些核心領域，因為它們更具實用性和長期價值。