趕緊放棄強化學習？！Meta首席AI科學家楊立昆喊話：當前推理方式會“作弊”，卷大模型沒有意義！

編譯 | 傅宇琪

“別說是試圖重現人類的智慧，我們甚至連貓的智慧都無法重現！”現有的大語言模型面臨著這樣的困境：它們基於深度學習架構，透過在大規模資料上進行預訓練、調整引數，看似構建起了對世界的“理解”，實際上卻仍然缺乏對現實認知的“基本常識”。那麼，怎麼樣才能構建出真正會“思考”的模型？從窮盡模擬到預測關鍵關係，推理方式的改變會是 AI 的下一次革命嗎？

近日，在巴黎舉辦的 AI Action Summit 2025 上，Meta 首席 AI 科學家楊立昆（Yann LeCun）提出了他認為的人工智慧領域一次根本性轉向——突破大語言模型的暴力計算正規化。未來的 AI 不應僅停留在"預測下一個詞元"的層面，而應基於能夠推理、規劃和適應的世界模型。基於該演講影片，InfoQ 進行了部分增刪。

核心觀點如下：

AI 的未來不僅是資料處理，更是對世界的深度理解。
僅僅透過文字資料，我們永遠無法讓 AI 達到人類的智慧水平。
高階機器智慧需要滿足：能從感官輸入中學習、具有持久記憶、能夠規劃和推理、可控、在設計上保證安全。
與其堅持做那些無法預測的事物的機率預測，不如選擇不預測它們。
放棄生成式模型，放棄機率模型，放棄對比方法，放棄強化學習。

現有 AI 的缺陷在哪？

我們需要具備人類水平的 AI 擔任智慧助手。這不僅僅是一個有趣的科學問題，它也滿足了產品需求。未來，我們將佩戴如智慧眼鏡等型別的裝置，並且在這些智慧裝置中，我們將能隨時訪問 AI 助手，與它們進行互動，不論是透過聲音、視覺，還是其他別的方式。我們需要這些系統具備人類水平的智慧，因為我們熟悉與人類互動的方式，所以期望與之互動的系統也具備類似的智慧形式。這些無處不在的助手將成為我們與數字世界互動的媒介。因此，我們需要它們能夠便於使用，特別是對於那些不一定熟悉技術的群體。

問題在於，當前的機器學習技術還遠遠不夠，我們沒有足夠的技術來構建具備相同學習能力、常識和對物理世界理解的機器。動物和人類擁有“常識”，能夠非常快速地學習新任務、理解世界的運作方式，並具備推理和計劃的能力，行為由目標驅動。而 目前的 AI 系統，並不具備我們所需要的特性。原因在於，這些系統基本上是透過自迴歸方式逐個生成 token 來構建輸出，依賴一個預測器在 token 序列上重複操作，透過檢視前面的 token 視窗來預測下一個 token。在訓練過程中，系統被輸入一個序列並復現該序列，但由於因果結構（Causal Architecture）的限制，系統只能依賴前一個 token 來預測下一個 token，無法透過特定輸入預測自身。

人們通常把這種方式稱為 Generative Pre-trained Transformer（GPT），它很高效，但存在一個問題：它是發散的。每生成一個 token，都有可能生成一個不在合理答案範圍內的 token，從而將生成結果推向更不合理的方向。如果發生這種情況，之後就無法修正。而如果假設生成錯誤 token 的機率是存在的，並且假設這些錯誤是獨立的（當然它們並非獨立），那麼就會導致指數級的發散，這也就是為什麼這些模型會出現“幻覺”的原因。

別說試圖重現人類的智慧，我們甚至連貓的智慧都無法重現。 貓理解物理世界，一些家貓甚至知道如何開門、如何擰水龍頭。一個十歲的孩子可以在第一次要求下，輕鬆收拾好餐桌並把碗筷放進洗碗機裡；一個十七歲的孩子經過二十小時的練習就能學會開車。但儘管我們已經有了成千上萬小時的監督訓練資料，我們依然沒有訓練出像貓一樣靈活行動的機器人，沒有能夠收拾餐桌的家庭機器人，也沒有能夠實現完全自動駕駛的汽車。這意味著，我們仍然缺少一些非常重要的東西。

然而，我們的系統能夠透過司法考試、解數學題、證明定理。這就導致我們一直面臨一個悖論，叫做“莫拉維克悖論（Moravec’s Paradox）”。我們認為那些人類和動物能輕鬆完成的事情很簡單，實際上它們對計算機來說非常複雜；而那些對人類困難的任務，比如操控和生成語言、下棋、打撲克、創作詩歌等等，對計算機來說相對簡單。

或許原因就在於一個非常簡單的計算。如今，典型的大語言模型通常是在約 30 萬億個 token（即 3*10^13 個 token）上進行訓練的，每個 token 大約是三個位元組。所以，資料量大約是 10^14 個位元組。如果我們每個人去閱讀這些材料，幾乎需要五十萬年才能完成。事實上，這些資料幾乎涵蓋了網際網路上所有公開可用的文字。

現在，考慮一個 4 歲的人類小孩，他在世界上醒來的總時長為 16,000 小時（大約僅相當於 YouTube 平臺上 30 分鐘內影片的上傳量）。人類有 200 萬個視神經纖維，每根纖維傳輸大約 1 位元組 / 秒，資料量大約是 10^14 位元組。也就是說，一個四歲的孩子在視覺感知中接收到的總資料量，和最大的大模型差不多。

這說明了很多問題：我們永遠無法僅僅透過文字資料讓 AI 達到人類的智慧水平。儘管有些人可能出於某些利益考慮告訴我們，明年就能實現博士級別的智慧，但這根本不可能發生。我們可能會在某些子領域或者某些問題上，例如下棋，達到某種程度的博士級別智慧，但前提是我們為此專門訓練一個系統。

視覺錯覺（Visual Illusions）這類問題中存在許多類似的情況：當你向大語言模型提出一個問題時，如果這個問題是標準的謎題，系統會在幾秒鐘內給出答案。但如果你稍微改變一下問題的表述，系統依然會輸出之前的答案，因為它並沒有真正理解該問題。

那麼，人類嬰兒是如何學習世界運作的呢？嬰兒在生命的最初幾個月內，就積累了大量關於世界的背景知識，比如物體恆常性、堅固性、剛性、自然物體類別等概念。在嬰兒理解語言之前，他們已經能夠區分桌子和椅子的不同，這種能力是自然而然發展的。四個月大之前，嬰兒基本上無法對世界產生任何影響，但之後透過與外界的互動，他們的理解逐漸深化，大約在九個月大的時候就能夠理解一些直觀的物理概念，比如重力、慣性等。需要的互動量並不大，但仍然是非常重要的。所以，如果我們想要開發一個能夠最終達到人類智慧水平的人工智慧系統，這個過程可能會需要很長時間。

如何實現“高階人工智慧”

Meta 不喜歡使用“通用人工智慧（AGI）”這個術語，因為人類級別的智慧實際上是相當專業化的，我們稱其為“高階機器智慧（Advanced Machine Intelligence）”。

那麼，AMI 應該是什麼樣的呢？是能從感官輸入中學習世界模型的系統，比如能透過影片學習直觀物理，是具有持久記憶、能夠規劃行動的系統，是能夠進行推理的系統，是可控、且在設計上保證安全的系統，而不是像大語言模型那樣透過微調來實現安全。

我所知道的構建此類系統的唯一方法是改變當前 AI 系統執行推理的方式。

當前大模型如何推理

當前的大語言模型執行推理的方式是透過固定層數的神經網路層進行處理，生成一個 token，將該 token 注入 input 中，再次透過固定層數的網路進行處理。問題在於，如果你問一個或簡單或複雜的問題，並要求系統以“是”或“否”來回答，例如“22 是否等於 4，”或者“P 是否等於 NP”，系統將花費相同的計算量來回答這兩個問題。因此，某些人可能會透過一種技巧來“作弊”，要求系統“解釋推理過程”，即讓系統生成更多的 token，從而花費更多的計算量來回答問題。

而在經典 AI、統計學、結構預測等不同領域，推理的方式是透過一個函式來衡量觀測值與擬輸出之間是否相容，尋找一個輸出值，將不相容性度最小化，我們將這個函式稱為“能量函式（Energy Function）”，如下圖右側紅色方框所示，這樣系統就會透過最佳化來進行推理。如果推理問題更復雜，系統就會花更多時間來進行推理，而對於簡單的問題，它會花費較少的時間。

經典 AI 中，一切都圍繞推理和搜尋，幾乎所有計算問題都可以歸結為最佳化問題。這種方法在機率建模中也非常經典，比如機率圖模型等。實際上，這種推理方式很接近於心理學家所稱的“系統二（理智）”思維，它是指在採取某個或系列行動之前會先思考該如何做。而“系統一（直覺）”思維則是你可以在不思考的情況下完成某件事，將其變成潛意識行為，大語言模型就屬於“系統一”思維。

解釋這一過程的理論框架是能量基模型（Energy-Based Models），你可以透過一個能量函式來捕捉變數之間的依賴關係。比如，這個能量函式在 X 和 Y 相容時取較低的值，而在 X 和 Y 不相容時取較大的值。你並不是直接從 X 計算 Y，而是利用一個能量函式來衡量不相容度，然後在給定 X 的情況下，找到一個能量值低的 Y。

那麼，這種架構應該如何構建？它與思維或規劃的關係是怎樣的？首先，你從外部世界獲取觀測資料，經過感知模組處理，生成關於世界狀態的估計。然而，世界的狀態並不是完全可觀察的，因此你可能需要將感知得到的資訊與記憶體中的內容相結合，記憶體中儲存著你目前未能感知到的世界狀態。這兩者的結合將進入一個世界模型。

什麼是世界模型呢？世界模型是在一個抽象的表示空間中給定當前的世界狀態估計（Estimate of the State of the World），並且給定你想要採取的動作序列（Action Sequence），世界模型會預測執行這些動作後世界狀態的變化。例如，如果我告訴你想象一個立方體漂浮在空中，接著我讓它繞垂直軸旋轉 90 度，那麼你可以很容易地在腦中形成這個立方體旋轉的模型。

有了這樣一個世界模型的話，我們就可以將其輸入到目標函式中，目標函式是衡量預測的最終狀態是否滿足我們設定目標的函式，類似一個成本函式。我們還可以設定一些“護欄”目標（Guardrail Objectives），把它們看作是系統必須滿足的約束條件，以保證系統的安全行為。系統的執行方式是透過最佳化來進行的，尋找一個能夠最小化任務目標和護欄目標的動作序列來執行。我們這裡討論的並不是學習，而是推理。這種方法可以確保系統的安全性，因為護欄目標確保了安全性，由硬編碼實現，你無法透過給系統提供一個提示，使它逃避護欄目標。

現在，你有了一個世界模型，執行第一動作後預測下一個狀態、第二個動作預測第二個狀態。你可以在整個軌跡中設定護欄、成本和任務目標。如果世界並非完全確定和可預測，世界模型可能需要包含潛在變數（Latent Variable），以考慮我們無法觀察到的世界中的各種因素，這些因素使預測變得不完全精確，最終導致推理的不確定性。

我們需要一個能夠進行層次化規劃（Hierarchical Planning）的系統，這樣的系統可能會有多個抽象層次。具體來說，在低層次上，我們規劃低階動作，比如肌肉控制；而在高層次上，我們能夠規劃抽象的宏觀動作，世界模型在較長時間步長下進行預測，但其表示空間更為抽象，因此包含的細節較少。

舉個例子，如果我在紐約大學的辦公室裡決定去巴黎，我可以將這個任務分解成兩個子任務：去機場和坐飛機。現在，我有了一個子目標——去機場。去機場的過程包括走到街上、打車。那麼，如何走到街上呢？我需要走到電梯、按下按鈕、乘電梯下樓、走出大樓。如何去電梯呢？我需要從椅子上站起來、拿起包、開門、走到電梯、避開所有障礙物，直到某個時刻，我不再需要規劃，直接開始行動。

我們總是在做這種型別的層次化規劃，但實際上我們完全不知道如何讓機器自主學會實現這一點。幾乎每個機器人都在做層次化規劃，但每一層次的表示都是手工設計的。我們需要的是訓練一種我剛才描述的那種架構，它能夠學習抽象的表示，不僅是世界狀態的表示，還能夠預測未來事件，以及在不同抽象層次下的抽象動作。這樣，我們就能進行這種層次化規劃。動物能做到這一點，人類也做得非常好，但我們今天的系統完全無法做到這一點。

生成架構對影片生成毫無意義

大約三年前，我寫了一篇長文，解釋了我認為人工智慧研究應該關注的方向。這篇文章寫於整個 GPT 熱潮之前，我的看法並沒有改變，ChatGPT 並沒有改變什麼。 我們在那之前就已經在做大語言模型（LLM）的工作，所以我們其實早就預見到將會發生什麼。那篇論文的標題是《通向自主機器智慧的道路》，我們現在稱其為“高階機器智慧”，因為“自主”這個詞會讓人感到害怕。

那麼，一個非常自然的想法是，我們能透過影片訓練自迴歸生成式架構嗎？比如將我們用來訓練自然語言系統的相同過程應用到影片上，比如你給系統展示一段影片片段，並要求它預測接下來的內容，那麼系統應該能夠理解世界的基本結構。訓練它做出這種預測可能會使系統理解世界的內在結構。這個方法在文字中是有效的，因為預測單詞是相對簡單的。單詞的數量有限，只有有限數量的詞可能被標記。因此，雖然我們不能精確預測某個單詞會跟在另一個單詞後面，或者文字中缺失的是哪個單詞，但我們可以為字典中的每個單詞生成一個機率分佈或得分。

然而，我們不能像處理單詞那樣處理影像或影片幀，目前沒有好的方法來表示影片幀的分佈，通常會遇到數學不可處理性的問題。你可以嘗試透過統計學，或者物理學家發明的數學方法（比如貝葉斯推理等）來繞過這個問題，但實際上，最好是完全放棄做機率建模的想法，直接說，我只想學習一個能量函式，它告訴我輸出與輸入是否相容，而我不關心這個能量函式是不是某個分佈的負對數。

我們需要這樣做的原因，當然是因為我們無法精確預測世界上將會發生什麼。如果我們訓練一個系統僅僅去預測一個幀，它將無法做得很好。因此，解決這個問題的方法是一種新的架構，我稱之為“聯合嵌入預測架構”（Joint Embedding Predictive Architecture, JEPA），因為生成架構對於影片生成來說根本行不通。

改變模型的預測目標

你可能見過一些影片生成系統，它們生成的內容非常驚人，但背後有很多“技巧”，並且它們並不真正理解物理規律，只需要能預測出漂亮的影像。而在 JEPA 中，你將觀察到的內容和輸出（即下一個觀察）一起輸入到編碼器中，這樣 預測的目標就不再是預測畫素，而是預測影片或任何內容中發生的事情的抽象表示。

讓我們來比較這兩種架構。左邊是生成架構，你將觀測資料 X 透過編碼器輸入，然後可能透過預測器或解碼器生成預測結果 Y，這是一種直接的預測方法。而在右邊是 JEPA 架構，你將 X 和 Y 都輸入到編碼器中，編碼器可以相同也可以不同，然後從 X 的表示中預測 Y 的表示，這個表示位於一個抽象空間中。

這種方法將導致系統學習一個編碼器，去除所有那些無法預測的內容。比如，如果我現在架起相機拍這間屋子的左側，再將相機移到右側，沒有任何影片預測系統或者人類，能夠預測每個觀眾的樣子，或者預測牆壁上的紋理、硬木地板上的木紋。我們有很多事情是無法預測的。所以，與其堅持做那些無法預測的事物的機率預測，不如選擇不預測它們， 而是學習一種表示方式，將所有這些細節基本上消除，從而使得預測變得更加簡單。它可能仍然需要是非確定性的，但至少我們簡化了問題。

JEPA 架構有不同的變體，其中一些包含潛在變數，另一些則是基於動作條件的。我將專注於講解基於動作條件的變體，因為它們很有趣，實際上是世界模型。

在這個架構中，你有一個編碼器，X 是當前世界的狀態或當前觀測值。然後，你將一個動作輸入到預測器中，這個動作是你想象的執行動作，預測器會預測下一個世界狀態的表示，這就是你如何進行規劃的方式。所以，我們需要訓練這些系統，並且需要弄清楚如何訓練這些 JEPA 架構。

這實際上並不完全是件簡單的事，因為你需要訓練 JEPA 架構中的成本函式，它衡量的是 Y 的表示和預測的 Y 表示之間的差異，即衡量它們的發散度。我們希望這個差異在訓練資料上是很小的，但在訓練集之外是比較大的。這就是所說的能量函式，它具有等能量等高線，我們需要確保能量在資料流形之外是很高的。

有兩類方法來處理這個問題。一類方法叫做對比方法（Contrastive Method），它的做法是先將圖中深藍色的資料點，推動它們的能量下降，然後生成一些綠色閃爍的點，再推動它們的能量上升。對比方法的問題在於，當空間的維度很高時，它們無法很好地擴充套件。如果你的 Y 空間有太多維度，你需要在許多不同的地方提高能量，這樣就不太好用了。你需要大量的對比樣本才能讓這種方法奏效。另一類是正則化方法（Regularized Method），這種方法透過在能量上施加正則化來最小化能夠接受低能量的空間體積。

這就導致了兩種不同型別的學習過程，一種是對比學習過程，你需要生成那些對比點，然後將它們的能量推高到某個損失函式（Loss Function）。而另一種是使用正則化方法，它將“收縮”資料流形，確保流形外的能量較高。

有很多技術可以用來實現這一點。大約五六年前，我們讓系統學習影像的表示。取一張影像，對其進行某種方式的腐蝕或轉換，然後將原始影像和腐蝕後的版本輸入到相同的編碼器中，並訓練一個預測器，從腐蝕後的影像中預測原始影像的表示。當系統訓練完成後，去掉預測器，使用編碼器輸出的表示作為輸入，提供給一個簡單的線性分類器，或者類似的監督訓練方法，來驗證學習到的表示是否良好。這個想法非常古老，可以追溯到 1990 年代，被稱為 SII 網路（Siamese Networks）。而一些關於 JEPA 的最新研究則是在此基礎上增加了預測器，例如，谷歌提出的 SimCLR。

然而，這裡維度是受到限制的。我們可以用正則化方法訓練 JEPA，工作方式如下：讓編碼器基本上忽略輸入，產生一個常量輸出，這樣預測誤差始終為零。你還需要防止系統發生崩潰，實現這一目標的間接方式是保持從編碼器輸出的資訊內容。你將有一個訓練目標函式，它是負資訊內容（因為在機器學習中通常是最小化而不是最大化）。一種做法是，將來自編碼器的表示向量在一個樣本批次中進行處理，確保它們包含有意義的資訊。如何做到呢？你可以取出表示向量的矩陣，並計算該矩陣與其轉置矩陣的乘積，得到一個協方差矩陣，然後嘗試使這個協方差矩陣接近單位矩陣。

一個壞訊息是，這種方法實際上是透過對變數之間依賴關係做出非常強的假設來近似資訊內容。 事實上，這只是資訊內容的上界，我們希望實際的資訊內容（即低於上界的部分）會符合這個假設。從理論上講，這種方法稍顯不規則，但它確實有效。所以，儘管存在一些理論上的問題，但它還是能起到作用。

你從編碼器中得到一個矩陣，其中包含多個樣本，每個向量是一個獨立的變數。我們要做的是讓每個變數都具有資訊性。因此，我們會嘗試防止變數的方差變為零，強制它為 1，然後我們會對變數之間進行解相關操作。這意味著我們要計算這個矩陣的協方差矩陣，將矩陣與其轉置相乘，然後儘量讓結果的協方差矩陣接近單位矩陣。還有其他方法試圖讓樣本正交，而不是讓變數正交，這些方法屬於對比樣本的方法。但是，它們在高維度時不起作用，而且需要較大的批次資料。

還有其他的一些方法，比如 VAG（方差不變協方差正則化），它有特定的損失函式來處理協方差矩陣。MCR 平方（MCR²），來源於神經科學。這是一類方法，我非常喜歡這些方法，並且認為它們效果非常好，我預計未來會看到更多類似的方法。

另外還有一類方法，近年來在某種程度上更加成功，這些方法基於蒸餾（distillation）。

同樣的，你有兩個編碼器，它們仍然是 JEPA 架構。兩個編碼器共享相同的權重，但並非完全相同。右邊的編碼器會得到透過指數移動平均得到的左邊編碼器權重的一個版本。簡單來說，你強制右邊的編碼器更新權重的速度比左邊的編碼器慢，出於某種原因，這可以防止系統崩潰。

對於蒸餾，現在有一些理論研究。實際上，這項工作剛剛完成，它為什麼會有效的原因仍然有些神秘。老實說，我對這種方法有點感到不太舒服，但我們必須接受它實際上是有效的。真正的工程師在構建東西時未必知道為什麼它能工作，但他們能夠做出有效的成果，那才是好工程師。這種方法不需要負樣本，它們的系統可以學習通用特徵，之後你可以將這些特徵應用到任何下游任務中，而這些特徵的效果非常好。所以，這種方法非常有效。

實際效果如何？

最近，我們開發了一個適用於影片的版本——V-JEPA。這個系統從影片中獲取 16 幀的片段，然後對這些 16 幀進行腐蝕，透過遮蓋其中的一部分，再將其輸入到相同的編碼器中。接著，訓練一個預測器，從部分遮蓋或腐蝕的表示中預測完整影片的表示。它的效果非常好，因為你可以學習到一些特徵，然後將這些特徵輸入到一個系統中，這個系統能夠對影片中的動作進行分類，並且使用這些方法，你能獲得非常好的結果。

這裡有一個非常有趣的發現，如果你展示給這個系統一些發生了非常奇怪的事情的影片，比如一個物體突然消失或形狀發生變化，這個系統能夠告訴你：“我的預測誤差飆升了，窗格中發生了某些奇怪的事情。”也就是說，儘管這個系統很簡單，但它已經學會了一定程度的常識。它能夠告訴你，世界上是否發生了某些非常奇怪的事情。

最新的工作是基於 Dino 的世界模型。這是使用 Dino 特徵，並在其上訓練一個預測器，使其成為一個基於動作條件的世界模型，從而可以用於規劃。基本的做法是，訓練一個預測器，使用透過 Dino 編碼器處理後的世界影像，並結合機器人可能採取的動作。然後，你透過這個系統預測接下來會發生什麼，即根據所採取的動作預測接下來的影像或影片幀。

這個規劃過程非常簡單。你首先觀察初始狀態，將其輸入到 Dino 編碼器中，然後透過你的世界模型進行多步預測，想象執行一系列動作。接著，你有一個目標狀態，例如透過目標影像來表示，執行到編碼器中，然後計算預測狀態和目標影像所代表的狀態之間在狀態空間中的距離。規劃的過程實際上就是透過最佳化找到一系列動作，並最小化距離。

至於推理時的計算，大家似乎很興奮地談論測試時間計算之類的內容，好像這是一項新技術，但其實這在最優控制中是非常經典的，叫做模型預測控制（Model Predictive Control），已經存在了很長時間了。最早關於使用這種型別模型進行規劃的論文出現在 60 年代初，而那些真正學習模型的工作則比較晚，更多來自於 70 年代，很多在最優控制領域的人應該知道這個方法。

假設你有一個“T”形物體，需要將其推到預定的位置。你會提供該目標位置的影像，並將影像經過編碼器，得到表示空間中的目標狀態。上方顯示的是在真實世界中執行一系列規劃好的動作後實際發生的情況，而下方顯示的是系統內部對該動作序列的預測——經過一個解碼器生成了內部狀態的影像表示（注意，解碼器是單獨訓練的，並非直接進行影像生成）。

再看一個更有趣的例子：這裡初始狀態是一堆隨機散落在地板上的藍色籌碼，而目標狀態顯示在上方。你看到的是規劃後生成的一系列動作，以及機器人執行這些動作的過程。這個環境的動力學相當複雜，因為這些藍色籌碼之間可以相互作用，產生多種互動效果。系統僅透過觀察大量的狀態 – 動作 – 下一個狀態的轉變資料，就學會了這種規律。這種方法在機械臂操作、迷宮導航、以及推動物體等多種情境下均能取得良好的效果。

我們將類似的想法應用於導航任務。基本上，這是影片序列的應用，每一幀都是在特定時刻捕獲的，機器人透過里程計知道自己移動了多遠，從而獲得下一幀。你訓練一個系統，預測如果執行某個特定的運動動作，世界會是什麼樣子。接下來，你可以告訴系統，比如“導航到那個點”，系統就會執行，並在過程中避開障礙物。

AI 的未來：推翻傳統邏輯

我有一些建議：首先，放棄生成模型。 雖然，這是目前大家都在研究的最流行的方法，但請停止繼續在這個方向上工作，轉而研究 JEA；第二，放棄機率模型，轉向 EBM；第三，放棄對比方法，轉向正則化方法；最後，放棄強化學習，這是我長期以來一直在強調的，因為它效率低下。你只有在模型不準確或代價函式不準確時，才需要使用強化學習。

如果你對人類水平的人工智慧感興趣，我建議你不要研究大語言模型。 事實上，如果你在學術界，最好不要從事大語言模型研究，因為你會和成百上千、擁有數萬 GPU 的研究者競爭，但根本沒有什麼新的東西。

去做點其他的事情吧，世界上還有許多問題需要解決，例如如何使用大規模資料訓練這些模型，如何改進規劃演算法，現有方法仍然不夠高效。如果你對最佳化、應用數學有興趣，這是一個很好的方向。還有像是帶有不確定性的規劃、層次化規劃、學習代價模型以及探索問題等，這些都是值得深入研究的領域。

未來，我們將擁有普遍的虛擬助手，它們將隨時陪伴我們，調解我們與數字世界的所有互動，我們無法承受這些系統僅由少數幾家公司來提供。這意味著，構建這些系統的模型需要是開源的，並且廣泛可用。 雖然這些系統的訓練成本昂貴，但一旦有了基礎模型，為特定應用進行微調是相對便宜的，很多人都能負擔得起。因此，這些 AI 平臺需要是共享的，它們需要支援所有世界語言，理解全球的文化、價值觀和興趣點。

世界上沒有任何一個單一的實體能夠訓練這種型別的基礎模型，這可能需要以協作或分散式的方式進行。對於有興趣進行大規模最佳化的應用數學家來說，這仍然是一個很好的研究方向。所以，開源 AI 平臺是必要的。

我看到的危機是，在歐洲和其他地方，地緣政治競爭可能會促使政府將開源模型的釋出視為非法，因為 他們誤以為一個國家如果保守科學秘密，就能保持領先地位，這是一個巨大的錯誤。 當你在秘密中進行研究時，你實際上是在落後，這是不可避免的。最終，世界其他地方將轉向開源，並超越你們。事實上，開源模型正在穩步趕超閉源模型。

參考連結：

https://www.youtube.com/watch?v=xnFmnU0Pp-8

宣告：本文為 AI 前線翻譯整理，不代表平臺觀點，未經許可禁止轉載。

直播預告

2 月 11 日至 2 月 27 日，AI 前線影片號、InfoQ 影片號、霍太穩影片號帶來 DeepSeek 系列直播，解析 DeepSeek 爆火背後的技術突破、商業化路徑與行業影響。從純強化學習復現 o1 能力到算力控制，從創新文化到 AI 競爭格局，每場直播都深度解析一個關鍵問題。

📅歡迎掃碼二維碼預約直播，一同探索 DeepSeek 如何引領 AI 領域的創新與未來！

會議推薦

在 AI 大模型技術如洶湧浪潮席捲軟體開發領域的當下，變革與機遇交織，挑戰與突破共生。2025 年 4 月 10 – 12 日，QCon 全球軟體開發大會將在北京召開，以 “智慧融合，引領未來” 為年度主題，匯聚各領域的技術先行者以及創新實踐者，為行業發展撥雲見日。現在報名可以享受 8 折優惠，單張門票立省 1360 元，詳情可聯絡票務經理 18514549229 諮詢。