如果只是模仿人類玩家、AI 是無法超越人類的，但純 RL 演算法卻能突破人類限制。

作者丨鄭佳美

編輯丨陳彩嫻

繼近日斯坦福李飛飛、Percy Liang 等人推出 S1 後，李飛飛的學生、OpenAI 早期成員與前特斯拉 AI 總監也錄製了一期最新長達 3 小時的長影片上傳到 YouTube，深入淺出地從神經網路的起源、GPT-2、ChatGPT 到最近 DeepSeek-R1 介紹了 AI 大模型的系列進化：

影片連結：https://www.youtube.com/watch?v=7xTGNNLPyMI

經筆者親自體驗，影片講解十分通俗易懂，即使沒有技術背景的觀眾也能輕鬆理解！

尤其是在影片的第 2 個小時開始，他對最近爆火的 DeepSeek-R1 論文進行了深入介紹，並直言 DeepSeek R1 在效能方面與 OpenAI 的模型不相上下，它的出現推動了 RL 技術的發展。

除了盛讚 DeepSeek-R1 的技術創新外，Andrej Karpathy 還對純 RL 的學習能力給予了高度評價，但又指出 RL 非常非常擅長髮現一種方法來“欺騙”模型，阻礙了 RLHF 成為專業技術的步伐。

同時他也提出了一個名為“瑞士乳酪”的 LLM 能力框架，表示大模型會在在某些特定情況下出現隨機的失敗，告誡人們不要完全依賴大模型。

不僅如此，他還表示在不久的將來，人們可能會看到能夠執行長期任務的“智慧體”，而人類將成為數字領域中智慧體任務的監督者。

由於影片較長、且影片前半段主要是覆盤 R1 前的故事，所以 AI 科技評論主要聚焦在影片後半段，篩選並提煉了出影片中的一些關鍵觀點，不改原意整理如下：

RL 在大模型中是起步狀態

從高層次來看，我們訓練大語言模型的方式實際上與訓練孩子的過程非常相似。

我想指出其中幾個關鍵的階段，前兩個階段——預訓練和監督微調——已經存在多年，並且是非常標準的，幾乎所有的語言模型廠商都會使用這兩種方法。但最後一個階段——強化學習訓練，卻處於相對早期的發展階段，至今還沒有成為行業的標準。所以，這個階段還處於一種比較初步和新興的狀態。

雖然高層次的思路非常簡單，就是透過試錯學習，但在具體操作中涉及大量的數學細節，比如如何選擇最優的解決方案，如何確定訓練的量，如何設定訓練執行的引數，如何設定提示分佈等等，這些都需要精心設計。

包括 OpenAI 在內的很多 LLM 公司實際上已經在內部進行過強化學習微調的實驗，儘管他們一直沒有公開談論這部分內容。

DeepSeek 最近釋出的論文引起了廣泛關注，因為這篇論文來自中國，（首次）公開討論了強化學習微調在大語言模型中的應用，強調了它對於大語言模型的重要性，以及它如何能夠提升模型的推理能力。

這篇論文重新激發了公眾對使用 RL 訓練 LLM 的興趣，並提供了許多特定程度的細節，這些細節是重現結果並實際使邏輯呼叫可行的必要條件。

值得盛讚的 DeepSeek-R1

讓我簡要帶你瞭解一下 DeepSeek 的這篇強化學習（RL）論文，以及當你正確地將 RL 應用於語言模型時會發生什麼、它是如何提升模型表現的。

在解決數學問題上，你可以看到一開始他們做得不太好。但是當你用成千上萬的步驟更新模型後，它們的準確性會持續攀升。

當你在這些問題的大型資料集上進行試錯時，它們會以更高的精度解決這些問題。模型正在自己探索如何解決數學問題。但比用更高精度解決這些問題的定量結果更令人難以置信的是模型實現這些結果的定性手段。

有趣的是，在最佳化的後期，模型似乎使用每個響應的平均長度上升。該模型似乎使用更多令牌（token）來獲得更高的準確性結果，所以基本上他們發現模型的解決方案變得非常長。這是最佳化的一個新興屬性，它只是發現這對解決問題有好處，因為它開始做這樣的事情。

讓我們逐步重新評估，以確定正確的總和。模型這個時候已經開始嘗試許多想法，從不同的角度嘗試一些東西、回溯、重新構建。回溯更能提高準確性。它做了很多人們在解決數學問題的過程中會做的事情，同時它重新發現了你腦海中發生的事情，而不是你在解決方案上寫下的東西。

這一點只有在強化學習的過程中才能發現，這對提升模型很有效，因為它確實提高了解決問題的準確性。所以這個模型學習了我們在腦海中稱之為“思維鏈”（CoT）的東西，這是最佳化的一個緊急屬性。這就是反應鏡頭膨脹的原因，但也是提高解決問題準確性的原因。

令人難以置信的是，這個基於強化學習的模型正在發現人類思考的方法。

它在學習人類的認知策略，關於你如何操縱一個問題，以及你如何從不同的角度來處理它，甚至是你如何引入一些類比或做不同型別的事情，以及你如何隨著時間的推移去不斷嘗試，並且試圖正確解決它們，這是令人感到非常不可思議的。

GPT 等模型中其實也涉及一些 RL 技術，但它們主要還是 SFT 模型。儘管模型在底層產生了類似的思維鏈，但 OpenAI 選擇不在使用者介面中顯示明確的思維鏈，而是顯示這些思維鏈的小結。OpenAI 這樣做，部分原因是擔心所謂的“蒸餾風險”，因為有人可能會嘗試模仿這些推理痕跡，並透過模仿思維鏈來恢復大量的推理效能。因此， OpenAI 隱藏了這些內容，只顯示了小結。

但原則上，就模型的力量而言，OpenAI 的模型與 DeepSeek 不相上下，它們都會寫出解決方案，所以這些模型在某種程度上是等效的，儘管人們沒有看到完整的底層細節。

當然如果你遇到需要高階推理的提示，那麼你可能應該嘗試使用一些思維模型，或者至少試試看。但從經驗上看，對於我大部分的使用場景來說，當你問的是一個比較簡單的問題，像是知識性問題之類的，（類似 R1、o1）這種思維模型可能會有點過度處理。

比如，某些事實性問題不需要你思考30秒。所以在這種情況下，我有時會預設使用GPT-4。根據我的使用情況，我大約 80% 到 90% 的使用都是 GPT-4，只有當我遇到非常複雜的問題，比如程式碼對映等，我才會使用思維模型。但這時我需要稍等一會兒，因為思維模型需要一些時間來進行推理。

你可以在 ChatGPT 或 DeepMind 上使用這些思維模型。此外，我還想指出，AI Studio 雖然看起來很亂，很醜，因為 Google 做這些東西的方式實在不太行，但實際上是發生了很多有趣的事情。如果你選擇模型，並選擇 Gemini 2.0 Flash Thinking Experimental 0.1.21，你就可以訪問 Google 的一種早期實驗性思維模型。

你可以在這裡輸入相同的問題並點選執行，這個思維模型也會給出正確答案。所以，基本上 Gemini 也提供了一個思維模型。而 Anthropic 目前並沒有提供思維模型。不過，這就是大語言模型的前沿發展。

我認為強化學習是一個非常令人興奮的新階段，但要把細節做對並不容易。這就是為什麼目前這些模型和思維模型（截至 2025 年初）都還處於實驗階段。但這正是推動這些推理能力在困難問題中表現的前沿發展。

純 RL 可以學習人類沒見過的策略

我還想提到的一點是，強化學習作為一種極其強大的學習方式，並不是 AI 領域的新發現。我們已經在圍棋這項遊戲中看到了這一點的體現。眾所周知，DeepMind 開發了系統 AlphaGo。當我們翻閱 AlphaGo 的相關論文時，實際上會看到一個非常有趣的圖表，我覺得它對我們來說非常熟悉。我們在更加開放的問題解決領域中的發現，也可以在圍棋這個封閉的特定領域中看到。

基本上，他們看到的結果，隨著 LLM 逐漸成熟、我們也會在大語言模型中看到。上面說到的那個圖表顯示的是圍棋的黃色評級（指圍棋水平分），和一位極強的人類選手的對比。這裡，他們對比了由監督學習和強化學習訓練的模型的強度。監督學習模型是模仿人類專家玩家的。

也就是說，如果你拿到大量圍棋專家的對局資料，並嘗試模仿他們，你會變得更強，但最終你會遇到瓶頸，無法超越某些頂級玩家的水平。

因為如果你只是模仿人類玩家，你永遠無法超越他們的極限。

但是，在強化學習的過程中，它顯著地更強大。在圍棋這個例子中，強化學習意味著系統會根據經驗和統計資料來選擇那些能夠贏得比賽的走法。因此，AlphaGo 是一個透過自我對弈並使用強化學習生成回合的系統。

這個過程與我們之前提到的圖表完全一致。它沒有預設的 prompt ，而是一個固定的圍棋遊戲。但系統會嘗試很多不同的走法，然後在那些能夠帶來勝利的對局中，強化那些策略，使它們變得更強大。因此，系統本質上是在學習那些經驗上、統計上能夠導致勝利的行動序列。

強化學習的優勢在於，它不會受到人類表現的限制。

透過強化學習，AI 系統可以做得更好，甚至超越頂級的圍棋選手。可能他們本可以繼續執行這個實驗，只是因為成本問題，他們選擇在某個點上停止了。但這無疑是強化學習的一個非常強大的示範。我們現在才剛開始在大語言模型的推理問題中看到這種圖表的蛛絲馬跡。

在圍棋遊戲中，強化學習意味著系統會自己與自己對弈，透過試錯來學習哪些走法能贏得比賽。這種方法最終使AlphaGo能夠超越人類頂尖棋手，甚至發明了一些人類棋手從未想到過的創新走法。這種強化學習的能力不僅在圍棋遊戲中取得了巨大成功，也為 LLMs 的發展提供了啟示。

強化學習有什麼獨特性呢？需要注意的是，當你進行強化學習時，沒有什麼能阻止你偏離人類玩遊戲的方式。所以，當我們回到 AlphaGo 的這個搜尋過程時，其中一個被提到的修改是“第37手”。AlphaGo 在這次對弈中，實際上下了一步人類專家通常不會下的棋。評估來看，這步棋被人類玩家下的機率大約是1/10,000。也就是說，這是一個非常罕見的走法，但回過頭來看，這卻是一步非常出色的棋。

在強化學習的過程中，AlphaGo 發現了一種人類之前並未意識到的策略，雖然這個策略在當時對人類來說是陌生的，但事後證明卻是極為聰明的。我看到這一步時，也以為它是個錯誤。不過，基本上大家都驚呆了，因為這一步是人類根本不會下的，而 AlphaGo 卻下了這一步，因為在它的訓練過程中，這步棋被認為是一個好主意。只是恰好它不是人類會做的那種棋步。所以，這再次展示了強化學習的強大力量。

原則上，系統的行為是沒有那麼固定的，它可以做任何有效的事情，也可以在訓練資料的分佈中慢慢漂移。這一切都只有在我們擁有一個非常龐大、多樣化的問題集時才能實現，而這些策略可以在其中得到完善和最佳化。

所以，現在很多前沿研究的重點正是嘗試建立這些種類的提示分佈——它們既龐大又多樣。這些就像是 LMS 練習思維的遊戲環境。就像是寫作練習題一樣，我們需要為所有知識領域建立練習題。如果我們有大量這樣的練習題，模型就能在其上進行強化學習，並在開放性思維的領域中繪製出類似的圖示，而不是像圍棋那樣的封閉領域。

到目前為止，我們看到的所有問題都屬於所謂的可驗證領域。也就是說，任何時候我們都可以很容易地與一個具體答案進行比較評分。例如，答案是 3，我們可以很容易地將這些解與答案 3 進行比較。我們要麼要求模型將答案框起來，然後檢查框中的內容是否與答案相等，要麼可以使用一種被稱為“LLM 判定器”的工具。這個判定器會檢視一個解並得出答案，基本上會評分該解是否與答案一致。

根據經驗，當前能力的 LLM 已經足夠強大，能夠相對可靠地完成這項工作。所以我們也可以應用這些技術。無論如何，我們都有一個具體的答案，我們只需要檢查解是否與之匹配，而且我們可以自動完成這個過程，無需人類參與。

基本的思路就是我們訓練人類的模擬器，並透過強化學習對這些模擬器進行最佳化。

瑕瑜互見的 RLHF

現在我想談談從人類反饋中進行強化學習的優勢。

首先，這使我們能夠執行強化學習，而我們知道強化學習是一套非常強大的技術。它讓我們能夠在任意領域進行強化學習，包括那些無法驗證的領域。例如，像摘要生成、寫詩、編笑話或任何其他創意寫作，實際上是在數學和程式設計等領域之外的。

從經驗上看，當我們實際應用 RLHF 時，這確實是提升模型效能的一種方式。雖然我有一個初步的解釋，但我並不確定為什麼它如此有效。我們可以透過實驗證明，當我們正確地做 RLHF 時，得到的模型表現會稍微好一些，但為什麼會這樣，我認為還是不太清楚。

我的最佳猜測是，這可能主要與判別器和生成器之間的差距有關。所謂差距就是，在許多情況下，對於人類來說，判別比生成要容易得多。舉個例子，在我們進行監督微調時，我們要求人類生成理想的助手回應。而在許多情況下，理想的回應是非常簡單的，但在某些情況下可能並不是這樣。例如，在摘要生成、詩歌創作或笑話編寫時，作為一個人類標註者，需要創造性的人工寫作才能做到。

而 RLHF 卻繞過了這個問題，因為我們可以問人們一個相對簡單的問題。作為資料標註者，他們不需要直接寫出創意內容，只需要從模型提供的 5 個選項中對它們進行排序。所以，這對人類標註者來說任務要簡單得多，也可以讓我們獲得更多高準確度的資料。

我們並不是要求他們進行創意寫作，而只是希望他們區分不同的創意寫作，並找出最好的那個。這就是人類提供的訊號，就是排序。然後，RLHF 中的系統就會發現哪些回應會被人類評分得更高。因此，這種互動的步驟使得模型變得更加優秀。

這就是RLHF的優勢。它讓我們能夠執行強化學習，實驗證明它能帶來更好的模型，並且讓人們在不需要做極其困難的任務情況下，也能對生成內容進行監督和選擇。

不幸的是，RLHF也有顯著的缺點。

首先，主要的問題是，我們實際上是在進行強化學習，不是基於人類和實際的人類判斷，而是基於人類的一個有損模擬，並且這個有損模擬可能會產生誤導，因為它只是一個模擬，它只是一個語言模型，在為模型打分。而且它並不能完美地反映一個有實際大腦的人類在所有可能的不同情況下的觀點。

除此之外，還有一些更加微妙的因素阻礙了我們將 RLHF 作為一種技術，真正擴充套件到更智慧系統的步伐。那就是強化學習非常擅長髮現一種方法來“欺騙”模型，誤導其做出許多錯誤的決定。

迅速發展的 LLM

具體來說，預訓練就像是孩子們透過閱讀和解釋獲得基礎知識，監督微調就像是看大量的示範例子、模仿專家並做練習題。

唯一的區別是，我們現在必須為大模型編寫教科書，涵蓋所有人類知識領域。並且，在所有我們希望它們能夠應用的領域（如程式碼、數學以及其他領域）中，我們也需要這樣做。所以，我們正在為它們編寫教科書，最佳化所有演算法，當然，還要在大規模和高效地訓練這些模型時做到非常出色。

除了以上介紹的內容外，我還想說一個我把它稱之為“瑞士乳酪”的 LLM 能力框架，我希望大家都能知道這個東西，因為模型在很多不同的領域表現得都很出色，但同時它們在某些特定情況下卻會隨機失敗。

這幾乎是毫無規律的。例如你問它“9.11 和 9.9 哪個更大”的問題它就可能答不出來，但與此同時，它卻能夠解出奧林匹克競賽題。這就像是瑞士乳酪上的一個“漏洞”。這樣的漏洞有很多，使用時需要小心，不要被它們“絆倒”。

所以不要把這些模型當作無懈可擊的模型。要檢查它們的工作。把它們當作工具，作為靈感的來源，作為初稿的起點，要與它們合作，並對你工作的成果負責任。

最後，我還有幾點關於大模型行業未來發展的看法。

首先，你會注意到，很快我們的 LLM 將擁有不僅能處理文字的能力，它們還能夠輕鬆地進行音訊處理。我們已經看到了這一切的開端，並且以後這一切都將在大語言模型內部實現。

大致來說，這與我們之前討論的內容沒有什麼不同，以此作為基礎，你可以對音訊和影像進行標記化，並應用我們之前談到的相同方法。所以這不是一個根本性的變化，只是我們需要新增一些標記。舉個例子，對於音訊的標記化，我們可以檢視音訊訊號的頻譜切片，然後新增更多的標記，並將它們加入到上下文視窗中，像之前一樣進行訓練。影像也是如此，我們可以使用影像塊，並分別對這些塊進行標記。

事實上，這種方法是有效的，並且在這個方向上已有很多早期的研究。所以我們可以建立代表音訊、影像以及文字的標記流，將它們交替放入一起，並在一個模型中同時處理。這就是多模態的一個例子。

其次，人們現在很關心的一點是，現在我們總是把一些任務交給模型去處理，但仍然是我們負責組織任務的連貫執行來完成工作。模型目前還沒有達到在長時間內以連貫且能糾錯的方式執行這些任務的能力，所以它們無法完全將任務整合起來，執行這些長期執行的工作，但它們正在向這個方向發展，而且這種能力在逐漸提高。

不過在未來，我們將看到所謂的“智慧體”，它們能夠隨著時間推移執行任務。但這些模型並不是無懈可擊的，你需要監督它們，觀察它們的工作，不過它們偶爾會來主動向你報告進展。所以在未來，我們將看到更多的能夠執行長期任務的“智慧體”，從而提升我們的工作效率，這也意味著人類將成為數字領域中智慧體任務的監督者。