從o1-mini到DeepSeek-R1，萬字長文帶你讀懂推理模型的歷史與技術

選自Deep (Learning) Focus

作者：Cameron R. Wolfe

編譯：Panda

自 OpenAI 釋出 o1-mini 模型以來，推理模型就一直是 AI 社群的熱門話題，而春節前面世的開放式推理模型 DeepSeek-R1 更是讓推理模型的熱度達到了前所未有的高峰。

近日，Netflix 資深研究科學家 Cameron R. Wolfe 釋出了一篇題為「揭秘推理模型」的深度長文，詳細梳理了自 o1-mini 開始至今的推理模型發展史，並詳細介紹了讓標準 LLM 變成推理模型的具體技術和方法。

機器之心編譯了這篇文章以饗讀者，同時我們還在文末梳理了 17 篇我們之前釋出的與推理模型相關的文章一併奉上。

原文地址：https://cameronrwolfe.substack.com/p/demystifying-reasoning-models

前些年，大型語言模型（LLM）已經形成了相對固定的流程。

首先，在來自網際網路的原始文字資料上預訓練語言模型。之後，對齊這些模型，也就是讓它們的輸出更符合人類的偏好，這會用到監督微調（SFT）和基於人類反饋的強化學習（RLHF）等技術。

不管是預訓練還是對齊，都對模型質量至關重要，但驅動這一正規化發展的大部分動力卻來自 Scaling Law—— 使用更多資料訓練更大的模型，就能得到更好的結果。

標準 LLM 的訓練流程

近段時間，LLM 研究中出現了一個全新的正規化：推理。與標準 LLM 相比，推理模型解決問題的方式完全不同。特別是，它們在提供問題的最終答案之前會花費一些時間「思考」。訓練能夠有效思考（例如，分解問題、檢測思維中的錯誤、探索替代解決方案等）的模型需要新的策略，通常涉及大規模強化學習（RL）。此外，此類模型還會為透過強化學習和推理進行訓練的正規化湧現出新的 Scaling Law。

來自 [4]

本文將介紹有關推理模型的最新進展的更多資訊。首先，我們將重點介紹 OpenAI 最早提出的幾種（封閉式）推理模型。我們將在上下文中解釋 LLM 推理能力的基本思想。之後，我們將探索最近提出的（開放式）推理模型，概述從頭開始建立此類模型的必要細節。推理模型與標準 LLM 不同。但不用擔心。LLM 的許多關鍵概念仍然適用於推理模型。我們將在整個過程中澄清它們之間的重要區別。

推理時代

就在 AI 發展看起來要放緩之際，推理模型開始普及，LLM 的能力開始陡然提升。OpenAI 首先發布了 o1-preview [4]，隨後是一系列蒸餾版（更小）模型，包括 o1-mini 以及 o3 的一些變體版本。其它公司也紛紛跟進，包括谷歌的 Gemini 2.0 Flash Thinking。這一節將探討這些最早的封閉式推理模型及其工作原理背後的基本思想。

最早的推理模型：o1 和 o1-mini

OpenAI 釋出 o1-preview [4, 5] 時明確了兩件事：

推理模型可以非常準確地解決可驗證的任務，比如數學和程式設計任務。
推理模型解決這些問題的方法與傳統 LLM 的方法截然不同。

長思維鏈。推理模型與標準 LLM 的主要區別在於在回答問題之前會進行「思考」。推理模型的思考就是 LLM 輸出的長思維鏈（有時也被稱為推理跡線或軌跡）。長思維鏈的生成方式與任何其他文字序列無異。然而，這些推理軌跡表現出了非常有趣的特性 —— 它們更類似於搜尋演算法而不是原始文字生成。舉個例子，推理模型可能會：

仔細考慮複雜問題的每個部分。
將複雜問題分解為更小的可解決部分。
批評其自身的（部分）解決方案並發現錯誤。
探索許多替代解決方案。

有關這些推理軌跡的一些具體示例，請參閱 OpenAI 部落格：https://openai.com/index/learning-to-reason-with-llms/

值得注意的是，OpenAI 推理模型使用的長思維鏈隱藏在其內部，這意味著在與模型互動時，使用者看不見它們。使用者只能看到模型編寫的長思維鏈摘要，如下所示：

推理模型的長思維鏈輸出為我們提供了一種控制 LLM 推理時間計算的簡單方法。如果我們想花費更多計算來解決問題，我們可以簡單地生成更長的思維鏈。同樣，不太複雜的問題可以用較短的思維鏈解決，從而節省推理時間的計算。

推理能力。最初的推理模型實際上在許多方面都不如標準 LLM，但它們將 LLM 的推理能力提高了幾個數量級。例如，o1-preview 的推理表現總是優於 GPT-4o，甚至在大多數複雜推理任務上能與人類專家的表現相媲美。為了實現這些結果，o1-preview 使用最大化的推理時間計算以及 i) 單個輸出樣本（柱狀圖主幹）或 ii) 64 個並行輸出樣本中的多數投票（柱狀圖增高部分）進行評估。

o1 系列模型與 GPT-4o 在多個推理任務上的比較，來自 [5]

o1-preview 之後，OpenAI 的 o1（preview 釋出幾個月後釋出的 o1 的完整版本）在美國數學奧林匹克資格考試（AIME 2024）中名列前 500 名，在 Codeforces 上排名在競賽人類程式設計師的第 11 個百分位之內。作為參考，GPT-4o 僅解決了 12% 的 AIME 問題，而 o1 解決了 74% 到 93% 的問題，具體取決於推理設定。有關 o1 和 GPT-4o 效能的更詳細比較，請參見下圖。

o1 明顯優於 GPT-4o（來自 [5]）

同樣，o1-mini（o1 的更便宜、更快的版本）也具有令人印象深刻的推理能力，不過相比於完整版 o1 模型，其成本降低了 80%。雖然與 o1 相比，o1-mini 的世界知識有限，但它在程式設計任務方面尤其出色，而且考慮到其效率，其表現非常出色。

當前最佳的推理模型：o3 和 o3-mini

OpenAI o3 在 ARC-AGI 上的效能

在宣佈和釋出 o1 模型後不久，OpenAI 宣佈了 o3——o1 系列中最新的模型。這個模型最初只是宣佈（未釋出）。我們能夠在幾個值得注意的基準上看到該模型的效能（由 OpenAI 測量），但實際上無法使用該模型。OpenAI 釋出的指標非常驚人。事實上，o3 的表現讓很多人感到震驚。o3 最顯著的成就是：

在 ARC-AGI 基準測試中得分為 87.5%——AGI 的「北極星」，五年來一直保持不敗 ——GPT-4o 的準確率為 5%。o3 是第一個在 ARC-AGI 上超過人類水平 85% 的模型。
在 SWE-Bench Verified 上的準確率為 71.7%，在 Codeforces 上的 Elo 得分為 2727，使 o3 躋身全球前 200 名競爭性程式設計師之列。
在 EpochAI 的 FrontierMath 基準測試中的準確率為 25.2%，相比之前最佳的 2.0% 的準確率大幅提高。

然而，公眾無法訪問 o3 模型來驗證任何這些結果。在撰寫本文時，完整的 o3 模型仍未釋出，但 OpenAI 最近釋出了該模型的較小版本 ——o3-mini [6]。

與 OpenAI 的其他推理模型相比，o3-mini 更具成本效益且更易於投入生產。例如，此模型支援函式呼叫、Web 搜尋和結構化輸出等功能。o3-mini 還具有多種設定，包括 low、medium 和 high，這指定了用於解決問題時執行的推理量。此設定可以直接在 API 請求中指定，並且該模型的表現非常驚人 —— 在許多情況下與 o1 相當，具體取決於推理工作量的級別。

o3-mini 效能詳情（來自 [6]）

在大多數情況下，推理工作量 low 的 o3-mini 與 o1-mini 的效能相當，而推理工作量 high 的 o3-mini 的效能則超過 OpenAI 釋出的所有其他推理模型（包括完整版 o1 模型）。

與之前的推理模型相比，o3-mini 還具有更好的世界知識（即提高了事實性），效率明顯更高，並且在人類偏好研究中得分更高。特別是，[6] 中提到，在內部 A/B 測試期間，「o3-mini 的響應速度比 o1-mini 快 24%，平均響應時間為 7.7 秒，而 o3-mini 為 10.16 秒。」o3-mini 是 OpenAI 的 o1 式推理模型中（迄今為止）釋出的最高效的模型。

o3-mini 與 o1-mini 在 STEM / 非 STEM 提示詞上的勝率（來自 [6]）

其它模型提供方。OpenAI 釋出 o1 式模型後，其他模型提供方也迅速跟進。例如，谷歌最近釋出了實驗性的 Gemini-2.0 Flash Thinking，它保留了 Gemini 模型的標誌性長上下文 ——1M token 上下文視窗，並在關鍵可驗證任務（例如 AIME 和 GPQA）上取得了可觀的指標。然而，這個模型的效能仍然落後於 o1 和 o3-mini。

最近，Grok-3 的推理測試版釋出，非常引人注目。如下所示，Grok-3 推理模型在 high 推理工作量下超過了 o3-mini 的效能，甚至在少數情況下接近完整的 o3 模型；例如，AIME'24 的準確率為 96%，而 o3 的準確率為 97%。使用大型新計算叢集進行訓練的 Grok-3 令人印象深刻（尤其是考慮到 xAI 的年輕）。在撰寫本文時，Grok-3 的推理測試版是與 OpenAI 推理模型最接近的競爭對手。

推理模型的基準

在進一步瞭解推理模型的工作原理之前，讓我們更深入地瞭解它們的效能。要真正瞭解這些模型的能力，我們需要做的不僅僅是檢視指標 —— 我們需要檢查這些模型正在解決的問題的具體示例。例如，考慮 GSM8K（如下所示），這是一個小學水平的數學基準。這些問題可能看起來微不足道，但 LLM 們多年來一直在努力準確地解決這個基準。

GSM8K 中的示例問題

隨著推理模型的出現，這個基準已經完全飽和 —— 我們不再能用它來有意義地評估最佳推理模型。相反，我們開始用 LLM 解決更難的問題。

AIME 2024 中的示例問題

例如，考慮 AIME 2024 中的第 15 個問題，如上所示。這個問題相當複雜，超過了 GSM8K 中的算術推理問題。有（至少）六種不同的方法可以解決這個問題，所有這些方法都需要掌握高階數學技巧（例如導數、數論或拉格朗日乘數）。

此外，推理模型正在解決的複雜基準還不僅僅是數學！例如，GPQA [7] 包含來自多個科學領域的數百道多項選擇題；例如，生物學、物理學和化學。所有這些問題都是由領域專家編寫的，經過驗證，它們既非常困難，又無法透過網際網路搜尋找到答案，這意味著即使有足夠的時間和不受限制的網際網路訪問，非專家也很難解決這些問題。

「我們確保這些問題是高質量且極其困難的：擁有或正在攻讀相應領域博士學位的專家的準確率達到 65%，而技能嫻熟的非專家驗證者準確率僅為 34%，並且他們即便可以不受限制地訪問網路，也平均花費了超過 30 分鐘的時間。」 – 來自 [7]

ARC-AGI 基準 —— 被描述為「邁向 AGI 的重要墊腳石」—— 涉及各種基於網格的謎題，其中 LLM 必須在輸入輸出網格中學習模式，並在最終輸出示例中完美複製這種學習到的模式。大多數 LLM 都很難解決這些難題（例如，GPT-4o 的準確率僅為 5%），但推理模型在這個基準上表現相當不錯 —— 準確率可達 30-90%，具體取決於計算預算。

至少可以說，這些是推理 LLM 開始解決的不同級別的（非平凡）問題。儘管這些基準測試難度很大，但現代推理模型的能力也很強 —— 據報道，OpenAI 的 o3 模型在 AIME 2024 上取得了近 97% 的分數。在人工檢查其中一些問題後，我們可以真正理解這個結果的重要性。

推理模型基礎

雖然上面介紹的推理模型顯然令人印象深刻，但都是封閉模型。因此，我們不知道它們實際上是如何工作的。我們得到的唯一資訊是上面的引文和如下所示的圖表。

（來自 [5]）

然而，從這些有限的資訊中，我們可以得出一些有用的結論。主要而言，擴充套件推理模型涉及兩個關鍵元件：

透過強化學習進行更多訓練。
更多推理時間計算（即推理時間擴充套件）。

儘管 OpenAI 並未透露擴充套件推理模型這兩個元件的方法背後的許多細節，但仍有大量關於此主題的研究發表。為了提供更多背景資訊，讓我們簡要介紹一下其中一些工作，加上 OpenAI 分享的細節，可以讓我們大致瞭解推理模型訓練和使用的一些關鍵概念。

具有可驗證獎勵的強化學習

關於 o1 式模型，我們應該注意到的一個細節是，它們主要用於本質上可驗證的問題並根據這些問題進行評估；例如數學和程式設計。但是，在這種情況下，「可驗證（verifiable）」到底是什麼意思？

首先，我們假設我們可以獲取 i）問題的基本答案或 ii）可用於驗證正確性的某些基於規則的技術。

透過精確字串匹配驗證數學問題

例如，我們可以為大多數數學問題定義一個基本答案 —— 在 GSM8K 中，這是使用 #### <answer> 語法完成的。然後，我們可以從 LLM 的輸出中提取最終答案，並使用基本字串匹配將此答案與 ground truth 答案進行比較；見上圖。類似地，如果我們為程式設計問題準備了測試用例，我們可以簡單地執行由 LLM 生成的程式碼並檢查提供的解決方案是否滿足所有測試用例。

「可驗證獎勵的強化學習（RLVR）可以看作是現有引導語言模型推理方法的簡化形式或具有執行反饋的更簡單形式的強化學習，其中我們只需使用答案匹配或約束驗證作為二進位制訊號來訓練模型。」 – 來自 [13]

說一個領域是「可驗證的」並不意味著我們可以自動驗證該領域問題的任意解決方案。相反，我們經常需要訪問 ground truth 答案（通常從人類那裡獲得）進行驗證。

但是，有些行為可以使用簡單規則而不是 ground truth 來驗證。例如，我們可以使用一組硬編碼規則執行簡單檢查來確定推理模型是否具有正確的輸出格式、是否遵循某些指令或是否產生特定長度的輸出（例如，o3-mini 使用的 low、medium 或 high 推理工作量）。

驗證複雜性。根據我們正在解決的問題，驗證 LLM 的輸出可能會變得非常複雜。即使對於數學問題，驗證 LLM 的答案與基本事實之間的匹配也很困難。例如，解答可能以不同的形式或格式呈現，從而導致假陰性驗證。在這些情況下，簡單的字串匹配可能還不夠！相反，我們可以提示 LLM，讓其告訴我們這兩個解是否匹配，這已被發現可以大大減少不正確的驗證 [14]。對於程式碼，實現驗證也很困難 —— 它需要構建一個數據管道，並且其要非常有效地在訓練設定中執行和驗證測試用例。

神經驗證。除了上面概述的可驗證問題之外，我們還可以考慮較弱的驗證形式。例如，創意寫作是一項難以驗證的任務。但是，我們可以：

訓練神經獎勵模型或驗證器。
使用此模型對 LLM 輸出進行評分。
使用預測分數作為獎勵或驗證訊號。

這樣的設定與基於人類反饋的強化學習（RLHF）非常相似。在這種情況下，會訓練獎勵模型根據模型響應的正確性或質量執行二元驗證。但是，使用神經驗證器會有獎勵 hacking 的風險，尤其是在執行大規模強化學習時。模型的訓練時間更長，並且會對獎勵圖景進行更多探索，從而增加了獎勵 hacking 的風險。因此，許多最近的推理模型都避開了這種方法。

「我們在開發 DeepSeek-R1-Zero 時沒有應用神經獎勵模型，因為我們發現神經獎勵模型在大規模強化學習過程中可能會受到獎勵 hacking 攻擊的影響，而重新訓練獎勵模型需要額外的訓練資源，這會使整個訓練流程變得複雜。」 – 來自 [1]

用可驗證的獎勵學習。我們現在瞭解了驗證，但如何使用驗證來訓練 LLM？思路很簡單：直接將驗證結果用作使用強化學習進行訓練的獎勵訊號。有很多不同的方法可以實現這個思路（例如，過程獎勵或純強化學習），但它們的共同主題是使用強化學習根據可驗證的獎勵學習。這是所有現代推理模型根基的基本概念。

（來自 [13]）

對於使用強化學習從可驗證的獎勵中學習的方法，可以參考 Sasha Rush 的這個影片：https://youtu.be/6PEJ96k1kiw

推理時間策略：思路鏈和解碼

我們可以透過兩種基本方法來增加語言模型在推理時消耗的計算量：

生成更多 token（即更長的輸出序列）。
生成多個輸出。

在本節中，我們將更詳細地介紹這些技術，探索如何透過思維鏈和不同的解碼策略（如並行解碼與順序解碼）在 LLM 中實際實現它們。

（來自 [8]）

思維鏈。我們已經知道推理模型使用長思維鏈作為推理媒介。在 [8] 中提出，最簡單的層面上，思維鏈只是 LLM 為其自身輸出提供的一種解釋。在大多數情況下，這些解釋是在 LLM 生成最終答案之前編寫的，允許模型在生成答案時將其解釋用作上下文。

推理模型使用的長思維鏈與標準思維鏈有很大不同。標準思維鏈簡潔易讀。長思維鏈有幾千個 token。雖然它可以用於解釋模型，但長思維鏈並未針對人類可讀性進行最佳化。相反，它是一種寬泛的推理軌跡，以詳細的方式解決問題，幷包含各種複雜的推理行為（例如，回溯和自我最佳化）。

「我們決定不向使用者展示原始的思維鏈…… 我們努力透過教導模型從答案中的思維鏈中重現有用的想法來部分彌補 [這一決定]。對於 o1 模型系列，我們會展示模型生成的思維鏈摘要。」 – 來自 [5]

此外，推理模型會在邏輯上將其思維鏈與模型的最終輸出分開。例如，OpenAI 不會向用戶展示長思維鏈，而是提供 LLM 生成的長思維鏈摘要來補充推理模型的最終答案。由於思維鏈的長度，這種邏輯分離是有必要的。大多數使用者只會閱讀最終答案 —— 閱讀整個推理軌跡將非常耗時。

（來自 [15]）

並行解碼。為了提高 LLM 最終輸出的準確性，我們還可以使用並行解碼技術。思路很簡單：不使用 LLM 生成單個輸出，而是生成多個輸出並聚合這些輸出以形成單個最終答案。這種聚合可以透過多種方式完成；例如，使用多數投票或共識、使用加權投票、使用神經獎勵模型或驗證器（即也稱為 Best-of-N 或拒絕取樣）或其他特定領域演算法找到最佳輸出。

這些方法的主要好處是簡單又有效。並行解碼很容易擴充套件：我們只需生成、驗證和聚合大量輸出，就能得到有意義的效能提升 [9, 10, 11]。o1 式模型顯然使用了並行解碼技術 —— 只需檢視其部落格中提供的圖表細節（如下所示）！但是，並行解碼技術本身無法解釋最近釋出的推理模型所表現出的一些更復雜的推理行為。

（來自 [5]）

順便說一句，我們還可以將拒絕取樣的思想應用於訓練（即訓練與測試時間拒絕取樣）。為此，我們只需：

取樣幾個輸出或軌跡。
使用獎勵模型（或其他評分機制）選擇最佳輸出。
使用這些輸出進行訓練。

在實踐中，這種方法很常用；例如，LLaMA 模型在應用 RLHF 之前，會在其後訓練過程中執行幾輪訓練時間拒絕取樣。拒絕取樣在實踐中非常有效，與基於 PPO 的 RLHF 相比，它更容易實現和擴充套件。

自我最佳化。除了並行解碼之外，還可以考慮為解碼採用批評或自我最佳化策略。首先，LLM 生成初始響應。然後，為響應提供反饋（來自 LLM 或某些外部來源），LLM 可以根據反饋修改其響應。此迴圈可以重複任意次數；參見下圖。

（來自 [15]）

目前已有不同的最佳化方法，但它們可以大致分為兩類：

外部式：反饋來自某些外部驗證器或模組。
內部式：LLM 為其自身生成提供反饋。

最佳化的結果和實際效果有些複雜。有許多使用外部反饋（例如來自驗證器 [16] 或程式碼直譯器 [17]）來最佳化 LLM 輸出的成功案例。內部最佳化是否有效在很大程度上取決於 LLM 提供的反饋質量。內部最佳化可以很好地完成簡單任務 [18]。然而，這種方法很難泛化到更復雜的任務（例如數學）[19]。

開放式推理模型：DeepSeek-R1 等

到目前為止，我們已經瞭解了 LLM 獲得推理能力的基本概念。然而，我們所瞭解的所有模型都是封閉的 —— 我們無法知道這些模型究竟是如何建立的。幸運的是，最近釋出了幾個開放式推理模型。這些模型中最引人注目的是 DeepSeek-R1 [1]。除了與 OpenAI o1 相媲美的效能外，該模型還附帶了一份完整的技術報告，其中提供了足夠的細節，因此完全揭開了建立強大推理模型所需過程的神秘面紗。

（來自 [1]）

DeepSeek-R1 背後的核心思想與我們迄今為止學到的知識非常吻合。該模型在可驗證任務上使用強化學習進行訓練，它學習利用長思維鏈來解決複雜的推理問題。有趣的是，強化學習訓練過程是該模型強大推理能力的關鍵因素。該模型的多個版本 ——DeepSeek-R1-Zero 和 DeepSeek-R1—— 都已釋出，具有相當的推理能力。正如我們將看到的，它是這類模型中第一個完全放棄了任何監督訓練的模型，表明複雜的推理能力可自然地從使用強化學習的大規模訓練中湧現。

「DeepSeek-R1-Zero 是一種透過大規模強化學習（RL）訓練的模型，沒有監督微調（SFT）作為初步步驟，它展示了非凡的推理能力。透過強化學習，DeepSeek-R1-Zero 自然地湧現出了許多強大而有趣的推理行為。」 – 來自 [1]

DeepSeek-v3。DeepSeek-R1-Zero 和 DeepSeek-R1 都始於一個強大的基礎模型：DeepSeek-v3 [2]。除了具有開放權重和詳細的技術報告 [2] 之外，該模型還超越了之前的開放 LLM 的效能，甚至與封閉模型的質量相當。

（來自 [2]）

DeepSeek-v3 是一個 6710 億引數的混合專家（MoE）模型。如果你不熟悉 MoE，可以參看博主的這篇長文解析，其中解釋了 MoE 概念並提供了幾個例項，包括 DeepSeek-v3：https://cameronrwolfe.substack.com/p/moe-llms

為了提高推理和訓練效率，DeepSeek-v3 做出了以下設計選擇：

使用多頭隱注意力（MLA)。
採用最佳化的 MoE 結構（例如，細粒度和共享專家）。
在預訓練期間使用多 token 預測目標。
放棄通常用於訓練 MoE 模型的負載平衡損失。
透過採用 [2] 中提出的新型量化訓練策略，在整個訓練過程中將精度降低到 FP8。

出於這些原因，與其他模型相比，DeepSeek-v3 的訓練非常經濟：該模型在效能和效率方面都表現出色。該模型的幾個先前版本已經發布，這些版本啟發了 DeepSeek-v3 做出的一些設計決策，例如 DeepSeek-v2 和 DeepSeek-v2.5。

DeepSeek-R1-Zero

DeepSeek 提出的第一個推理模型是 DeepSeek-R1-Zero。該模型採用了一種有趣的訓練策略，即教模型純粹透過大規模強化學習進行推理，而無需任何 SFT。該模型會自然探索並學習利用長思維鏈透過強化學習解決複雜的推理問題。DeepSeek-R1-Zero 是第一個公開的研究成果，表明無需監督訓練即可開發推理能力。

（來自 [22]）

使用 GRPO 的強化學習。DeepSeek-R1-Zero 的訓練從 DeepSeek-v3 [2] 基礎模型開始。他們是直接透過強化學習微調這個基礎模型。特別是，[1] 中的作者選擇了上圖中所示的組相對策略最佳化（GRPO）[3] 作為他們的強化學習演算法。選擇用於 LLM 訓練的強化學習演算法是一個開放且活躍的研究課題。傳統上，研究人員使用 PPO 來訓練 LLM，但最近有一種趨勢是採用更簡單的強化學習演算法（例如 REINFORCE 或 GRPO）進行 LLM 訓練。[1] 中給出的選擇 GRPO 的主要原因是：

降低強化學習訓練成本。
不再需要批評模型，該模型（通常）與策略模型（即 LLM 本身）大小相同。

定義獎勵。與大多數使用 LLM 的傳統強化學習工作不同，DeepSeek-R1-Zero 不使用神經獎勵模型（即基於 LLM 的獎勵模型，這些模型透過偏好資料進行訓練）。相反，作者使用了基於規則的獎勵系統，它 i）避免獎勵 hacking，ii）節省計算成本，iii）更易於實現。特別要指出，目前使用的獎勵有兩種：

準確度獎勵：評估模型的響應是否正確。
格式獎勵：強制模型以一定格式輸出。

DeepSeek-R1-Zero 完全是在可自動驗證的任務上進行訓練的，例如數學和程式設計問題。對於具有確定性結果的數學問題，該模型可以以指定的格式提供答案，使我們能夠透過基本的字串匹配進行驗證。同樣，可以透過在預定義的測試用例上執行 LLM 在沙箱中生成的程式碼來驗證程式設計問題。

如前所述，當模型的輸出格式正確時，格式獎勵會提供積極的訓練訊號。[1] 中使用的格式只是將模型的長思維鏈（或思考 / 推理過程）放在兩個特殊 token 之間：<think> 和 </think>。然後，在推理過程完成後，模型會在 <answer> 和 </answer> 標籤之間單獨生成答案；如下所示。

（來自 [1]）

透過強化學習進行學習。儘管沒有使用 SFT，但 DeepSeek-R1-Zero 在整個強化學習訓練過程中的推理能力都有了明顯的進步。隨著訓練的進行，模型在 AIME 2024 上的表現如下圖所示。

（來自 [1]）

可以看到，模型的效能逐漸提高，最終達到與 o1-preview 相當的水平。訓練完成後，DeepSeek-R1-Zero 在 AIME 2024 上的表現從最初的 15.6% 提高到了 71.0%（或在使用 16 票多數投票時為 86.7%）！這樣的結果與我們在封閉式推理模型中看到的效能趨勢是一致的 ——DeepSeek-R1-Zero 在強化學習訓練後實現了令人印象深刻的效能，並且可以透過並行解碼策略進一步提高其效能。

下表給出了 DeepSeek-R1-Zero 和 o1 模型之間的完整效能比較。DeepSeek-R1-Zero 在大多數情況下與 o1-mini 的效能相當或超過 o1-mini，並且在幾個任務上的表現與 o1-preview 相當。然而，OpenAI 的推理模型在程式設計領域表現更好 ——DeepSeek-R1-Zero 顯然是一個較弱的程式設計模型。我們很快就會看到，這個問題在 DeepSeek-R1（後續模型）中得到了解決。

（來自 [1]）

發生了什麼？顯然，DeepSeek-R1-Zero 從 [1] 中介紹的強化學習訓練過程中獲得了出色的推理能力。然而，模型學習過程的動態也相當明顯！因為沒有進行 SFT 式訓練，所以可以在整個強化學習訓練過程中密切監控模型推理策略的進展。如下所示，DeepSeek-R1-Zero 學會了利用更多的「思考時間」，即生成越來越長的思維鏈，從而可以隨著訓練的進行改進其推理過程。該模型自然學會了利用更多的測試時間計算來解決更難的問題！

（來自 [1]）

[1] 的作者還觀察到在強化學習訓練過程中自然湧現的幾種有趣趨勢。例如，該模型透過重新審視和評估其推理過程的先前組成部分，發展出反思自身解決方案的能力。同樣，該模型在解決問題的過程中開始顯式地測試和探索替代解決方案或方法。這種行為不是現實程式設計在模型中的，而是在強化學習訓練過程中自然湧現的！

在最基本的層面上，[1] 中構建的強化學習環境允許模型探索不同的策略來得出正確的（由驗證確定的）最終解答。在探索過程中，模型做到以下兩點就能獲得獎勵：

使用了正確的推理模板或結構。
給出的最終解答是正確的。

僅憑這些獎勵，模型就能學會如何解決複雜的推理問題。我們不需要顯式地教模型如何分解問題、尋找解決方案、執行回溯或評估自己的思路。相反，我們只需在訓練過程中為模型提供正確的激勵（或獎勵）。然後，LLM 可以透過基於強化學習的「自我進化」過程自主學習解決問題所需的行為。

DeepSeek-R1

DeepSeek-R1-Zero 表明，LLM 可以使用沒有 SFT 的純強化學習獲得出色的推理能力，但這個模型有一些小錯誤。例如，它的可讀性很差，並且它會錯誤地將語言混合在一起。簡而言之，DeepSeek-R1-Zero 非常擅長推理，但它缺乏一些已良好對齊的 LLM 的理想屬性。為了解決這些問題，[1] 中的作者提出了一種新的多階段訓練過程，將一些「冷啟動」 SFT 資料與其他一些技巧整合到了訓練中。此訓練流程得到的 DeepSeek-R1 是一款既已對齊又能進行復雜推理的 LLM。

與 DeepSeek-R1-Zero 類似，DeepSeek-R1 的基礎也是 DeepSeek-v3。然後，DeepSeek-R1 經歷四個階段的訓練，包括兩個 SFT 階段和兩個強化學習階段。SFT 階段的目的是在每個強化學習階段為探索提供更好的起點。該訓練流程是 [1] 的主要貢獻之一：它提供了一種有效的方法，可將推理式訓練與 LLM 的標準後訓練方法相結合。下面更深入地介紹下 DeepSeek-R1 使用的訓練方法的每個階段。

第一階段：冷啟動（或面向推理的 SFT）。在進行強化學習訓練之前，R1 透過 SFT 在一小組長思維鏈示例資料集上進行訓練，[1] 中將其稱為「冷啟動」資料。我們可以使用幾種不同的方法來收集這些冷啟動資料：

透過提示詞呼叫一個模型（例如 DeepSeek-v3）生成長思維鏈資料，可以使用少量示例，也可以指示模型生成詳細答案並進行反思和驗證。
使用 R1-Zero 模型生成大量長思維鏈輸出，然後讓人類進行後處理並選擇模型的最佳輸出。

[1] 結合了這些方法，收集了「數千個冷啟動資料」。基於這些資料再使用 SFT 對 DeepSeek-V3 直接進行微調。因為這裡使用的是長思維鏈資料，所以這是一個面向推理的微調過程。從這個冷啟動資料中，模型可以學習一個可行的（初始）模板來解決推理問題。

用於面向推理的 SFT 的資料可將人類先驗引入 DeepSeek-R1 的訓練過程。我們可以顯式地選擇模型在此階段學習的資料風格和模式。例如，[1] 中提到，他們將這些資料結構化為包含每個長思維鏈的摘要，從而教會模型在提供最終答案之前總結其整個推理過程。這些資料是強化學習訓練過程的種子 —— 模型透過匹配 SFT 訓練資料的風格開始自我探索。

第二階段：面向推理的強化學習。在 SFT 之後，就是重複 R1-Zero 提出的大規模強化學習訓練過程了，這是為了增強底層模型處理推理密集型任務的能力。DeepSeek-R1 的唯一變化是增加了語言一致性獎勵，其在計算中是作為模型輸出中採用所需目標語言編寫的部分。[1] 中發現這種語言一致性獎勵會略微降低模型的推理能力。但是，語言一致性可提高最終模型與人類偏好的整體對齊程度 —— 模型的輸出更加流暢和可讀。

第三階段：拒絕取樣。在面向推理的強化學習收斂之後，再使用最終模型來收集大量且多樣化的 SFT 資料集。然而，與最初的冷啟動 SFT 階段不同，這裡收集的不僅僅是面向推理的資料。也就是說是用通用資料擴充推理資料，以便模型可以從更廣泛的問題和領域中學習。

為了收集更多的推理資料，DeepSeek-R1 團隊：

整編一組多樣化的基於推理的提示詞。
使用第二階段的模型生成候選軌跡。
執行拒絕取樣，即根據每個軌跡的質量和正確性過濾並選擇最佳軌跡。

這與前文介紹的訓練時間拒絕取樣過程相同！有趣的是，在這個階段，不僅僅是依賴基於規則的技術來進行驗證。還會透過使用 DeepSeek-v3 作為生成獎勵模型或弱驗證器來整合來自不可驗證域的額外資料。在應用啟發式過濾（例如，刪除帶有多語言混合或長段落的輸出）後，他們最終得到了一個包含 60 萬個推理軌跡的集合。

此階段的 SFT 資料集包含大量非推理資料（例如，寫作或翻譯示例）。這些資料來自 DeepSeek-v3 所用的相同的訓練後資料集。但是，透過要求 DeepSeek-v3 生成長思維鏈來解釋複雜查詢的輸出，這些資料得到了增強 —— 不過，更簡單的查詢沒有任何思維鏈。最終，他們總共收集了 20 萬個非推理示例樣本，加起來得到了一個包含 80 萬個樣本的 SFT 資料集。

第四階段：通用 RLHF。DeepSeek-R1 最後訓練階段的目標是使模型與人類偏好對齊，同時繼續磨練其推理能力。與前一階段類似，這裡會使用基於推理的資料和通用資料的組合來訓練模型。具體來說，訓練的方法是使用強化學習並針對每種型別的資料使用不同的獎勵組合：

基於規則的獎勵（與 R1-Zero 相同），用於基於推理的問題。
針對一般資料使用神經獎勵模型 —— 使用人類偏好對進行訓練，正如 RLHF 一樣。

DeepSeek-R1 經過調整，在通用資料上更有幫助且無害。這是 LLM 研究中使用的兩個非常常用的對齊標準。每個標準都使用單獨的神經獎勵模型進行建模，該模型透過人類偏好的（監督）資料集進行訓練。有用性獎勵僅針對模型的最終答案進行衡量（即排除長思維鏈），而無害獎勵則考慮模型的整個輸出軌跡。透過結合規則和基於偏好的獎勵，DeepSeek-R1 可以與人類偏好對齊，同時保持強大的推理效能。

（來自 [1]）

它的表現如何？如上所示，R1 在大多數推理任務上的表現與 o1 相當甚至超過 o1。與 R1-Zero 不同，R1 還具有相當強的程式設計能力。在通用任務上，由於其混合訓練管道，R1 繼續表現良好。總的來說，R1 是一個非常強大的模型，似乎與 OpenAI 的 o1 不相上下，並且可以高精度地解決各種任務（包括傳統任務和推理導向任務）。

關於這個模型（和其他推理模型）的一個有趣的觀察是，與標準 LLM 相比，它在指令遵循基準（例如 IF-Eval）上表現不佳。目前，推理模型在遵循指令方面似乎比標準 LLM 更差。在未來，我個人認為這種趨勢可能會逆轉。理論上，推理模型應該能夠利用它們的思維過程來更好地解釋和遵循人類使用者提供的提示詞。例如，審議對齊（deliberative alignment）便採用了類似思想的方法。

SFT 是必要的嗎？R1-Zero 展現了在沒有 SFT 的情況下訓練出強大推理模型的能力，而完整的 R1 模型使用多個 SFT 階段來獲得更強大的最終模型。因此，我們可能會開始懷疑：我們是否應該使用 SFT？

對推理模型來說，SFT 是否有必要？

對於標準 LLM，SFT 為 RLHF 提供了高質量的起點。如果我們將 RLHF 直接應用於基礎模型，學習過程的效率就會大大降低。SFT 的資料要麼是合成的，要麼是人類手動建立的。通常，收集 SFT 的資料是昂貴的（無論是在時間還是金錢方面）—— 我們必須為 LLM 從頭開始手動編寫一個好的響應！

由於它們的思維鏈較長，為推理模型收集此類 SFT 資料更加困難。要求人類手動建立長思維鏈資料將耗時且昂貴！我們唯一的選擇是合成這些資料，但是：

可能很難使用模型生成這種特定風格的輸出。
很難正確驗證這種長輸出。

考慮到為推理模型收集 SFT 資料的額外複雜性，[1] 中的作者首先嚐試了完全避開 SFT！從這些實驗中，我們看到推理能力自然地從純強化學習中湧現 —— 這是一個令人難以置信的發現！然而，由此產生的模型有幾個缺點（例如混雜使用多種語言）。

而當在強化學習之前執行一些 SFT 訓練（即「冷啟動」）時，可為強化學習提供更好的先驗，這 i）可以消除強化學習訓練初始階段的不穩定性，ii）能加快訓練速度，iii）能提高模型質量。因此，SFT 並非完全必要，但如有資料，它仍會很有用！

蒸餾模型

知識蒸餾過程圖示

除了 DeepSeek-R1，DeepSeek 還發布了一系列基於 R1 蒸餾得到的密集模型。人們早已發現，蒸餾過程可以顯著增強更小、更高效的模型的推理能力。完整版 DeepSeek-R1 是有著 6710 億引數的混合專家模型，非常大，因此這些蒸餾模型在實踐中非常有用 —— 它們的效能與 R1 相當，但成本更低且更易於使用。此外，這些蒸餾模型的釋出與封閉推理模型（例如 o1-mini 和 o3-mini）的最新趨勢一致。

（來自 [1]）

蒸餾 R1。為了建立這些模型，他們首先選擇了幾種不同大小的 Qwen-2.5 [20] 和 LLaMA-3 [21] 模型。然後，透過 SFT 使用在 DeepSeek-R1 訓練流程第三階段整編的 80 萬個監督訓練樣本對這些基礎模型進行訓練 —— 就這麼簡單！

這是一個簡單的知識蒸餾流程，但結果卻非常驚豔。如上所示，經過蒸餾的 Qwen2.5-14B 模型的表現優於 QwQ-32B-Preview，後者是 R1 釋出之前最好的開放式推理模型。此外，即使是最小的蒸餾模型也比未針對推理進行最佳化的標準封閉式 LLM 表現更好（例如 GPT-4o），而 320 億和 700 億引數的蒸餾模型在大多數基準測試中的效能都超過了 o1-mini。

蒸餾與強化學習。雖然我們在上面的討論中看到蒸餾是有效的，但我們可能想知道：如果將 DeepSeek-R1 使用的大規模強化學習訓練過程直接應用於這些較小的模型，那麼能獲得更好的結果嗎？

有趣的是，[1] 中提到，使用上述蒸餾方法基於 R1 蒸餾 Qwen2.5-32B 基礎模型比透過大規模強化學習直接訓練該模型表現更好，如下所示。

（來自 [1]）

換句話說，大型模型發現的推理模式對於提高這些較小、密集模型的推理能力至關重要。但是，[1] 中的作者確實提出了以下補充觀點：

透過增加強化學習訓練，蒸餾模型的效能可能得到進一步提升。
「超越智慧的邊界」，即建立超過 DeepSeek-R1 等模型效能的新推理模型，仍然需要強大的基礎模型和大規模的強化學習訓練。

其他蒸餾推理模型。鑑於透過蒸餾訓練高質量推理模型很簡單，研究界在 R1 提出後釋出了各種各樣的推理模型。其中一些最吸引人的版本是：

Sky-T1 和 Sky-T1-Flash：https://novasky-ai.github.io/posts/sky-t1/
Bespoke Stratos：https://www.bespokelabs.ai/blog/bespoke-stratos-the-unreasonable-effectiveness-of-reasoning-distillation
LIMO：https://arxiv.org/abs/2502.03387
S1：https://arxiv.org/abs/2501.19393
RedStar：https://arxiv.org/abs/2501.11284

當然，還不止這些！當前推理模型釋出的步伐讓人想起了 LLM 研究的後 LLaMA 時代。在釋出強大的開放基礎模型（即 LLaMA）之後，我們看到了基於該模型的各種模型變體（例如，Alpaca、Vicuna、Koala 等等）。現在，我們可以使用強大的開放推理模型，因為我們看到了非常相似的趨勢！該領域的研究非常有趣，值得單獨寫一篇文章。敬請期待！

主要的新趨勢

我們現在已經瞭解了各種推理模型，從 o1 或 o3 等封閉模型開始，到 DeepSeek-R1 中對這些模型的完整復現。隨著我們對這項研究的瞭解，開始出現了一些共同的趨勢。這些趨勢對推理模型和標準 LLM 的研究做出了一些重要區分。羅列如下：

長思維鏈（和推理時間擴充套件）。推理模型和標準 LLM 之間的關鍵區別在於它們的輸出結構。推理模型不會直接生成最終答案（帶有可選的簡明解釋），而是生成一個較長的思維鏈，其詳細描述了模型的推理過程。這個較長的思維鏈長度不一，從而在推理時可實現可控的計算成本：較長的思維鏈 = 更多的 token = 更多的計算。這樣，在推理時使用更多的計算（生成較長的思維鏈）已成為一種工具，可讓使用者動態調整模型的推理能力。

透過強化學習進行自我進化。顯然，LLM 使用較長的思維鏈執行復雜推理策略的能力是個新方向並且激動人心。從最近的研究中，這些特殊能力發展的關鍵因素是大規模強化學習訓練。我們在 [1] 中看到，如果模型得到正確的激勵，這種推理能力就會在強化學習期間自然湧現出來 —— 通常是透過確定性和可靠的基於規則的獎勵。此外，我們可以透過使用更多的計算進行強化學習訓練來進一步提高模型的推理能力 —— 這是我們可以利用的另一個 Scaling Law！

使用更少的監督。與標準 LLM 相比，推理模型對人類監督的依賴程度較低。特別是，強化學習訓練期間的獎勵主要來自基於規則的系統，而不是依賴於人類的偏好。當然，推理模型仍然有幾個領域依賴於人類的監督；例如，基礎模型使用人類整理的資料進行訓練，驗證依賴於人類提供的 ground truth 標籤。然而，像 R1（尤其是 R1-Zero）這樣的推理模型仍然在大力發展，證明推理能力可以自主發展起來。

蒸餾是有效的。我們可以基於強大的大型推理模型，使用簡單的策略將這些模型的能力蒸餾給更小、更密集的模型！這一發現導致了該領域研究的爆炸式增長，我們很可能會在不久的將來看到更多高效和蒸餾的推理模型釋出。該領域的一個關鍵問題是較小的模型能否泛化，還是說難以完全匹敵其教師模型的廣度。

需要解決的新問題。最重要的是，推理模型的出現也帶來了各種有趣的新問題。我們還需解決的問題有：

如何為長思維鏈實現安全訓練？
通用任務能力 / 推理能力之間的最佳平衡是什麼？
SFT 在訓練推理模型中的最佳作用是什麼？
如何最大限度地減少長思維鏈中的「過度思考」？
如何實現推理模型的高效託管？

正如本文開頭所述，推理模型是一種真正新型的 LLM，它將迫使我們重新思考現有的框架。多年來一直使用的技術（例如，少樣本提示）對於這些新模型來說已經過時了。LLM 研究領域正在再次自我重塑。

與推理模型相關的深度報道

前面就是 Cameron R. Wolfe 博士釋出的《揭秘推理模型》全文了。下面我們簡單梳理了機器之心之前釋出的推理模型相關內容：

參考文獻

[1] Guo, Daya, et al. "Deepseek-r1: Incentivizing reasoning capability in llms via reinforcement learning." arXiv preprint arXiv:2501.12948 (2025).

[2] Liu, Aixin, et al. "Deepseek-v3 technical report." arXiv preprint arXiv:2412.19437 (2024).

[3] Shao, Zhihong, et al. "Deepseekmath: Pushing the limits of mathematical reasoning in open language models." arXiv preprint arXiv:2402.03300 (2024).

[4] OpenAI. “Introducing OpenAI o1-preview” https://openai.com/index/introducing-openai-o1-preview/ (2024).

[5] OpenAI. “Learning to Reason with LLMs” https://openai.com/index/learning-to-reason-with-llms/ (2024).

[6] OpenAI. “OpenAI o3-mini” https://openai.com/index/openai-o3-mini/ (2025).

[7] Rein, David, et al. "Gpqa: A graduate-level google-proof q&a benchmark." arXiv preprint arXiv:2311.12022 (2023).

[8] Wei, Jason, et al. "Chain-of-thought prompting elicits reasoning in large language models." Advances in neural information processing systems 35 (2022): 24824-24837.

[9] Zelikman, Eric, et al. "Star: Bootstrapping reasoning with reasoning." Advances in Neural Information Processing Systems 35 (2022): 15476-15488.

[10] Gulcehre, Caglar, et al. "Reinforced self-training (rest) for language modeling." arXiv preprint arXiv:2308.08998 (2023).

[11] Nakano, Reiichiro, et al. "Webgpt: Browser-assisted question-answering with human feedback." arXiv preprint arXiv:2112.09332 (2021).

[12] Dubey, Abhimanyu, et al. "The llama 3 herd of models." arXiv preprint arXiv:2407.21783 (2024).

[13] Lambert, Nathan, et al. "Tulu 3: Pushing frontiers in open language model post-training." arXiv preprint arXiv:2411.15124 (2024).

[14] Bespoke Labs. “Bespoke-Stratos: The unreasonable effectiveness of reasoning distillation” https://www.bespokelabs.ai/blog/bespoke-stratos-the-unreasonable-effectiveness-of-reasoning-distillation (2025).

[15] Welleck, Sean, et al. "From decoding to meta-generation: Inference-time algorithms for large language models." arXiv preprint arXiv:2406.16838 (2024).

[16] Aggarwal, Pranjal, Bryan Parno, and Sean Welleck. "AlphaVerus: Bootstrapping formally verified code generation through self-improving translation and treefinement." arXiv preprint arXiv:2412.06176 (2024).

[17] Chen, Xinyun, et al. "Teaching large language models to self-debug." arXiv preprint arXiv:2304.05128 (2023).

[18] Wang, Yifei, et al. "A Theoretical Understanding of Self-Correction through In-context Alignment." arXiv preprint arXiv:2405.18634 (2024).

[19] Huang, Jie, et al. "Large language models cannot self-correct reasoning yet." arXiv preprint arXiv:2310.01798 (2023).

[20] Yang, An, et al. "Qwen2. 5 technical report." arXiv preprint arXiv:2412.15115 (2024).

[21] Dubey, Abhimanyu, et al. "The llama 3 herd of models." arXiv preprint arXiv:2407.21783 (2024).

[22] Shao, Zhihong, et al. "Deepseekmath: Pushing the limits of mathematical reasoning in open language models." arXiv preprint arXiv:2402.03300 (2024).

轉載請聯絡本公眾號獲得授權

投稿或尋求報道：[email protected]