MLNLP

社群是國內外知名的機器學習與自然語言處理社群，受眾覆蓋國內外NLP碩博生、高校老師以及企業研究人員。

社群的願景是促進國內外自然語言處理，機器學習學術界、產業界和廣大愛好者之間的交流和進步，特別是初學者同學們的進步。

來源 | NLP工作站

作者 | 劉聰NLP

今天刷到Sebastian的blog，《Understanding Reasoning LLMs》，特此翻譯一下，帶給大家。

原文: https://magazine.sebastianraschka.com/p/understanding-reasoning-llms

概述：

解釋“推理模型”的含義
討論推理模型的優缺點
概述DeepSeek R1的訓練方法
描述構建和改進推理模型的四種主要方法
分享DeepSeek V3和R1釋出後的LLM領域的看法
提供在小成本下訓練推理模型的技巧

如何定義“推理模型”？

如果你在AI（或機器學習）領域工作，你可能對模糊且備受爭議的定義很熟悉。“推理模型”這個術語也不例外。最終，會有人在論文中正式定義它，但很快就會在下一篇論文中被重新定義~

在本文中，我將“推理”定義為回答需要複雜、多步驟生成幷包含中間步驟的問題的過程。例如，像“法國的首都是哪裡？”這樣的事實問答不涉及推理。相反，像“如果一列火車以每小時60英里的速度行駛3小時，它能走多遠？”這樣的問題需要一些簡單的推理。例如，它需要認識到距離、速度和時間之間的關係，然後才能得出答案。

大多數LLMs都具備基本的推理能力，能夠回答像“如果一列火車以每小時60英里的速度行駛3小時，它能走多遠？”這樣的問題。所以，當我們提到推理模型時，指的是那些在更復雜的推理任務（如解決謎題、謎語和數學證明）中表現出色的LLMs。

此外，現在大多數被稱為推理模型的LLMs在其回覆中都包含一個“思考”或“思維”過程。

而推理模型的中間步驟可以以兩種方式出現，第一種可能明確地包含在回覆中，如圖所示。第二種，如OpenAI的o1等一些推理LLMs，會執行多個迭代的中間步驟，且不顯示給使用者。

何時使用推理模型？

推理模型旨在擅長解決複雜任務，如解決謎題、高階數學問題和具有挑戰性的程式設計任務。然而，對於簡單的任務（如摘要、翻譯或基於知識的問題回答）並不是必需的。如果將推理模型用於所有任務，會導致效率低下且昂貴，並且有時由於“過度思考”而更容易出錯。推理模型的推理模型的優劣勢如下圖所示，我們需要為任務選擇合適的工具或LLM。

概述 DeepSeek 訓練流程

DeepSeek釋出了三個不同的變體：DeepSeek-R1-Zero、DeepSeek-R1和DeepSeek-R1-Distill。

模型的訓練過程總結，如下圖所示。

DeepSeek-R1-Zero：在DeepSeek-V3基模基礎上，直接應用強化學習，不使用任何SFT資料進行冷啟動。
DeepSeek-R1：在DeepSeek-V3基模基礎上，先透過額外的SFT階段和進一步的RL訓練進一步精煉，改進了“冷啟動”的R1-Zero模型。
DeepSeek-R1-Distill*：使用前面步驟中生成的SFT資料，對Qwen和Llama模型進行了微調，以增強其推理能力，純SFT。

四種構建和改進推理模型的方法

概述目前用於增強LLMs推理能力和構建專門推理模型（如DeepSeek-R1、OpenAI的o1和o3等）的關鍵技術。

注意：o1和o3的確切工作原理尚不清楚，純猜測。

Inference-time scaling

推理時間擴充套件，指的是在推理時增加計算資源以提高輸出質量。

一個粗略的類比是，人類在有更多時間思考複雜問題時往往會生成更好的回答。同樣，我們可以應用一些技術，鼓勵LLM在生成答案時“多思考”。

一個直接的推理時擴充套件方法是提示工程。一個經典例子是思維鏈（CoT）提示，在輸入提示中加入“逐步思考”之類的短語。鼓勵模型生成中間推理步驟，而不是直接跳到最終答案，會在更復雜的問題上通常（但不總是）會導致更準確的結果。

上述CoT方法可以被視為推理時間擴充套件，因為它透過生成更多的輸出標記使推理變得更昂貴。

另一種推理時間擴充套件的方法是使用投票和搜尋策略。一個簡單的例子是多數投票，讓LLM生成多個答案，然後透過多數投票選擇正確答案。同樣，可以使用束搜尋和其他搜尋演算法來生成更好的回答。

想了解更多關於這些不同策略的詳細資訊可閱讀《Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters》文章。

純強化學習

DeepSeek R1論文中的一大亮點是，發現推理可以從純的強化學習（RL）中學習。與典型的RL方法（在RL之前先監督微調SFT）不同，DeepSeek-R1-Zero僅使用強化學習進行訓練，沒有初始的SFT階段，也就是為什麼其為“純”的RL。，如下圖所示。

對於獎勵，沒有使用基於人類偏好的訓練獎勵模型，而是使用了兩種型別的獎勵：準確性和格式獎勵。

準確性獎勵，使用LeetCode編譯器驗證編碼答案，並使用確定性系統評估數學回答。
格式獎勵，依賴於一個LLM裁判，以確保回答遵循預期的格式，例如將推理步驟放在<think>標籤內。

令人驚訝的是，這種方法是可以讓LLM具備更強推理能力的。儘管R1-Zero不是表現最好的推理模型，但透過生成中間“思考”步驟展示了推理能力，如上圖所示。證實了使用純粹的RL訓練推理模型是可能的，DeepSeek團隊是第一個展示（或者至少是發表）這種方法的團隊。

監督微調和強化學習

實際上在RL之前包含一個SFT階段是很常見的。OpenAI的o1很可能是使用類似的方法訓練的。

如上圖所示，使用DeepSeek-R1-Zero生成了所謂的“冷啟動”SFT資料。

首先使用這些“冷啟動”SFT資料，透過指令微調訓練了模型；然後再經過一個RL階段，在這個RL階段中，不僅保留了DeepSeek-R1-Zero的RL過程中使用的準確性和格式獎勵，還增加了一個一致性獎勵，以防止語言混合，在回答中切換多種語言情況。

在RL階段之後是又一輪的SFT資料收集，使用最新的模型checkpoint生成了600k 個思維鏈（CoT）SFT樣本，同時使用DeepSeek-V3基礎模型建立了額外的200K個基於知識的SFT樣本。再經過另一輪RL，使用基於規則的方法為數學和編碼問題提供準確性獎勵，而人類偏好標籤用於其他問題型別。

最終的模型，DeepSeek-R1，與DeepSeek-R1-Zero相比，效能有了顯著提升，如下表所示。

純監督微調（SFT）和蒸餾

DeepSeek還發布了透過“蒸餾”過程訓練的較小模型。這裡的蒸餾指的是在由較大LLMs生成的SFT資料集上對較小的LLMs（如Llama 8B和70B以及Qwen 2.5模型（0.5B到32B））進行指令微調。在下圖中突出了蒸餾部分。

為什麼要訓練這些蒸餾模型？有兩個關鍵原因：

較小的模型更高效。這意味著它們執行成本更低，而且可以在較低端的硬體上執行，更吸引研究者和大模型愛好者。
純SFT的方法研究。這些蒸餾模型作為一個有趣的基準，展示了純監督微調（SFT）可以在沒有強化學習的情況下將模型帶到多遠。

下表比較了這些蒸餾模型與其他流行模型的效能，以及DeepSeek-R1-Zero和DeepSeek-R1。

正如我們所見，蒸餾模型明顯弱於DeepSeek-R1，但與DeepSeek-R1-Zero相比，儘管它們小了幾個數量級，但效果卻很強。與o1 mini相比，這些模型的表現也相當不錯（我懷疑o1-mini本身可能是o1的一個類似的蒸餾版本）。

同時還測了在DeepSeek-R1-Zero中看到的純RL方法，是否也能出現在較小的模型中，將DeepSeek-R1-Zero的相同純RL方法直接應用於Qwen-32B。

結果表明，對於較小的模型來說，蒸餾比純RL更有效。

四種方法小結

推理時擴充套件不需要額外的訓練，但會增加推理成本，隨著使用者數量或查詢量的增加，大規模部署會變得更加昂貴。然而，對於已經表現強勁的模型來說，它仍然是一個不假思索的選擇。我強烈懷疑o1利用了推理時擴充套件，這有助於解釋為什麼它在每個標記上的成本比DeepSeek-R1更高。
純RL對於研究目的很有趣，因為它提供了關於推理作為一種新興行為的見解。然而，在實際的模型訓練中，RL + SFT是首選方法，因為它可以產生更強大的推理模型。
RL + SFT是構建高效能推理模型的關鍵方法。
蒸餾是一種有吸引力的方法，特別是用於建立更小、更高效的模型。然而，它的侷限性在於蒸餾不能推動創新或產生下一代推理模型。例如，蒸餾總是依賴於一個現有的、更強的模型來生成監督微調（SFT）資料。