GRPO訓練的小型開源模型，推理能力逼近Sonnet 3.7。

作者丨洪雨欣

編輯丨陳彩嫻

近日，海外大模型產品平臺 OpenPipe 上釋出了一項研究，闡述其如何透過 GRPO 在重度推理遊戲《時空謎題》中超越R1、o1、o3-mini 等模型。研究作者分別為來自 Ender Research 的強化學習研究員 Brad Hilton 和 OpenPipe 的創始人 Kyle Corbitt。

他們的研究表示，他們不僅將模型與 Sonnet 3.7 的差距縮小至個位百分比，同時實現超過100倍的推理成本最佳化。

報告中還分享了任務設計與超引數調整的經驗，並公開了基於torchtune框架構建的完整訓練方案。

背景介紹

自OpenAI去年釋出突破性的o系列推理模型以來，採用強化學習（RL）訓練的大型語言模型（LLMs）迎來爆發式增長。谷歌DeepMind、阿里巴巴、DeepSeek、Anthropic相繼推出支援長"思維鏈"（CoT）推理的先進模型，在可驗證問題上實施強化學習訓練，讓傳統的基準測試逐漸逼近效能天花板。

儘管取得顯著進展，邏輯演繹能力仍是頂尖模型的阿喀琉斯之踵。當前LLMs普遍存在三大缺陷：

難以穩定追蹤所有相關細節
無法保持邏輯嚴密的推演過程
多步銜接可靠性不足

即便頂尖模型生成10-100倍長度的輸出，仍然會頻現人類可輕易識別的低階錯誤。

帶著好奇，我們開啟了一系列的探索：小型開源模型能否藉助前沿強化學習技術，突破演繹推理的邊疆？

我們首先從效能較弱的模型出發，在一項全新的推理任務上對其進行迭代訓練。隨著時間的推移，我們明顯觀察到它們的推理能力有所提升，最終達到甚至超越了一些先進的專有模型。

基準測試框架

為了開展我們的實驗，我們首先必須確定一個具有明確可驗證答案且具有挑戰性的推理任務。碰巧其中一位作者之前建立了一個完全符合要求的謎題集——“時空謎題”（Temporal Clue）。除了滿足事實真相清晰這一標準外，還可以按照需要建立新謎題。

“時空謎題”靈感源自熱門桌遊 Clue（Cluedo），在該遊戲中，玩家們競相揭開究竟是誰在Boddy先生的豪宅中謀殺了他。“時空謎題”將這款遊戲轉變為一個單人邏輯謎題，它不僅涵蓋標準要素 —— 兇手是誰、用什麼兇器、在哪作案，還增添了兩個維度：作案時間和作案動機。謎題是隨機生成的，遊戲使用了 OR – Tools 的 CP – SAT 求解器進行線索挑選。

在某個陰冷的冬夜，神秘富豪John Q. Boddy先生為他的密友舉辦了一場小型的奢華晚宴。然而，這場晚宴以悲劇收場，Boddy先生於清晨時分被發現死在都鐸莊園的一個房間裡。以下是被認定為嫌疑人的相關利益人員……

為了明確這項推理任務的最佳水平，我們對一些火爆的推理模型進行了基準測試，包括DeepSeek R1、OpenAI的o1和o3 – mini以及Anthropic的Claude Sonnet 3.7。此外，我們還對14B和32B的Qwen模型進行了基準測試，這是我們最終結果的預覽：

在這些基準測試中，我們發現Claude Sonnet 3.7在設定6.4萬個token的情況下表現最佳，DeepSeek R1的表現幾乎與OpenAI的o1和o3 – mini不相上下。然而，未經調優的Qwen 2.5 Instruct模型在相比之下就稍顯遜色了。

一個關鍵問題是：我們能否將這些較小型的開放權重模型訓練到前沿水平的表現？答案是肯定的，只要用對方法。

訓練

為了訓練出一個具有前沿水平的推理模型，我們採用了強化學習方法。我們首先讓大語言模型針對每個謎題生成多個回覆，以此探索問題的各種可能性，從而引導它們學習。對得出正確答案的推理過程給予正向強化，而對誤導模型的推理過程則進行懲罰。

在眾多強化學習的方法中，我們選用了DeepSeek模型的GRPO演算法。與PPO等傳統方法相比，GRPO不僅表現出色，還簡化了訓練過程。

從宏觀層面來看，我們的訓練遵循以下幾個基本步驟：

針對謎題任務生成模型回覆
對回覆進行評分，併為每組聊天回覆估算優勢值
利用這些優勢值估算結果引導的裁剪策略梯度對模型進行微調
用新的謎題和模型的最新版本重複上述步驟，直至達到最佳效能

在生成回覆環節，我們使用了熱門的vLLM推理引擎，並對引數選擇進行了調優。我們發現，向vLLM傳送過多請求會導致正在處理的請求被搶佔。為解決這一問題，我們使用了一個訊號量來限制請求數量，該訊號量經過調優，能夠在儘量減少換出的同時保持較高的鍵值快取利用率。

取樣完成後，我們使用 HuggingFace Transformers AutoTokenizer 對回覆進行處理。它的聊天模板功能可將訊息物件渲染為提示字串，其中包含一個助手掩碼，用於確定哪些標記是由大語言模型生成的。我們發現這些模型在其預設模板中缺少必要的 “生成” 標籤，於是在token步驟中對模板進行了修改。最終得到的助手掩碼被納入用於調優的張量字典中，用以標識哪些位置需要進行損失計算。

在獲得助手掩碼後，我們對資料進行打包以便調優。除了在每個打包序列中包含多個提示和回覆之外，我們還識別出共享的提示標記，併為每個標記分配一個父ID，同時附上標準的組ID。對於像 “時空謎題” 這類平均每個謎題超過1000個標記的任務，我們針對每個任務生成多個回覆並高效打包張量，顯著減少了冗餘。一旦將所有必要資訊打包完畢，我們就能以二維形式直觀呈現訓練資料集，每一行都是一個可能包含多個提示和回覆的標記序列。

有了資料後，我們開始調優。模型已經完成了預訓練和指令微調，具備一定的智慧水平。雖然它們還無法穩定地解決謎題，但是偶爾也能成功。透過提高正確推理的機率，我們逐步引導模型朝著 “神探” 的水平邁進。對於計算損失和調整權重，我們採用了策略梯度的方法。

在訓練過程中，我們使用了由 PyTorch 團隊提供的Torchtune庫，其中包括Llama、Gemma、Phi等熱門模型。我們在這個專案中除了使用Qwen模型，也用80億引數和700億引數的Llama模型進行了實驗。Torchtune還提供了一些節省記憶體和提升效能的工具，包括：

啟用檢查點（Activation Checkpointing）
啟用解除安裝（Activation Offloading）
量化（Quantization）
引數高效微調（PEFT），例如LoRA

此外，Torchtune支援多裝置和多節點訓練，還可以結合全分片資料並行（FSDP）和張量並行（TP）訓練。他們提供了十多個訓練配方，鼓勵使用者複製並根據自己的用例進行定製。他們完整微調配方的修改版支援以下功能：

多裝置和單裝置訓練
參考模型載入和權重交換以計算KL散度
使用組和父ID進行高階因果掩碼計算
GRPO損失整合和元件日誌記錄

強化學習訓練過程涉及超引數的選擇。在訓練模型期間，我們對各種配置進行了測試，最終確定了以下引數：

模型：Qwen 2.5 Instruct 140億引數版和320億引數版
每次迭代的任務數：32
每個任務每次迭代的樣本數：50
每次迭代的總樣本數：32×50 = 1600
學習率：6×10⁻⁶
微批次大小：對於140億引數模型為4個序列，對於320億引數模型為8個序列
批次大小：可變，取決於序列數量

批次大小之所以可變，是因為訓練過程中回覆長度不同。每次迭代的序列打包效率會有波動，優勢為零的回覆會被丟棄。在一次實驗中，我們嘗試將學習率與批次大小成反比動態調整，但這會導致小批次的學習率過高。經過上限處理後的版本與使用恆定學習率相比沒有明顯差異，但調整批次大小和學習率仍是未來值得探索的方向。

我們還進行了簡短的實驗，在每次迭代的任務數和每個任務的樣本數之間進行反向調整（即一個增加另一個減少），同時保持每次迭代的總樣本數大致相等。在較短的訓練週期內，這些變化沒有產生明顯差異，這表明訓練配方對任務數量與單任務樣本量之間的不同配比具有強魯棒性。

結果

經過100+次迭代訓練，我們的模型成功達到前沿級推理水平。

我們的模型能夠在準確率下降之前迅速改進。最佳狀態下，140億引數、1.6萬個token的模型已接近於ClaudeSonnet 3.7的效能。320億引數、6.4萬個token的模型更是幾乎達到了Sonnet的結果。

在訓練期間，效能提升遵循冪律規律，在圖表上形成線性關係（在惡化之前）。

下一步，我們將探索多樣化回應的方法，逐步構建能力的方法，或者能夠激勵出徹底探索的方法。

此外，我們注意到在訓練期間輸出長度呈現出有趣的規律。最初回復變長，隨後趨於穩定，在訓練接近尾聲時出現分化，其中140億引數模型的回覆變得更長，而320億引數模型的回覆長度則縮短（尤其是在達到最佳效能之後）。

為了從定性角度評估邏輯推理能力的提升，我們讓最先進的模型Claude Sonnet 3.7對Qwen 32B模型所做出的推論進行識別，並評估其合理性。Sonnet從基礎模型中識別出6個推論，除了一個被判定為正確外，其餘均被判定為錯誤。相反，從經過訓練的模型中識別出7個推論，除了一個錯誤之外，其餘均被判定為邏輯合理。

最後，在假設按需部署具有足夠吞吐量的情況下，我們根據Fireworks AI的無伺服器定價層級估算了Qwen模型的成本。我們繪製了一張準確性和推理成本的關係圖，並發現在未經調優的模型中存在一條清晰的線性帕累託前沿線，極大地改善了成本與準確性之間的權衡關係。

結語

在我們的調查研究中，我們探索了較小型的開源語言模型能否透過強化學習實現前沿水平的演繹推理能力。對時間線索謎題進行訓練時，我們使用了超引數和GRPO方法來訓練Qwen 14B和32B模型，顯著低提升了效能。這些改進使開源模型在推理效能方面達到了最前沿的水平，並大幅度低降低了成本。我們的研究結果凸顯了強化學習在高效訓練開源模型處理複雜演繹任務方面的巨大潛力。

此外，最後還有一個驚喜。我們發現，僅需16個訓練樣本就能實現高達10 – 15% 的效能提升，這意味著我們無需大量資料就能進行推理。

原文連結：

https://openpipe.ai/blog/using-grpo-to-beat-o1-o3-mini-and-r1-on-temporal-clue