MLNLP社群是國內外知名的機器學習與自然語言處理社群，受眾覆蓋國內外NLP碩博生、高校老師以及企業研究人員。

社群的願景是促進國內外自然語言處理，機器學習學術界、產業界和廣大愛好者之間的交流和進步，特別是初學者同學們的進步。

來源 | 新智元

編輯 | 桃子好睏

用上DeepSeek核心演算法，也能擊敗R1。

在具有挑戰性的「時間線索」（Temporal Clue）邏輯謎題中，基於強化學習微調後的Qwen 2.5 32B，推理能力完全碾壓o1、o3-mini、R1。

甚至，它還追平了Claude 3.7 Sonnet，整個模型推理成本暴降100多倍！

「時間線索」邏輯謎題脫胎於經典桌遊Clue，並加入了when、why的兩個全新維度，堪稱邏輯推理的「珠穆朗瑪峰」。

它不僅能考驗模型基本推理能力，更爆料頂級大模型軟肋。

對此，前谷歌工程師，初創OpenPipe聯創Kyle Corbitt和團隊將其作為模型的「終極試煉場」，提出了一個大膽的假設——

小模型在複雜推理任務中，能否逆襲，達到或超越頂尖LLM？

他們選用開源的Qwen模型（14B和32B），透過GRPO強化學習，對其進行了魔鬼式訓練。

如前所見，這些小模型的推理效能，得到了顯著提升。

但震撼遠不止於此，團隊還發現了一些奇怪的現象：Qwen 14B的推理長度隨時間「隨機」增加，而Qwen 32B的推理長度卻在減少。

而且，這一切竟發生在獎勵機制完全不涉及長度的情況下。

傳統觀念認為，只有引數量足夠大的LLM，才能稱霸推理任務。

但這個最新證明，即便是14B/32B小而精的模型，用上巧妙的最佳化策略——GRPO，同樣能站上巔峰。

網友評論區追問，QWQ 32B也有效嗎？

Kyle肯定道，那是一定的，它與Qwen 2.5 32B採用了同一個架構。

AI推理新戰場：時間線索

去年，OpenAI推出劃時代o系列推理模型以來，在AI界掀起了一場強化學習（RL）的狂潮。

谷歌DeepMind、阿里、DeepSeek、Anthropic等巨頭紛紛入局，打造出進行長鏈式思維（CoT）推理的高階模型。

許多以往具有挑戰性的基準測試——如數學和編碼領域——如今已接近飽和。

然而，即便是如今最頂尖模型，面對邏輯推理這塊硬骨頭，也常常會犯低階錯誤。

為此，OpenPipe兩位聯創決定挑戰這個未解之謎——用RL微調後的小模型，去挑戰複雜推理題。

基準測試

為此，研究人員基於桌遊Clue，打造了一個新基準——時間線索，將其轉化為一個單人邏輯謎題，超越了傳統維度（who、what、where）。

這些謎題透過OR-Tools 的 CP-SAT 求解器隨機生成，並挑選出最精簡，卻致命的線索：

在一個寒冷的冬夜，富有且神秘的John Q. Boddy先生為幾位親密夥伴舉辦了一場小型但奢華的晚宴。然而，夜晚以悲劇收場——清晨，Boddy先生被發現死在都鐸莊園的某個房間內。以下為涉案嫌疑人名單…

把子有了之後，研究人員先對頂尖大模型進行了測試，包括DeepSeek-R1、o1、o3-mini，以及Claude Sonnet 3.7，以及開源的Qwen 14B和32B。

結果如下圖所示，有64k token思考預算的Claude Sonnet 3.7，表現最優。

開源DeepSeek-R1幾乎與o1、o3-mini效能相當。然而，未經調優的Qwen 2.5 Instruct模型表現平平。

那麼，如何將這些較小的開源模型訓練到前沿水平？

小模型逆襲秘訣：GRPO

答案就是，強化學習——允許智慧體在受控環境中從自身經驗中學習。

這裡，LLM是智慧體，而謎題則是環境。

研究人員透過讓LLM為每個謎題生成多個響應來引導它們的學習，探索問題的空間。並且，強化那些導向正確答案的推理，並對導致模型偏離正確路徑的推理進行懲罰。

在多種RL方法中，他們選擇了由DeepSeek開發的流行的GRPO演算法。與傳統的PPO等方法相比，GRPO簡化了訓練過程，同時仍能提供強大的效能。

為了加速實驗，團隊省略了Kullback-Leibler（KL）散度懲罰。

從高層次來看，模型的訓練迴圈遵循以下基本步驟：

生成模型對謎題任務的響應
對響應進行評分，並估計每組對話完成的優勢（這是GRPO中「分組相對比較」的部分）
使用由這些優勢估計指導的裁剪策略梯度對模型進行微調
使用新的謎題和最新版本的模型重複這些步驟，直到達到峰值效能

在生成響應時，研究人員使用了流行的vLLM推理引擎，透過調整了引數選擇，以最大化吞吐量並最小化啟動時間。

Prefix caching尤為重要，因為作者為每個任務取樣了許多響應，快取提示有助於避免冗餘計算。

他們觀察到，向vLLM傳送過多請求，會導致正在進行中的請求被搶佔或交換。

為了解決這個問題，他們使用訊號量（semaphore）限制請求，以保持高KV快取利用率，同時最小化交換。

更高階的排程機制可能會在支援靈活生成長度的同時，進一步提高利用率。

在取樣後，研究人員使用標準的HuggingFace Transformers AutoTokenizer處理完成內容。

其聊天模板功能將訊息物件渲染為提示字串，幷包含一個助手掩碼（assistant mask），用於確定LLM生成的token。

他們發現模型的預設模板中，缺少必要的「% generation %」標籤，因此在分詞步驟中對其進行了修改。

生成的助手掩碼被包含在用於微調的張量字典中，以識別哪些位置需要計算損失。

在分詞響應並獲取助手掩碼後，研究人員對資料進行打包以進行微調。除了在每個打包序列中包含多個提示/響應對外，我們還識別了共享的提示token，併為每個token分配了一個Parent ID，以及Group ID。

特別是對於像「時間線索」這樣的任務——每個謎題平均超過1,000個token——為每個任務生成大量響應並高效打包張量顯著減少了冗餘。

一旦打包了所有必要資訊，便可以將訓練資料集視覺化為2D形式，每一行都是一個token序列，可能包含多個提示和完成內容：

有了緊密打包的資料後，就可以開始微調了。

Qwen模型已經經過了預訓練和指令微調，具備相當的智慧水平，並且擅長遵循指令。

然而，它們還無法可靠地解決「時間線索」謎題。儘管如此，它們偶爾也能成功，而這已經足夠了。

透過增加良好推理的機率並減少「不良」推理的機率，研究人員逐步將模型引導至「偵探大師」級的水平。

他們使用標準的機器學習技術實現了這一點，採用策略梯度方法計算損失並有益地調整權重。

在訓練過程中，他們使用了PyTorch團隊提供的torchtune庫。Torchtune為包括Llama、Gemma、Phi等流行模型提供了高效的僅解碼器（decoder-only）Transformer實現。

雖然在這個專案中，他們主要使用了Qwen模型，但也對8B和70B的Llama模型進行了實驗。

Torchtune還提供了節省記憶體和提升效能的工具，包括：

啟用檢查點（Activation Checkpointing）
啟用解除安裝（Activation Offloading）
量化（Quantization）
引數高效微調（PEFT），例如低秩適應（LoRA）

此外，Torchtune支援多裝置（以及現在的多節點）訓練，使其非常適合更大的模型。它支援全分片資料並行（FSDP）和張量並行（TP）訓練，並且可以結合使用。

他們還提供了十幾種訓練recipes，鼓勵使用者複製並根據自己的用例進行定製。研究人員在此建立了一個修改版的完整微調配方，支援以下功能：

多裝置和單裝置訓練
參考模型載入和權重交換，用於計算KL散度
使用組ID和父ID進行高階因果掩碼計算
GRPO損失整合和元件日誌記錄

未來，他們希望新增張量並行支援，並探索PEFT和量化。

RL訓練過程涉及選擇大量的超引數。在訓練模型時，研究人員測試了各種配置，並最終確定了以下設定：

模型：Qwen 2.5 Instruct 14B和32B
每次迭代的任務數：32
每次迭代每個任務的樣本數：50
每次迭代的總樣本數：32*50=1600
學習率：6e-6
Micro-Batch大小：14B模型為4個序列，32B模型為8個序列
批大小：可變，取決於序列數量

批大小是可變的，因為在訓練過程中響應長度可能會變化，序列打包效率每次迭代都會波動，並且優勢為零的響應會被丟棄。

在一次實驗中，研究人員嘗試了動態調整學習率，使其與批大小成反比，但這導致小批大小的學習率過高，需要設定上限。

設定上限後的版本與使用恆定學習率沒有顯著差異，但調整批大小和學習率仍然是未來實驗的一個有趣方向。

此外，研究人員還進行了簡短的實驗，增加每次迭代的任務數同時減少每個任務的樣本數，反之亦然，保持每次迭代的總樣本數大致相同。

在較短的訓練時間內，這些變化沒有顯示出顯著差異，表明配方對任務數和每個任務的樣本數之間的不同平衡具有魯棒性。

100次迭代，實現SOTA

結果顯示，模型在經歷超過100次迭代訓練後，實現了SOTA級的演繹推理能力。

從下圖中可以看到，模型的效能在訓練初期迅速提升，並在之後逐漸放緩；然而到了末期，準確率卻開始出現退化，甚至急劇下降。

在最佳狀態下，14B模型在16k tokens的上下文視窗下接近Claude Sonnet 3.7的效能，而32B模型在更大的64k上下文容量下幾乎匹配了Sonnet的結果。

訓練過程中，效能提升遵循冪律分佈，在對數-對數座標圖上呈現線性關係（在效能開始下降之前）。

研究人員推測，之所以出現這種現象，有可能是因為模型過早地收斂於初期就有效的貪婪策略，從而限制了長期的發展潛力。

此外，還可以觀察到，輸出的長度在訓練期間也呈現出了一種有趣的變化模式。

剛開始的時候響應長度會逐步增加，然後趨於穩定；而在訓練後期，則出現了明顯的分化現象——14B模型的響應變得更長，而32B模型的響應長度顯著減少，特別是在達到峰值效能後。

為了定性評估邏輯推理能力的提升，團隊決定使用最新的Claude Sonnet 3.7來對Qwen 32B模型的解謎推理能力進行分析。

在未經訓練的基礎模型中，Sonnet識別出了6個推理結論，其中5個被判定為錯誤
在經過100多次迭代訓練後的模型中，Sonnet識別出了7個推理結論，其中6個被判定為符合邏輯

接下來，團隊根據Fireworks AI的無伺服器定價方案估算了Qwen模型的成本。（假設能獲得足夠的計算吞吐量）

透過將準確率與每個響應平均推理成本的自然對數進行對比，團隊發現，沒有經過微調的模型存在著明顯的線性帕累托最優前沿（表示在這條曲線上，無法同時提高準確率和降低成本）。

而團隊提出的方法，不僅將開源模型訓練到了SOTA級的準確率，而且還極大地改善了成本與準確率之間的權衡關係。

值得一提的是，團隊還在最後為大家留了一個特別令人興奮的發現——僅使用16個訓練樣例就能實現高達10-15%的顯著效能提升。

這意味著，不需要大量資料即可開始，開發者只需對自己想解決的問題有一些基本的直覺認識即可。

在文章的最後，團隊寫道：

隨著工作的圓滿完成，我們彼此相視一笑，隨即叫了一輛雙輪馬車返回貝克街——這裡正是覆盤「案情」的絕佳場所。

參考資料：

https://x.com/corbtt/status/1897735437340627405 https://openpipe.ai/blog/using-grpo-to-beat-o1-o3-mini-and-r1-on-temporal-clue

技術交流群邀請函

△長按新增小助手

掃描二維碼新增小助手微信

請備註：姓名-學校/公司-研究方向

（如：小張-哈工大-對話系統）

即可申請加入自然語言處理/Pytorch等技術交流群

關於我們

MLNLP 社群是由國內外機器學習與自然語言處理學者聯合構建的民間學術社群，目前已經發展為國內外知名的機器學習與自然語言處理社群，旨在促進機器學習，自然語言處理學術界、產業界和廣大愛好者之間的進步。

社群可以為相關從業者的深造、就業及研究等方面提供開放交流平臺。歡迎大家關注和加入我們。

dignews.cc

32B擊敗DeepSeek-R1、o3-mini，成本暴降100倍！GRPO讓小模型稱霸推理

AI推理新戰場：時間線索

基準測試

小模型逆襲秘訣：GRPO

100次迭代，實現SOTA

關於我們

相關文章

不斷有人在問，這個中國模型到底有什麼魔力？

為什麼李飛飛團隊經常cue通義千問？

如何去掉GRPO的長度bias？SeaAILab提出全新最佳化方法，有效提升令牌效率和推理效能

阿里AI實力獲斯坦福權威報告蓋章！通義千問貢獻排名全球第三、中國第一

200多行程式碼，超低成本復現DeepSeekR1「AhaMoment」！復旦大學開源

“批判性微調”面世，8個英偉達H100訓練模型1小時，效能媲美DeepSeek-R1

32bR1-Zero復現，聚焦scaling

200多行程式碼，復旦大學超低成本復現DeepSeekR1「AhaMoment」！

揭秘DeepSeekR1-Zero訓練方式，GRPO還有極簡改進方案

為什麼Qwen能自我改進推理，Llama卻不行？斯坦福找到了原理