4B小模型數學推理首超Claude4,700步RL訓練逼近235B效能|港大&位元組Seed&復旦

Polaris團隊 投稿量子位 | 公眾號 QbitAI
4B模型的數學推理能力和頂尖商業大模型差在哪裡?
香港大學NLP團隊聯合字節跳動Seed、復旦大學釋出名為Polaris的強化學習訓練配方:
透過Scaling RL,Polaris讓4B模型的數學推理能力(AIME25上取得79.4,AIME24上取得81.2)超越了一眾商業大模型,如Seed-1.5-thinking、Claude-4-Opus和o3-mini-high(25/01/31)。
並且,Polaris-4B的輕量化允許在消費級顯示卡上部署。
詳細的blog、訓練資料、模型和程式碼都已全部開源,連結可見文末。

圍繞待訓練模型進行引數配置

之前的RL訓練配方,如DeepScaleR,已經展示了Scaling RL在較弱基模型上強大的效果。
但對於目前最前沿的開源模型(如Qwen3),Scaling RL是否也能復現如此顯著的提升呢?
Polaris的研究團隊給出了明確回答:可以!
具體來說,Polaris透過僅僅700步的RL訓練,成功地讓Qwen3-4B在數學推理任務上接近了其235B版本的表現
只要方法得當,RL還存在著巨大的開發潛力。
Polaris的成功的秘籍就是:訓練資料及超引數設定都要圍繞待訓練的模型來進行設定

訓練資料構造

Polaris團隊發現,對於同一份資料,不同能力的基模型展現出的難度分佈呈現出映象化的特徵。、
對於DeepScaleR-40K訓練集中的每個樣本,研究人員使用R1-Distill-Qwen-1.5B/7B兩個模型回答分別推理了8次,再統計其中正確次數,以此衡量每個樣本的難度水平。
實驗結果顯示,大多數樣本位於兩端(8/8正確解答或0/8正確解答),意味著該資料集雖然對1.5B模型具有挑戰性,卻不足以有效訓練7B模型。
Polaris提出,構建輕微偏向難題的資料分佈,形狀就像映象J,過度偏向簡單題或難題的分佈都會使得無法產生優勢的樣本在每個batch中佔有過大的比例。
Polaris對開源資料DeepScale-40K和AReaL-boba-106k進行了篩選,剔除所有8/8正確的樣本,最終形成了53K的初始化資料集。
儘管已經得到了一個好的初始化資料,但它並不是訓練資料的“最終版本”。
在強化學習訓練過程中,隨著模型對訓練樣本的“掌握率”提高,難題也會變成簡單題。
為此,研究團隊在訓練中引入了資料動態更新策略。訓練過程中,每個樣本的透過率會隨著reward計算而即時更新。在每個訓練階段結束時,準確率過高的樣本將被刪除。

以多樣性為核心的取樣控制

在RL訓練中,多樣性被視為提升模型表現的重要因素。好的多樣性使模型能探索更廣泛的推理路徑,避免在訓練早期陷入過於確定的策略中。
Rollout階段的多樣性主要透過topp、topk與溫度t來調控。當前大多數工作都採用topp=1.0和topk=-1,這已經達到了最大的多樣性,但取樣溫度t還沒有統一的設定。
目前主流的t的設定方法有兩種:1、採用建議的解碼溫度,如Qwen3 demo中設定的0.6;2、直接設定為一個整數1.0。
但這兩種做法在Polaris的實驗中都不是最優解。
溫度、效能與多樣性的平衡之道

Polaris團隊透過一系列試驗,分析了取樣溫度與模型準確率及路徑多樣性之間的關係。
為了量化取樣軌跡的多樣性,他們採用Distinct N-gram指標(n=4)用於衡量生成文字中獨特連續片語的比例:分數越接近1.0,說明生成內容越多樣;反之則重複率較高。
結果顯示,較高的溫度能顯著提升多樣性,但不同模型在相同溫度下的表現也存在較大差異。從上圖來看,對於這兩個模型來說,以0.6作為取樣溫度明顯多樣性是不足的。
但也並非是把溫度設的越大就越好,也需要考慮效能的變化
Polaris團隊發現模型效能隨溫度升高呈現“低-高-低”的趨勢。例如,把取樣溫度設定成1.0,對於Deepseek-R1-distill系列模型過高了,而對於Qwen3系列來說又有點低。
說明理想溫度的設計需要針對待模型進行精細校準,沒有一個超引數是適配所有模型的
溫度區間的定義

Polaris團隊基於實驗趨勢歸納出模型取樣溫度的三個區域:
  • 1.魯棒生成區(Robust Generation Zone)
    在該區域內,效能波動較小。測試階段解碼溫度通常就選自魯棒生成區。
  • 2.控制探索區(Controlled Exploration Zone)
    此區域的溫度雖然會導致模型效能較魯棒生成區略有下降,但降幅在可接受範圍內,同時能顯著提升多樣性,適合作為訓練溫度使用。
  • 3.效能崩塌區(Performance Collapse Zone)
    當取樣溫度超出一定範圍時,效能急劇下降。
根據上圖規律,Polaris團隊提出以控制探索區的溫度作為初始化溫度。
實驗顯示,常用的t=0.6或t=1.0的設定溫度過低,限制了模型的探索空間,導致難以挖掘RL潛力。
因此,Polaris把Qwen3-4B的初始訓練溫度設定為1.4。
動態溫度調整
在效能增長的同時,多樣性同樣也會發生偏移。隨著訓練收斂,各路徑間共享的N-gram比例增加,探索空間也隨之縮小。
在整個訓練過程中始終使用最開始的溫度,會導致訓練後期多樣性不足
因此,Polaris團隊提出在RL訓練過程中動態更新取樣溫度的策略:在每個階段開始前都進行和溫度初始化時類似的搜尋方法,使得後續階段起始的多樣性分數和第一階段的相似。
舉個例子,假如第一階段開始的多樣性分數是60,那此後的每個階段,Polaris團隊都會選擇一個能把多樣性分數拉到60的溫度來進行訓練。
對比實驗的結果顯示,採用同一溫度訓練到結束,其效果不及多階段溫度調整。
多階段溫度調整不僅帶來了更優的RL訓練效果,還使得回答長度的提升更加穩定。

思維鏈長度外推

在訓練Qwen3-4B的過程中,一個顯著難題在於長上下文訓練,因為模型本身的回答長度就已經非常長了,要繼續訓練的更長需要更高昂的計算代價。
Qwen3-4B的模型預訓練上下文長度僅有32K,而RL階段Polaris將最大訓練長設定為52K。但實際達到最大序列長度的訓練樣本比例不足10%,意味著真正使用長文字進行訓練的樣本非常有限。
為評估Polaris-4B-Preview的長文生成能力,Polaris究團隊選取了AIME2024/25中的60題,每題進行32次推理,總計1920個樣本,並按照回答長度將其分為三組:
  • 短文字組:回答長度小於16K;
  • 中等文字組:回答長度介於16K到32K;
  • 長文字組:回答長度超過預訓練長度32K。
統計結果表明,長文字組的準確率僅為26%,證明模型在生成超過預訓練長度的長CoT時,效能明顯受限。
既然RL在長上下文長度的時候具備劣勢,那麼長CoT效能不佳可能是由於長文字訓練不充分導致。
針對長文字訓練樣本不足的問題,團隊引入了長度外推技術。透過位置編碼RoPE的調整,模型能夠在推理時處理超出訓練時所見的更長序列,進而補償長文字訓練中的不足。
具體實現上,研究團隊採用了YaRN作為外推方法,並設定擴充套件因子為1.5,如下配置所示:
實驗結果顯示,透過應用該策略,超過32K長度回答的準確率由26%提升至超過50%

多階段訓練

Polaris採用多階段的訓練方式,在早期階段,模型使用較短的上下文視窗;待模型表現收斂後,再逐漸增加上下文視窗的長度以拓寬模型的推理能力。
儘管這一策略在某些模型下有效,但在多階段訓練中,初始階段選擇合適的最大長度至關重要,不同基礎模型token利用效率存在差異。
實驗發現,對於DeepSeek-R1-Distill-Qwen-1.5B/7B,採用較短的響應長度訓練效果都較好;但對Qwen3-4B來說,即使響應長度只有24K且響應截斷比例低於15%,其效能也會急劇下降,這種下降即使在後期階段也難以恢復。
通常來說,從一開始就讓模型“思考更長”會更安全:對於Qwen3-4B,實驗觀察到從零開始使用40K響應長度時效能穩步提升,這與從一開始就採用24K和24K→40K的方案形成了鮮明對比。
要點:當計算資源允許時,直接從官方倉庫建議的最大解碼長度開始

評估結果

Polaris模型需要使用比Qwen3更高的取樣溫度和更長的響應長度;所有其他設定保持相同。
對於AIME24和AIME25,上表報告了32次執行的平均效能。
可以看到,Polaris讓4B模型的數學推理能力(AIME25上取得79.4,AIME24上取得81.2)超越了一眾商業大模型,在大多數評測中表現最佳。
notion地址: https://honorable-payment-890.notion.site/POLARIS-A-POst-training-recipe-for-scaling-reinforcement-Learning-on-Advanced-ReasonIng-modelS-1dfa954ff7c38094923ec7772bf447a1blog 地址: https://hkunlp.github.io/blog/2025/Polaris/程式碼: https://github.com/ChenxinAn-fdu/POLARISHuggingface主頁: https://huggingface.co/POLARIS-Project
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!
—  —

🌟 點亮星標 🌟
科技前沿進展每日見

相關文章