Archer團隊 投稿量子位 | 公眾號 QbitAI
當大模型在數學題和程式碼任務裡“卷”引數規模時,一支來自快手和清華的團隊給出了不同答案——
他們用1.5B引數的小模型,在多個推理基準上幹過了同量級SOTA。
秘密在於給模型的“學習過程”做了精細化管理:讓該記牢的知識穩住,讓該靈活的推理放開。
在多個挑戰性的數學、程式碼評測基準上,該團隊提出的Archer方法都展現出了強大的實力。

目前,Archer的程式碼已開源,詳細連結可見文末。

“兩難”:知識和推理難兼顧
透過預訓練,LLM能記住海量的知識。但要讓這些知識轉化為解決數學題、寫複雜程式碼的推理能力,還得靠後續的強化學習(RL)最佳化。
其中,帶可驗證獎勵的強化學習(RLVR)是當前的主流方法——簡單地說,就是讓模型不斷嘗試解題,透過“是否做對”的反饋調整行為,有點像人類“做題糾錯”。
但問題來了:模型輸出的內容裡,有些是“知識型”的(比如“1+1=2”這類事實),有些是“推理型”的(比如“先算括號裡,再算乘除”這類邏輯規劃步驟)。
過去的RLVR方法要麼“一視同仁”,給所有內容用一樣的訓練訊號;要麼“粗暴分割”,用梯度遮蔽把兩類內容拆開訓練。
結果往往是:要麼知識逐漸變差(比如把公式記錯),要麼推理放不開(比如總用老套思路解題)。
快手和清華團隊發現:這兩類內容在模型裡其實有明顯特徵:
- 低熵Token
(確定性高):比如“3.14”、“def函式”,對應事實性知識,訓練時不能亂改; - 高熵Token
(不確定性高):比如“因此”、“接下來”、“迴圈條件”,對應邏輯推理,需要多嘗試。
但關鍵在於,這兩類Token在句子裡是“綁在一起”的——比如解數學題時,“因為2+3=5(低熵),所以下一步算5×4(高熵)”,拆開會破壞語義邏輯。
Archer:給Token“差異化訓練”
團隊提出的Archer方法,核心是“雙Token約束”——不拆分Token,而是給它們定製不同的訓練規則。
簡單說就是兩步:
1.先給Token“貼標籤”:用熵值分型別
透過計算每個Token的熵值(不確定性),自動區分“知識型”和“推理型”:
-
高熵Token:比如數學推理裡的“接下來”、“綜上”,程式碼裡的“迴圈”、“判斷”,是邏輯轉折點; -
低熵Token:比如“123”、“print”,是必須準確的事實性內容。
團隊用“句子級熵統計”替代傳統的“批次級統計”——比如同一道數學題,不同解法的Token熵分佈不同,按句子單獨劃分,避免把“關鍵推理Token”誤判成“知識Token”。
2.再給訓練“定規矩”:差異化約束
對貼好標籤的Token,用不同的規則訓練:
-
推理型(高熵)Token:松約束。用更高的裁剪閾值(允許更大幅度調整)和更弱的KL正則(減少對原始策略的依賴),鼓勵模型多嘗試不同推理路徑; -
知識型(低熵)Token:緊約束。用更低的裁剪閾值和更強的KL正則,讓模型“死死記住”正確知識,避免越訓越錯。
這樣一來,知識和推理既能同步更新,又不互相干擾——就像老師教學生:基礎公式要背牢,解題思路可以大膽試。
從數學到程式碼:全面碾壓同量級模型
在最考驗推理能力的數學和程式碼任務上,Archer的表現都很出色。
數學推理:解題正確率大幅提升

在AIME 2024/2025、Minerva等硬核數學基準上:
-
相比同基座的原始模型,Archer在AIME24上正確率提升18.1%,AIME25提升10.3%; -
對比當前SOTA方法DAPO,Archer在AIME24上多對6.6%的題,AIME25多對5.2%; -
1.5B引數的Archer-Math,直接超過了FastCuRL、Nemotron等同量級SOTA模型,平均正確率登頂。
程式碼生成:刷題能力顯著增強

在LiveCodeBench(主流程式碼生成基準)v5/v6上:
-
相比DAPO,Archer在v5上正確率提升3.4%,v6提升2.6%; -
超過了專門最佳化程式碼的DeepCoder-1.5B,成為同量級最佳程式碼生成模型之一。

效率方面,Archer只用單階段訓練、1900 H800 GPU小時(對比Nemotron的16000 H100小時),就實現了這些提升。
沒有複雜的多輪訓練,達到了“花小錢辦大事”的效果。
關鍵在“平衡”
Archer的核心洞察是:LLM推理能力不是“死記硬背”或“盲目試錯”,而是知識穩定性和推理探索性的平衡。
團隊透過實驗驗證了這種平衡的重要性:


-
若不給低熵Token加約束(KL=0),模型會很快“記混知識”,輸出重複內容,效能崩塌; -
若給高熵Token加嚴約束(裁剪閾值太小),模型推理“放不開”,學不到新方法; -
只有讓知識Token“穩”、推理Token“活”,才能既不丟基礎,又能提升邏輯能力。
這種思路也解釋了為什麼小模型能逆襲——大模型的引數優勢能堆出更多知識,但如果訓練時“管不好”知識和推理的關係,能力提升反而受限。
Archer用精細化的Token管理,讓小模型的每一個引數都用在刀刃上,學會如何更好的組織使用已有的知識。
論文連結:http://arxiv.org/abs/2507.15778GitHub:https://github.com/wizard-III/ArcherCodeR
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!
— 完 —

🌟 點亮星標 🌟