1.5B重新整理數學程式碼SOTA！快手&清華精細化Token管理，LLM推理能力飆升

Archer團隊投稿量子位 | 公眾號 QbitAI

當大模型在數學題和程式碼任務裡“卷”引數規模時，一支來自快手和清華的團隊給出了不同答案——

他們用1.5B引數的小模型，在多個推理基準上幹過了同量級SOTA。

秘密在於給模型的“學習過程”做了精細化管理：讓該記牢的知識穩住，讓該靈活的推理放開。

在多個挑戰性的數學、程式碼評測基準上，該團隊提出的Archer方法都展現出了強大的實力。

目前，Archer的程式碼已開源，詳細連結可見文末。

“兩難”：知識和推理難兼顧

透過預訓練，LLM能記住海量的知識。但要讓這些知識轉化為解決數學題、寫複雜程式碼的推理能力，還得靠後續的強化學習（RL）最佳化。

其中，帶可驗證獎勵的強化學習（RLVR）是當前的主流方法——簡單地說，就是讓模型不斷嘗試解題，透過“是否做對”的反饋調整行為，有點像人類“做題糾錯”。

但問題來了：模型輸出的內容裡，有些是“知識型”的（比如“1+1=2”這類事實），有些是“推理型”的（比如“先算括號裡，再算乘除”這類邏輯規劃步驟）。

過去的RLVR方法要麼“一視同仁”，給所有內容用一樣的訓練訊號；要麼“粗暴分割”，用梯度遮蔽把兩類內容拆開訓練。

結果往往是：要麼知識逐漸變差（比如把公式記錯），要麼推理放不開（比如總用老套思路解題）。

快手和清華團隊發現：這兩類內容在模型裡其實有明顯特徵：

低熵Token

（確定性高）：比如“3.14”、“def函式”，對應事實性知識，訓練時不能亂改；
高熵Token

（不確定性高）：比如“因此”、“接下來”、“迴圈條件”，對應邏輯推理，需要多嘗試。

但關鍵在於，這兩類Token在句子裡是“綁在一起”的——比如解數學題時，“因為2+3=5（低熵），所以下一步算5×4（高熵）”，拆開會破壞語義邏輯。

Archer：給Token“差異化訓練”

團隊提出的Archer方法，核心是“雙Token約束”——不拆分Token，而是給它們定製不同的訓練規則。

簡單說就是兩步：

1.先給Token“貼標籤”：用熵值分型別

透過計算每個Token的熵值（不確定性），自動區分“知識型”和“推理型”：

高熵Token：比如數學推理裡的“接下來”、“綜上”，程式碼裡的“迴圈”、“判斷”，是邏輯轉折點；
低熵Token：比如“123”、“print”，是必須準確的事實性內容。

團隊用“句子級熵統計”替代傳統的“批次級統計”——比如同一道數學題，不同解法的Token熵分佈不同，按句子單獨劃分，避免把“關鍵推理Token”誤判成“知識Token”。

2.再給訓練“定規矩”：差異化約束

對貼好標籤的Token，用不同的規則訓練：

推理型（高熵）Token：松約束。用更高的裁剪閾值（允許更大幅度調整）和更弱的KL正則（減少對原始策略的依賴），鼓勵模型多嘗試不同推理路徑；
知識型（低熵）Token：緊約束。用更低的裁剪閾值和更強的KL正則，讓模型“死死記住”正確知識，避免越訓越錯。

這樣一來，知識和推理既能同步更新，又不互相干擾——就像老師教學生：基礎公式要背牢，解題思路可以大膽試。

從數學到程式碼：全面碾壓同量級模型

在最考驗推理能力的數學和程式碼任務上，Archer的表現都很出色。

數學推理：解題正確率大幅提升

在AIME 2024/2025、Minerva等硬核數學基準上：

相比同基座的原始模型，Archer在AIME24上正確率提升18.1%，AIME25提升10.3%；
對比當前SOTA方法DAPO，Archer在AIME24上多對6.6%的題，AIME25多對5.2%；
1.5B引數的Archer-Math，直接超過了FastCuRL、Nemotron等同量級SOTA模型，平均正確率登頂。

程式碼生成：刷題能力顯著增強

在LiveCodeBench（主流程式碼生成基準）v5/v6上：

相比DAPO，Archer在v5上正確率提升3.4%，v6提升2.6%；
超過了專門最佳化程式碼的DeepCoder-1.5B，成為同量級最佳程式碼生成模型之一。

效率方面，Archer只用單階段訓練、1900 H800 GPU小時（對比Nemotron的16000 H100小時），就實現了這些提升。

沒有複雜的多輪訓練，達到了“花小錢辦大事”的效果。

關鍵在“平衡”

Archer的核心洞察是：LLM推理能力不是“死記硬背”或“盲目試錯”，而是知識穩定性和推理探索性的平衡。

團隊透過實驗驗證了這種平衡的重要性：

若不給低熵Token加約束（KL=0），模型會很快“記混知識”，輸出重複內容，效能崩塌；
若給高熵Token加嚴約束（裁剪閾值太小），模型推理“放不開”，學不到新方法；
只有讓知識Token“穩”、推理Token“活”，才能既不丟基礎，又能提升邏輯能力。

這種思路也解釋了為什麼小模型能逆襲——大模型的引數優勢能堆出更多知識，但如果訓練時“管不好”知識和推理的關係，能力提升反而受限。

Archer用精細化的Token管理，讓小模型的每一個引數都用在刀刃上，學會如何更好的組織使用已有的知識。

論文連結：http://arxiv.org/abs/2507.15778GitHub：https://github.com/wizard-III/ArcherCodeR

一鍵三連「點贊」「轉發」「小心心」

歡迎在評論區留下你的想法！

— 完 —

🌟 點亮星標 🌟

科技前沿進展每日見

dignews.cc

1.5B重新整理數學程式碼SOTA！快手&清華精細化Token管理，LLM推理能力飆升

Archer團隊投稿量子位 | 公眾號 QbitAI

“兩難”：知識和推理難兼顧

Archer：給Token“差異化訓練”

從數學到程式碼：全面碾壓同量級模型

關鍵在“平衡”

相關文章

蘋果也在蒸餾大模型，給出了蒸餾ScalingLaws

長文字有了專屬困惑度！北大、MIT、阿里推出LongPPL新指標

萬字長文|小作坊的強化之路

推理模型其實無需「思考」？伯克利發現有時跳過思考過程會更快、更準確

ICML2025|細粒度獎勵建模：判別式策略最佳化下的Q-RM方法

破解RAG衝突難題！中科院團隊提出CK-PLUG：僅一個引數，實現大模型知識依賴的精準動態調控

蘋果與港大出手！改進GRPO，讓dLLM也能高效強化學習

打破思維鏈推理瓶頸！“軟推理”讓大模型學會人類抽象能力，token使用量還更少了

OpenAI沒做到，DeepSeek搞定了！開源引爆推理革命

長文解讀！逆強化學習與內在獎勵

Archer團隊 投稿量子位 | 公眾號 QbitAI

“兩難”：知識和推理難兼顧

Archer：給Token“差異化訓練”

從數學到程式碼：全面碾壓同量級模型

關鍵在“平衡”

相關文章

Archer團隊投稿量子位 | 公眾號 QbitAI