7B的DeepSeek蒸餾Qwen數學超o1！在測試時間強化學習，MIT積分題大賽考93分

2025-08-23 11:15 量子位

夢晨發自凹非寺

量子位 | 公眾號 QbitAI

見識過32B的QwQ追平671的DeepSeek R1後——

剛剛，7B的DeepSeek蒸餾Qwen模型超越o1又是怎麼一回事？

新方法LADDER，透過遞迴問題分解實現AI模型的自我改進，同時不需要人工標註資料。

使Deepseek-R1蒸餾的Qwen2.5 7B模型在麻省理工學院積分大賽（MIT Integration Bee）上達到90分超越o1。

注意，不是積分制的比賽哦，是隻做微積分中積分題的比賽，MIT的數學高手每年都會挑戰一次，題目像這樣：

LADDER論文來自小型獨立研究團體Tufa Labs，論文已上傳到arXiv。

在推理時間強化學習

LADDER，全稱Learning through Autonomous Difficulty-Driven Example Recursion，即”透過自主難度驅動的樣本遞迴進行學習”。

這個名字聽起來有點拗口，但核心其實很容易理解：就是讓語言模型（LLM）透過自我生成和求解漸進簡化的問題變體，來不斷提升自己解決複雜問題的能力。

具體來說，LADDER是一個結構化框架，由以下元件組成：

變體生成：一種結構化方法，用於生成複雜問題的逐漸簡化變體的樹，從而建立自然的難度梯度。
解的驗證：一種用於驗證積分解的數值積分方法。
強化學習：用於在變體樹上訓練基礎模型的協議。

而LADDER這個名字，也意味著像是模型學會了”爬梯子”：透過自主生成一系列從易到難的問題變體，不斷練習和強化，最終爬到頂端。

以往的訓練方法，總是離不開大規模標註資料。

LADDER利用模型現有能力來生成問題變體，形成循序漸進的難度梯度，最終實現自舉學習。整個過程只需對答案進行驗證即可，無需人工干預。

相比之前的方法，LADDER有三大優勢：

不再依賴人工標註資料，降低了資料獲取成本；模型透過生成問題變體構建針對性的學習路徑，學習更高效；生成的問題變體與原始問題相關性高，避免陷入無關細節。

此外，作者還提出了一種創新的測試時強化學習方法TTRL。在推理階段遇到複雜的數學積分測試問題時，TTRL會動態生成一系列更簡單的積分變體，模型透過解決這些變體來積累經驗，找到解決原始難題的方法。

這種測試時計算擴充套件的思路，為進一步提升模型效能開闢了新的道路。不同於簡單增加輸出長度，TTRL能夠讓模型在推理時針對性地”刷題”，動態擴充套件能力邊界。

透過LADDER，一個原本只有1%準確率的Llama 3.2 3B模型，在沒有任何人工標註資料的情況下，解題準確率飆升至82%。

更強大的基礎模型Qwen2.5 7B Deepseek-R1 Distilled，在用上LADDER方法後，

MIT Integration Bee比賽的成績就從50%提高到73%。

最後，LADDER加上TTRL方法，讓最終成績達到90。

不過作者也強調，與o1的對比不是嚴格的頭對頭評估。

o1無法訪問數字檢查器，這意味著它在不同的約束下執行。LADDER的結果強調了透過遞迴問題分解和強化學習進行自我提升的有效性，而不是表明它直接優於o1的方法。

論文地址：https://arxiv.org/abs/2503.00735

參考連結：

[1]

https://x.com/yoshiyama_akira/status/1897662722679959583

— 完 —

評選報名｜2025年值得關注的AIGC企業&產品

下一個AI“國產之光”將會是誰？

本次評選結果將於4月中國AIGC產業峰會上公佈，歡迎參與！

一鍵關注 👇 點亮星標

科技前沿進展每日見

一鍵三連「點贊」「轉發」「小心心」

歡迎在評論區留下你的想法！

相關文章

微軟亞洲研究院多項創新技術，彌合大模型低位元量化與終端部署間鴻溝

微軟亞洲研究院多項創新技術，彌合大模型低位元量化與終端部署間鴻溝

2025年LeetCode刷題小分隊正式開始啦：刷題第一天

2025年LeetCode刷題小分隊正式開始啦：刷題第一天

2月LeetCode刷題小分隊正式開始啦：刷題第一天

2月LeetCode刷題小分隊正式開始啦：刷題第一天

3月LeetCode刷題小分隊正式開始啦：刷題第一天

3月LeetCode刷題小分隊正式開始啦：刷題第一天

春招LeetCode刷題小分隊正式開始啦：刷題第一天

春招LeetCode刷題小分隊正式開始啦：刷題第一天

8月LeetCode刷題小分隊正式開始啦：刷題第一天

8月LeetCode刷題小分隊正式開始啦：刷題第一天

10月LeetCode刷題小分隊正式開始啦：刷題第一天

10月LeetCode刷題小分隊正式開始啦：刷題第一天

提醒一下，想2025靠刷題上岸的碼農

提醒一下，想2025靠刷題上岸的碼農

拓撲光子學新突破：上交團隊利用非厄米拓撲，首次在光學波段捕獲反手性流

拓撲光子學新突破：上交團隊利用非厄米拓撲，首次在光學波段捕獲反手性流

全球最幸福國家排名出爐！澳新雙雙跌出前10，美國排名創歷史新低

全球最幸福國家排名出爐！澳新雙雙跌出前10，美國排名創歷史新低

Copyright © 2025 | WordPress Theme by MH Themes