7B的DeepSeek蒸餾Qwen數學超o1!在測試時間強化學習,MIT積分題大賽考93分

夢晨 發自 凹非寺

量子位 | 公眾號 QbitAI
見識過32B的QwQ追平671的DeepSeek R1後——
剛剛,7B的DeepSeek蒸餾Qwen模型超越o1又是怎麼一回事?
新方法LADDER,透過遞迴問題分解實現AI模型的自我改進,同時不需要人工標註資料。
使Deepseek-R1蒸餾的Qwen2.5 7B模型在麻省理工學院積分大賽MIT Integration Bee)上達到90分超越o1。
注意,不是積分制的比賽哦,是隻做微積分中積分題的比賽,MIT的數學高手每年都會挑戰一次,題目像這樣:
LADDER論文來自小型獨立研究團體Tufa Labs,論文已上傳到arXiv。

在推理時間強化學習

LADDER,全稱Learning through Autonomous Difficulty-Driven Example Recursion,即”透過自主難度驅動的樣本遞迴進行學習”。
這個名字聽起來有點拗口,但核心其實很容易理解:就是讓語言模型(LLM)透過自我生成和求解漸進簡化的問題變體,來不斷提升自己解決複雜問題的能力。
具體來說,LADDER是一個結構化框架,由以下元件組成:
  • 變體生成:一種結構化方法,用於生成複雜問題的逐漸簡化變體的樹,從而建立自然的難度梯度。
  • 解的驗證:一種用於驗證積分解的數值積分方法。
  • 強化學習:用於在變體樹上訓練基礎模型的協議。
而LADDER這個名字,也意味著像是模型學會了”爬梯子”:透過自主生成一系列從易到難的問題變體,不斷練習和強化,最終爬到頂端。
以往的訓練方法,總是離不開大規模標註資料。
LADDER利用模型現有能力來生成問題變體,形成循序漸進的難度梯度,最終實現自舉學習。整個過程只需對答案進行驗證即可,無需人工干預。
相比之前的方法,LADDER有三大優勢:
不再依賴人工標註資料,降低了資料獲取成本;模型透過生成問題變體構建針對性的學習路徑,學習更高效;生成的問題變體與原始問題相關性高,避免陷入無關細節。
此外,作者還提出了一種創新的測試時強化學習方法TTRL。在推理階段遇到複雜的數學積分測試問題時,TTRL會動態生成一系列更簡單的積分變體,模型透過解決這些變體來積累經驗,找到解決原始難題的方法。
這種測試時計算擴充套件的思路,為進一步提升模型效能開闢了新的道路。不同於簡單增加輸出長度,TTRL能夠讓模型在推理時針對性地”刷題”,動態擴充套件能力邊界。
透過LADDER,一個原本只有1%準確率的Llama 3.2 3B模型,在沒有任何人工標註資料的情況下,解題準確率飆升至82%。
更強大的基礎模型Qwen2.5 7B Deepseek-R1 Distilled,在用上LADDER方法後,
MIT Integration Bee比賽的成績就從50%提高到73%。
最後,LADDER加上TTRL方法,讓最終成績達到90。
不過作者也強調,與o1的對比不是嚴格的頭對頭評估。
o1無法訪問數字檢查器,這意味著它在不同的約束下執行。LADDER的結果強調了透過遞迴問題分解和強化學習進行自我提升的有效性,而不是表明它直接優於o1的方法。
論文地址:https://arxiv.org/abs/2503.00735

參考連結:

[1]

https://x.com/yoshiyama_akira/status/1897662722679959583

評選報名2025年值得關注的AIGC企業&產品
下一個AI“國產之光”將會是誰?
本次評選結果將於4月中國AIGC產業峰會上公佈,歡迎參與!
一鍵關注 👇 點亮星標
科技前沿進展每日見
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!

相關文章