
論文標題:
DoesLearningMathematicalProblem-Solving
GeneralizetoBroaderReasoning?
論文連結:
https://arxiv.org/pdf/2507.04391
一句話理解:
本文探討了數學問題求解(MathematicalProblem-Solving,MPS)訓練方法對大型語言模型(LLMs)在更廣泛推理能力上的泛化潛力。研究的核心問題是:學習數學問題求解是否能夠提升模型在其他推理任務上的表現,還是僅限於提高數學問題求解的基準測試效能。
研究背景

認知神經科學研究表明,學習數學問題求解能夠透過促進邏輯思維、抽象推理和跨領域可轉移的問題解決策略,提升人類的通用推理能力。
這種“數學促進AI”的理念認為,將數學推理資料納入AI訓練中,可能有助於大型語言模型發展更復雜和多樣化的推理能力。
然而,目前大多數研究集中在開發專門用於解決數學問題的模型,而對這些訓練方法是否真的能夠幫助模型在其他型別推理任務上表現更好尚不清楚。
研究方法
文章研究了五種常見的用於提升LLMs數學問題求解能力的訓練策略:
1.持續預訓練(ContinualPretraining):在大規模數學文字上擴充套件LLMs的預訓練,以增強其對數學領域的適應性。
2.基於STEM資料的監督微調(SupervisedFine-tuningonSTEMData):使用來自廣泛STEM學科的多樣化問答對訓練模型,以提升其通用推理能力。
3.基於短推理鏈的MPS樣本的監督微調(SupervisedFine-tuningonMPSSampleswithShortReasoningChains):直接在數學問題求解資料集上訓練模型,這些資料集的解決方案以簡潔的、逐步的形式呈現。
4.基於長推理鏈的MPS樣本的監督微調(SupervisedFine-tuningonMPSSampleswithLong,Self-ReflectiveReasoningChains):一種新興正規化,透過增強模型生成擴充套件性和反思性的推理來提升其能力。
5.基於規則的強化學習(Rule-basedReinforcementLearning):使用基於規則的獎勵機制來提升模型的推理能力。
實驗設計
評估基準:研究者選擇了5個數學問題求解基準測試和8個通用推理基準測試來評估模型。
模型設定:使用了多種開源模型或自行訓練的模型,涵蓋了上述五種訓練策略。
實驗設定:為了模擬現實場景,大多數實驗中都加入了通用對話資料集(UltraChat)進行微調。
關鍵結論

1.持續預訓練的效果:持續預訓練在數學文字上能夠提升模型在6個通用推理任務上的表現,但對數學問題求解的提升有限。
2.短推理鏈的侷限性:基於短推理鏈的監督微調在數學問題求解任務上表現良好,但在非數學推理任務上表現不佳,甚至在某些情況下損害了泛化效能。
3.長推理鏈的優勢:使用長推理鏈進行訓練的模型(如LIMO)在通用推理任務上表現顯著提升,特別是在某些基準測試中,如GPQA和LogiQA,相對提升分別達到10.2%和11.8%。這種長推理鏈訓練激活了模型的“長推理模式”,使其在不同推理任務中表現更好。
4.強化學習的潛力:基於規則的強化學習(如SimpleRL-Zero和SimpleRL)在數學和通用推理任務上均表現出提升,表明強化學習可能是一種有效的提升推理能力的方法。
其他發現
資料覆蓋範圍的重要性:透過資料覆蓋分析發現,預訓練資料集(如OpenWebMath)與通用推理任務的重疊度高於專門的數學問題求解資料集(如MetaMath),這可能是其在泛化任務中更有效的原因。
非數學推理資料的侷限性:研究者還探索了其他非數學推理資料集(如Magicoder-Evol-Instruct、Magpie-Reasoning和OpenOrca)的泛化潛力,但這些資料集未能在廣泛的任務中實現滿意的泛化效果,表明需要新的訓練目標來顯著提升泛化能力。

結論
文章透過實驗表明,傳統的短推理鏈訓練方法在提升模型的通用推理能力方面效果有限,而長推理鏈訓練和基於規則的強化學習則顯示出更好的泛化潛力。這些發現為未來研究提供了新的方向,即如何透過數學問題求解訓練來提升模型的通用推理能力。
技術交流群邀請函
△長按新增小助手
掃描二維碼新增小助手微信
請備註:姓名-學校/公司-研究方向
(如:小張-哈工大-對話系統)
即可申請加入自然語言處理/Pytorch等技術交流群
關於我們
MLNLP 社群是由國內外機器學習與自然語言處理學者聯合構建的民間學術社群,目前已經發展為國內外知名的機器學習與自然語言處理社群,旨在促進機器學習,自然語言處理學術界、產業界和廣大愛好者之間的進步。
社群可以為相關從業者的深造、就業及研究等方面提供開放交流平臺。歡迎大家關注和加入我們。

掃描二維碼新增小助手微信
關於我們
