超越DeepSeek推理,效率更高!斯坦福馬騰宇新作:有限資料,無限迭代


新智元報道  

編輯:LRS
【新智元導讀】STP(自博弈定理證明器)讓模型扮演「猜想者」和「證明者」,互相提供訓練訊號,在有限的資料下實現了無限自我改進,在Lean和Isabelle驗證器上的表現顯著優於現有方法,證明成功率翻倍,並在多個基準測試中達到最先進的效能。
大型語言模型的「推理能力」現在成了NLP皇冠上的明珠,其核心難題在於「缺乏高質量訓練資料」,標註資料需要領域專家,成本非常高昂且難以擴充套件;現有高等數學論文和定理的數量也非常有限,遠少於其他任務的資料來源。
DeepSeek-Prover和DeepSeek R1等模型的思路非常巧妙,在沒有逐步解決方案的資料集(如定理命題)上進行強化學習,可以極大提升其推理能力;和專家迭代(expert iteration)類似,交替進行「LLMs生成證明」和「正確生成的證明上進行微調」,部分緩解了資料稀缺(data scarcity)的問題。
不過,強化學習和專家迭代都存在一個嚴重問題:透過率(pass rate)過低,對「未證明的定理」生成「正確證明」所需的樣本量呈指數級增長大量的計算資源被浪費在生成錯誤的證明上,無法為模型提供訓練訊號。
比如在LeanWorkbook上的透過率為13.2%,其中98.5%的計算資源都浪費在生成錯誤證明上了,也就是說,在經過幾輪專家迭代後,由於缺乏新的成功證明,重新訓練模型的效果會大大降低。
此外,強化學習從原理上就受到訓練資料集中「定理難度水平」的限制,一個模型不可能從「解決高中水平的問題」中學習到「大學水平的證明技巧」,也無法解決「開放性」的數學問題,需要持續收集高水平的定理命題和數學問題。
斯坦福的研究人員提出了一個自博弈定理證明器(STP),模仿數學家學習和發展數學的方式,同時承擔兩個角色(猜想者和證明器),互相提供訓練訊號,可以在「有限資料」的情況下「無限執行並自我改進」。
論文連結:https://arxiv.org/pdf/2502.00212
猜想者(conjecturer)在給定一個帶有證明的種子定理後,提出一個新的相關猜想(步驟1),而證明器(prover)則嘗試證明現有資料集中的猜想和命題(步驟2);然後,驗證器(verifier)選擇正確的證明(步驟3)來使用標準RL訓練證明器,並識別出正確、可行、優雅但具有挑戰性的猜想來指導猜想者的訓練(步驟4)。
在每次迭代中,猜想者會在之前生成的猜想上進行訓練,生成的猜想對於當前證明器來說只能「勉強證明」,即證明器相對於其隨機種子的成功機率為一個較小的正值;迭代過程會逐漸增加猜想和證明的難度,而無需額外資料,可以看作是猜想者和證明器之間的自我博弈演算法,或是自動化的課程學習。
研究人員在Lean和Isabelle上對該方法進行了實證評估,使用DeepSeek-Prover-V1.5-SFT作為STP的基礎模型,在大約1.2億個生成的證明和200萬個生成的猜想的自我博弈訓練後,成功證明了訓練資料集LeanWorkbook中26.3%的命題,是之前專家迭代效能(13.2%)的兩倍!
在推理速度上,研究人員在公共基準測試miniF2F-test上對現有模型和使用STP訓練的最終模型進行多次獨立取樣,該模型在各種取樣預算下均顯著優於DeepSeek-Prover-V1.5模型,還在miniF2F-test(61.1%,pass@3200)、ProofNet-test(23.1%,pass@3200)和PutnamBench(8/644,pass@64)上實現了最先進的效能。
作者馬騰宇是斯坦福大學的助理教授,本科畢業於清華姚班,於普林斯頓大學獲得博士學位,研究興趣包括機器學習和深度學習,深度強化學習和高維統計。曾獲得NIPS'16最佳學生論文獎,COLT'18最佳論文獎、ACM博士論文獎榮譽獎和2021斯隆研究獎。
方法

透過有監督微調進行模型初始化

研究人員透過在現有的證明庫(例如Mathlib)上構建的監督微調(SFT)資料集,對一個通用的大型語言模型(如Llama)進行微調,初始化「猜想者」和「證明器」模型,其中證明庫包含人類編寫的已知數學定理的正式證明,每個檔案都形式化了一個相對獨立的結果,比如教科書的一章。

自博弈(self-play)訓練

第1步和第2步:生成猜想和證明
研究人員使用驗證器從證明中提取一個種子引理,去重後隨機丟棄一些頻繁出現的引理,輸入到大模型中生成猜想;隨機選擇一組猜想,其數量不超過給定資料集中剩餘未證明陳述的數量,以便證明器的計算資源在猜想和陳述之間平均分配;生成的猜想與現有資料集中未證明的陳述合併作為證明器的輸入。
在第2步證明過程,為每個陳述/猜想獨立取樣K個證明。
第3步:用Lean等驗證證明的正確性
第4步:獎勵分配
STP的主要技術難點是為猜想者設計獎勵函式,最終目標是激勵猜想者生成多樣化、相關、可行但又有一定挑戰性的猜想,以便為證明器提供足夠的訓練訊號。
研究人員首先將所有生成的猜想和證明整理成一個示例列表,使用證明器透過K個獨立生成的證明估計的(經驗)透過率來判斷猜想的挑戰性。
然後設計一個啟發式的過濾器,防止模型生成具有複雜目標的、沒有實際價值的難題,即移除最小證明長度除以猜想長度處於最低20%的猜想。
最後對選定的猜想進行重新加權,以保持猜想者的多樣性,猜想者的獎勵不能僅依賴於單獨生成的猜想,否則猜想者的最優策略可能會退化為單一分佈:將選定猜想的分佈推向現有資料集中未證明的陳述,最小化與未證明定理的均勻分佈的Wasserstein距離,以保持多個模式之間的平衡。
第5步:LLM訓練
對於證明資料集,根據對應陳述/猜想的驗證證明數量的倒數對樣本進行加權,在猜想或證明上計算加權交叉熵損失,引入長度懲罰以鼓勵生成更簡單的證明。

最終再訓練(re-training)

為了避免自博弈過程中資料分佈變化導致的訓練不穩定,研究人員從基礎模型(SFT階段之前)開始,對最終模型進行再訓練,再訓練使用的資料集包括SFT資料集以及在自博弈訓練過程中生成的所有正確證明。
證明對應命題或猜想的經驗透過率不超過1/4;對於每一個陳述或猜想,隨機保留最多16個不同的證明,以加快訓練速度。
實驗結果
研究人員使用專家迭代後的DeepSeek-Prover-V1.5-SFT作為基礎模型,訓練資料包括公共資料集(例如LeanWorkbook、miniF2F-valid、ProofNet-valid)以及其他專有資料集中的證明。運行了24次STP迭代後,總共生成了200萬條猜想、1.2億個證明和198億個token,用累積透過率(即在整個訓練過程中證明的陳述的比例)作為衡量訓練進展的主要指標。
STP、專家迭代和平行取樣方法在LeanWorkbook訓練資料集上的累積透過率實驗可以看到,STP的擴充套件效能明顯優於專家迭代。
為了在常見基準測試中取得最佳效能,研究人員還使用LeanWorkbook、miniF2F-valid和ProofNet-valid中的陳述對模型進行了額外8次迭代的訓練,與以往工作在miniF2F-test和ProofNet-test測試集相比,STP顯著優於DeepSeek-Prover-V1.5-RL,在各種推理時間樣本預算下均實現了最先進的效能。
消融實驗
生成的猜想提供了更多訓練訊號
在Isabelle實驗中,研究人員使用中間模型對LeanWorkbook中的未證明命題和生成猜想的經驗透過率進行了直方圖分析。在為79000條未證明陳述生成的250萬條證明中,只有131條是正確的,所以僅在正確證明上對模型進行微調幾乎沒有任何效果,專家迭代的效果停滯。
相比之下,STP生成的猜想具有更高的透過率,提供了更多的訓練訊號,進而實現了更好的擴充套件效能。
使用生成的猜想再訓練仍然有助於下游效能
在最終的再訓練階段,除了LeanWorkbook中成功證明的陳述之外,使用生成的猜想進行重新訓練仍然有益,即使對於在miniF2F-test和ProofNet-test上的效能也是如此,pass@128指標上大約提高了1%的效能。
參考資料:
https://arxiv.org/pdf/2502.00212

相關文章