邊學邊練,推理覺醒:LUFFY讓強化學習即學即用!

破解 “只學不練” 與 “只練不學” 的難題
想象你準備參加一場高水平的數學競賽。如果你只是反覆背誦往年題目的標準答案,從不親自動手解題,那麼一旦遇到新題型,很可能束手無策;反過來,如果你閉門造車,只憑自己反覆試錯而從不參考老師和高手的解題經驗,進步又會異常緩慢。這就好比 AI 模型訓練中長期存在的兩種極端:模仿學習 只顧照搬示範卻缺乏自我實踐,「強化學習 一味自我探索卻不借鑑現有經驗。
這兩種「只學不練「只練不學的策略各有弊端:前者往往學得快但泛化差,後者可能探索勤但效率低。那麼,有沒有兩全其美的辦法,讓模型既能借鑑高手經驗又能保持自主探索?最近,上海 AI 實驗室聯合西湖大學、南京大學和香港中文大學的研究團隊提出了一種全新的強化學習正規化:LUFFY(Learning to reason Under oFF-policY guidance)
  • 論文連結:https://arxiv.org/abs/2504.14945
  • 程式碼倉庫:https://github.com/ElliottYan/LUFFY
LUFFY 的核心理念是:在訓練過程中讓模型同時藉助高手的推理軌跡進行學習(離策略示範),又能繼續獨立地試錯探索(線上推理),從而實現 「邊學邊練,學以致用」的目標。實驗顯示,LUFFY 在多個數學推理挑戰任務中實現了平均 + 7.0 分的效能飛躍,並在分佈外任務上展現出顯著的泛化能力。
圖表 1. 在六項競賽級數學推理基準上的整體表現。在 AIME 2024、AIME 2025、AMC、MATH-500、Minerva Math 和 OlympiadBench 六個高難度基準測試中,LUFFY 取得了平均 49.6% 的準確率,較現有 Zero-RL 方法實現了超過 + 7.0 分的顯著效能提升。
該工作一經發布,便登上 Hugging Face 社群的 Daily Papers 熱榜第一,並在權威學術論壇 alphaXiv 上引起熱烈討論。
模仿學習與強化學習的兩難困境
當前主流的大模型推理訓練方法可分為兩類:
  • 模仿學習(SFT):模型參考專家解題軌跡進行學習,相當於「看答案抄題」,雖然能快速學習已知方法,但遇到新題可能難以適應,缺乏自主能力。
圖表 2. 模仿學習(SFT):模仿專家模型生成的高質量推理軌跡。
  • 強化學習(Zero-RL):模型透過不斷試錯獲得獎勵反饋並最佳化自身策略,雖然具備一定泛化能力,但如果起點策略弱,容易陷入區域性最優,難以突破上限。
圖表 3. 強化學習:與環境(如驗證器)的互動反饋,不斷最佳化自身策略。
這兩種方法各有優勢,卻也各有短板。LUFFY 的提出,正是為了打破這種二元對立,融合兩者優點,解決模型「既學得深,又練得廣的核心問題。
LUFFY 的直覺與機制:高手示範,模型探索
LUFFY 的關鍵思想是:在強化學習過程中引入 「離策略指導,即使用來自更強模型或專家的推理軌跡來作為引導,這區別於當前主流的僅使用模型自身策略最佳化自己的主流強化學習正規化。
這就像一個學生,一邊藉助老師提供的經典例題,一邊繼續獨立完成練習題。在 LUFFY 中,模型透過混合使用兩類軌跡進行訓練:一是自己當前策略下生成的線上推理過程(on-policy),二是從強者那裡借來的離線示範(off-policy)。這兩類軌跡一起用於策略最佳化,讓模型做到「邊學邊練
圖表 4. LUFFY:邊學邊練的推理學習框架。LUFFY 在強化學習框架中引入外部優質推理軌跡,透過 「策略塑形」 機制,融合自身嘗試(on-policy)與專家示範(off-policy)的優勢。當模型自身推理失敗時,它從專家示範中學習關鍵步驟;而當自身表現優異時,則保持獨立探索。該機制在保持探索能力的同時,引導模型聚焦於低機率但關鍵的行動,從而實現推理能力的持續進化與泛化。
技術亮點:混合策略與策略塑形
LUFFY 的實現依託於 GRPO 演算法框架,並圍繞兩項核心機制展開:
1. 混合策略訓練:同時利用線上軌跡離線示範,引導模型向高獎勵動作靠攏,同時保留自身有效嘗試。
2. 策略塑形函式(圖 6):透過非線性加權機制強化對關鍵步驟的學習,防止模型過早收斂、策略熵降低,保持持續探索。圖 5 展示了策略塑形對梯度更新的非線性權重以及對模型探索的影響。
圖表 5. 策略塑形在 LUFFY 中的作用效果。左圖:訓練過程中的策略熵對比。中圖:不同方法下損失函式基於決策機率的權重分配。右圖:基於決策機率的梯度加權情況對比。LUFFY 透過非線性權重提升了對罕見(低機率)但重要行為的梯度響應,進而引導模型更有效地從 off-policy 示範中習得深層推理模式。
圖表 6. 策略塑形函式 f () 可被看作正則約束下的重要性取樣,鼓勵模型關注低機率、但可能重要的行為決策。
實驗結果:即學即練,舉一反三
圖表 7. 訓練動態分析:訓練初期,LUFFY 模型逐步適應外部指導,推理路徑長度逐漸接近離策略軌跡,表現出有效的模仿與調整。同時,在整個訓練過程中,LUFFY 始終保持了較高的策略熵,展現出持續探索的能力。而對比來看,傳統 on-policy RL 的熵在早期迅速收斂,探索能力下降。
在六個公開數學推理基準中,LUFFY 相較於現有 Zero-RL 方法,平均提升達 + 7.0 分,並且在多個分佈外測試集上也實現了領先表現。
圖表 8. LUFFY 在六項高難度數學推理基準上的效能表現。
圖表 9. 分佈外測試集的效能表現(ARC-c,GPQA-diamond 和 MMLU-Pro)。
在其他模型,如更小的 1.5B 模型與指令對齊後的 Instruct 模型,LUFFY 也表現出顯著優勢:
圖表 10. LUFFY 在 Qwen2.5-Math-1.5B 上的效能表現。
圖表 11. LUFFY 在 Qwen2.5-Instruct-7B 上的效能表現。
不僅如此,LUFFY 在「推理路徑長度」上也明顯優於 SFT。在相同準確率下,LUFFY 能用更短的推理過程達成正確答案,減少無效展開;而在測試時調高溫度以增加探索強度時,LUFFY 的效能依然保持穩定,而 SFT 則出現明顯下降。
圖表 12.  推理長度對比。
圖表 13. 測試時探索能力對比。
展望:通用推理的新起點
LUFFY 提出了一種高效、穩定、具備泛化能力的推理訓練方式,兼顧學習與實踐,讓模型真正掌握推理策略的內在邏輯。未來,該框架可擴充套件至程式碼生成、科學問答、自動規劃等需要複雜推理的 AI 任務中,構建更具通用性和自主性的智慧體。
目前專案已在 GitHub 開源,歡迎有興趣的同學瞭解、復現或拓展。
作者介紹:
顏建昊,西湖大學張嶽老師的博士三年級學生。主要研究興趣在基於大模型的後訓練技術,包括強化學習、線上學習以及模型編輯等。在讀博之前,顏建昊曾在微信 AI 任研究員,曾贏得 WMT 機器翻譯比賽。
李雅夫博士,現任上海人工智慧實驗室研究員,研究方向涵蓋大語言模型推理、可信人工智慧與機器翻譯。他於浙江大學與西湖大學聯合培養攻讀博士學位,先後在愛丁堡大學與武漢大學獲得人工智慧碩士和電子資訊工程學士學位。李雅夫博士在 ACL、EMNLP、ICLR 等頂級會議上發表多項研究成果,引用逾 1800 次,曾榮獲 ACL 2023 最佳論文提名,並擔任 ACL 領域主席及多個國際頂會與期刊的審稿人。博士期間,他曾獲得國家獎學金,入選騰訊犀牛鳥精英人才計劃並獲得傑出獎學金。
© THE END 
轉載請聯絡本公眾號獲得授權
投稿或尋求報道:[email protected]


相關文章