
本文提出 LUFFY 強化學習方法,一種結合離線專家示範與線上強化學習的推理訓練正規化,打破了“模仿學習只學不練、強化學習只練不學”的傳統壁壘。LUFFY 透過將高質量專家示範制定為一種離策略指引,並引入混合策略最佳化與策略塑形機制,穩定地實現了在保持探索能力的同時高效吸收強者經驗。在六項數學競賽級基準測試中,LUFFY 顯著超越現有 Zero-RL 方法,平均提升+7.0 分,並展現出優異的泛化能力,為通用推理模型訓練提供了新思路。

論文標題:Learning to Reason under Off-policy Guidance
論文地址:https://arxiv.org/abs/2504.14945
Huggingface 地址:
https://huggingface.co/papers/2504.14945
Github 地址:https://github.com/ElliottYan/LUFFY

圖 1. 在六項競賽級數學推理基準上的表現。在 AIME 2024、AIME 2025、AMC、MATH-500、Minerva Math 和 OlympiadBench 六個高難度基準測試中,LUFFY 取得了平均 49.6% 的準確率,較現有 Zero-RL 方法實現了超過 +7.0 分的顯著效能提升。
該工作一經發布,便登上 Hugging Face 社群的 Daily Papers 熱榜第一,獲得眾多研究者點贊認可。

背景:“只學不練”與“只練不學”的困境
在大推理模型(large reasoning models)學習複雜推理技能的過程中,最近的一系列研究工作主要嘗試了兩種策略:一是模仿學習(例如 SFT),讓模型去學習強大神經模型或人類專家的推理示範;二是強化學習(尤其是 zero-RL 正規化),讓模型透過與環境的互動自行摸索解決問題的策略。前者側重從強者策略”學“習,後者鼓勵在環境中歷”練“。然而,兩種策略各有其無法規避的弊端:
SFT“只學不練”:如果模型只是模仿強者的解題步驟(如直接用專家軌跡進行監督微調),它或許能快速取得不錯的表現,但很可能只是照貓畫虎地套用了示範中的模式。一旦遇到超出示範分佈的新問題,它往往難以舉一反三,暴露出泛化能力的不足[1,2]。

圖 2. 模仿學習(SFT):模型透過模仿專家模型生成的高質量推理軌跡,學習完成推理任務。
zero-RL“只練不學”:另一種極端下,模型完全依賴自身的試錯來提升推理能力。然而,該策略受制於模型本身能力,閉門造車,很難在推理行為上產生質的飛躍。最近也有研究[3,4]表明,該正規化更多地是放大模型在預訓練階段學習到的行為,並沒有獲取額外的推理能力。

圖 3. 強化學習:模型透過多輪推理嘗試,根據與環境(如驗證器)的互動反饋,不斷最佳化自身策略。
顯然,“只學不練”和“只練不學”都無法讓推理模型充分挖掘潛力。那麼有沒有辦法讓模型既能借鑑高手經驗,又能保持自身探索,兼顧兩方面的優點呢?
這正是研究者們一直思考的問題。最近,上海 AI Lab 聯合西湖大學、南京大學和香港中文大學提出了一種全新的大模型推理強化學習正規化,取名為 LUFFY(Learning to reason Under oFF-policY guidance),其核心理念在於從更優策略中汲取推理知識,並即時融入自身推理實踐之中,從而實現真正意義上的“邊學邊練,學以致用”。
LUFFY 的“邊學邊練”新正規化

圖 4. LUFFY:邊學邊練的推理學習框架。LUFFY 在強化學習框架中引入外部優質推理軌跡,透過“策略塑形”機制,融合自身嘗試(on-policy)與專家示範(off-policy)的優勢。當模型自身推理失敗時,它從專家示範中學習關鍵步驟;而當自身表現優異時,則保持獨立探索。
LUFFY 的名字來源於“離策略(off-policy)指導下學習推理”。它所倡導的“邊學邊練”正規化,指的是模型能夠一邊向更強的老師學習,一邊立即把學到的本領用於問題求解。在 LUFFY 的訓練框架中(如圖 4 所示),我們會同時利用離策略的示範軌跡和模型自身的線上演練:
一方面,LUFFY 會引入來自強大外部策略的高質量推理示範(off-policy traces),例如讓一個性能很強的“大師級”模型先解一道題,提供它的思考步驟。當 LUFFY 的模型在自己嘗試某個問題時,如果陷入失敗或走入死衚衕,就可以參考這些離策略示範,模仿其中有效的推理步驟,相當於向高手取經。
另一方面,LUFFY 並不是盲目照搬示範。它仍然讓模型不斷進行自主的推理嘗試(on-policy rollouts),並在模型自己解對了的時候堅持讓它走自己的路,給予模型自由探索的空間。
透過將這兩種來源的經驗融合,LUFFY 實現了模仿與探索的動態平衡:模型既不會因為缺少練習而固步自封,也不會因為缺少指引而原地打轉。正如作者所說,LUFFY 讓模型的訓練過程達到了一個“即模仿又探索”的自適應平衡。
值得注意的是,實現這種平衡並非易事。如果簡單地把外部示範硬塞給模型,實驗表明會出現訓練收斂過快甚至“熵”崩塌(Entropy Collapse)的問題。換句話說,模型可能會因為過度依賴示範而變得貪婪保守,只記住表面的套路,反而學不到深層次的推理本領。LUFFY 透過一系列巧妙的技術設計,化解了這一矛盾,使“邊學邊練”真正奏效。
方法創新:混合策略 GRPO 與“策略塑形”
從技術實現上看,LUFFY 基於強化學習演算法 GRPO,針對融合外部示範的挑戰引入了兩大關鍵機制:
混合策略訓練:
LUFFY 在策略最佳化過程中,將離策略示範與線上軌跡相結合,形成一種混合的訓練策略(Mixed-Policy)。具體來說,在每一輪更新中,模型的自身 rollout 生成的軌跡與來自強者的 off-policy 軌跡一起用於計算強化學習中的優勢函式(advantage)。
那些外部示範往往伴隨著更高的獎勵訊號(因為強者解題更正確),在優勢估計中提供了寶貴的資訊。因此,當模型自己的解答不理想時,最佳化演算法會傾向於學習模仿外部高獎勵的示範;反之,當模型自己表現良好時,則主要依據自身軌跡來更新。這種混合策略的 GRPO 訓練讓模型能夠見賢思齊,又不失去自主成長的機會。
策略塑形(Policy Shaping)與熵保持:
為了避免模型對示範的生搬硬套,LUFFY 引入了策略塑形機制。它透過一種正則化的重要性取樣技巧,放大那些對成功至關重要但在模型當前策略下出現機率很低的行動的學習訊號。簡單來說,就是讓模型更加關注那些它原本很少嘗試、但專家解題中出現的關鍵步驟。這種策略塑形相當於有針對性地糾偏:既引導模型汲取高手解題的精華,又防止模型把不重要的表面模式一股腦模仿過去。
同時,作者在訓練中注意保持模型決策的熵值(entropy)。這意味著模型在學習示範的同時仍保有一定的隨機探索成分,不會徹底放棄對新解法的嘗試。最終,LUFFY 的模型既能吸收示範中蘊含的巧妙思路,又能持續拓展自己的能力邊界。如圖 5 所示,策略塑形透過非線性函式,緩解了直接引入離策略示範導致的熵崩塌[5]。

圖 5. 策略塑形在 LUFFY 中的作用效果。LUFFY 透過“策略塑形”機制緩解混合策略訓練中的熵崩塌問題,提升模型對低機率關鍵動作的關注度。左圖:訓練過程中的策略熵對比。傳統 on-policy 與混合策略方法在早期迅速熵崩塌(即生成高度確定性),而 LUFFY 藉助策略塑形保持較高熵值,顯著增強了持續探索能力。中圖:不同方法下損失函式基於決策機率的權重分配。右圖:基於決策機率的梯度加權情況對比。LUFFY 透過非線性權重提升了對罕見(低機率)但重要行為的梯度響應,進而引導模型更有效地從 off-policy 示範中習得深層推理模式。

圖 6. 策略塑形函式 f() 可被看作正則約束下的重要性取樣,鼓勵模型關注低機率、但可能重要的行為決策。
透過上述技術創新,LUFFY 實現了“邊學邊練”的有效融合:模型能夠在強化學習訓練的每一步,都動態地決定何時該學習別人、何時該相信自己,從而逐步習得超越其起始能力的推理技能。
實驗結果:“邊學邊練”的優勢

表 1. 在六項競賽級數學推理基準上的整體表現。在 AIME 2024、AIME 2025、AMC、MATH-500、Minerva Math 和 OlympiadBench 六個高難度基準測試中,LUFFY 取得了平均 49.6% 的準確率,顯著超越現有 zero-RL 正規化。
LUFFY 方法在多項高難度數學推理基準上取得了令人矚目的成績(完整資料已在 GitHub 專案中公開)。表 1 總結了在 6 個競賽級別的數學推理資料集上的總體表現(底座模型為 Qwen-Math-7B)。可以看到,LUFFY 的平均解題準確率達到了 49.6%,相較此前一系列純強化學習方案提升了約 7 個百分點,重新整理了這一領域的最佳水平(SOTA)。這證明將外部高手示範融入強化學習能夠帶來顯著效能提升。

表 2. 分佈外測試集的效能表現(ARC-c,GPQA-diamond 和 MMLU-Pro)。
更令人驚喜的是,在更具挑戰性的分佈外測試中(即模型遇到超出訓練分佈的新題型,結果彙總如表 2),LUFFY 同樣表現出色:平均準確率 57.8%,顯著超越此前系列 zero-RL 方法,且比純模仿的 SFT 高出約 10 個百分點。換言之,LUFFY 訓練出的模型不僅在見過型別的問題上表現突出,在舉一反三的能力上也勝過照搬示範的模型。

表 3. LUFFY 在 Qwen2.5-Math-1.5B 上的效能表現。

表 4. LUFFY 在 Qwen2.5-Instruct-7B 上的效能表現。
此外,如表 3 和 4 所示,LUFFY 也在其他模型上展現出了有效性,例如更小的模型和指令對齊後的模型。
學以致用:對優質推理策略的深度理解
研究人員的分析進一步表明:LUFFY 的模型在推理時能夠靈活地借鑑示範,但並不會拘泥於固定模式;相比之下,傳統的 SFT 模型更多是刻板地記憶了示範套路,這也解釋了為何 LUFFY 在泛化性上更勝一籌。
從圖 7 可以看出,LUFFY 在生成正確解時的平均推理長度明顯短於 SFT,展現出更高效的推理路徑。尤其在錯誤解的分佈中,SFT 傾向於陷入冗長、低效的表面推理過程,生成大量無效資訊;而 LUFFY 則更傾向於早停錯誤嘗試,避免無意義展開,體現了其更強的推理控制能力和路徑最佳化能力。

圖 7. LUFFY 和 SFT 的推理長度對比。
從圖 8 可見,LUFFY 在不同溫度下均展現出穩定且持續增長的 pass@8mailto:pass@8 表現,展現出優異的測試階段探索能力。與之相比,SFT 僅在低溫度(接近確定性解碼)下表現尚可,但在溫度升高後效能反而下降,難以挖掘新的解題路徑。這表明 LUFFY 不僅能學習已有推理模式,更具備泛化探索能力,而 SFT 更容易陷入“模式記憶”,缺乏動態適應性。

圖 8. LUFFY 和 SFT 在測試時探索能力對比。
結語:意義與展望
LUFFY 所開創的“邊學邊練”正規化,為大模型推理能力的訓練提供了一條兼顧效率與效果的新路徑。透過橋接“模仿學習”和“強化學習”這兩種思路,LUFFY 證明了離策略指導在提升模型高階推理能力上的巨大潛力:模型可以突破自身的先天侷限,吸收更強者的經驗而又不失自我進化的空間。這一方法具有相當的通用性:未來,隨著更強大的推理模型出現,我們完全可以將其作為“教師”融入 LUFFY 框架,不斷提高“學生”模型的上限;同時,“邊學邊練”的理念也有望推廣到數學之外的其它複雜推理領域,比如程式碼推理、科學問答等。
對於研發 AI 應用的工程師來說,LUFFY 的思路也提供了啟發:我們無需在“模仿”還是“探索”之間二選一,而是可以設計智慧體一邊向歷史經驗學習,一邊在實踐中創新。目前,LUFFY 的程式碼和模型已在 GitHub 開源,有興趣的讀者可以親自嘗試這一“邊學邊練”的新正規化。未來,我們期待看到 LUFFY 在更多領域的探索和改進,持續推動推理模型邁向更通用、更智慧的推理時代。
另外,感興趣的讀者可以上 alphaXiv 向作者提問,參與討論~
參考文獻[1] SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training[2] Sft or rl? an early investigation into training r1-like reasoning large vision-language models[3] Echo chamber: Rl post-training amplifies behaviors learned in pretraining[4] Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?[5] DAPO: An Open-Source LLM Reinforcement Learning System at Scale


