SFT並非必需!推理模型僅靠RL就能獲得長思維鏈能力,清華CMU團隊破解黑盒

MLNLP

社群是國內外知名的機器學習與自然語言處理社群,受眾覆蓋國內外NLP碩博生、高校老師以及企業研究人員。


社群的願景是促進國內外自然語言處理,機器學習學術界、產業界和廣大愛好者之間的交流和進步,特別是初學者同學們的進步。
來源 | 量子位
作者 | 衡宇
DeepSeek-R1慢思考、長推理的表現,展現了訓練步驟增加,會導致長CoT的湧現。
它透過模擬人類思維逐步推導答案,提升了AI大模型的推理能力和可解釋性。
但長CoT的觸發條件是什麼?怎麼做能最佳化它?像個黑盒,還沒研究明白。
來自清華、CMU和IN.AI的研究團隊,近期專門探究了長CoT在大模型中的工作機制和最佳化策略。
先把該研究得出的4點發現給大家呈上來:
  • SFT並非必需,但能簡化訓練並提高效率;
  • 推理能力隨著訓練計算的增加而出現,但並非總是如此;
  • 可驗證獎勵函式對增長CoT至關重要;
  • 糾錯等核心能力基礎模型天生自帶,但透過RL有效地激勵這些技能需要大量的計算。
這篇論文開始被網友瘋轉,並被感慨道:這可太酷啦!
還有網友表示,不出所料,獎勵函式果然很重要~

從SFT和RL兩方面研究長CoT

研究團隊明確表示:

我們的目標是揭開大模型中長CoT推理的神秘面紗。

透過系統分析和消融,提取關鍵見解,並提供實用策略來增強和穩定其效能。

團隊採用了2款基礎模型:
  • Llama-3.1-8B:來自Meta,是具有代表性的通用模型。
  • Qwen2.5-7B-Math:來自阿里通義,是具有代表性的數學專業模型。
同時採用了4個代表性推理基準:
MATH-500、AIME 2024、TheoremQA和MMLU-Pro-1k。
預設情況下,溫度t=0.7、頂部−p值=0.95,最大輸出長度=16384 tokens。
而具體過程,從SFT(監督微調)和RL(強化學習)兩方面下手。
研究人員預設使用MATH的7500個訓練樣本提示集來提供可驗證的真值答案。

SFT對長CoT的影響

團隊首先探究了SFT對長CoT的影響。
透過在長CoT資料上進行SFT,模型能夠學習到更復雜的推理模式。
但目前而言,短CoT更為常見,這就意味著針對其收集SFT資料相對簡單。
鑑於此,團隊選擇用阿里通義的QwQ-32B-Preview來提煉長CoT,用阿里通義的Qwen2.5-Math-72B-Struct來提煉短CoT。
具體來說,研究人員先對每個prompt的N個候選響應進行取樣,然後篩選出具有正確答案的響應。
對於長CoT,使用N∈{32, 64, 128, 192, 256};對於短CoT,使用N∈{32, 64, 128, 256},(此處為了提高效率跳過了一個N)。
在每種情況下, SFT標記的數量都與N成正比。
如下圖虛線所示,隨著擴大SFT的token,對長CoT進行SFT,會繼續提高模型準確性;而對短CoT來說,SFT帶來的效益在很早就達到飽和。
譬如在MATH-500上,長CoT SFT的準確率超過70%,tokens達到3.5B時仍然沒有進入瓶頸期。
相比之下,短CoT SFT的tokens從約0.25B增加到1.5B,準確率僅產生了3%的增長。
實驗結果顯示,長CoT SFT能夠顯著提高模型的效能上限。
而且,在達到更高效能的同時,還有比短CoT更高的效能拓展空間。

RL對長CoT的影響

由於業內普遍認為RL的上限高於SFT,團隊將長CoT和短CoT視為針對RL的不同SFT初始化方法進行比較。
研究人員使用SFT檢查點來初始化RL,並訓練了四個epoch,每個prompt生成四個響應。
此外,團隊把PPO和來自MATH資料集的基於規則的驗證器訓練拆分,作為RL的提示集。
具體結果同樣在下圖中顯示出來:
圖中實線和虛線之間的間隙表明,使用長CoT SFT初始化的模型通常可以透過RL進一步顯著改進,而使用短CoT SFT初始化的模型從RL中獲得的收益很小。
例如,在MATH-500上,RL可以將長CoT SFT模型絕對改進3%以上,而短CoT SFT模型在RL前後的精度幾乎相同。
需要注意的是,RL並不總是能夠穩定地擴充套件思維鏈的長度和複雜性。
為此,研究團隊引入了一種帶有重複懲罰的餘弦長度縮放獎勵機制,有效穩定了思維鏈的增長,並鼓勵模型在推理過程中進行分支和回溯。

整理長CoT資料

除上述研究外,為了整理長CoT資料,研究團隊比較了兩種方法。
一種是透過提示短CoT模型,生成原始動作,並按順序組合它們,以此構建長CoT軌跡。
另一種是從現有的長CoT模型中提煉出長CoT軌跡——這些模型表現出湧現長CoT(emergent long CoT)。
結果表明,從湧現長CoT模式中提煉出來的模型,比構建的模式泛化得更好,並且可以用RL進一步顯著改進。
在構建模式上訓練的模型則不能做到這一點。
此外,由於DeepSeek-R1已經證明,在基礎模型上擴充套件RL計算可以出現長CoT,自我驗證行為有時會被模型的探索標記為緊急行為或 “頓悟時刻”。
這種模式在短CoT資料中很少見,但研究人員注意到,有時基座模型已經存在自我驗證行為,而用RL強化這些行為需要嚴苛的條件。
如下圖所示,Qwen2.5Math-7B的RL有效地提高了準確性,但沒有增加基礎模型輸出中存在的 “recheck” 模式的頻率,也沒有有效地激勵其他反射模式,如 “retry” 和 “alternatively”。
這表明儘管提高效能效果顯著,但來自基座模型的RL不一定會激勵反射模式。

四個關鍵發現

在系統性研究了長CoT推理的機制後,團隊提出了4個關鍵發現。
第一,SFT並非必需,但能簡化訓練並提高效率。
雖然SFT並非訓練長CoT的必要條件,但它能夠有效地初始化模型,併為後續的RL訓練提供堅實的基礎。
第二,推理能力隨著訓練計算的增加而出現,但並非總是如此。
長CoT的出現並非必然,且樸素的RL方法並不總是能有效地延長CoT長度。
需要透過獎勵塑造等技巧來穩定CoT長度的增長,團隊的做法是引入了一種餘弦長度縮放獎勵,並加入了重複懲罰,這既平衡了推理深度,又防止了無意義的長度增加。
第三,可驗證獎勵函式對CoT擴充套件至關重要。
由於高質量、可驗證資料稀缺,擴充套件可驗證獎勵函式對RL至關重要。
論文探索了利用網路提取的包含噪聲解決方案的資料,並發現這種“銀色”監督訊號在RL中展現出巨大的潛力,尤其是在處理OOO任務(如STEM推理)時。
第四,基模型中天生存在錯誤修正和回溯等技能,但透過RL有效地激勵這些技能需要大量的計算。
而測量這些能力的出現需要更精細的方法,需要謹慎設計RL激勵。
最後,研究團隊提出了幾個未來的研究方向,包括:
擴大模型規模、改進RL基礎設施、探索更有效的驗證訊號以及深入分析基礎模型中的潛在能力。
這些方向有望進一步推動長CoT在大模型中的應用。

參考連結:

[1]https://arxiv.org/abs/2502.03373

[2]https://x.com/omarsar0/status/1887984076939841867

技術交流群邀請函
△長按新增小助手
掃描二維碼新增小助手微信
請備註:姓名-學校/公司-研究方向
(如:小張-哈工大-對話系統)
即可申請加入自然語言處理/Pytorch等技術交流群

關於我們

MLNLP 社群是由國內外機器學習與自然語言處理學者聯合構建的民間學術社群,目前已經發展為國內外知名的機器學習與自然語言處理社群,旨在促進機器學習,自然語言處理學術界、產業界和廣大愛好者之間的進步。
社群可以為相關從業者的深造、就業及研究等方面提供開放交流平臺。歡迎大家關注和加入我們。

相關文章