MLNLP社群是國內外知名的機器學習與自然語言處理社群，受眾覆蓋國內外NLP碩博生、高校老師以及企業研究人員。

社群的願景是促進國內外自然語言處理，機器學習學術界、產業界和廣大愛好者之間的交流和進步，特別是初學者同學們的進步。

來源 | 量子位

作者 | 騰訊AI Lab

只要微調模型生成的前8-32個詞，就能讓大模型推理能力達到和傳統監督訓練一樣的水平？

騰訊AI Lab與香港中文大學（深圳）合作開展了一項新研究，提出了這樣一種名為無監督字首微調（UPFT）的方法。

UPFT大大降低了訓練模型的資料生產成本，能夠將訓練時間縮短約75%，並將取樣成本降低約99%。

團隊研究發現，關鍵的正確推理訊號，全都藏在模型的“前幾步”裡，將這種現象稱為“推理前序自一致性”。

基於這一發現，團隊嘗試僅微調模型生成的前8-32個詞，結果其推理能力果真可達到與傳統監督訓練相當的水平。

UPFT不僅降低了大模型的訓練耗時和取樣成本，在減少訓練序列長度和記憶體消耗方面也展示了顯著優勢，訓練序列長度縮減了82.6-94.7%。

突破大模型訓練算力瓶頸

資料生產是訓練大模型（LLM）過程中的一大難題，尤其是算力成本的快速攀升給研究和應用帶來了巨大挑戰。

傳統方法在讓模型學會推理時，通常採用生成大量候選解，然後從中篩選出正確的推理路徑進行訓練的方式。

這種策略看似直接，但實際操作中卻面臨諸多困難。

以數學解題為例，上述方法通常需要為每道題目生成16個候選解，再從中篩選出正確的完整推理鏈。

這種方式對算力的需求極大——每次訓練迭代，模型需要進行數十次取樣，GPU算力消耗呈現快速增長的趨勢。

單次資料生產可能消耗數百萬token的算力資源，而當題目難度增加時，所需的取樣量和算力開銷還會進一步提升。

這種高成本的訓練方式，不僅效率較低，也成為技術落地的一大障礙。

在小規模實驗中，這種方法尚可勉強支撐，但若面對百萬級題庫，算力成本的壓力將變得難以承受。

研究團隊發現，與其讓模型進行大量盲目取樣，不如將重點放在識別真正重要的正確推理訊號上。

這種更有針對性的策略不僅能夠提升效率，還能顯著降低算力開銷。接下來，我們將進一步探討他們的核心發現和解決方案。

找到AI解題的關鍵訊號

在AI解決數學問題的過程中，人們或許會認為它具備某種“隨機應變”的能力，但事實果真如此嗎？

透過一系列嚴謹的實驗，研究者們揭示了一個令人驚訝的現象：

AI在解題時，真正決定正確答案的推理訊號，可能早已隱藏在其推理路徑的“前幾步”之中。

這一現象被研究者稱為“推理前序自一致性”。

具體而言，無論AI在後續的推理過程中如何“發散思維”，其推理路徑的開端幾乎呈現出高度一致的模式。

這一發現不僅揭示了AI解題的底層邏輯，也為最佳化訓練策略提供了全新的視角。

以一個典型實驗為例，研究者讓模型針對某道數學題生成了8個不同的解題方案（標記為A1至A8）。

儘管這些方案的最終答案可能千差萬別，但令人意外的是，前32個詞的內容幾乎完全相同。

這一現象表明，AI推理過程中的關鍵訊號似乎集中在推理的起點部分，而後續的“發散”更多是表象。

△讓模型針對同一問題，隨機生成8次解答

為了進一步探明這一現象的本質，研究團隊分別使用通用型模型（Llama-3.1-8B-Instruct）和數學專精模型（Qwen2.5-Math-7B-Instruct）進行了實驗。

研究者讓這兩款模型針對一系列數學題目生成了多達1000條解題方案，並對這些推理路徑進行了詳細分析。

實驗結果表明，有大量的獨立推理路徑共享相同的推理前序。

並且隨著字首長度的增加，每種推理前序所對應的平均推理路徑數量逐漸減少，AI生成的解題方案開始呈現出“分化”的趨勢。

這一發現為“推理前序自一致性”提供了強有力的證據，也進一步證實了關鍵推理訊號集中在推理起點的假設。

△前序長度和推理路徑數量的關係

既然不同的推理路徑可能共享相同的推理前序，那麼一個關鍵問題隨之而來——

究竟需要多長的前序長度，才能有效區分正確與錯誤的推理路徑？

為了回答這一問題，研究團隊設計了專門的實驗，分別從正確和錯誤的推理路徑中提取樣本，並針對這些路徑的前序部分進行了大規模取樣分析。

實驗結果下圖所示，研究者發現了一個重要的臨界點：

只有當前序長度超過某個臨界長度時，正確路徑與錯誤路徑之間的差異才開始顯現，並能夠被有效區分。

這一發現表明，前序長度在推理路徑的分化中起著至關重要的作用，而這個臨界長度則為後續最佳化模型推理策略提供了一個重要的參考標準。

△正確和錯誤在開頭部分很難區分

從貝葉斯視角看問題：覆蓋範圍與準確性的平衡

為了更深入地理解這一問題，研究團隊引入了一種基於貝葉斯框架的科學視角，來重新審視訓練過程。

簡單來說，貝葉斯框架是一種機率推理的方法，它幫助我們理解模型在面對一個問題時，如何透過不同的推理路徑得出正確答案的可能性。

在這一框架下，模型的表現可以被分解為兩個關鍵因素：推理路徑的“覆蓋範圍”和“準確性”。

覆蓋範圍指的是模型在面對一個問題時，能夠探索到多少種不同的解題思路。

用貝葉斯的語言來說，這相當於模型在生成推理路徑時的“先驗分佈”——即模型能夠覆蓋的解題思路越廣泛，它找到正確答案的可能性就越高。

準確性指的是在某一條具體的推理路徑上，模型最終得出正確答案的可能性。

在貝葉斯框架中，這可以看作是“條件機率”——即給定某條推理路徑，模型得出正確答案的機率越高，這條路徑的質量就越好。

傳統的“拒絕微調”策略雖然在保證準確性方面表現不錯——因為它只選擇了那些最終答案正確的推理路徑——但卻忽略了覆蓋範圍的重要性。

換句話說，這種方法過於“挑剔”，只關注了“正確答案”，而沒有充分利用那些可能包含寶貴解題思路但最終答案錯誤的推理路徑。

這種“只選一個正確答案”的做法，實際上限制了模型的學習潛力。

△平衡資料準確性和資料覆蓋程度

基於上述分析，研究者們提出了一種新方法，試圖找到一個平衡點，既能保證答案准確，又能探索更多解題思路。

他們發現，解題路徑的前半部分（稱為“字首”）往往包含了多種可能的解題思路，而後半部分則更決定最終答案是否正確。

因此，他們提出只訓練模型生成字首部分，既能覆蓋更多解題思路，又能減少計算成本。

具體來說，他們讓模型生成解題路徑的前半部分，並用這些字首來訓練模型，從而在效率和效果之間找到更好的平衡。

研究人員將這種方法命名為無監督字首微調（Unsupervised Prefix Finetuning, UPFT)。

對於每道題目，他們只生成一條推理路徑，而不是像傳統方法那樣生成多達16條。

同時，他們對生成的內容進行了最佳化：對於10%的題目，生成完整的解題路徑；而對於剩下的90%，只生成解題路徑的前半部分（即前幾個關鍵步驟）。

這種方式既節省了計算資源，又能讓模型接觸到多樣化的解題思路。

1/10取樣成本取得更優效能

為了驗證UPFT方法的有效性，研究團隊測試了以下兩種場景：

對於沒有標準答案的資料進行無監督取樣：每個問題僅取樣一個解決方案，不進行過濾。
對於有標準答案的資料進行有監督取樣：傳統方法每題取樣16個解決方案，透過正確答案篩選正確解決方案。

在實驗設定上，研究團隊使用了通用模型（Llama-3.1-8B-Instruct）和數學專用模型（Qwen2.5-Math-7B-Instruct），以及目前十分火熱的R1型別的長思維鏈模型（DeepSeek-R1-Distill-Qwen-7B）。

測試選擇了多個具有挑戰性的推理基準測試，包括GSM8K（數學推理）、Math500（複雜數學題）、AIME2024（數學競賽題）和GPQA（綜合科學推理）。

結果，UPFT在效能和成本上都展現了顯著優勢，提升效能的同時減少了訓練token數量。

UPFT提高無監督上限

結果表明，與傳統的監督微調（SFT）相比，UPFT在多個方面表現出色：

在使用U-Hard資料集時，Qwen2.5-Math-7B-Instruct的UPFT準確率達到了54.5%，而SFT僅為51.3%。
對於DeepSeek-R1-Distill-Qwen-7B，UPFT達到了61.6%的準確率，而SFT為56.4%。

△UPFT和傳統SFT方法的無監督對比實驗結果

在更具挑戰性的任務（例如AIME2024和GPQA）中，UPFT的表現更為突出。

在AIME2024上，Qwen2.5-Math-7B-Instruct的UPFT準確率為26.6%，相比之下，SFT為16.7%。對於DeepSeek-R1，UPFT達到了50.0%，而SFT為36.7%。

在GPQA科學推理任務中，UPFT同樣表現優異，超越了SFT。

在效率方面，UPFT展示出了極大的優勢。UPFT顯著減少了訓練序列長度，縮減了82.6-94.7%。

在U-Hard上的平均token數為68.2，而SFT需要393.3個token，記憶體消耗大幅降低。在DeepSeek-R1-Distill模型上僅用561個標記就優於SFT的3440個標記，顯示了其極高的效率。

UPFT超越有監督SFT效能

為了進一步探究UPFT的效率極限，研究團隊對比了需要進行大量取樣的傳統方法，即需要標籤驗證來過濾掉正確解決方案，來突出UPFT的效率優勢。

結果顯示，在Qwen2.5-Math-7B-Instruct上，UPFT和瘋狂刷題的RFT準確率打平（52.6%），但UPFT只用1.2%的取樣token（0.6M vs 51.7M）。

同時UPFT在DeepSeek-R1-Distill-Qwen-7B上飆到58.7%，比RFT高1.5個點，取樣token的花費卻只需要RFT的1%，訓練token花費僅為RFT的25%。

在基座模型Llama-3.1-8B-Instruct上，UPFT得分38.3%，跟V-STaR並肩。但是在增加了標籤過濾後的UPFT效能超過RFT，得分38.8%，展示出UPFT與現有方法的相容性。

△UPFT在有監督場景下仍然打敗了傳統SFT以及V-STaR方法

UPFT對字首長度比較魯棒

為了揭秘字首長度對模型效能影響，研究團隊展開了進一步的實驗。

研究者們透過實驗發現，不同模型在解題路徑前半部分的長度（即“字首”長度）對準確性的影響比較魯棒。

以 Llama-3.1-8B-Instruct 模型為例，當解題路徑的前半部分包含8個token時，模型的準確率逐漸提升至52.0%然後逐漸下降，對於Qwen2.5-Math-7B-Instruct 模型的表現則有所不同，其效能在前32個token處均緩慢提高。

這表明，不同模型對解題路徑前半部分的依賴程度存在差異，研究者們據此可以針對不同模型設計更合適的訓練策略。

△訓練的推理字首長度和對應模型效能

總之，這項研究為大語言模型的高效、低成本訓練開闢了新路徑。

未來，研究團隊計劃繼續探索UPFT的潛力，進一步最佳化模型訓練效率，並探索與現有方法的相容性。

作者簡介

本文的通訊作者為塗兆鵬，騰訊專家研究員，研究方向為深度學習和大模型，在國際頂級期刊和會議上發表學術論文一百餘篇，引用超過9000次。擔任SCI期刊NeuroComputing副主編，多次擔任ACL、EMNLP、ICLR等國際頂級會議領域主席。

第一作者為香港中文大學（深圳）博士生冀軻，騰訊AI Lab高階研究員徐嘉豪，梁添，劉秋志。

論文地址：https://arxiv.org/abs/2503.02875

技術交流群邀請函

△長按新增小助手

掃描二維碼新增小助手微信

請備註：姓名-學校/公司-研究方向

（如：小張-哈工大-對話系統）

即可申請加入自然語言處理/Pytorch等技術交流群

關於我們

MLNLP 社群是由國內外機器學習與自然語言處理學者聯合構建的民間學術社群，目前已經發展為國內外知名的機器學習與自然語言處理社群，旨在促進機器學習，自然語言處理學術界、產業界和廣大愛好者之間的進步。

社群可以為相關從業者的深造、就業及研究等方面提供開放交流平臺。歡迎大家關注和加入我們。

dignews.cc

砍掉99％取樣成本！騰訊AILab提出大模型無監督訓練新技術

突破大模型訓練算力瓶頸

找到AI解題的關鍵訊號

△讓模型針對同一問題，隨機生成8次解答

△前序長度和推理路徑數量的關係

△正確和錯誤在開頭部分很難區分

從貝葉斯視角看問題：覆蓋範圍與準確性的平衡

△平衡資料準確性和資料覆蓋程度

1/10取樣成本取得更優效能

UPFT提高無監督上限

△UPFT和傳統SFT方法的無監督對比實驗結果

UPFT超越有監督SFT效能

△UPFT在有監督場景下仍然打敗了傳統SFT以及V-STaR方法

UPFT對字首長度比較魯棒

△訓練的推理字首長度和對應模型效能

作者簡介

關於我們

相關文章

關於微調導致大模型“降智”的一些思考

歷史分水嶺：DeepSeekGitHub星數超越OpenAI！大佬揭秘僅用450美元訓推理模型

聊聊DeepSeek-R1的技術路徑

一文理解推理大模型-UnderstandingReasoningLLMs

從ReFT，KimiK1.5到DeepSeekR1，聊聊ReasoningModel的精巧實現

OpenAIDay2：支援微調o1，核心技術竟更早來自字節跳動！「強化微調」技術分析

剛剛！微調DeepSeek滿血版正式開源…

一篇關於DeepSeek模型先進性的閱讀理解

影片推理的R1時刻！港中文、清華推出首個Video-R1，7B模型竟超GPT-4o？

Rule-based強化學習≠古早邏輯規則！萬字拆解o1多模態推理最新進展