

8 個 H100 顯示卡訓練 1 小時,即可讓所訓練的 Qwen2.5-Math-CFT 模型媲美 DeepSeek-R1 的效能。背後“秘訣”只有一個:採用由加拿大滑鐵盧大學團隊和美國卡內基梅隆大學團隊提出的批判性微調(CFT,Critique Fine-Tuning)模型最佳化技術。
DeepSeek-R1 是採用強化學習方法打造的模型,而 Qwen2.5-Math-CFT 的計算資源消耗量,僅有 DeepSeek-R1 的 1/140。
當在包括 MATH 和 AIME24 在內的六個數學基準上進行評估時,批判性微調訓練的模型始終比最佳監督微調訓練的模型平均高出 4%-10%。同時,批判性微調僅需要 50K 的訓練樣本,而監督微調需要 2M+的訓練樣本。

圖 | 批判性微調(來源:arXiv)
也就是說,批判性微調使用更少的訓練資料實現了更快的收斂,因此對於開發數學推理模型來說它是一種更加有效的方法。雖然像 GPT-4o 這樣的前沿閉源模型仍然保持著效能領先,但本次研究表明利用批判性微調,可以幫助較小的模型以更少的資源實現更強的效能。
與此同時,即使沒有傳統的指令調優,批判性微調訓練的模型也可以有效地遵循指令,這挑戰了監督微調或強化學習必須遵循指令的傳統觀念。因此,研究人員認為批判性微調是一種新的正規化,它從根本上重新構想了語言模型到底該如何從指令資料中學習。
不同於側重響應模仿的監督微調(SFT,Supervised Fine-Tuning),批判性微調能讓模型學會批判性地分析嘈雜響應,而不是簡單地模仿正確的響應。

以人類學習過程中的“批判思考”為靈感
對於監督微調來說,它能讓模型模仿給定指令的註釋響應。但是,如果你仔細觀察就會發現,我們人類學習過程往往會伴隨著批判性思維。
基於這一啟發,研究人員提出了批判性微調,它能夠鼓勵模型進行更深入的分析和理解,而這些特質通常會被監督微調所忽視。
為了驗證批判性微調的有效性,研究人員構建了幾個微調資料集。與此同時,大多數實驗都是基於 WebInstruct——這是一個從線上教育資源和智力競賽網站收集的教學資料集。
不同於來自數學競賽和其他比賽的資料集,WebInstruct 資料集的涵蓋種類較多,包括數學(65%)、物理(8%)、化學(4%)、商業(10%)、人文(4%)等。
WebInstruct 中的響應由大模型進行提取和完善,由於缺乏驗證或質量控制,它們很容易受到噪音的影響。因此,研究人員從 WebInstruct 中精選了以下子集。
第一個子集是 WebInstruct SFT,即直接從原始 WebInstructs 資料集中取樣的 50K 子集,該子集的錯誤率高於 50%。
第二個子集是 WebInstruct-verified,研究人員採用了 WebInstructs 的樣本,與此同時保留了前 50K 個樣本作為“已驗證”的監督微調資料。
第三個子集是 WebInstruct-GPT-4o,這是一個 50K 子集,它複用了 WebInstruct-SFT 中的問題,但是使用 GPT-4o-1120 生成的答案替換了原答案。
第四個子集是 WebInstruct-CFT,這是一個從 WebInstruct-SFT 派生的 50K 子集。該子集中大約 56% 的回覆被判定為“正確”,其餘的則被認為是“錯誤的”。儘管包含一些由 GPT-4o 引入的批判錯誤,但該資料集的質量與 WebInstruct-GPT-4o 相當。
第五個子集是 WebInstruct CFT Tiny,這是 WebInstruct-CFT 的一個較小版本,僅包含 4K 示例。
研究人員將批判性微調資料集與現有的監督微調資料集進行比較。如圖所示,研究人員的資料集涵蓋了更廣泛的主題,同時規模要小得多,這突出了這些資料集在提高大模型推理能力方面的效率。

(來源:arXiv)
除了 WebInstruct,研究人員還綜合了 MetaMathQA 和 NuminaMath 等其他資料集,並從每個資料集中隨機抽取 50K 個樣本,以及使用 GPT-4o 針對原始響應進行評價。然後,研究人員將批判性微調用於這些資料集,以證明本次方法在其他資料集上的通用性。

只需在 8 個 H100 上訓練 1 小時
在標準數學推理能力驗證上,研究人員評估了 MATH、Minerva MATH 和 GSM8K。為了評估更具挑戰性的競賽級數學成績,專門納入了美國邀請數學考試的 AIME 2024、美國數學競賽的 AMC 2023 以及包含各種難度級別的數學奧林匹克問題的 OlympiadBench。
透過使用用於數學定理理解的 TheoremQA、涵蓋數理化等的 MMLU-Pro 以及用於推理複雜問題的 GPQA,研究人員進一步地將評估擴充套件到 STEM 推理能力上,並透過實驗評估了三種不同的監督微調設定和一種批判性微調設定。
對於監督微調,研究人員主要針對原始噪聲響應進行直接訓練,並開展經過 GPT-4o 驗證的響應訓練,以及針對 GPT-4o 產生的響應進行訓練。
對於批判性微調,研究人員使用精選的批判性微調資料集來訓練模型。透過使用 MATH500 作為驗證集,並在針對整個資料集進行 1 個 epoch 的訓練之後,選擇出來表現最佳的檢查點。
在所有實驗中,超引數始終保持一致,學習率為 5e-6,餘弦衰減學習時間表的預熱比為 0.1,全域性 batch 大小為 512。(注:學習率,是一個用於控制模型在訓練過程中引數更新步長的數值。)
為了評估批判性微調的有效性,研究人員使用數學推理基準,在三個 7B 基礎模型上將其與各種監督微調方法進行比較。

圖 | 不同基礎模型和不同方法的綜合結果(來源:arXiv)
所使用的三個 7B 基礎模型分別是:DeepSeek-Math-7B、Qwen2.5-7B 和 Qwen2.5 Math-7B。
結果表明,Qwen2.5-Math-7B 的基礎版本在基準測試中的平均準確率為 37.8%,當使用批判性微調進行增強時它達到了最佳效能,平均準確率為 57.1%。
值得注意的是,批判性微調在不同模型中始終優於所有監督微調基線。在 DeepSeek-Math7B 上,它比監督微調 GPT-4o 實現了 3.5% 的絕對改進。
在 Qwen2.5-7B 上,批判性微調比監督微調有著 10.4% 的實質性改善。在 Qwen2.5-Math-7B 上,批判性微調比 GPT-4o 的監督微調基線高出 6.7%。

(來源:arXiv)
上圖展示了 Qwen2.5-Math-7B 基於不同方法的訓練動態。其中,批判性微調在第 30 步左右表現出更快的收斂速度,並在整個訓練過程中擁有更高的效能。
同時,批判性微調在 MATH 上的準確率約為 80%,而 SFT-G 的準確率為 70%,SFT-V 的準確率為 60%。在 Minerva-Math 上,批判性微調的準確率約為 40%,而兩種監督微調變體即 SFT-G 和 SFT-V 的準確率均為 20%。
與此同時,研究人員將其所使用的效能最佳的批判性微調模型,與其他不同引數規模的對標模型進行比較。同時,還擴大了評估基準以便涵蓋更加廣泛的 STEM 主題。

(來源:arXiv)
結果顯示:研究人員的 Qwen2.5-Math-7B-CFT 在 7B 模型中實現了 48.1% 的最高平均效能,這一效能遠遠優於其他專業數學模型。
同時,Qwen2.5-Math-7B-CFT 的訓練資料僅為 50K 個樣本。而 AceMathQwen2.5-Math 使用 2.3M 個樣本,Qwen2.5-Math-7BInstruct 使用 2.5M 個樣本,這說明批判性微調的資料效率非常高。
如下表所示,研究人員還針對 Qwen2.5-32B-Instruct-CFT 和 Sky-T1-32B Preview 加以詳細比較。

(來源:arXiv)
結果顯示:批判性微調最顯著的優勢在於能夠提高資料效率。與 SkyT1-32B-Preview 的 17K 樣本相比,Qwen2.5-32B-Instruct-CFT 僅使用 4K 訓練樣本即可實現最佳效能。
與此同時,Qwen2.5-32B-Instruct-CFT 的訓練資料僅為前者的四分之一,這證明了批判性微調在沒有長思維鏈的情況下,能夠從更少的樣本中學習的有效性。
同時,研究人員的模型在 GPQA 上達到了 52.5% 的準確率,超過了 Sky-T1 的 49.5%。在 TheoremQA 上,它顯示出與 Sky-T1 相當的效能。對於 AMC23,Sky-T1 能夠實現 62.5% 的準確率,而研究人員的模型準確率達到 77.5%。
此外,研究人員還將採用批判性微調訓練的模型,與採用強化學習訓練的模型加以比較。需要說明的是:這一系列比較均以 Qwen2.5-Math-7B-base 作為初始化模型。

(來源:arXiv)
此前,有研究表明強化學習可以顯著提高大模型的推理能力。為此,研究人員與 DeepSeek-R1 的複製體 SimpleRL 進行比較。並將完全基於強化學習打造的模型 SimpleRL-Zero、和基於“Distill+強化學習”打造的模型 SimpleRL 作為對標,需要說明的是 SimpleRL-Zero 和 SimpleRL 都需要在 32 個 H100 上進行 1.5 天的訓練。相比之下,採用批判性微調的方法模型只需要在 8 個 H100 上訓練 1 小時。
此外,批判性微調不需要較長的解碼長度,從而能夠提高效率。正因此,批判性微調可以將 Qwen2.5-Math-7B 提高到與 SimpleRL 相同的水平。在 AMC23 和 Minverva Math 等多個基準測試中,批判性微調訓練的模型的效能明顯優於 SimpleRL。
總的來說,批判性微調在提高語言模型訓練的效率和效果上邁出了重要一步,在降低計算資源和資料需求的同時,還有望提高模型的推理能力。
而 GPQA 和 TheoremQA 等基準測試的卓越效能,證明批判性微調不僅能讓數學推理受益,還能擴充套件到更廣泛的 STEM 領域。
研究人員也表示,這一成果為提高語言模型能力開闢了新方向,假如將批判性微調與監督微調、強化學習等其他訓練正規化相結合,則能被擴充套件用於打造多模態模型。
參考資料:
1.https://arxiv.org/pdf/2501.17703
排版:希幔


