
來源 | 深度學習自然語言處理

為什麼語言模型推理能力的評估「水分」這麼大?
近幾年,ChatGPT、Claude等大模型的「數學解題」「邏輯推理」能力突飛猛進,各大實驗室爭相釋出「突破性成果」。但論文一針見血地指出:很多所謂的進步,可能只是評測標準不統一導致的假象!

論文:A Sober Look at Progress in Language Model Reasoning: Pitfalls and Paths to Reproducibility連結:https://arxiv.org/pdf/2504.07086
比如,同一道數學題,模型答案的正確率可能因為以下「玄學因素」劇烈波動:
-
隨機種子:就像抽獎的運氣,換一個隨機數,正確率能差10%以上 -
溫度引數:模型答題是「保守」還是「放飛自我」,結果天差地別 -
硬體配置:用不同的GPU跑同一模型,正確率能差8% -
提示詞格式:加不加「請仔細思考」這句話,可能讓結果直接崩盤
更誇張的是,許多論文評測時只用30道題的小資料集(如AIME’24)。這種情況下,多答對1題就能讓正確率提升3%,導致結果毫無說服力。
實驗:連硬體和標點符號都能影響結果?
為了驗證這些「玄學因素」,作者做了大量實驗:
-
隨機種子實驗:用20個不同的隨機種子測試模型,發現正確率波動最高達15% -
溫度引數對比:溫度調高(模型更「放飛」),正確率可能提升,但波動也更大 -
硬體差異:同一模型在不同GPU叢集上跑,正確率差異堪比模型升級 -
提示詞格式:用錯聊天模板,指令微調模型的效能直接「腰斬」
最諷刺的是,某些論文宣稱的「RL方法提升10%」,在統一評測標準後,實際改進連統計顯著性都沒有。


強化學習(RL)進步是假,監督微調(SFT)才是真神?
論文最顛覆的結論是:當前強化學習(RL)對推理能力的提升被嚴重高估,而監督微調(SFT)才是「低調的實力派」。
-
RL的尷尬: -
在蒸餾模型(如DeepSeek-R1)上,RL訓練幾乎無提升,甚至可能過擬合小資料集(如AIME’24)。 -
換到新資料集(如AIME’25),RL模型的效能直接「跳水」。 -
SFT的穩定: -
用高質量解題步驟資料做監督微調,模型在多個基準上表現穩定,且能泛化到新任務(如OlympiadBench)。 -
例如,OpenThinker模型在標準化評測中全面碾壓RL方法。
論文甚至調侃:「RL訓練像買彩票,SFT才是存定期」。
如何讓評測不再「玄學」?
作者提出一套「防坑指南」,呼籲行業統一標準:
-
硬體軟體標準化:所有實驗用同一Docker映象和雲伺服器(如Runpod的A100)。 -
多隨機種子測試:小資料集至少跑10次取平均,避免「運氣好」導致的虛高結果。 -
超引數調優:每個模型單獨調溫度、top_p等引數,不能「一刀切」。 -
答案匹配最佳化:用LaTeX解析答案,避免字串匹配的「格式投機」(如 \boxed{2}
和2
算同一答案)。
此外,作者開源了所有程式碼、提示詞和模型輸出,號召「陽光評測,拒絕黑箱」。
這篇論文給行業潑了什麼冷水?
-
給研究者的提醒:別再「刷榜」了!追求SOTA(最高效能)前,先確保結果可復現。 -
給企業的啟示:RL訓練成本高、收益低,不如紮紮實實做SFT資料。 -
給使用者的真相:模型宣傳的「推理能力提升」,可能只是評測遊戲的勝利,而非真實進步。
論文最後呼籲:「AI推理的進步,需要方法論先行,而非論文數量競賽」。
技術交流群邀請函
△長按新增小助手
掃描二維碼新增小助手微信
請備註:姓名-學校/公司-研究方向
(如:小張-哈工大-對話系統)
即可申請加入自然語言處理/Pytorch等技術交流群
關於我們
MLNLP 社群是由國內外機器學習與自然語言處理學者聯合構建的民間學術社群,目前已經發展為國內外知名的機器學習與自然語言處理社群,旨在促進機器學習,自然語言處理學術界、產業界和廣大愛好者之間的進步。
社群可以為相關從業者的深造、就業及研究等方面提供開放交流平臺。歡迎大家關注和加入我們。

掃描二維碼新增小助手微信
關於我們
