s1推理模型=資料篩選+推理預算強制,也提醒大家不要進入思維誤區

MLNLP

社群是國內外知名的機器學習與自然語言處理社群,受眾覆蓋國內外NLP碩博生、高校老師以及企業研究人員。


社群的願景是促進國內外自然語言處理,機器學習學術界、產業界和廣大愛好者之間的交流和進步,特別是初學者同學們的進步。
來源 | NLP工作站
作者 | 劉聰NLP
隨著deepseek的爆火,蒸餾推理模型的熱度又被推向新高度,年前李飛飛團隊的的一篇《s1: Simple test-time scaling》也火了起來。

paper: https://arxiv.org/abs/2501.19393

data: https://huggingface.co/datasets/simplescaling/s1K

這裡要給大家先說幾點,避免其他文章被帶入到誤區。
  • s1超過的是o1-preview,沒有超過o1甚至o1-mini,有很大區別
  • s1的效果不敵deepseek-r1 800k資料蒸餾的32B模型,差了不少,不是媲美
  • s1即使使用全量59k資料的效果也沒有提高很多,甚至在math上還有下降,所以核心是資料質量
  • 1k資料是從59K資料中篩選出來的,不是直接蒸餾1K資料就可以效果很好
  • s1使用1k資料是節省了訓練時間,但蒸餾的難點在蒸餾資料的構造上
好了,下面開始介紹s1。
s1的本質是資料篩選+推理預算強制。
有了deepseek-r1-distill之後,我們知道,在不使用RL的情況下,純SFT也能獲得效果較好的推理模型。
而deepseek-r1-distill是使用了80k 資料SFT訓練得來,做了這麼久的SFT,我們都知道,資料質量、複雜度、多樣性直接影響最後微調效果。我之前也分享過一些資料篩選的分享:
s1d的資料篩選也是大同小異,對從16個不同的來源收集的59,029個樣本進行資料篩選,
  • 質量篩選:刪除API錯誤的問題、刪除存在任何格式問題的資料
  • 難度篩選:刪除Qwen2.5-7B-Instruct或Qwen2.5-32B-Instruct能夠正確解答的問題
  • 多樣性篩選:將所有問題按MSC系統分類,隨機選擇一個領域的更長推理鏈條的資料。
除了篩選SFT資料外,s1還提出一種預算強制方法,在推理過程中,強制結束或延長思考時間來控制推理計算時間,從而干預推理效果。
  • 強制結束:簡單地新增“思考結束標記符”和““Final Answer:””
  • 強制思考:抑制生成“思考結束標記符”,並選擇性新增“wait”字元到當前推理路徑中,鼓勵模型持續反思、生成。
注意:s1的核心貢獻還有開源了對應的訓練資料。
s1的整體效果,如下圖所示,比o1-preview、Sky-T1要好,AIME和MATH超過了QWQ,MATH和GPQA超過了Bespoke-32B。
同時,使用預算強制方法的效果十分有效,在三個資料集上均有不錯的提高,甚至AIME上提高6.7%。
資料篩選效果,1K資料的訓練結果媲美全量資料訓練結果,而並且遠由於,隨機選擇資料、取最長資料等方法。
最後,s1還有有點意思的,但是大家一定要理性看待技術,我太怕哪個甲方跟我說,1k資料訓練出r1了,想想就難受!
技術交流群邀請函
△長按新增小助手
掃描二維碼新增小助手微信
請備註:姓名-學校/公司-研究方向
(如:小張-哈工大-對話系統)
即可申請加入自然語言處理/Pytorch等技術交流群

關於我們

MLNLP 社群是由國內外機器學習與自然語言處理學者聯合構建的民間學術社群,目前已經發展為國內外知名的機器學習與自然語言處理社群,旨在促進機器學習,自然語言處理學術界、產業界和廣大愛好者之間的進步。
社群可以為相關從業者的深造、就業及研究等方面提供開放交流平臺。歡迎大家關注和加入我們。

相關文章