社群是國內外知名的機器學習與自然語言處理社群,受眾覆蓋國內外NLP碩博生、高校老師以及企業研究人員。
隨著deepseek的爆火,蒸餾推理模型的熱度又被推向新高度,年前李飛飛團隊的的一篇《s1: Simple test-time scaling》也火了起來。
paper: https://arxiv.org/abs/2501.19393
data: https://huggingface.co/datasets/simplescaling/s1K
這裡要給大家先說幾點,避免其他文章被帶入到誤區。
-
s1超過的是o1-preview,沒有超過o1甚至o1-mini,有很大區別
-
s1的效果不敵deepseek-r1 800k資料蒸餾的32B模型,差了不少,不是媲美
-
s1即使使用全量59k資料的效果也沒有提高很多,甚至在math上還有下降,所以核心是資料質量
-
1k資料是從59K資料中篩選出來的,不是直接蒸餾1K資料就可以效果很好
-
s1使用1k資料是節省了訓練時間,但蒸餾的難點在蒸餾資料的構造上
好了,下面開始介紹s1。

s1的本質是資料篩選+推理預算強制。
有了deepseek-r1-distill之後,我們知道,在不使用RL的情況下,純SFT也能獲得效果較好的推理模型。
而deepseek-r1-distill是使用了80k 資料SFT訓練得來,做了這麼久的SFT,我們都知道,資料質量、複雜度、多樣性直接影響最後微調效果。我之前也分享過一些資料篩選的分享:
s1d的資料篩選也是大同小異,對從16個不同的來源收集的59,029個樣本進行資料篩選,
-
質量篩選:刪除API錯誤的問題、刪除存在任何格式問題的資料
-
難度篩選:刪除Qwen2.5-7B-Instruct或Qwen2.5-32B-Instruct能夠正確解答的問題
-
多樣性篩選:將所有問題按MSC系統分類,隨機選擇一個領域的更長推理鏈條的資料。
除了篩選SFT資料外,s1還提出一種預算強制方法,在推理過程中,強制結束或延長思考時間來控制推理計算時間,從而干預推理效果。
-
強制結束:簡單地新增“思考結束標記符”和““Final Answer:””
-
強制思考:抑制生成“思考結束標記符”,並選擇性新增“wait”字元到當前推理路徑中,鼓勵模型持續反思、生成。

注意:s1的核心貢獻還有開源了對應的訓練資料。
s1的整體效果,如下圖所示,比o1-preview、Sky-T1要好,AIME和MATH超過了QWQ,MATH和GPQA超過了Bespoke-32B。
同時,使用預算強制方法的效果十分有效,在三個資料集上均有不錯的提高,甚至AIME上提高6.7%。

資料篩選效果,1K資料的訓練結果媲美全量資料訓練結果,而並且遠由於,隨機選擇資料、取最長資料等方法。

最後,s1還有有點意思的,但是大家一定要理性看待技術,我太怕哪個甲方跟我說,1k資料訓練出r1了,想想就難受!

掃描二維碼新增小助手微信
關於我們
