成本不到150元！李飛飛等26分鐘訓出個推理模型，媲美o1和R1，秘訣：用蒸餾

2025-08-23 00:39 量子位

來源丨量子位（ID：QbitAI）

作者丨衡宇

成本不到150元，訓練出一個媲美DeepSeek-R1和OpenAI o1的推理模型？！

這不是洋蔥新聞，而是AI教母李飛飛、斯坦福大學、華盛頓大學、艾倫人工智慧實驗室等攜手推出的最新傑作：s1。

在數學和程式設計能力的評測集上，s1的表現比肩DeepSeek-R1和o1。

而訓一個這樣效能的模型，團隊僅僅用了16個英偉達H100，訓練耗時26分鐘。

據TechCrunch，這個訓練過程消耗了不到50美元的雲計算成本，約合人民幣364.61元；而s1模型作者之一表示，訓練s1所需的計算資源，在當下約花20美元（約145.844元）就能租到。

怎麼做到的？？？

s1團隊表示，秘訣只有一個：蒸餾。

簡單來說，團隊以阿里通義團隊的Qwen2.5- 32B-Instruct作為基礎模型，透過蒸餾谷歌DeepMind的推理模型Gemini 2.0 Flash Thinking實驗版，最終得到了s1模型。

為了訓練s1，研究團隊建立了一個包含1000個問題（精心挑選那種）的資料集，且每個問題都附有答案，以及Gemini 2.0 Flash Thinking實驗版的思考過程。

目前，專案論文《s1: Simple test-time scaling》已經掛上arXiv，模型s1也已在GitHub上開源，研究團隊提供了訓練它的資料和程式碼。

150元成本，訓練26分鐘

s1團隊搞這個花活，起因是OpenAI o1展現了Test-time Scaling的能力。

即「在推理階段透過增加計算資源或時間，來提升大模型的效能」，這是原本預訓練Scaling Law達到瓶頸後的一種新Scaling。

但OpenAI並未公開是如何實現這一點的。

在復現狂潮之下，s1團隊的目標是尋找到Test-time Scaling的簡單方法。

過程中，研究人員先構建了一個1000個樣本的資料集，名為s1K。

起初，在遵循質量、難度、多樣性原則的基礎上，這個資料集收集了來自MATH、AGIEval等諸多來源的59029個問題。

經去重、去噪後，透過質量篩選、基於模型效能和推理痕跡長度的難度篩選，以及基於數學學科分類的多樣性篩選，最終留下了一個涵蓋1000個精心挑選過的問題的資料集。

且每個問題都附有答案，以及谷歌Gemini 2.0 Flash Thinking實驗版的模型思考過程。

這就是最終的s1K。

研究人員表示，Test-time Scaling有2種。

第1種，順序Scaling，較晚的計算取決於焦躁的計算（如較長的推理軌跡）。

第2種，並行Scaling，be like計算獨立執行（如多數投票任務）。

s1團隊專注於順序這部分，原因是團隊“從直覺上”認為它可以起到更好的Scaling——因為後面的計算可以以中間結果為基礎，從而允許更深入的推理和迭代細化。

基於此，s1團隊提出了新的順序Scaling方法，以及對應的Benchmark。

研究過程中，團隊提出了一種簡單的解碼時間干預方法budget forcing，在測試時強制設定最大和/或最小的思考token數量。

具體來說，研究者使用了一種很簡單的辦法：

直接新增“end-of-thinking token分隔符”和“Final Answer”，來強制設定思考token數量上限，從而讓模型提前結束思考階段，並促使它提供當前思考過程中的最佳答案。

為了強制設定思考過程的token數量下限，團隊又禁止模型生成“end-of-thinking token分隔符”，並可以選擇在模型當前推理軌跡中新增“wait”這個詞，鼓勵它多想想，反思反思當前的思考結果，引導最佳答案。

以下是budget forcing這個辦法的一個實操示例：

團隊還為budget forcing提供了baseline。

一是條件長度控制方法（Conditional length-control methods），該方法依賴於，在提示中告訴模型它應該花費多長時間來生成輸出。

團隊按顆粒度將它們分為Token-conditional控制、步驟條件控制和類條件控制。

Token-conditional控制：在提示詞中，指定Thinking Tokens的上限；
步驟條件控制：指定一個思考步驟的上限。其中每個步驟約100個tokens；
類條件控制：編寫兩個通用提示，告訴模型思考短時間或長時間。

二是拒絕抽樣（rejection sampling）。

即在抽樣過程中，若某一生成內容符合預先設定的計算預算，就停止計算。

該演算法透過其長度來捕捉響應的後驗分佈。

而s1模型的整個訓練過程，只用了不到半個小時——

團隊在論文中表示，他們使用Qwen2.532B-Instruct模型在s1K資料集上進行SFT，使用16個英偉達H100，訓練耗時26分鐘。

s1研究團隊的Niklas Muennighoff（斯坦福大學研究員）告訴TechCrunch，訓練s1所需的計算資源，在當下約花20美元就能租到。

研究新發現：

頻繁抑制思考會導致死迴圈

訓出模型後，團隊選用3個推理基準測試，把s1-32B和OpenAI o1系列、DeepSeek-R1系列、阿里通義Qwen2.5系列/QWQ、崑崙萬維Sky系列、Gemini 2.0 Flash Thinking實驗版等多個模型進行對比。

3個推理基準測試如下：

AIME24：2024年美國數學邀請考試中使用的30個問題
MATH500：不同難度的競賽數學問題的基準
GPQA Diamond：生物、化學和物理領域的198個博士級問題

整體來說，採用了budget forcing的s1-32B擴充套件了更多的test-time compute。

評測資料顯示，s1-32B在MATH500上拿到了93.0的成績，超過o1-mini，媲美o1和DeepSeek-R1。

不過，如下圖所示，團隊發現，雖然可以用budget forcing和更多的test-time compute來提高s1在AIME24上的效能，在AIME24上比 o1-preview最高提升27%。

但曲線最終在效能提升6倍後趨於平緩。

由此，團隊在論文中寫道：

過於頻繁地抑制思考結束標記分隔符，會導致模型進入重複迴圈，而不是繼續推理。

而如下圖所示，在s1K上訓練Qwen2.5-32B-Instruct來得到s1-32B，併為它配備了簡單的budget forcing後，它採用了不同的scaling正規化。

具體來說，透過多數投票在基礎模型上對test-time compute進行Scale的方法，訓出的模型無法趕上s1-32B的效能。

這就驗證了團隊之前的“直覺”，即順序Scaling比並行Scaling更有效。

此外，團隊提到，s1-32B僅僅使用了1000個樣本訓練，在AIME24上的成績就能接近Gemini 2.0 Thinking，是“樣本效率最高的開源資料推理模型”。

研究人員還表示，Budget forcing在控制、縮放和效能指標上表現最佳。

而其它方法，如Token-conditional控制、步驟條件控制、類條件控制等，均存在各種問題。

One More Thing

s1模型，是在一個1000個精挑細選的小樣本資料集上，透過SFT，讓小模型能力在數學等評測集上效能飆升的研究。

但結合近期刷爆全網的DeepSeek-R1——以1/50成本比肩o1效能——背後的故事，可以窺見模型推理技術的更多值得挖掘之處。

模型蒸餾技術加持下，DeepSeek-R1的訓練成本震撼矽谷。

現在，AI教母李飛飛等，又一次運用「蒸餾」，花費低到令人咋舌的訓練成本，做出了一個能媲美頂尖推理模型的32B推理模型。

一起期待大模型技術更精彩的2025年吧～

arXiv：

https://arxiv.org/pdf/2501.19393

GitHub：

https://github.com/simplescaling/s1

參考連結：

https://techcrunch.com/2025/02/05/researchers-created-an-open-rival-to-openais-o1-reasoning-model-for-under-50/

相關文章

目前對Grok3分析最為透徹的一篇文章

目前對Grok3分析最為透徹的一篇文章

是百度太低調了嗎？網傳ScalingLaw開山之作來自百度研究院

是百度太低調了嗎？網傳ScalingLaw開山之作來自百度研究院

長影片效能提升6.6％！用文字資料撬動影片理解

長影片效能提升6.6％！用文字資料撬動影片理解

蘋果發現原生多模態模型ScalingLaws：早融合優於後融合，MoE優於密集模型

蘋果發現原生多模態模型ScalingLaws：早融合優於後融合，MoE優於密集模型

谷歌重磅推出全新ScalingLaw，搶救Transformer！3萬億美元AI面臨岔路

谷歌重磅推出全新ScalingLaw，搶救Transformer！3萬億美元AI面臨岔路

谷歌超硬核教科書來了！JeffDean帶貨揭Gemini訓練秘籍：在TPU上scaling

谷歌超硬核教科書來了！JeffDean帶貨揭Gemini訓練秘籍：在TPU上scaling

大模型擴充套件新維度：ScalingDown、ScalingOut

大模型擴充套件新維度：ScalingDown、ScalingOut

Apple多模態大模型新工作！發現原生多模態模型ScalingLaws：早融合優於後融合，MoE優於密集模型

Apple多模態大模型新工作！發現原生多模態模型ScalingLaws：早融合優於後融合，MoE優於密集模型

長鏈推理相關論文速覽

長鏈推理相關論文速覽

萬字長文解讀ScalingLaw的一切，洞見LLM的未來

萬字長文解讀ScalingLaw的一切，洞見LLM的未來

Copyright © 2025 | WordPress Theme by MH Themes