“李飛飛團隊50美元煉出DeepSeekR1”被質疑,上海交大本科生新“低成本推理”或成新寵!

整理 | 褚杏娟
近日,“李飛飛等斯坦福大學和華盛頓大學的研究人員以不到 50 美元的雲計算費用,成功訓練出了一個名為 s1 的人工智慧推理模型”的訊息引起了很多人關注。該模型名為 s1,該模型在數學和編碼能力測試中的表現,據傳與 OpenAI O1 和 DeepSeek R1 等頂尖推理模型不相上下。
這種零花錢消費水平就能精確複製價值數百萬美元大模型給了大家非常廣闊的想象空間。但現在我們真的可以達到這種水平嗎?
我們先看看該模型都做了些什麼。根據論文,s1 能夠達到不錯效果的核心有兩點:s1K 資料集和預算強制法(budget forcing)。
s1 團隊構建的 s1K 資料集包含 1,000 個精心挑選的問題,包括數學競賽問題、博士級別的科學問題、奧林匹克競賽問題等,配有推理軌跡和答案,並透過三個標準進行驗證:難度、多樣性和質量。這些資料主要來自 NuminaMATH、OlympicArena、OmniMath 等資料集,作為補充,團隊還自己建立了兩個原始資料集 s1-prob 和 s1-teasers。團隊使用谷歌的 Gemini Flash Thinking 模型生成每個問題的推理軌跡(reasoning traces)和答案。
對於測試時擴充套件方法,s1 團隊分成了兩類:並行(後續計算獨立執行,如多數投票任務)和順序(後續計算基於早期計算,如長推理軌跡)。s1 團隊更為關注後者並自己研發的預算強制方法,控制模型在測試時的計算量:如果模型生成的思考標記超過預期限制,就強制結束思考過程,新增“end-of-thinking token 分隔符”和“最終答案”,使模型過渡到生成答案步驟;如果希望模型在問題上花費更多的測試時計算量,則抑制“end-of-thinking token 分隔符”,並在模型當前的推理軌跡中追加“等待”,以鼓勵更多的探索。
最後,s1 團隊對阿里的 Qwen2.5-32B-Instruct 進行 s1K 的監督微調並應用預算強制後,得到模型 s1-32B。微調使用 PyTorch FSDP,在 16 個 NVIDIA H100 GPU 上花費了 26 分鐘。
產生了哪些誤解?
對於該論文的成果,不少人提煉出了這樣幾個關鍵資訊:李飛飛團隊用不到 50 美元訓練出媲美 DeepSeek R1、OpenAI o1 的 AI 推理模型;該模型透過蒸餾法由 Gemini Thinking Experimental 模型提煉出來的 1000 個樣本小型資料集;對 Qwen2.5-32B-Instruct 模型進行監督微調;使用 16 個英偉達 H100 GPU 進行了 26 分鐘的訓練。
有人為此感到驚喜,也有人表示持懷疑。總的來看,這裡面的資訊有真有假。畢業於西安電子科技大學的知乎大模型優秀答主段小草,針對討論比較多的幾個問題進行了剖析。
問題一:都說是李飛飛團隊,跟她有關係嗎?
答:有關係,但不好說多不多。論文標 * 的共同一作有 4 位,主要工作也應該是這幾位做的。李飛飛應該是指導 / 掛名(論文致謝中說了 GPU 和經濟贊助是斯坦福大學,但全文沒有提及李飛飛更多具體論文貢獻)。
其中,Niklas Muennighoff 目前在斯坦福大學攻讀博士研究大型語言模型,與 Contextual AI & Ai2 有合作,學士學位是在北京大學獲得。
Zitong Yang 是斯坦福大學自然語言處理組(Stanford NLP Group)的統計學博士,曾分別在谷歌、蘋果任職。此前在伯克利加州分校就讀,並在 2020 年獲得該校最高學術榮譽。他開發了 Bellman Conformal Inference 方法用於時間序列預測的置信區間校準,提出了 ResMem 提高模型泛化能力。
Xiang Lisa Li 也是斯坦福大學博士,開發了 HALIE 框架,用於評估人類與語言模型的互動。Weijia Shi 則是華盛頓大學博士,開發了檢索增強的語言模型框架 REPLUG 、提出了 INSTRUCTOR 模型和旨在減少幻覺的 Context-aware Decoding 方法,目前在 Ai2 工作。
問題二:真的只用花 50 美元嗎?
答:如果只考慮最後一輪成功微調訓練出 s1 模型所消耗的 GPU 卡時,是的,甚至更少。論文中提到的 s1 模型的訓練卡時只需要 7 H100 卡,作者對媒體說的原話是“可以用 20 美元在雲平臺上租到這些算力”。
關於這裡的成本,有三點需要說明:
  1. s1 模型是基於 Qwen2.5-32B-Instruct 模型使用 1000 條資料進行的 SFT 微調,而非從頭開始的模型訓練(想想也不可能);
  2. 正如 DeepSeek V3 的 557.6 萬美元訓練成本一樣,這裡的成本只包括訓練時的 GPU 算力費用,而不包括人力、資料等一切其他成本;
  3. s1 模型並非只訓了一輪,研究人員還做了很多其他的實驗和測試。
微調一個模型的目的和成本,與從零開始訓練一個模型天差地別,所以如果你真的相信 50 美元可以訓練出超過 o1/R1 的模型,那至少也要把 Qwen2.5-32B 的訓練成本加上。
問題三:真的能超過 o1/R1 嗎?
答:不能。只能透過精心挑選的訓練資料,在特定的測試集上超過 o1-preview,而遠遠沒有超過 o1 正式版或者 DeepSeek R1。
看論文中給出的資料,最後一行就是論文的主要成果:
由此看出,在 AIME 2024 和 MATH 500 兩個測試集中,s1 可以超過 o1-preview,但無論在哪個測試集,s1 都沒有超過 o1 正式版和 R1,而且可以說差距還很大。
為什麼說還需要精心挑選資料呢?可以看另一組分數,這是用不同資料集微調的分數差異:
題四:訓練資料真的是“蒸餾”Gemini 嗎?
答:s1 團隊先收集了 59k 問題,然後從中篩選出了最終的 1k 問題。將這 1k 問題提交到 Gemini 2.0 Flash Thinking 中生成思維鏈和答案,以此構建資料集去微調開源的 Qwen 模型。
“儘管我認為,這種做法嚴格來說不叫蒸餾,而是拿 Gemini 生成資料並對 Qwen 做 SFT(有監督微調),但作者們自己在論文裡寫了這就是‘蒸餾’。那我只能說,現在‘蒸餾’的概念顯然已經被擴大化了。這種行為是否屬於‘蒸餾’,取決於你對‘蒸餾’的定義,我沒辦法給出標準答案。”
問題五:雖然沒超過 o1/R1,但確實能超過 o1-preview,同時微調後也的確比 Qwen2.5-32B-Instruct 進步顯著,怎麼做到的?
答:一是微呼叫的訓練資料起到了一定作用;二是強制讓模型延長思考時間(test time scaling),具體做法叫做“Budget Forcing”預算強制,也就是強制限制模型使用最大或最小 tokens 進行推理,以此控制模型的思考長度。
為了儘可能延長模型的思考,他們將模型的思考放在標籤內,當結束後,以 final answer 給出答案,同時,當 LLM 即將停止思考時,會強制輸出 Wait 來迫使模型繼續思考,透過這樣的方式,模型會進入反思,並可能會發現自己的錯誤。
推理時插入的“Wait”,也許會像當初的 Step by Step 一樣,成為一個魔法 token。“這或許就是古人‘三思而後行’的哲學吧!”
問題六:我可以體驗 s1 模型嗎?
答:s1 模型的論文、資料、模型完全開源,但並沒有託管線上服務以供直接體驗。不過,有人對 s1-32B 模型進行了量化,你可以使用 ollama run hf.co/brittlewis12/s1-32B-GGUF:Q4_0 拉取到本地執行。
開源地址:https://github.com/simplescaling/s1
最後總結一下就是:李飛飛的學生,精心選了 1000 條高質量的資料,透過讓 Gemini 補充完善思維鏈之後作為資料集,以開源的 Qwen2.5-32B 為基座微調出 s1;然後在 s1 輸出時,用“預算強制”方法強行拉長模型的思考時長和輸出 token,然後發現其結果在特定測試集上可以媲美 o1-preview,但比不過 o1 和 DeepSeek R1(差距還比較大)。
“該論文的工作確實有一定價值,但遠遠不必誇大到顛覆 o1/R1 甚至 NVIDIA 算力需求的級別。
順便一提,近期有另一篇論文《LIMO: Less is More for Reasoning》,同樣是基於 Qwen2.5-32B 探討測試時計算擴充套件,可以一併學習。”段小草說道。
其中,《LIMO: Less is More for Reasoning》發現,透過極少數資料示例即可有效激發模型的複雜數學推理能力。這一發現不僅挑戰了模型對大規模資料需求的假設,還挑戰了監督微調(SFT)主要導致記憶而非泛化的常見觀點。
根據論文,LIMO 團隊僅使用了 817 個精選訓練樣本,透過構建更高質量推理鏈,結合推理時計算擴充套件和針對性微調,就在極具挑戰性的 AIME 基準測試中達到了 57.1% 的準確率,其中 MATH 基準測試中達到了 94.8% 的準確率,資料量是之前基於 SFT 大模型的 1%,但 AIME 準確率從 6.5% 提升至 57.1%,MATH 從 59.2% 提升至 94.8%。
值得注意的是,該論文一作 Yixin Ye 是上海交大的本科生,也是 GAIR 實驗室成員,未來計劃讀博。
如何被曲解了?
“李飛飛團隊”的這篇論文 1 月 31 日提交併於 2 月 3 日修訂後,作者 Niklas Muennighoff 發了一篇推文,可以看作是這篇論文宣傳的冷啟動。值得注意的是,這裡論文作者自己說明了復現的是 o1-preview 的成績,而不是 o1,也不是 R1。
之後 AI 工程師 Tim Kellogg 於 2 月 3 日發了一篇部落格,標題簡單直接寫道“S1:6 美元的 R1 競爭對手”。“這篇文章比較標題黨,因為你不可能用 6 美元租到 16 卡的 H100 算力,不知道作者是如何估算出這個價格的。但是不重要,總之這個時候所謂的成本就是 16 x H100 x 26 分鐘。”段小草評價道。
北京時間 2 月 6 日上午,外媒 TechCrunch 發了一篇報道《研究人員用不到 50 美元為 OpenAI o1 推理模型製造了一個開源的競爭對手》這篇報道除了用 50 美元作噱頭外,關於論文技術部分的內容還是比較靠譜的。而“50 美元”的來源是 Niklas Muennighoff 在採訪中告訴 TechCrunch 他可以用大概 20 美元的價格從雲平臺租到一次訓練所需的算力。TechCrunch 還是“保守”了一點,幫他把 20 美元改成了不到 50 美元。
訊息到國內,李飛飛、50 美元、R1、o1 等都成了關鍵詞,也被很多人誤讀。不過也有人對此不是很在意,“真假暫且不說,我個人認為意義還是非凡的,標誌著高等級大模型這種王謝堂前燕,開始飛入尋常百姓家。”
相關連結:
https://arxiv.org/pdf/2501.19393
https://www.zhihu.com/question/11467407313/answer/94584520134
https://arxiv.org/pdf/2502.03387
 會議推薦
在 AI 大模型技術如洶湧浪潮席捲軟體開發領域的當下,變革與機遇交織,挑戰與突破共生。2025 年 4 月 10 – 12 日,QCon 全球軟體開發大會將在北京召開,以 “智慧融合,引領未來” 為年度主題,匯聚各領域的技術先行者以及創新實踐者,為行業發展撥雲見日。現在報名可以享受 8 折優惠,單張門票立省 1360 元,詳情可聯絡票務經理 18514549229 諮詢。
你也「在看」嗎?👇

相關文章