李飛飛團隊50美元訓練出DeepSeekR1？

👉 這是一個或許對你有用的社群

🐱 一對一交流/面試小冊/簡歷最佳化/求職解惑，歡迎加入「芋道快速開發平臺」知識星球。下面是星球提供的部分資料：

《專案實戰（影片）》：從書中學，往事上“練”

《網際網路高頻面試題》：面朝簡歷學習，春暖花開

《架構 x 系統設計》：摧枯拉朽，掌控面試高頻場景題

《精進 Java 學習指南》：系統學習，網際網路主流技術棧

《必讀 Java 原始碼專欄》：知其然，知其所以然

👉這是一個或許對你有用的開源專案

國產 Star 破 10w+ 的開源專案，前端包括管理後臺 + 微信小程式，後端支援單體和微服務架構。

功能涵蓋 RBAC 許可權、SaaS 多租戶、資料許可權、商城、支付、工作流、大屏報表、微信公眾號、ERP、CRM、AI 大模型等等功能：

Boot 多模組架構：https://gitee.com/zhijiantianya/ruoyi-vue-pro

Cloud 微服務架構：https://gitee.com/zhijiantianya/yudao-cloud

影片教程：https://doc.iocoder.cn

【國內首批】支援 JDK 17/21 + SpringBoot 3.3、JDK 8/11 + Spring Boot 2.7 雙版本

今天下午簡直被這條新聞刷屏了，"震驚"，“李飛飛”，“50美元”，“Deep Seek R1"，這幾個詞連到一起，簡直是掀了Open AI和英偉達的桌子，即便是蒸餾出來的模型，那這麼低的成本，OpenAI花了幾十、幾百億美元做出來的模型，被輕鬆複製，那OpenAI的估值不得打個骨折？

我就趕緊看了下論文：

https://arxiv.org/html/2501.19393v1

Github：

https://github.com/simplescaling/s1

結果發現並不是那麼回事。

首先這個50美元咋來的？因為論文中提到用了16塊H100 GPU，而且只花了26min，如果是租伺服器的話，確實也就是幾十美元。

但問題是，論文中並不是訓練出了DeepSeek R1！

論文的核心內容是基於開源的Qwen2.5 – 32B模型，該模型是蒸餾出來的模型，32B只能算是中等引數模型，作為本次實驗對比的R1和o1都是大幾千億引數的模型。用小資料集進行監督微調，而且微調後的引數數量跟之前基本保持一致，然後在特定任務上把效能優化了，而這些任務的效能表現可以媲美DeepSeek R1和OpenAI o1。

怎麼經過中文博主翻譯過來後，就成了50美元蒸餾出了DeepSeek R1?

以下的論文的解讀（使用豆包解讀）：

研究背景與目標：語言模型效能提升多依賴訓練時計算資源擴充套件，測試時縮放是新正規化，OpenAI 的 o1 模型展示了其潛力，但方法未公開。本文旨在探尋實現測試時縮放和強推理效能的最簡方法。
s1K 資料集構建

初始資料收集：依據質量、難度和多樣性原則，從 16 個來源收集 59,029 個問題，涵蓋現有資料集整理和新的定量推理資料集建立，用 Google Gemini Flash Thinking API 生成推理軌跡和解決方案，並進行去重和去汙染處理。
最終樣本選擇：經質量、難度和多樣性三步篩選得到 1,000 個樣本的 s1K 資料集。質量篩選去除 API 錯誤和低質量樣本；難度篩選依據兩個模型的效能和推理軌跡長度排除過易問題；多樣性篩選按數學學科分類，從不同領域取樣，且傾向選擇推理軌跡長的樣本。

測試時縮放方法

方法分類與提出：將測試時縮放方法分為順序和並行兩類，重點研究順序縮放。提出預算強制（Budget forcing）方法，透過強制設定思考令牌的最大或最小數量，控制模型思考時間，引導模型檢查答案、修正推理步驟。
基準對比：將預算強制與條件長度控制方法（令牌條件控制、步驟條件控制、類別條件控制）和拒絕取樣進行對比。使用控制（Control）、縮放（Scaling）和效能（Performance）三個指標評估，結果表明預算強制在控制、縮放和最終效能上表現最佳。

實驗結果

實驗設定：用 s1K 對 Qwen2.5-32B-Instruct 進行監督微調得到 s1-32B 模型，在 AIME24、MATH500 和 GPQA Diamond 三個推理基準上評估，並與 OpenAI o1 系列、DeepSeek r1 系列等模型對比。
效能表現：s1-32B 在測試時縮放中，效能隨測試時計算資源增加而提升，在 AIME24 上超過 o1-preview 達 27%，且是最具樣本效率的開源資料推理模型，接近 Gemini 2.0 在 AIME24 上的效能，驗證了蒸餾過程的有效性。

消融實驗

資料相關：測試資料質量、多樣性和難度組合的重要性。隨機選擇（僅質量）、僅多樣性選擇、僅難度選擇（選最長推理軌跡樣本）的資料集效能均不如 s1K，訓練 59K 全量樣本雖效能強但資源消耗大，證明 s1K 構建方法的有效性。
測試時縮放方法：預算強制在 AIME24 測試中控制完美、縮放良好、得分最高，“Wait” 作為擴充套件效能的字串效果最佳。令牌條件控制在無預算強制時失敗，步驟條件控制下模型可繞過計算約束，類別條件控制雖能提升效能但綜合表現不如預算強制，拒絕取樣呈現反向縮放趨勢。

討論與展望

樣本高效推理：眾多研究致力於複製 o1 效能，本文透過 1,000 樣本監督微調結合預算強制，構建出有競爭力的模型，推測預訓練使模型具備推理能力，微調啟用該能力。同時，介紹了相關基準和方法的發展情況。
測試時縮放：對比了並行和順序測試時縮放方法，分析了預算強制的侷限性，提出改進方向，如改進預算強制策略或結合強化學習探索新的測試時縮放方式，並指出並行縮放可作為突破順序縮放限制的解決方案。

國內的網路環境真的是太浮躁了，這種資訊，完全不確認一下就發出來誤導大眾，希望大家以後看到這種資訊要多思考一下。

歡迎加入我的知識星球，全面提升技術能力。

👉 加入方式，“長按”或“掃描”下方二維碼噢：