這是一個或許對你有用的社群
《專案實戰(影片)》:從書中學,往事上“練” 《網際網路高頻面試題》:面朝簡歷學習,春暖花開 《架構 x 系統設計》:摧枯拉朽,掌控面試高頻場景題 《精進 Java 學習指南》:系統學習,網際網路主流技術棧 《必讀 Java 原始碼專欄》:知其然,知其所以然
這是一個或許對你有用的開源專案
國產 Star 破 10w+ 的開源專案,前端包括管理後臺 + 微信小程式,後端支援單體和微服務架構。功能涵蓋 RBAC 許可權、SaaS 多租戶、資料許可權、商城、支付、工作流、大屏報表、微信公眾號、ERP、CRM、AI 大模型等等功能:
Boot 多模組架構:https://gitee.com/zhijiantianya/ruoyi-vue-pro Cloud 微服務架構:https://gitee.com/zhijiantianya/yudao-cloud 影片教程:https://doc.iocoder.cn 【國內首批】支援 JDK 17/21 + SpringBoot 3.3、JDK 8/11 + Spring Boot 2.7 雙版本
今天下午簡直被這條新聞刷屏了,"震驚",“李飛飛”,“50美元”,“Deep Seek R1",這幾個詞連到一起,簡直是掀了Open AI和英偉達的桌子,即便是蒸餾出來的模型,那這麼低的成本,OpenAI花了幾十、幾百億美元做出來的模型,被輕鬆複製,那OpenAI的估值不得打個骨折?

我就趕緊看了下論文:
https://arxiv.org/html/2501.19393v1
Github:
https://github.com/simplescaling/s1

結果發現並不是那麼回事。
首先這個50美元咋來的?因為論文中提到用了16塊H100 GPU,而且只花了26min,如果是租伺服器的話,確實也就是幾十美元。

但問題是,論文中並不是訓練出了DeepSeek R1!
論文的核心內容是基於開源的Qwen2.5 – 32B模型,該模型是蒸餾出來的模型,32B只能算是中等引數模型,作為本次實驗對比的R1和o1都是大幾千億引數的模型。用小資料集進行監督微調,而且微調後的引數數量跟之前基本保持一致,然後在特定任務上把效能優化了,而這些任務的效能表現可以媲美DeepSeek R1和OpenAI o1。
怎麼經過中文博主翻譯過來後,就成了50美元蒸餾出了DeepSeek R1?
以下的論文的解讀(使用豆包解讀):
-
研究背景與目標:語言模型效能提升多依賴訓練時計算資源擴充套件,測試時縮放是新正規化,OpenAI 的 o1 模型展示了其潛力,但方法未公開。本文旨在探尋實現測試時縮放和強推理效能的最簡方法。 -
s1K 資料集構建 -
初始資料收集:依據質量、難度和多樣性原則,從 16 個來源收集 59,029 個問題,涵蓋現有資料集整理和新的定量推理資料集建立,用 Google Gemini Flash Thinking API 生成推理軌跡和解決方案,並進行去重和去汙染處理。 -
最終樣本選擇:經質量、難度和多樣性三步篩選得到 1,000 個樣本的 s1K 資料集。質量篩選去除 API 錯誤和低質量樣本;難度篩選依據兩個模型的效能和推理軌跡長度排除過易問題;多樣性篩選按數學學科分類,從不同領域取樣,且傾向選擇推理軌跡長的樣本。 -
測試時縮放方法 -
方法分類與提出:將測試時縮放方法分為順序和並行兩類,重點研究順序縮放。提出預算強制(Budget forcing)方法,透過強制設定思考令牌的最大或最小數量,控制模型思考時間,引導模型檢查答案、修正推理步驟。 -
基準對比:將預算強制與條件長度控制方法(令牌條件控制、步驟條件控制、類別條件控制)和拒絕取樣進行對比。使用控制(Control)、縮放(Scaling)和效能(Performance)三個指標評估,結果表明預算強制在控制、縮放和最終效能上表現最佳。 -
實驗結果 -
實驗設定:用 s1K 對 Qwen2.5-32B-Instruct 進行監督微調得到 s1-32B 模型,在 AIME24、MATH500 和 GPQA Diamond 三個推理基準上評估,並與 OpenAI o1 系列、DeepSeek r1 系列等模型對比。 -
效能表現:s1-32B 在測試時縮放中,效能隨測試時計算資源增加而提升,在 AIME24 上超過 o1-preview 達 27%,且是最具樣本效率的開源資料推理模型,接近 Gemini 2.0 在 AIME24 上的效能,驗證了蒸餾過程的有效性。 -
消融實驗 -
資料相關:測試資料質量、多樣性和難度組合的重要性。隨機選擇(僅質量)、僅多樣性選擇、僅難度選擇(選最長推理軌跡樣本)的資料集效能均不如 s1K,訓練 59K 全量樣本雖效能強但資源消耗大,證明 s1K 構建方法的有效性。 -
測試時縮放方法:預算強制在 AIME24 測試中控制完美、縮放良好、得分最高,“Wait” 作為擴充套件效能的字串效果最佳。令牌條件控制在無預算強制時失敗,步驟條件控制下模型可繞過計算約束,類別條件控制雖能提升效能但綜合表現不如預算強制,拒絕取樣呈現反向縮放趨勢。 -
討論與展望 -
樣本高效推理:眾多研究致力於複製 o1 效能,本文透過 1,000 樣本監督微調結合預算強制,構建出有競爭力的模型,推測預訓練使模型具備推理能力,微調啟用該能力。同時,介紹了相關基準和方法的發展情況。 -
測試時縮放:對比了並行和順序測試時縮放方法,分析了預算強制的侷限性,提出改進方向,如改進預算強制策略或結合強化學習探索新的測試時縮放方式 ,並指出並行縮放可作為突破順序縮放限制的解決方案。
國內的網路環境真的是太浮躁了,這種資訊,完全不確認一下就發出來誤導大眾,希望大家以後看到這種資訊要多思考一下。
歡迎加入我的知識星球,全面提升技術能力。

星球的內容包括:專案實戰、面試招聘、原始碼解析、學習路線。





文章有幫助的話,在看,轉發吧。
謝謝支援喲 (*^__^*)