速遞丨成本僅50美元!李飛飛團隊復刻媲美DeepSeekR1的AI推理模型

根據Tech Crunch報道,李飛飛等斯坦福大學和華盛頓大學的AI研究人員的一篇新研究論文表示,他們成功地用不到50美元的費用訓練了一個AI推理模型。
這個名為s1的模型,在測量數學和編碼能力的測試中,表現與最前沿的推理模型(如OpenAI的o1和DeepSeek的R1)相似。s1模型已經在GitHub上釋出,並附帶了訓練它所用的資料和程式碼。
s1背後的團隊表示,他們從一個現成的基礎模型開始,然後透過蒸餾(distillation)對其進行微調,這是一個從另一個AI模型中提取“推理”能力的過程,透過訓練其答案來實現。
研究人員表示,s1是透過蒸餾Google的推理模型——Gemini 2.0 Flash Thinking Experimental模型獲得的。蒸餾方法與伯克利研究人員上個月以約450美元建立AI推理模型的方式相同。
對於一些人來說,幾位沒有數百萬美元資金支援的研究人員仍能在AI領域進行創新的想法令人興奮。但s1也引發了關於AI模型商品化的真正問題。
如果有人能夠以相對便宜的成本複製一個價值數百萬美元的模型,那麼AI模型的“護城河”在哪裡?
不出所料,大型AI實驗室並不高興。OpenAI指責DeepSeek不當利用其API資料進行模型蒸餾。
s1的研究人員希望找到一種最簡單的方法,以實現強大的推理效能和“測試時擴充套件”(test-time scaling),即讓AI模型在回答問題前多思考一會兒。這些都是OpenAI的o1模型中的一些突破,DeepSeek和其他AI實驗室已透過各種技術嘗試進行復制。
s1論文建議,推理模型可以透過相對較小的資料集和一種叫做監督微調(SFT)的過程進行蒸餾,其中AI模型被明確指導去模仿資料集中的某些行為。
SFT通常比DeepSeek用於訓練其與OpenAI o1模型競爭的R1模型的、大規模強化學習方法便宜。
Google透過其Google AI Studio平臺提供免費訪問Gemini 2.0 Flash Thinking Experimental,儘管每天有使用限制。
然而,Google的條款禁止逆向工程其模型,以開發與該公司自有AI服務競爭的產品。我們已聯絡Google進行評論。
s1基於阿里巴巴旗下中國AI實驗室Qwen的一款小型現成AI模型,該模型可免費下載。為了訓練s1,研究人員建立了一個包含1000個精心挑選問題的資料集,並且每個問題都附有答案和Google的Gemini 2.0 Flash Thinking Experimental模型的“思考”過程。
研究人員表示,在使用16臺Nvidia H100 GPU進行訓練的不到30分鐘時間裡,s1在某些AI基準測試中表現出色。參與該專案的斯坦福大學研究員Niklas Muennighoff告訴TechCrunch,他今天大約花20美元就能租到所需的計算資源。
研究人員還使用了一個巧妙的技巧,讓s1檢查自己的工作並延長“思考”時間:他們告訴它等待。在s1的推理過程中加入“wait”一詞幫助該模型得出略微更準確的答案,論文中提到。
2025年,Meta、Google和Microsoft計劃在AI基礎設施上投資數千億美元,這些資金將部分用於訓練下一代AI模型。
這種規模的投資可能仍然是推動AI創新的必要條件。蒸餾已被證明是以低成本重新建立AI模型能力的有效方法,但它並不能創造出遠超現有模型的新AI。
參考資料 
[1]  https://techcrunch.com/2025/02/05/researchers-created-an-open-rival-to-openais-o1-reasoning-model-for-under-50/
歡迎掃碼加群參與討論
———END——–
我們相信認知能夠跨越階層,
致力於為年輕人提供高質量的科技、資本和商業內容。
青投創新,新型科創產業服務平臺,以科技、人才、資本為核心,透過內容出版、資料支援、產業諮詢、科技轉化等業務,為科技人才創業專案提供孵化及加速賦能服務,助力國家科技興國計劃。

相關文章