速遞丨成本僅50美元！李飛飛團隊復刻媲美DeepSeekR1的AI推理模型

根據Tech Crunch報道，李飛飛等斯坦福大學和華盛頓大學的AI研究人員的一篇新研究論文表示，他們成功地用不到50美元的費用訓練了一個AI推理模型。

這個名為s1的模型，在測量數學和編碼能力的測試中，表現與最前沿的推理模型（如OpenAI的o1和DeepSeek的R1）相似。s1模型已經在GitHub上釋出，並附帶了訓練它所用的資料和程式碼。

s1背後的團隊表示，他們從一個現成的基礎模型開始，然後透過蒸餾（distillation）對其進行微調，這是一個從另一個AI模型中提取“推理”能力的過程，透過訓練其答案來實現。

研究人員表示，s1是透過蒸餾Google的推理模型——Gemini 2.0 Flash Thinking Experimental模型獲得的。蒸餾方法與伯克利研究人員上個月以約450美元建立AI推理模型的方式相同。

對於一些人來說，幾位沒有數百萬美元資金支援的研究人員仍能在AI領域進行創新的想法令人興奮。但s1也引發了關於AI模型商品化的真正問題。

如果有人能夠以相對便宜的成本複製一個價值數百萬美元的模型，那麼AI模型的“護城河”在哪裡？

不出所料，大型AI實驗室並不高興。OpenAI指責DeepSeek不當利用其API資料進行模型蒸餾。

s1的研究人員希望找到一種最簡單的方法，以實現強大的推理效能和“測試時擴充套件”（test-time scaling），即讓AI模型在回答問題前多思考一會兒。這些都是OpenAI的o1模型中的一些突破，DeepSeek和其他AI實驗室已透過各種技術嘗試進行復制。

s1論文建議，推理模型可以透過相對較小的資料集和一種叫做監督微調（SFT）的過程進行蒸餾，其中AI模型被明確指導去模仿資料集中的某些行為。

SFT通常比DeepSeek用於訓練其與OpenAI o1模型競爭的R1模型的、大規模強化學習方法便宜。

Google透過其Google AI Studio平臺提供免費訪問Gemini 2.0 Flash Thinking Experimental，儘管每天有使用限制。

然而，Google的條款禁止逆向工程其模型，以開發與該公司自有AI服務競爭的產品。我們已聯絡Google進行評論。

s1基於阿里巴巴旗下中國AI實驗室Qwen的一款小型現成AI模型，該模型可免費下載。為了訓練s1，研究人員建立了一個包含1000個精心挑選問題的資料集，並且每個問題都附有答案和Google的Gemini 2.0 Flash Thinking Experimental模型的“思考”過程。

研究人員表示，在使用16臺Nvidia H100 GPU進行訓練的不到30分鐘時間裡，s1在某些AI基準測試中表現出色。參與該專案的斯坦福大學研究員Niklas Muennighoff告訴TechCrunch，他今天大約花20美元就能租到所需的計算資源。

研究人員還使用了一個巧妙的技巧，讓s1檢查自己的工作並延長“思考”時間：他們告訴它等待。在s1的推理過程中加入“wait”一詞幫助該模型得出略微更準確的答案，論文中提到。

2025年，Meta、Google和Microsoft計劃在AI基礎設施上投資數千億美元，這些資金將部分用於訓練下一代AI模型。

這種規模的投資可能仍然是推動AI創新的必要條件。蒸餾已被證明是以低成本重新建立AI模型能力的有效方法，但它並不能創造出遠超現有模型的新AI。

參考資料

[1] https://techcrunch.com/2025/02/05/researchers-created-an-open-rival-to-openais-o1-reasoning-model-for-under-50/

歡迎掃碼加群參與討論

———END——–

我們相信認知能夠跨越階層，

致力於為年輕人提供高質量的科技、資本和商業內容。

青投創新，新型科創產業服務平臺，以科技、人才、資本為核心，透過內容出版、資料支援、產業諮詢、科技轉化等業務，為科技人才創業專案提供孵化及加速賦能服務，助力國家科技興國計劃。

dignews.cc