50美元複製DeepSeek?揭開李飛飛團隊的「省錢」的秘密 2025-05-09 12:23 愛範兒 50 美元 創造奇蹟? DeepSeek 以低成本訓練出高效能模型成為開年重頭戲,但沒想到春節之後還有高手,最近李飛飛團隊用 50 美元「複製」DeepSeek R1 的詞條也一度衝上了熱搜。 但很快,細心網友從公佈的研究論文中發現,這個說法頗有斷章取義之嫌,所謂李飛飛團隊研發出來的 S1-32B 推理模型實際上是在 Qwen2.5-32b-Instruct 模型基礎上進行監督微調得來。 專案地址:https://github.com/simplescaling/s1 而微調模型與從零造模型的區別不亞於玩了一個文字遊戲。 甚至研究論文壓根並未提及 50 美元成本,論文中提到模型在 16 塊 Nvidia H100 GPU 上訓練了 26 分鐘,這可能是最靠近 50 美元說法的成本。但這筆支出還未計入其他資料、裝置、消融實驗等費用。 深入研究這篇論文還發現,除了監督微調,研究團隊引入了測試時縮放(Test-time Scaling)技術,特別是「預算強制」(budget forcing)方法。 簡單點說,「預算強制」就是當模型生成的推理標記超過預設的最大限制時,透過新增「結束思考」標記來強制模型停止推理,並生成最終答案。 而當需要模型花費更多計算資源進行更深入的推理時,透過抑制「結束思考」標記的生成,並附加字串「Wait」,促使模型繼續思考和檢查當前答案。 透過調控推理時間,讓模型能在測試階段投入更多算力來檢驗和最佳化答案,從而提升推理表現。 因此,s1-32B 在多個推理任務(如 AIME24 和 MATH500)上表現出色,甚至超過了 OpenAI 的 o1-preview 模型。其中,s1-32B 在 AIME24 上的準確率達到了 56.7%,展現了測試時 scaling 的顯著效果。 不過,無論在哪個測試集,s1-32B 均未超過正式版 o1 和滿血版 DeepSeek-R1。 並且,s1-32B 能取得如此優異的成績,很大程度上得益於研究團隊精心打造的 s1K 資料集。 這個包含 1000 個高質量、多樣化且富有挑戰性的問題集不僅極大提高了模型的泛化能力,還融入了從 Google Gemini Thinking Experimental 模型中提取的「思考過程」。 值得注意的是,這種低成本訓練強大推理模型的探索並非個例。 近期,來自加州伯克利大學在讀博士 Jiayi Pan(潘家怡)的研究團隊更是成功地以極低的成本(低於30 美元)復現了 DeepSeek R1-Zero 的關鍵技術——「頓悟時刻」。 該團隊透過強化學習重構了 DeepSeek 的推理模型,僅依靠基礎語言模型、簡單提示和獎勵機制就訓練出了 TinyZero。結果顯示,從 1.5 億引數規模開始,模型就能夠學會搜尋、自我驗證和修正解決方案。 而 TinyZero 專案同樣基於 Qwen2.5 系列模型構建,成本據稱約為 30 美元。 《南華早報》的最新報道也援引了潘家怡的說法,以如此低的成本——大約相當於在紐約熟食店買一個三明治的價格——訓練出強大的推理模型,關鍵在於基礎模型。 實際上,Qwen 系列一直在海內外開源社群頗受好評。 s1 和 TinyZero 之所以都選擇阿里的 Qwen2.5,也是因為該模型的開原始碼允許任何人訪問和修改基礎模型,同時它的效能更是處於頂尖水平。 近日,全球最大 AI 開源社群 Huggingface 釋出了最新的開源大模型榜單(Open LLM Leaderboard),其中榜單顯示,其排名前十的開源大模型全部是基於 Qwen 開源模型二次訓練的衍生模型。 據悉,Open LLM Leaderboard 是目前全球最具權威性的開源大模型榜單,其測試維度涵蓋閱讀理解、邏輯推理、數學計算、事實問答等。 而通義千問 Qwen 大模型已經成為全球最大的開源模型族群。 在海內外開源社群中,Qwen 的衍生模型數量已突破 9 萬,超越美國 Meta 公司旗下的 Llama 系列開源模型,位居全球第一。 在 Hugging Face 2024 年的開源模型下載中,Qwen 模型系列中的 Qwen2.5-1.5B-Instruct 的下載量佔總下載量的 26.6%,是全球下載量最高的開源模型。 此外,此前爆火的 DeepSeek 公司基於 R1 推理模型蒸餾了 6 個模型開源給社群,其中有 4 個模型來自 Qwen。 可以說,正是基於這樣的開源基礎模型,才讓更多研究者得以在其基礎上進行探索。 雖然「50 美元複製 DeepSeek R1」的說法可能有誇大之嫌,但這種低成本創新的探索方向也為未來 AI 發展提供了一個更具包容性和可能性的路徑。 實測華為小藝版 DeepSeek,和滿血版 R1 有差別嗎? 不想漫無目的刷手機,這個應用比「笨手機」更有效