





DeepSeek-R1 不僅開源了一系列模型,還披露了所有訓練秘密。它們可能是首個展示 RL 飛輪重大且持續增長的開源專案。
影響力既可以透過「ASI 內部實現」或「草莓計劃」等傳說般的專案實現,也可以簡單地透過公開原始演算法和 matplotlib 學習曲線來達成。









這篇論文的最重要觀點是:完全由強化學習驅動,完全沒有任何監督學習(SFT)的參與,這種方法類似於AlphaZero——透過「冷啟動(Cold Start)」從零開始掌握圍棋、將棋和國際象棋,而不需要模仿人類棋手的下法。
使用基於硬編碼規則計算的真實獎勵,而不是那些容易被強化學習「破解」的學習型獎勵模型。
模型的思考時間隨著訓練程序的推進穩步增加,這不是預先程式設計的,而是一種自發的特性。
出現了自我反思和探索行為的現象。
使用 GRPO 代替 PPO:GRPO 去除了 PPO 中的評論員網路,轉而使用多個樣本的平均獎勵。這是一種簡單的方法,可以減少記憶體使用。
值得注意的是,GRPO 是由 DeepSeek 團隊在 2024 年 2 月發明的,真的是一個非常強大的團隊。


「搶使用者並不是我們的主要目的。我們降價一方面是因為我們在探索下一代模型的結構中,成本先降下來了;
另一方面,我們也覺得無論是 API 還是 AI,都應該是普惠的、人人可以用得起的東西。」


