
模型特別引入了兩種互補的「解題風格」:
訓練過程分為兩階段,在第一階段,研究人員主要訓練快速模式,採用「專家迭代」方法:模型先嚐試解決難題,成功的答案再作為新資料反哺模型,不斷打磨自己的能力。
待快速模式趨於穩定後,研究人員進入第二階段,開始訓練更復雜的邏輯推理能力。他們將 DeepSeek-V3 的數學知識遷移到新模型中,並結合形式化資料,引入「冷啟動」機制,構建起更復雜的推理路徑。

為了進一步提升推理能力,研究人員引入了 GRPO 的強化學習演算法,不同於傳統的 PPO,它直接在多個候選答案中比較優劣,引導模型自主學會選擇最優解。
具體做法是:每次輸入一個定理,系統會生成 32 個不同的證明方案,然後只保留被 Lean 驗證系統判定為「正確」的答案(獎勵 1 分,否則 0 分),這樣模型就能在高質量反饋中不斷進化。
在開發出效能強大的 671B 模型後,DeepSeek 研究團隊又嘗試把這些能力「蒸餾」到更小的 7B 模型中,而整個過程就像是師傅教徒弟:
先用大模型生成解題過程,再教會小模型理解並復現;同時將小模型輸入長度擴充套件至與大模型一致,並經歷相同的強化訓練。
這樣,即便在資源有限的裝置上,使用者也能使用小體積模型獲得接近大模型的數學推理能力,並根據需求選擇快速或詳細解題風格。





對於這道抽象代數,它的回答不僅正確,還能從基本定義出發,解釋了什麼是群同態、Z₁₂ 和 Z₄ 的含義,以及同態的運算規則,顯然,這對於初學者很友好。

從論文所透露的方向來看,DeepSeek-Prover-V2 給出的不僅是數學答案,更指明瞭語言模型下一階段的可能路徑。
如果說過去我們關心的是大模型「能說什麼」,那麼在 Prover-V2 身上,我們得需要關注它「能證明什麼」。
數學只是切入口,推理才是 DeepSeek 這次真正下注的方向。
從生成內容邁向生成結構化邏輯,這條路線不夠性感,也不容易講故事,卻可能最早觸碰通用人工智慧的底層結構。
畢竟,AI 可以不懂人情世故,但它必須學會推理,因為任何知識系統的邊界,歸根結底都是邏輯能否閉環、以及推理能否成立。
1️⃣ DeepSeek-Prover-V2-7B HuggingFace 地址:
https://huggingface.co/deepseek-ai/DeepSeek-Prover-V2-7B
2️⃣ DeepSeek-Prover-V2-671B HuggingFace 地址:
https://huggingface.co/deepseek-ai/DeepSeek-Prover-V2-671B
3️⃣ DeepSeek-ProverBench HuggingFace 地址:
https://huggingface.co/datasets/deepseek-ai/DeepSeek-ProverBench
4️⃣
DeepSeek-Prover-V2
GitHub 地址:
https://github.com/deepseek-ai/DeepSeek-Prover-V2

我們正在招募夥伴
📮 簡歷投遞郵箱[email protected]
✉️ 郵件標題「姓名+崗位名稱」(請隨簡歷附上專案/作品或相關連結)

