三問一圖萬字拆解DeepSeek-R1：訓練之道、實力之源與市場之變

阿里妹導讀

本文是作者基於自己的學習經歷重新組織的一篇更易於初心者理解的關於DeepSeek的文章，也可以說是作者階段性的學習筆記。

前言

距離DeepSeek釋出已近三個月，DeepSeek的熱度仍在持續發酵當中，在網路上可以看到眼花繚亂的有關DeepSeek-R1的技術文章，不過很多都是對論文原文的摘要或者零碎知識點的拼接，閱讀下來依然會有很多不解之處，於是我打算基於自己的學習經歷重新組織一篇更易於初心者理解的文章，也作為自己階段性的學習筆記。

為了能夠讓大家保持與文章行文邏輯之間的同頻，我會先丟擲幾個問題，並按照解答這幾個問題的順序來組織文章。

這三個問題分別是：

DeepSeek-R1是如何訓練而來的？——即DeepSeek-R1的訓練過程
DeepSeek-R1強在何處？為何一時之間火爆全球？
DeepSeek-R1的出現能夠給我們帶來些什麼？市場與行業是如何反應的？

想必大家剛接觸到DeepSeek時腦中最先冒出的也會是這幾個疑問，希望這篇文章可以幫助大家更好地梳理思路。

DeepSeek-R1是如何訓練而來的？

為了更清晰地瞭解DeepSeek-V3/R1是如何訓練而來的，我與Claude老師協作繪製了一個訓練流程圖(Claude老師畫圖好厲害)。目前網路上流傳著諸多類似的流程圖，不過有一個共同的問題在於，它們均未在圖中體現DeepSeek-V3從而導致很多人會誤以為DeepSeek-R1是基於DeepSeek-V3訓練而來的。

此處要澄清的是，這兩個模型是以相同的起始點DeepSeek-V3-Base基模訓練而來的，這是一個在14.8萬億tokens上預訓練得到的基模。同時V3/R1兩者的訓練思路十分相似，均是先訓練一個質量優良的資料生成器來為自己“生產資料”，兩者只是側重點有所不同，且從論文上來看兩者都用到了對方來為自己生成SFT資料(V3提到用R1生產推理資料，R1提到用V3生產非推理資料)，這種“左腳踩右腳螺旋上天”的現象看起來有些矛盾，但實際上是兩者在並行的探索訓練當中，會用對方的某個檢查點版本作為資料生成器，倒也不難理解。

下圖儘可能簡潔地展示了V3/R1兩者的訓練流程(如有紕漏歡迎指正)：

由筆者與Claude老師共同繪製而成，讚揚一下Claude老師的審美

其過程也可用自然語言描述如下：

R1訓練過程概述：

DeepSeek-V3-Base—>冷啟動資料SFT—>基於GRPO的RL—>DeepSeek-R1-Zero-Teacher—>拒絕取樣—>推理資料60W；

DeepSeek-V3 Pipeline + 部分V3 SFT資料—>非推理資料20W； DeepSeek-V3-Base—>推理資料+非推理資料80W SFT—>基於GRPO的RL—>DeepSeek-R1；

以DeepSeek-V3-Base作為基模，首先收集數千條高質量長CoT資料作為冷啟動資料進行SFT微調，再採用GRPO作為強化學習方法進行RL訓練，強化學習過程接近收斂時，對RL的Checkpoint進行拒絕取樣（rejection sampling）來建立新的SFT資料，再結合DeepSeek-V3在寫作、事實問答、自我認知等領域的監督資料，對DeepSeek-V3-Base進行重新訓練。

第一階段—訓練一個高質量CoT提供者/老師

第一階段第一步—冷啟動(Cold Start)

目的：避免RL訓練初期的不穩定，為模型建立具備良好可讀性的思維鏈基礎，從而後續可以提供高質量CoT資料。

做法：

1.收集數千條長思維鏈(CoT)資料作為冷啟動資料；

收集過程中用到的幾種方法：

以長思維鏈作為樣例的少樣本提示(Few-shot)生成方法，提示模型“照貓畫虎”生成類似的長思維鏈資料；
直接要求模型生成自帶反思與驗證的詳細答案；
整理DeepSeek-R1-Zero的原始輸出為可讀性更好的形式；
人工標註修正；

2.以DeepSeek-V3-Base作為基模，在冷啟動資料上進行SFT微調，獲得了後續大規模RL的訓練起點。

相對於DeepSeek-R1-Zero加入【冷啟動】的意義：

DeepSeek-R1-Zero是基於DeepSeek-V3-Base直接進行大規模RL所得到的模型，該模型的輸出會出現【可讀性差】、【語言混雜】的問題，冷啟動階段的資料透過【|special_token|<reasoning_process>|special_token|<summary>】的輸出格式 + 人工篩選讀者友好響應讓DeepSeek-R1的輸出可讀性更好，避免了語言混雜問題。

增強可讀性也是為了後續可以生成高質量的CoT資料。

第一階段第二步—大規模強化學習(RL)

目的：增強模型推理能力

做法：

採用GRPO作為強化學習框架，進行數千步的RL訓練，直至模型在推理任務上收斂，專注於增強模型的推理能力，尤其是在編碼、數學、科學、邏輯推理等推理密集型任務上，這些任務通常是定義清晰、解法明確的。

💡看到這裡，大家可能會對GRPO的具體原理有所疑惑，但出於對篇幅與主題聚焦的考慮，暫不在本文展開。如果大家感興趣的話，這塊梳理了一部分內容後續也可以更新；

GRPO的獎勵機制：

獎勵是訓練訊號的來源，決定了RL的最佳化方向。R1採用了一種基於規則的獎勵系統，由以下兩種獎勵構成：

Accuracy Rewards 準確性獎勵：評估模型的響應是否正確，適用於有確定性結果的數學問題（以指定格式提供答案），或可根據測試用例生成反饋的LeetCode程式設計問題。
Format Rewards 格式獎勵：要求模型將思考過程放置於<think> </think>之間。
除了以上獎勵之外，為了緩解語言混雜問題，R1相較於R1-Zero還額外引入了：
Language Consistency Rewards 語言一致性獎勵：計算CoT中目標語言詞彙所佔比例；

RL所用到的訓練模板，引導模型輸出推理過程與最終答案兩部分：

A conversation between User and Assistant. The user asks a question, and the Assistant solves it.The assistant first thinks about the reasoning process in the mind and then provides the user with the answer.

The reasoning process and answer are enclosed within <think> </think> and <answer> </answer> tags, respectively, i.e., <think> reasoning process here </think> <answer> answer here </answer>. User:

prompt. Assistant:

其中prompt用具體的推理問題代替，故意採取這種高度約束的模板結構是為了避免任何內容特定的偏見（例如強制反思性推理或提升特定問題解決能力的策略）。

💡這種大規模RL的優勢是直接讓模型基於該訓練模板生成長CoT答案，再根據獎勵引導模型。

而如果採用SFT微調的形式，則需要大量的答案為長CoT的高質量資料，獲取這類資料顯然是困難的。

第二階段—基於CoT老師收集微調資料

目的：收集足量的高質量CoT微調資料

做法：

1.利用拒絕取樣(Rejection Sampling)收集推理資料(Reasoning data)：

資料收集：利用RL訓練收斂後的模型執行拒絕取樣，對每個提示進行多次取樣，以生成推理軌跡；

資料評估：

正確性獎勵評估：每個提示會取樣多個響應並僅保留正確答案。

生成式獎勵評估：部分資料以DeepSeek-V3作為生成式獎勵模型，將真實值和預測值輸入V3進行質量評估；

資料過濾：過濾CoT中包含【語言混雜、過長段落、程式碼塊】的低質量資料；

獲得總計60W條的高質量推理資料。

2.複用DeepSeek-V3的Pipeline及其部分SFT資料獲得非推理資料(Non-Reasoning Data)：

DeepSeek-V3的Pipeline即為，用DeepSeek-V2.5為非推理資料生成回覆再進行人工標註，所以此處採用V3 Pipeline的意思大概是，使用DeepSeek-V3針對這些問題生成回覆再進行人工標註。
某幾個特定任務會用提示詞引導V3生成CoT響應，但簡單查詢(如“Hello”)不會在響應中提供CoT；
非推理資料包含寫作、事實問答、自我認知和翻譯等型別，總計20W條。

此處使用【拒絕取樣】的核心目的在於，高效收集符合 RL收斂模型分佈的高質量CoT資料。

拒絕取樣解決的問題是，當我們有一個無法直接取樣的複雜分佈p(x)進行取樣（q(x)也被稱為提議分佈）。

其具體做法為，用大於1的常數M與代理分佈q(x)相乘，使得Mq(x)的分佈完全“罩住”p(x)分佈，如下圖所示：

拒絕取樣演算法的執行過程即大致如下：

1.從Mq(x)

2.對於

計算接受機率（Acceptance Probability）：

；

3.從均勻分佈

中隨機取樣一個值u；

4.如果α≥u

該演算法依賴於一個基本原理，即高機率區域取樣到的樣本應該更多。

因此從直觀上看，紅色曲線和綠色曲線所示之函式更加接近的地方接受機率α較高，也即更容易大於u被接受，所以在這樣的地方取樣到的點就會比較多（目標分佈p(x)在該點處的取樣機率也較大），而在接受機率α較低（即兩個函式差距較大）的地方取樣到的點就會比較少（目標分佈p(x)在該點處的取樣機率也較小），從而保證最終取樣到的點總體上逼近期望分佈p(x)。

在當前場景中，理想的高質量CoT樣本分佈即為p(x)，RL收斂模型生成的樣本分佈即為q(x)，並利用正確性獎勵、生成式獎勵篩選出符合目標分佈的樣本。

💡所謂生成式獎勵模型，即為用DeepSeek-V3為真實值和預測值分別打分，生成式是相對於規則式而言的，規則式獎勵即判斷其正確性（是否與參考答案一致）或格式合規性（是否符合預期格式）。

第三階段—迭代微調

第三階段第一步—SFT微調

基於DeepSeek-V3-Base在以上共計80W條的推理+非推理資料上進行SFT

💡注意，此處我們重新以最初的基模DeepSeek-V3-Base為起點進行微調，前面步驟的訓練操作均是為了收集高質量CoT推理資料而準備的，並不會作為後續訓練的起點；

第三階段第二步—大規模RL

全場景強化學習，以進一步對齊人類偏好(helpfulness and harmlessness)，提升推理能力

該階段結合獎勵訊號和多樣化的提示分佈來訓練模型，從而獲得推理能力出色，優先考慮有用性和無害性的模型，具體如下：

對於推理資料，遵循R1-Zero的方法，利用基於規則的獎勵指導數學、程式碼和邏輯推理領域的學習過程。

對於通用資料，採用獎勵模型（Reward Models）捕捉人類在複雜/微妙場景中的偏好，基於DeepSeek-V3的流程並採用類似的偏好對和訓練提示分佈。

對於有用性，專注於最終摘要，確保評估方式強調響應的實用性和相關性，同時最小化對底層推理過程的干擾。
對於無害性，評估模型的完整響應，包括推理過程及摘要，以識別並減輕生成過程中可能出現的任何潛在風險、偏見與有害內容。

經過以上步驟，我們便得到了DeepSeek-R1。

DeepSeek-R1強在何處？為何一時之間火爆全球？

若問強在何處，可以用它最具現象級影響的三個方面作為回答：

蒸餾的潛力原來這麼大
自主推理中的“靈光乍現”(Aha moment)
顯著降低的成本投入

R1老師的蒸餾課

第一強在於，在R1的研究中發現，將R1強大的推理能力遷移到通用模型存在超預期的巨大潛力。

為了讓更高效的小模型具備類似R1的推理能力，研究者直接用基於R1蒸餾的80W條資料在Qwen/Llama系列開源模型上進行了SFT微調，結果表明蒸餾顯著提升了小模型的推理能力。

參與實驗的基模包括 Qwen2.5-Math-1.5B、Qwen2.5-Math-7B、Qwen2.5-14B、Qwen2.5-32B、Llama-3.1-8B 和 Llama-3.3-70B-Instruct。

蒸餾實驗結果表明，透過蒸餾DeepSeek-R1的輸出所獲得的DeepSeek-R1-Distill系列模型效能強大，DeepSeek-R1-Distill-Qwen-7B依靠僅7B的引數規模即可全面超越GPT-4o-0513等非推理模型，而DeepSeek-R1-Distill-Qwen-32B和DeepSeek-R1-Distill-Llama-70B則在大多數基準測試中顯著超越o1-mini，這似乎意味著行業的一個新正規化正在來臨，在我們擁有像R1這樣頂尖的推理模型後，可透過蒸餾技術快速以低成本方式讓基模獲得逼近R1老師的推理能力。

另外，研究中還進行了一場蒸餾Distillation v.s. 強化學習Reinforcement Learning 的PK實驗，利用數學、程式碼和STEM資料在Qwen-32B-Base上進行超過10K步的大規模RL訓練獲得DeepSeek-R1-Zero-Qwen-32B，發現其效能與QwQ-32B-Preview相當，但全方位弱於DeepSeek-R1-Zero-Qwen-32B。

換句話說，在相同基模的前提下，基於DeepSeek-R1輸出蒸餾（SFT）的效能顯著好於基於推理資料RL訓練，而蒸餾模型的基礎上再進行RL又會獲得顯著提升，從而體現了蒸餾這一技術的重要性。

基於以上實驗結果也可以得出兩個結論：

蒸餾相比於RL的效能提升更大，成本更低：將更強大的模型蒸餾到較小的模型中能夠產生優異的結果，而依賴本文中提到的大規模 RL 的小模型需要巨大的計算資源，甚至可能無法達到蒸餾的效能。
蒸餾建立在基模與RL迭代最佳化的基礎之上：儘管蒸餾策略既經濟又有效，但要突破智慧的邊界，可能仍然需要更強大的基模和更大規模的強化學習。

不難看出，對於大多數使用者和企業來說這種方式相比傳統自行SFT+RL的方式來說不僅成本更低而且可以獲得具備更優異推理能力的模型，可謂大大降低了門檻，意義非凡。

同時研究中還提到，對這些蒸餾模型應用強化學習可以帶來顯著的進一步收益，這部分報告中並未給出具體的實驗結果，留給未來社群探索。

很快，這一想法便被來自UC伯克利的研究團隊驗證，他們基於DeepSeek-R1-Distill-Qwen-1.5B進行RL微調獲得了DeepScaleR-1.5B-Preview，以僅1.5B的引數規模在數學權威基準AIME2024上超越了o1-preview。

其採用的訓練策略是——先短後長（Think shorter, then longer）

先短：首先模型會被訓練進行短思考，基於GRPO方法與8k的上下文長度來訓練模型，以鼓勵高效思考。經過1000步訓練後，模型的Token使用量減少了3倍，效能相比基模提升了5%。

後長：其次模型會被訓練進行長思考，強化學習訓練擴充套件到16K和24K Token，以解決更具挑戰性、以前無法解決的問題。

隨著響應長度的增加，平均獎勵也隨之提高，使得模型超越o1-preview。

以上成果均可表明，蒸餾+RL微調可以讓引數規模較小的模型同樣獲得o1級別的推理能力，未來趨勢或許會是大模型的高效低成本應用，我們與大模型之間或許可以不再間隔無數個高階顯示卡的壁壘。

RL加持下的Aha moment降臨

第二強在於，在R1的研究中有提到，他們觀察到了Aha moment的降臨，模型在訓練過程中自行湧現出了多種解題方法，如"解數學題時寫下步驟、自動檢查每一步是否正確、解題中間如果意識到錯誤會中斷思考並重新推導等"。這些能力都是模型自己摸索出來的，訓練者並未進行干預。

這告訴我們：我們無需明確教導模型如何解決問題，只需提供正確的激勵，它便能自主開發出高階的問題解決策略。RL 有潛力解鎖人工智慧的下一個智慧水平，為未來更自主和自適應的模型鋪平道路。

透過對DeepSeek-R1-Zero的RL訓練結果的觀察發現，DeepSeek-R1-Zero 的思考時間在整個訓練過程中持續增長，這種增長不來自於外部調整，而是來自於模型內的本質發展。DeepSeek-R1-Zero透過利用在測試時計算（test-time computation）上的擴充套件(Scaling)自然地獲得瞭解決越發複雜的推理任務的能力。

換句話說：隨著RL訓練，DeepSeek-R1-Zero自然而然地學會了使用更多的思考時間來解決複雜的推理任務。

而這種自我進化最顯著的體現是，隨著測試時計算的增加，複雜行為的湧現。

哪些複雜行為呢？比如，反思行為，模型重新審視和評估先前的步驟，探索解決問題的替代方法，而這些行為均為自發產生，而非顯式程式設計而來，是模型與RL環境互動的結果。

以上發現，充分表明了RL訓練方法之強大。

另外，在開源專案VLM-R1中將R1的RL思路應用到視覺領域後發現，RL訓練得到的模型比起SFT訓練的模型，其在領域外資料上的泛化能力明顯更強，這也驗證了他們的想法，RL是大模型自我進化的奧秘，是解鎖下一個智慧水平的鑰匙。

有趣的是，DeepSeek團隊早在DeepSeekMath中便提出了統一的學習正規化，將SFT視為RL的特例——從理論角度看，SFT不過是期望模型"死記硬背"答案的一種特殊RL方法。

這一現象，谷歌也在他們的研究《SFT Memorizes,RL Generalizes:A Comparative Study of Foundation Model Post-training》中用論文標題“SFT Memorizes,RL Generalizes”直白地進行了總結，該研究設計了兩個任務來評估SFT和RL的泛化能力，最終發現RL在規則和視覺領域的泛化能力優於SFT，能夠學習到可遷移的原則，而SFT則傾向於記憶訓練資料，而且SFT對於有效的RL訓練是必要的，它能夠穩定模型的輸出格式，為RL訓練提供支援。

成本優勢，在AI infra上的厚積薄發

除了以上模型能力的強大，第三強在於其相較以OpenAI o1為首的一眾推理模型無比低廉的訓練成本。

他們僅以約600萬美元的價格，訓練出與OpenAI o1相當水準的模型，而OpenAI訓練GPT-4的成本就要約6300萬美元，更不要說o1，這意味著DeepSeek-R1僅用了不到十分之一的成本就達到了與其相抗衡的效能效果。在服務定價方面，DeepSeek的API成本每百萬tokens輸出只要16元（儘管如此還可以有545%的理論成本利潤率…），而GPT o1則高達約420美元，相差26倍！這自然對於美國矽谷的投資人們和底層算力提供商英偉達一時間造成了巨大的打擊，造成了AI泡沫的短暫性破裂，導致英偉達一天蒸發近2000億美元，創下美股歷史最大單日市值蒸發紀錄。

它告訴我們，擁有一個頂尖能力的模型，並不是那些擁有海量顯示卡大公司的專屬，顯然是投入AI市場的一枚巨大炸彈。

當然，如此低的成本自然也歸功於DeepSeek在AI infra上的持續探索與厚積薄發，透過DeepSeek的開源周可以看出，他們在底層的推理加速、節點通訊、運算元最佳化、並行策略、分散式儲存層面均做了很多的工作，這些工作從宏觀層面上看都是有利於降低訓練/推理成本，提高資源利用率、模型吞吐量的，由此可以看出他們一以貫之的發力方向。

而這也是他們一經出世可以對英偉達股價造成如此之大影響的原因，當然這也不過是市場的第一反應，推理成本降低的背後確實是顯示卡算力需求的降低，但隨之而來的也是對AI市場需求的又一次強力刺激，併為AI部署推理市場帶來了新的活力，最終來看是利好還是利空尚不得而知，畢竟像DeepSeek開源的DeepGEMM等最佳化框架仍然是基於英偉達的Hopper架構進行的最佳化，短期內AI領域仍將對N卡有較強的依賴。但從長遠看，DeepSeek的創新對整個AI基礎設施領域的發展具有重要啟示意義。

總之，在AI infra上的極致最佳化所帶來的低成本訓練與推理，一直都是DeepSeek在持續探索的方向，也將是引領開源力壓閉源的重要法寶。

DeepSeek-R1的出現能夠給我們帶來些什麼？市場與行業是如何反應的？

B端

對企業使用者而言，DeepSeek-R1的出現產生了多方面效應：

1.私有化部署需求顯著膨脹：但可能一定程度上源於客戶對跟進技術趨勢的任務需要，而未必有明確的業務價值；

2.傳統B端大模型應用場景受影響有限：對於意圖識別、資訊提取等常見的B端落地場景，R1由於推理耗時較長、幻覺現象嚴重等問題優勢並不十分明顯；

3.降低定製化門檻：R1自身的強大基礎能力與較低成本，使得企業特定場景的AI定製變得更加經濟可行；

4.重新激發創新探索：R1展示的成本降低與能力提升，促使企業重新評估AI應用策略，探索更多可能性；

C端

核心貢獻在於C端繼ChatGPT剛出世時的又一次全民AI普及，對市場需求的又一次強力刺激；

對普通使用者和消費級應用，R1的影響更為直接：

1.重新點燃C端AI應用市場：眾多網友們紛紛基於DeepSeek構建AI應用，其卓越的文學表達能力與獨樹一幟的創造力很容易引發廣泛共鳴，從小紅書等社交媒體上的話題度可見一斑；

2.使用門檻顯著降低："DeepSeek的提示詞技巧，就是沒有技巧"，使用者只需自然準確地表達需求，無需掌握複雜的提示詞工程技巧，可以拋棄過往的結構化框架，將AI視為一個能力強大的員工，這種方法也大大降低了AI的使用門檻。——對於未來提示詞工程是否會消亡預計會在另一篇文章《Way To Prompt(2)》中進行分析；

3.開源帶來的高效能AI體驗：對於普通使用者而言，DeepSeek-R1的開源特性使得眾多廠商均可接入該模型對外提供免費服務，實際上是變相為所有使用者均提供了更為便捷的高效能AI體驗，同時也意味著未來會有更多基於它的應用出現。

行業生態影響

DeepSeek-R1的出現對整個AI行業生態產生了深遠影響：

1.重塑價格預期：打破了“高效能AI必然昂貴”的市場固有認知，迫使其他提供商重新考慮定價策略；

2.開源比肩閉源：以此為契機，終於表明開源模型在效能上可以比肩甚至超越閉源商業模型，也促使個別公司開始重新思考未來策略；

3.推動技術路線多元化：證明了強化學習在大模型訓練中的關鍵價值，可能影響未來AI研究方向；

4.激發AI infra創新：讓更多人見識到了AI infra上的技術積累所能帶來的實際價值；

總的來說，DeepSeek-R1的出現不僅展示了中國AI技術的進步，也為全球AI市場帶來了新的活力和可能性。它將繼續推動AI技術在降低成本的同時提升效能的方向發展，為更廣泛的使用者群體帶來先進的AI體驗。