一篇關於DeepSeek模型先進性的閱讀理解

阿里妹導讀

本文以DeepSeek模型為核心，探討了其技術先進性、訓練過程及行業影響。首先介紹DeepSeek的快速崛起及其對AI行業的顛覆作用。DeepSeek透過強化學習（RL）實現Time Scaling Law的新正規化，突破了傳統大模型依賴算力和資料的限制，展現了整合式創新的優勢。文章還提到開源的重要性以及資料作為制勝法寶的關鍵地位，同時警示了業務發展中安全滯後的問題。

現在DeepSeek是風光無兩的當紅炸子雞，不懂DeepSeek都不意思跟人聊天了，為了緊跟時代進度的步伐，做一個懂AI的IT從業人員，積極學習了一下“先進”生產力，做好自我“反思”，回饋圈內外好友。

0x01:AI 科技起義，DeepSeek魔童鬧海

資料表現

如同坐上了火箭般的速度全球風靡，在全球最快達到億級使用者積累，實現七日登頂，超過ChatGPT2個月的成績；
Deepseek 爆火之後，英偉達股票出現大幅震盪，引發了ai 價值鏈的重塑；

行業表現

奉行著“打不過就加入”的原則，國內外的GPU廠商、雲服務提供商等各類科技大廠紛紛合作；
某些公司或機構覺得自己不得不放棄基礎大模型了，現在覺得自己又行了，因為希望是個好東西；

DeepSeek這種挑戰AI霸權，掀桌子式的科技起義，頗有“抗美援朝”的慷慨，也有哪吒魔童鬧海的氣勢，難得的在科技領域，尤其AI對抗的領域中給國人提氣，畢竟老被人掐著脖子，憋氣。

0x02:DeepSeek出圈背後的核心技術解碼

在廣泛調研和定向請教之後，我總結了DeepSeek火爆出圈的兩個原由（非專業視角，僅做參考）

創新1:基於RL（強化學習）實現Time Scaling Law的新正規化，對標GPT-o1並開源

在此之前，煉丹一個大模型不得不“大力出奇跡”，必須堆算力猛火烹製，必須壘資料老道秘法，但是DeepSeek離經叛道的第一個表現是，他不單純的迷戀大力，而是開拓了一條新的的路徑：透過RL（強化學習），讓模型內卷，不停照抄有解題步驟的那種作業（CoT資料），學會檢查作業（反思能力），學會延遲交卷（ Time Scaling），直到答案還挺高質量的時候再交卷，進而量變引發質變，然後模型就突然頓悟，進化出了“智力”。另外，之前的模式都是按部就班的先SFT，再RHLF，他就繞開了SFT這個傳統節目。

新開闢的這條路徑就是“ Test Time Scaling ”，也有叫“ RL Scaling ”的，是“用時間換效果”的一種路徑。這條路徑OpenAI一定已經有所發現，且應用在了O1、O3上，但它是個商業化公司，就不告訴你。

DeepSeek牛就牛在他驗證了這條路的可行性，而且效果上對標O1。

創新2:作為“低”訓練成本和”高”推理效能的國貨之光，成本僅是GPT-o1的1/27

第二個離經叛道的表現是因為價效比，因為加量不加價，因為在同樣的表現下用了少了很多倍的資源。這個時候我想起了我的授業恩師以及他給我較印象深刻的一個詞“整合式創新”。

整合式是相對突破式創新而言的，不做技術的從0到1，而是把其他場景的方式和方法，在新的場景進行驗證，然後組合式運用，整合式驗證，釋放出新場景價值，其實DeepSeek也是這個模式，把模型架構、最佳化方法和基礎設施方面相對優勢的技術整合式創新。

模型架構

Moe架構改變了FFN全連線的模式，降低了溝通的複雜度，減少了內耗，另外這種架構也可以讓模型規模變大，規模代表的是知識規模，懂得更多還溝通和計算的效率更好，

MHA是Transform架構的核心，也是吃視訊記憶體的大戶，所以有多改進手段比如GQA，MLA相比之前的MHA、GQA等，他佔用的KV Cache大幅度降低。

這都是是典型的馬兒跑得快，馬兒還吃的少。你說這樣的牛馬，誰不喜歡？

最佳化方法

主要是GRPO對PPO的進步，中心思想就是簡化了結構，不用專用的外部評價模型，把自然進化交給餵給大模型的飼料和強化學習自己評價體系，飼料都是有營養的，配料均衡的，吃得不好他還要自己去思考為啥不好。

多Token的預測更簡單了，就是三步並作兩步走，在別人剛邁出第一步的時候，他已出門了，所以更早的抵達終點。

基礎設施

DualPipe流水線的核心思想是不讓卡閒著，用更全面和高效的排程把訓練過程中前向傳播和梯度回傳的計算以及內部通訊任務做更加高效的排程，讓卡上的每個計算單元，物盡其用。

FP8混合精度框架針對加法、乘法等不同場景，結合計算需要，在效果和儲存空間中去取得一個比較微妙的平衡。不過這個格式也是在英偉達H系列上的表現更好，國產卡的支援效果上普遍還沒跟上。

透過這些整合創新的手段，讓模型在訓練和推理成本上大幅度降低，同時推理的效果又比較良好，這樣在成本原先是讓大家退而卻步的情況得到了極大的改善，不論是捉襟見肘的科技小廠，還是缺卡少錢的甲方，都有了AI盛宴的參與感，也都有奮起直追的勇氣，這也可以稱之為是通常意義上的AI平權，或者普惠AI。

當然，還有一個“離經叛道”的點，非技術原因，那就就是匹夫無罪懷璧其罪，因為DeepSeek是中國人的知識成果，還是一群沒有喝過洋墨水的人做出來的，所以給DeepSeek增加了更多的民族色彩。

0x03:DeepSeek-R1模型訓練及蒸餾技術鏈路

過程：模型訓練及蒸餾

這塊把訓練和蒸餾過程講解一下：得到一個R1和一堆蒸餾模型，只需要四階六步。

第一階段：RL可行性驗證

這個也是DeepSeek最重要的價值，他驗證了強化學習的路徑可行性，在沒有經過任何SFT的過程直接進行訓練（第1步），並在這個過程中產生了R1-zero。

R1-zero意想不到具備了大模型的泛化和湧現能力，但是關鍵的問題是有些時候不說人話，一會說英語一會說法語，一會像哲學家，一會像大夫，所以輸出上很不穩定。

第二階段：資料蒸餾

為了解決R1-zero的問題，在訓練資料和方式要及時進行調整，增加了一個冷啟動的過程，也就是一次SFT（第2步），訓練規模很小，才千級，相比整體引數量那就是滄海一粟，但有了鋪地的資料，可能會讓模型有點好的基礎表現。在訓練過程中，透過拒絕取樣（第3步），進一步又收集了60萬的資料，因為是推理模型的產出，所以帶著思維過程，也都是高質量的，但模型的回答也不見的都需要思深度思考，針對快問快答的場景再摟一筆資料也未嘗不可，這樣就湊齊了80萬之巨的SFT資料。

第三階段：強化訓練

緊接著，再經過兩輪的SFT（第4步）和RL（第5步）就生成了最終的R1。

這個時候的模型有了比較驚豔的表現，思辨能力升維，可以跟O1叫板了，這個最終的訓練過程中有80萬的資料加持，而且做了資料型別的，充分支援快問快答以及深思熟慮兩種模式。

第四階段：模型蒸餾

這個完全屬於摟草打兔子，80萬的資料已經就位了，閒著也是閒著。把Qwen及Llama的模型來蒸餾一下，簡單經過2輪的SFT（第6步）就可以用了，另外也可以緩解自己模型太大，太吃部署資源的問題。

糾正一點：雖然我說得簡單四階六步，但其實訓練還是很難的，想一想要讓一個600多B的模型收斂，總會有很多意想不到的問題，要不也不會2次的RL，2次的SFT，另外可能還有很多步驟論文沒說。

復現：李飛飛團隊50美元復現R1推理模型

DeepSeek爆火後，討論和研究的很多，大多是蹭熱點，當然也包括我，但一則新聞尤其炸裂，李飛飛團隊用1K資料和不到50美元的成本復現R1。很多業內人士對其進行分析，其實結論也有點言過其實，只是在某個特定資料集上超過了o1-preview（本來也不是很top級的模型），其實是搞研究常用的套路，在多個維度中的1個維度上超過了就可以生產一篇文章。

但李飛飛團隊的研究也有很大的一個可取之處，那就是充分驗證了“用時間換效果”的模型，讓模型強制思考，反覆得內部輸出，直到結果滿意，就跟讓學生一直檢查考卷，不考90分不讓交卷。

另外還有一點，業務人士也在復現S1-32B的模型，發現用其他的原始模型進行蒸餾效果並不好，所以得出了一個結論S1-32B的優秀，主要還是因為他有一個更好的被蒸餾模型，也就是說Qwen是其“巨人肩膀”。

0x04:開源是頂級的陽謀，資料是制勝的法寶

我們不知道DeepSeek釋出的時機，以及海內外的傳播是否有無形的力量在推波助瀾，但是國人把這麼先進的模型開源還是很有情懷的一件事情，他不僅衝擊了人工智慧的行業，也顛覆了人們對大模型在算力、演算法以及資料方面的認知，也從很大層面上改變了市場的格局，所以說開源是很高明的手段。

但是，我們也要看到很多不透明的細節，尤其是資料以及資料背後的邏輯，用於RL的 CoT資料是個黑盒，80萬的SFT資料也是DeepSeek蒸餾各種模型的關鍵生產原料，在技術透明度很高的現在，資料成為制勝的法寶之一。當然，技術的組合是know-how，人才及其密度也是關鍵要素，一個大模型誕生的要素也是不可偏廢的。

0x05:安全有時候是不需要的，需要的時候是不安全的

假期期間，DeepSeek遭受DDos攻擊和網路滲透鬧得沸沸揚揚（安全方面恰好我也略懂），很多國人以及紅客們群情激憤，爭先恐後要去守衛DeepSeek的安全，但DeepSeek把ClickHouse暴露在公網上也是事實，其實這是業務發展過程中常見的問題，業務優先忽視安全，導致安全滯後於業務，又拖累了業務，畢竟好長一個時間段不能註冊和使用，甚至回答的過程中直接中斷，這次DeepSeek只是犯了大多數公司都會犯的錯誤而已。

其實在業務不發達的時候，往往沒有被壞人盯上，安全不是那麼急迫，所以優先順序會被降低，但這種意識會導致一旦出現安全問題，爆發的都是很難挽回的後果。另外，大模型的安全相比傳統的安全存在很大的差別，除了系統級的安全以外，還要更加重視輸出的內容安全。還有，大模型在互動的過程中，存在被攻擊者扭曲“認知邏輯”的風險，在某些大型活動中是被廣泛驗證過的。所以大模型一旦胡言亂語，甚至說出不和諧的言論，對於涉面廣泛的C端場景就是滅頂之災。

0x06：寫在最後的話

時間倉促，細節不足，所述觀點均為個人視角，與任何組織無關，不足之處，歡迎指正，本人將積極糾偏。

還有，部分觀點受到了我的老同學 @刀山和部門同事@彥羲的啟發和支援，也要表示感謝。

2025年2月12日@北京

基於Hologres輕量高效能OLAP分析解決方案

本方案基於阿里雲Hologres和DataWorks資料整合，透過簡單的產品操作即可完成資料庫RDS即時同步資料到Hologres，並透過Hologres強大的查詢分析效能，完成一站式高效能的OLAP資料分析。

點選閱讀原文檢視詳情。