

作者 | 陳巍
DeepSeek的最新模型DeepSeek-V3和DeepSeek-R1都屬於MoE(混合專家)架構,並在開源世界產生了較大的影響力。特別是2025 年 1 月開源的DeepSeek-R1,模型效能可挑戰 OpenAI 閉源的 o1 模型。
隨著熱度的提升,DeepSeek也被大模型行業之外的各路媒體不斷提起,“打破CUDA壟斷”,“挖了NVLink的牆角”,“引發英偉達市值大跌”,“證明大模型算力建設浪費”,“算力霸權轉移”,“國運級的創新”,似乎有用皮衣卡住老黃脖子的架勢。
那麼,從技術和架構的角度深入最新的V3和R1模型,是否真的有“國運級的創新”,又有哪些誤傳?
下面我們從V3與R1的架構分析開始,分層解讀DeepSeek的創新。


01.
V3與R1的主要特徵
DeepSeek-R1的模型架構來自於V3,甚至可以說R1是具有推理(Reasoning)能力的V3。下面先分別分析V3和R1的架構特徵。
1.1 V3/R1架構特徵
DeepSeek-V3 是一個混合專家 (MoE)語言模型,具有 6710 億(671B)引數,其中每個Token(詞元)的計算約啟用 370 億(37B)引數。這個模型引數量與GPT-4大致在同一數量級。
|
---|

MoE模型基本結構示意(來源:網路)
DeepSeek-V3 採用了多頭潛注意力 (MLA,對傳統多頭注意力機制的改進) 和DeepSeek MoE 架構(對傳統MoE架構的改進),無輔助損失的負載平衡策略等創新技術,基於 14.8 萬億Token的資料進行訓練,在程式碼生成、分析等任務中表現出色。
其中多頭潛注意力 (MLA) 機制和DeepSeek MoE是V3和R1模型提高計算效率,減少算力浪費的關鍵。其中MLA大概貢獻了2-4倍的計算效率提升,MoE大概貢獻了4倍以上的計算效率提升。
1)MLA(Multi-Head Latent Attention)
在“All you need is attention”的背景下,傳統的多頭注意力(MHA,Multi-Head Attention)的鍵值(KV)快取機制事實上對計算效率形成了較大阻礙。縮小KV快取(KV Cache)大小,並提高效能,在之前的模型架構中並未很好的解決。DeepSeek引入了MLA,一種透過低秩鍵值聯合壓縮的注意力機制,在顯著減小KV快取的同時提高計算效率。低秩近似是快速矩陣計算的常用方法,在MLA之前很少用於大模型計算。在這裡我們可以看到DeepSeek團隊的量化金融基因在發揮關鍵作用。當然實現潛空間表徵不止低秩近似一條路,預計後面會有更精準高效的方法。
從大模型架構的演進情況來看,Prefill和KV Cache容量瓶頸的問題正一步步被新的模型架構攻克,巨大的KV Cache正逐漸成為歷史。(事實上在2024年6月釋出DeepSeek-V2的時候就已經很好的降低了KV Cache的大小)
2)DeepSeek MoE
為了讓1991年就提出的MoE架構更好的融入大模型體系,克服傳統MoE模型的訓練難題。DeepSeek採用了細粒度專家+通才專家的思路,不再使用少數大專家的結構,而是使用大量極小的專家結構。這個思路的本質在於將知識空間進行離散細化,以更好的逼近連續的多維知識空間,是一個非常好的方法。
無輔助損失的負載平衡策略可在不依賴輔助損失函式的情況下平衡分配計算/訓練負載,更好的提高訓練穩定性。
基於以上關鍵的改進,V3實現了更高的訓練效率,比效能類似的 Llama 3.1 405B 少了大約 10 倍的訓練計算量。
1.2 R1在CoT的進化
廣義上的DeepSeek-R1 不是一個單一的模型,還包括了R1的初始階段模型DeepSeek-R1-Zero,以及幾個基於R1蒸餾的較小的大模型。在這裡我們主要討論R1-Zero和R1。
1.2.1 DeepSeek-R1-Zero
DeepSeek-R1-Zero最大的特點在於,該模型僅使用強化學習進行的訓練,透過各種思維鏈(CoT,Chain of Thought)資料特別是Long CoT資料來啟用模型的推理能力。
DeepSeek-R1-Zero 是一個獨特的透過大規模強化學習 (RL,Reinforcement Learning) 訓練的模型,無需有監督微調 (SFT,Supervised Fine-Tuning) ,具備較強的推理(Reasoning)能力。
|
---|
R1-Zero展示出自我驗證、反思和長鏈思維推理能力,甚至在推理方面得分略微超過R1。雖然R1-Zero有一些明顯的侷限性,特別是在輸出可讀性和語言一致性方面,仍需要解決可讀性差和語言混合等問題。
這大概是第一個公開驗證大模型的推理(Reasoning)能力可以僅透過 強化學習來完成訓練。在我們看來,R1-Zero的價值遠超R1。按照NLP領域對語言的理解,人類的自然語言並不是最完美的推理語言。在R1-Zero的進一步進化過程中,或許可以構建出更適合推理的混合語言IR,建立更高效的推演體系。
1.2.2 DeepSeek-R1
相比之下,DeepSeek-R1採用了多階段訓練方法,加入了SFT,而不是採用純粹的強化學習,R1從一小組精心挑選的示例資料(稱為“冷啟動資料”)進行有監督微調(SFT),再進入強化學習。這種方法改善了DeepSeek-R1-Zero的語言可讀性和連貫性,同時在推理之外的測試中實現了更好的效能。

DeepSeek-V3整體架構(來源:DeepSeek)
02.
V3/R1的架構提升,
執行成本降低30%
2.1 多頭潛注意力 (MLA)
2.1.1 從KV Cache(KV快取)說起
當使用傳統 Transformer 在推斷(Inference)過程中計算並生成 Token(詞元)時,模型需要讀入所有過去 Token 的上下文,以決定接下來輸出什麼Token。最直觀的方法就是簡單的再次進行一次包括所有過去 Token 的前向傳播(計算)。

KV Cache(來源:網際網路)
傳統的基於 Transformer 的模型在推理過程中會計算每個鍵值 (KV) 對,但事實上這種方法效率並不高,因為大部分過去的 Token 已經在上一次計算中處理過了,重複計算會產生大量的浪費。
目前常用的方法是快取所有過去 Token 的相關內部狀態,主要是注意力機制中的鍵(Key)和值(Value)向量。這也是鍵值快取(簡稱 KV 快取)名稱的由來。

不同注意力機制的對比(來源:DeepSeek V2)
目前開源大模型中的主流方法是分組查詢注意力(Grouped-Query Attention)機制。在這種機制中,為每對鍵和值頭分配多個查詢頭,將查詢頭有效的分組在一起。在 Llama 3.3 70B 和 Mistral Large 2 等模型中,僅分組查詢注意力機制就將 KV 快取大小減少了大約一個數量級。
2.1.2 MLA的原理與優勢
DeepSeek使用的Multi-Head Latent Attention技術可大大節省KV快取,從而顯著降低了計算成本。
MLA的本質是對KV的有失真壓縮,提高儲存資訊密度的同時儘可能保留關鍵細節。該技術首次在 DeepSeek-V2 中引入,與分組查詢和多查詢注意力等方法相比,MLA是目前開源模型裡顯著減小 KV 快取大小的最佳方法。
MLA的方法是將KV矩陣轉換為低秩形式:將原矩陣表示為兩個較小矩陣(相當於潛向量)的乘積,在推斷過程中,僅快取潛向量,而不快取完整的鍵KV。這規避了分組查詢注意力和多查詢注意力的查詢的資訊損失,從而在降低KV快取的前提下獲得更好的效能。

另外為了與MLA技術的低秩KV壓縮相容,DeepSeek也將編碼方式RoPE 進行了改進,使V2/V3/R1獲得了長上下文的外延能力。

MLA方法有效降低KV Cache和訓練成本(來源:DeepSeek)
2.1.4 MLA是顛覆性創新嗎?
我們認為MLA是個非常有趣且先進的創新,這一工作建立在對注意力機制深度理解的之上,並且需要進行大膽謹慎的驗證。限於算力條件和個人ROI,能夠獨立完成這一創新的團隊並不多。能做出MLA這樣的工作,確實是達到國際一線架構水平了。換一個角度看,MLA也是建立在DeepSeek團隊的量化金融基因之上,不禁讓我們聯想到優秀的量化碼農對每個矩陣計算的FPGA底層最佳化。

MLA之外的KV Cache最佳化方法(來源:武漢大學)
我們認為,MLA之後,應該還會有QMLA(量化MLA)或者CMLA(壓縮MLA),甚至是超越現有Attention模式的技術出現,而用了很多年的Transformer也將經歷大的變革。真正的顛覆創新可能,正擺在DeepSeek和國內其他大模型團隊的面前。
2.2 MoE架構與輔助無損負載均衡
2.2.1 MoE與Dense模型的混戰
<p data-pid="UDLKIBGS">目前的主流的大模型架構可以分為Dense(稠密)架構和MoE架構。
相比Dense模型,MoE主要增加了專家路由,透過門控(開或關)的方法,負責將資料流引向不同的專家模組。專家路由事實上引入了一個不連續的門控函式(對梯度計算不友好),這導致梯度下降最佳化方法在MoE訓練中表現不佳,甚至出現“路由崩潰”,即模型容易陷入始終為每個Token啟用相同的少數專家的窘境,而不是將計算合理的傳播到所有的可用專家。這也是MoE模型訓練的難點。
不同的MoE架構(來源:香港科技大學)
03.
V3/R1訓練架構的獨特優勢
04.
V3的訓練流程
05.
R1的訓練流程
06.
結語
|
---|
一般來說,Dense模型可以視為僅有一個專家的MoE模型。在大模型領域,Dense模型和MoE各有各的應用場景和優勢,MoE還無法代替Dense模型的行業應用。
|
|
|
---|---|---|
|
|
|
|
|
|
2.2.2 無輔助損耗負載均衡
傳統的規避路由崩潰的方法是強制“平衡路由”,即透過訓練策略讓每個專家在足夠大的訓練批次中被啟用的次數大致相等。這一策略也就是“輔助損失”。但這種強制性的輔助損失會由於訓練資料的結構不均衡特徵,導致同領域的專家能力分散到不同的專家模組之中,極度損害MoE模型的效能。理想的 MoE 應該有一些經常訪問高頻通用資訊,並具備其他訪問較少的專業領域專家。如果強制平衡路由,將失去實現此類路由設定的能力,並且必須在不同的專家之間冗餘地複製資訊。
DeekSeek採用了“增加共享專家+無輔助損耗負載平衡”的方法解決這一問題。
DeepSeek將專家分為兩類:共享專家和路由專家。共享專家始終會被路由,在訓練中重點確保路由專家的路由均衡。

DeepSeekMoE與傳統的多路由和細粒度專家MoE對比(來源:DeepSeek)
無輔助損耗負載均衡(Auxiliary-Loss-Free Load Balancing)方法是將特定於專家的偏差項新增到路由機制和專家親和力中。偏差項不會透過梯度下降進行更新,而是在整個訓練過程中持續監控並進行調整以確保負載平衡。如果訓練中某個專家沒有獲得合理的命中次數,可以在每個梯度步驟中微調偏差項增加命中機率。
透過動態調整,DeepSeek-V3 在訓練過程中獲得了比有輔助損失均衡模型更好的效能。
從模型架構分析看,我們認為這種分配策略可能還不是理論最優的,但該方法已經比強制輔助損失有了顯著的改進。
2.2.3 MoE會是大模型的終局嗎?
MoE架構自1991年提出後,就一直在與Dense架構共生髮展。
DeepSeek R1的推出確實大大推動了開源MoE大模型的發展,併為MoE的落地應用提供了更多可能。但是我們也應看到,MoE模型與應用領域高度和TOC(Total Owning Cost,總擁有成本)密切相關,很多場景MoE未必比Dense模型好。

另外,MoE模型也有不同的細分架構型別。不是所有的MoE的引數量都遠大於計算頻寬要求。
MoE架構的本質是模型引數分散式儲存,MoE減少計算量的代價可能是不同專家模型的引數重複和總引數量增加,這往往也意味著更大更貴的HBM成本。外界傳言的MoE模型可以更小,其實是指的MoE模型蒸餾的Dense模型可以兼顧引數量和推理(Reasoning)效能。
不同應用場景對Dense和MoE模型的需求
|
|
|
|
---|---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
按照上表的分析,基於成本考慮,目前只有To C雲計算場景(類似OpenAI的網頁版服務)才會真正用上MoE這種多專家的模型架構。
DeepSeek的優勢不僅僅來自於其模型架構。從低位元 FP8 訓練到All-to-All通訊最佳化,其專用訓練框架旨在儘可能提高訓練的速度,以最高效率在解空間中找到較優的MoE引數集。
國內很多人在看DeepSeek團隊時,更多關注了他們做Training的能力,但實際上DeekSeek的AI Infra能力,特別時軟硬體協同最佳化能力,才是他們超越國內其他大模型團隊的關鍵。
這一架構的核心優勢包括:
1)引入了FP8混合精度訓練框架,並首次在超大規模大模型訓練上驗證了這一框架的有效性。透過對FP8低位元計算和儲存的支援,實現了訓練的加速和GPU記憶體使用的減少。
2)設計了DualPipe演算法來實現更高效的流水線並行,並透過計算-通訊重疊隱藏了大模型訓練過程中的大部分通訊開銷。
3)開發了高效的跨節點All-to-All通訊核心,以充分利用InfiniBand(IB)和NVLink頻寬;對視訊記憶體使用進行了最佳化,無需使用昂貴的張量並行即可訓練DeepSeek-V3。
3.1 HAI-LLM框架的軟硬體協同設計
V3的訓練基於DeepSeek自研的HAI-LLM 框架。HAI-LLM是一個高效、輕量級的訓練框架,其設計充分考慮了多種並行策略,包括DP、PP、TP、EP和FSDP的並行模式。

並行模式對比(來源:網際網路)
3.1.1 軟體層面的並行最佳化
HAI-LLM框架在軟體層面所作的並行改進和效率提升如下表所示:
HAI-LLM框架所作的並行改進(來源:中存算)
|
|
|
---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
根據DeepSeek的論文,V3 應用了 16 路流水線並行 (PP)、跨越 8 個(伺服器)節點的 64 路專家並行 (EP)和 ZeRO-1 資料並行 (DP)。
3.1.2 針對軟體並行策略的硬體最佳化

低成本的萬卡叢集架構(來源:DeepSeek)
為了配合HAI-LLM訓練框架(軟體),DeepSeek採用兩層Fat-Tree拓撲+ InfiniBand (IB)作為叢集架構(硬體)。這一叢集架構的核心思路是減少互連層次,降低訓練的綜合成本。相對DGX-A100的標準萬卡叢集三層Fat-Tree的1320個交換機,DeepSeek的同規模叢集僅僅需要122臺交換機,至少節省了40%的互連成本。
3.1.3 針對硬體架構的軟體最佳化

針對硬體架構最佳化的HFReduce(來源:DeepSeek)
針對所採用的硬體架構特點,DeekSeek開發了HFReduce(針對不使用NVLink的方案),以執行高效的 allreduce操作。 HFReduce會首先執行節點內reduce,然後透過CPU執行節點間allreduce,最後將reduced資料傳輸到GPU。這樣的最佳化需要DeepSeek團隊對硬體互連有非常深刻的理解。
當然DeepSeek團隊也開發了基於NVLink的HFReduce with NVLink,在將梯度傳遞給 CPU之前,先在NVLink互連的GPU之間執reduce減作;當CPU返回結果時,會將資料切分並分別返回給NVLink連線的配對GPU,再透過NVLink執行allgather。
3.2 FP8 訓練框架體系
3.2.1 低位元訓練框架的構建

FP8與其他資料格式佔據空間對比(來源:網際網路)
通常的大模型訓練會採用BF16(16位浮點)或FP32/TF32(32位浮點)精度作為資料計算和儲存的格式,來確保較高的訓練精度。相比之下,FP8佔用的資料位寬僅為FP32的1/4,可以有力的提升計算速度,降低對儲存的消耗。當然,FP8也存在精度不高,容易導致訓練失敗的潛在問題。

FP8訓練框架區域性方案(來源:DeepSeek)
DeepSeek-V3 使用 FP8(8 位浮點數)來提高計算速度並減少訓練期間的視訊記憶體使用量。為了讓FP8更好的完成訓練,DeepSeek專門設計了針對FP8的訓練框架體系。當然,就在撰寫本文的時候,微軟已經跑通了FP4(4位浮點數)的完整模型訓練。
使用FP8框架進行訓練的主要挑戰在於精度與誤差的處理。
DeepSeek為其FP8低位元訓練框架做了以下最佳化:
1)細粒度量化
將資料分解成更小的組,每個組都使用特定乘數進行調整以保持高精度。這一方法類似於Tile-Wise或Block-Wise。對於啟用,在 1×128 大小的基礎上對計算資料進行分組和縮放;對於權重, 以128×128 大小對計算資料進行分組和縮放。該方法可以根據最大或最小資料調整縮放係數,來更好的適應計算中的異常值。
2)線上量化
為了提高精度並簡化框架,該框架線上計算每個 1×128 啟用塊或 128×128 權重塊的最大絕對值,線上推算縮放因子,然後將啟用或權重線上轉化為 FP8 格式,而不是採用靜態的歷史資料。相對靜態的量化方法,該方法可以獲得更高的轉換精度,減小誤差的累積。
3)提高累加精度
FP8在大量累加時會累積出現隨機誤差。例如FP8 GEMM在英偉達 H800 GPU 上的累加精度保留 14 位左右,明顯低於 FP32 累加精度。以 K = 4096 的兩個隨機矩陣的 GEMM 運算為例,Tensor Core 中的有限累加精度可導致最大相對誤差接近 2%。
DeepSeek將中間結果儲存計算升級為 FP32(32位浮點),實行高精度累加,然後再轉換回 FP8,以降低大量微小誤差累加帶來的訓練偏差。
4)低精度/混合精度儲存與通訊
為了進一步減少 MoE 訓練中的視訊記憶體和通訊開銷,該框架基於FP8 進行資料/引數快取和處理啟用,以節省視訊記憶體與快取空間並提升效能,並在 BF16(16位浮點數)中儲存低精度最佳化器狀態。
該框架中以下元件保持原始精度(例如 BF16 或 FP32):嵌入模組、MoE 門控模組、歸一化運算元和注意力運算元,以確保模型的動態穩定訓練。為保證數值穩定性,以高精度儲存主要權重、權重梯度和最佳化器狀態。

細粒度量化與提高累加精度(來源:DeepSeek)
以上這些針對FP8訓練的最佳化設計,都是精雕細作的工作,需要框架設計人員對GPU硬體架構和訓練誤差具有很強的整合分析能力。從DeepSeek的FP8訓練框架來看,這個團隊具有很強的技術和工程整合能力,已經不是單純的大模型演算法或AI Infra團隊。
3.2.2 對英偉達GPU市場有巨大影響?
2025年1月27日,英偉達股價暴跌近17%,市值蒸發近6000億美元,創下美國曆史上單日最大市值跌幅紀錄。AI領域的明星公司普遍遭受重創:博通(Broadcom)下跌17.4%,AMD下跌6.4%。微軟下跌2.1%。此外,AI產業鏈的衍生板塊也未能倖免,電力供應商Constellation Energy下跌近21%,Vistra下跌28%。國內很多媒體認為這是DeepSeek的崛起,引起投資者對於英偉達等半導體企業估值過高的擔憂。
英偉達估值是否過高不好說,畢竟MoE架構的發展已經展現出“存力重要性優於算力+對儲存頻寬瓶頸下降”的傾向。但從技術角度看,DeepSeek的大模型目前依然存在對英偉達GPU的路徑依賴。
1)目前英偉達仍在低位元計算方面領先。包括DeepSeek使用的FP8和微軟使用的FP4,都是由英偉達率先產品化並推向市場的。FP8訓練最早也是在英偉達內部開始驗證的。英偉達之外,暫時還沒有企業有這樣的生態推動力和落實能力。
2)MoE模型仍屬於大模型演進的常規路徑,並不會因為MoE模型的路徑切換導致GPU應用不及預期。目前主要的MoE模型依然是基於英偉達生態構建的,在算力單價昂貴、模型效能仍需提升的現在,MoE的應用事實上是基於有限的算力成本,進一步提升通用大模型(以to C為主)效能的有效路徑。這個路線早已有之,不管DeepSeek的影響力是否擴大,目前通用大模型都在朝著這個方向發展。過於誇大DeepSeek對AI產業的影響,只會加速美國商務部對DeepSeek的封禁速度,對DeepSeek自身反而不利。
3)DeepSeek使用的一些訓練成本最佳化技術屬於定製化技術,其他競品企業未必有類似的定製能力。例如前面提到的混合精度儲存/計算,與模型本身的特徵高度繫結,遷移起來並不簡單,屬於DeepSeek內部的定製化技術,與量化交易中的FPGA最佳化有原理類似之處。這類定製化技術一般難以簡單的複製,其他企業短期內難以覆盤,進行規模化成本降低的機率不高。有這個AI Infra能力的早就已經做了,沒有這個能力也不會冒著成本不可控的風險冒然進入。
我們認為DeepSeek的V3/R1模型事實上為英偉達GPU開拓了除Llama開源系列Dense模型之外的MoE開源模型新大陸,等同於為蘋果的IOS市場增加了新的免費Killer App。
DeepSeek本身對英偉達的股價影響,看起來更像是駱駝背上的最後一根稻草,大概不會超過以下幾個因素:
1)美國貿易關稅風險。
2)B200/5090不達市場預期的風險。
3)大陸高成本GPU(主要是H100)算力過剩的風險。
4)對大陸禁運加強的風險。
3.3 DualPipe最佳化
V3/R1的訓練框架中引入DualPipe演算法以實現高效的流水線並行性。
與現有的流水線並行(PP)方法相比,DualPipe具備以下優勢:
1)DualPipe的流水線氣泡更少,通道使用效率更高。
2)DualPipe將前向和後向傳播中的計算和通訊重疊,解決了跨節點專家並行(EP)帶來的繁重通訊開銷問題.
3)在確保計算與通訊比例恆定的情況下,具有很好的Scale-out能力。
DualPipe演算法將每個資料塊分為四個部分:attention(圖中ATTN)、all-to-all dispatch(圖中DISPATCH)、MLP 和 all-to-all combine(圖中COMBINE)。對於後向塊,attention和 MLP 都進一步分為後向輸入、後向權重。對於一對前向和後向塊,針對通訊和計算的過程和瓶頸進行最佳化。DualPipe採用雙向流水線排程,同時從流水線傳送前向和後向資料,儘可能提高使用率。

DualPipe的流水線(來源:DeepSeek)
3.4 跨節點 All-to-All 通訊與視訊記憶體最佳化
V3/R1的訓練框架還定製了高效的跨節點All-to-All通訊核心,以充分利用IB 和 NVLink 頻寬,並節約流式多處理器 (SM,(Stream Multiprocessor)。DeepSeek還優化了視訊記憶體分配,以在不使用或少使用張量並行 (TP) 的情況下訓練 V3/R1。
3.4.1 對於SM與NVLink的最佳化
為了保證DualPipe的計算效能不被通訊影響,DeepSeek定製了高效的跨節點 All-to-All 通訊核心(包括 dispatching 和combining),以節省專用於通訊的SM數量。

傳統的基於NVSwitch的All-to-All通訊結構(來源:網際網路)
通訊核心(通訊SM控制程式碼)的實現與MoE 門控演算法和叢集網路拓撲是按照軟硬體協同的思路來進行設計的。具體來說,在叢集中,跨節點 GPU與 IB 完全互連,節點內(單臺伺服器內)通訊透過NVLink完成。NVLink 提供 160 GB/s 的頻寬,約是 IB 的 3.2 倍 (50 GB/s)。
為了有效利用IB和NVLink的不同頻寬,DeepSeek將每個Token(詞元)的分發限制為最多4 個節點,從而減少IB流量限制的影響。 對於每個Token,在做節點間路由決策時,先透過IB傳輸到目標節點上具有相同節點內索引的GPU;到達目標節點後,再透過NVLink 轉發到託管目標專家的特定GPU。透過這種方式,透過IB和NVLink的通訊重疊,平均每個Token可以在每個節點選擇3.2名專家,而不會產生額外的NVLink開銷。
實際演算法中,V3/R1只通過路由選擇了8個專家,但在保持相同通訊成本的情況下,該架構可以擴充套件到最多13 個專家(4 個節點x3.2個專家/節點)。
DeepSeek還採用了warp(執行緒束)專用化技術,將20個SM劃分為10個通訊通道。
1)在排程過程中,(a)IB 傳送、(b)IB 到NVLink 轉發、(c) NVLink 接收由相應的warp處理。分配給每個通訊任務的warp數量會根據所有SM的實際工作負載動態調整。
2)在合併過程中,(a) NVLink 傳送、(b)NVLink到IB的轉發和累積、(c)IB接收和累積也由動態調整的warp處理。
3)dispatching 和combining kernel都與計算流重疊,採用定製的PTX(Parallel Thread Execution)指令以自動調整通訊塊大小,減少了對L2快取的使用和對其他 SM 的干擾。
3.4.2 視訊記憶體節省技術
為了減少訓練期間的記憶體佔用,V3/R1還採用了以下技術節省視訊記憶體:
DeepSeek採用的視訊記憶體節省技術(來源:中存算)
|
|
|
---|---|---|
|
|
|
|
|
|
|
|
|
3.4.3 打破了CUDA生態壁壘?
網上很多人,看到DeepSeek使用了PTX指令,而沒有直接使用CUDA進行SM程式設計,就認為DeepSeek打破了CUDA生態的壟斷。
但實際上,
1)PTX指令集也是CUDA生態的一環,是CUDA生態的基礎。
2)PTX指令比CUDA更底層,與英偉達的繫結比CUDA更深。
3)CUDA是以PTX指令集為基礎構建的,是PTX的外殼和泛化。
4)PTX的移植比CUDA移植挑戰更大,難以在國產GPU上直接移植。

CUDA與PTX、SASS的層次關係(來源:網際網路)
如果把CUDA理解為C語言的話,PTX相當於CUDA的高階組合語言,可以在不同的GPU上執行。另一種更加底層的指令集是Streaming Assembly(SASS),與GPU的型號深度幫繫結。無論PTX還是SASS都是英偉達的根基,其他GPU廠家很難插手。
DeepSeek在訓練過程中使用PTX,感覺就是量化碼農用C語言寫交易程式碼,發現最佳化效率不夠,那麼就嘗試在C語言中嵌入組合語言來提高硬體排程效率。難道這就等於打破了C語言的江湖地位?
3.4.4 挖了NVLink的牆角?
有傳言說DeepSeek主要使用Infiniband,以EP(專家並行)代替TP(張量並行),挖了NVLink的牆角,從而堅定的認為以PCIe(節點內互連)+IB(節點間互連)就足以進行大模型的訓練。
在這裡面,NVLink主要負責晶片間(C2C)的通訊,而Infiniband負責節點間(伺服器間)通訊。如果使用PCIe進行C2C通訊,頻寬遠不如NVLink。

NVLink+Infinband互連(來源:英偉達)
規避NVLink的想法很美好,但現實很骨感。按照DeepSeek發表的論文描述,只是在早期沒有加入NVSwitch的時候用過PCIe+InfiniBand實現HFReduce,當具備NVSwitch後就立刻增加了HFReduce with NVLink。特別是在V3的論文中,明確寫了針對NVLink通道加入了定製PTX最佳化,好讓更多的有效SM參與計算。
這就好比學校的教學高樓裡沒有大電梯,怕樓梯上孩子太多出危險,就先用“演算法+樓梯”代替,拿到“演算法許可”的小孩才能到不同樓層去報道。但不能說這樣就挖了“電梯”的牆角,卡住了“電梯”的脖子。一個高效的訓練系統,依然需要大量的C2C或D2D互連實現更優的拓撲結構。咱不能因為玄奘法師能克服艱難險阻走到古印度取到真經,就認為需要反思火車飛機的重要性。
“打破CUDA壟斷”?“挖了NVLink的牆角”?“引發英偉達市值大跌”?“證明大模型算力建設浪費”?“算力霸權轉移”?“國運級的創新”?這些說法是否屬實?
本文是從V3到R1的架構創新與誤傳的萬字長文分析的下篇。下面我們繼續分析V3與R1的訓練和蒸餾,分層解讀DeepSeek的創新。
DeepSeek的R1是以V3為基礎構建的(冷啟動)。如果想深入理解R1的訓練,就要先看V3的訓練流程。V3的訓練包括預訓練(含基礎預訓練和上下文長度擴充套件)、後訓練三個階段。
在預訓練階段後,對DeepSeek-V3 進行了兩次上下文長度擴充套件,第一階段將最大上下文長度擴充套件到32K,第二階段進一步擴充套件到128K。然後在 DeepSeek-V3的基礎模型上進行包括有監督精調 (SFT) 和強化學習(RL)在內的後訓練,使其更貼近人類的偏好。

DeepSeek-V3訓練流程(來源:中存算)
4.1 V3的基礎預訓練
DeepSeek-V3 總共包含 671B引數,其中每個Token激活了37B。在路由專家中,每個Token啟用8個專家,並確保每個Token最多傳送到4個節點,以減小通訊資源的浪費。多Token預測(MTP)深度設定為1,即除了下一個 Token之外,每個Token還將預測一個額外的Token。
在14.8T預訓練資料集結構上,V3採用了以下策略:
1)提高數學和程式設計樣本的比例來最佳化預訓練語料庫,以提升推理能力。
2)基於中國網際網路可用的語料庫整合了更多的中文資料。(這也是V3能玩中文梗的關鍵)
3)將多語言覆蓋範圍擴充套件到英文和中文之外。
4)最佳化資料處理/過濾演算法,在保持語料庫多樣性的同時最大限度減少資訊冗餘。
過濾掉有爭議的內容,減少特定區域文化引入的資料偏差
5)透過文件打包,減少在短文字塊的訓練浪費,同時在訓練過程中沒有使用交叉樣本注意力遮蔽。
高質量的資料結構與資料投餵順序,其實是大模型效能提升的關鍵。可惜DeepSeek並沒有給出預訓練資料更具體的構建方法。

Fill-in-Middle方法(來源:網際網路)
V3的訓練採用字首-字尾-中間(PSM)框架來構建FIM訓練資料。Fill-in-Middle(FIM,中間補全)是一種針對程式碼補全能力的預訓練方式,模型在訓練過程中學習使用上下文的語境來預測文段中間缺失的部分。FIM策略不會損害下一Token預測(NTP)能力,同時可使模型能夠根據上下文線索準確預測中間文字。
V3使用 AdamW 最佳化器來預訓練,同時避免過度擬合。
4.2 V3長文擴充套件訓練
在基礎預訓練後,V3使用YARN技術將上下文長度,按照兩階段訓練擴充套件到128K,每個階段包括1000步。在第一階段,使用32K的序列長度和1920的批次來執行1000步訓練。在第二階段,採用128K的序列長度和480個序列的批次大小執行1000步訓練。
4.3 V3的後訓練/精調
4.3.1 V3的有監督精調(SFT)
V3的有監督精調做了以下這些事:
1)梳理指令精調(instruction-tuning)資料集。該資料集包括1.5M個例項,跨多個域,每個域都量身定製的不同的資料合成方法。
2)利用DeepSeek-R1 模型合成與推理(Reasoning)相關的SFT資料集。這裡很有意思,基於R1來SFT V3,再基於V3冷啟動R1。感覺上這裡有關鍵的訓練資訊沒有透露,DeepSeek應該還是留了一手。
3)為特定領域(例如程式碼、數學或一般推理)構建量身定製的專家模型資料合成器。使用複合有監督精調和強化學習訓練該專家模型。訓練過程中為每個例項生成兩種不同型別的 SFT樣本:第一種將問題與其原始響應耦合,格式為<problem, original response>,而第二種將系統提示與問題和R1響應合併,格式為<system prompt, problem, R1 response>。
4)建立高質量提示(Prompt)體系,引導模型形成自身的反饋與驗證機制。同時整合了來自R1合成的資料,透過強化學習加強這一能力。
5)對於非推理資料(例如創意寫作、角色扮演和簡單的問答),利用 DeepSeek-V2.5生成資料,並透過人工註釋驗證資料的準確性。
4.3.2 V3的強化學習
V3的強化學習包括獎勵模型與組相對策略最佳化(GRPO)。
與GPT-4類似,V3中獎勵模型包括:
1)基於規則的獎勵模型
對於可以使用特定規則驗證的問題,採用基於規則的獎勵模型來提供訓練反饋。例如,對於 LeetCode 問題,可以利用編譯器根據測試用例生成反饋。基於規則的模型驗證,可以確保更高的生成可靠性。
2)基於模型的獎勵模型
對於不具有收斂性的問題,依靠模型判斷來確進行強化學習。V3訓練中構建了特殊的偏好資料,該資料同時包括提供最終獎勵結果和形成獎勵的思維鏈,以降低特定任務中的獎勵破解攻擊風險。
大模型的訓練通常用無監督或有監督進行預訓練,然後透過有監督精調(SFT)進一步學習。然而SFT有時難以將人類的偏好顯式地整合進去,這時就需要強化學習來進行精調。在以往的大模型訓練中一般使用PPO(Proximal Policy Optimization)來形成梯度策略。PPO的代價在於需要維護較大的價值網路(也是一個神經網路),需要佔用較大的視訊記憶體與計算資源。

GRPO與PPO對比(來源:DeepSeek)
V3中則採用了DeepSeek提出的GRPO(Group Relative Policy Optimization)策略,只需要在一個分組內進行多個取樣輸出的比較,再根據比較結果選擇較優的策略。GRPO中不再需要一個顯式的價值網路,從而降低了視訊記憶體佔用並提高了訓練速度。
GRPO的計算流程包括:
1)取樣一組輸出並計算每個輸出的獎勵。
2)對組內獎勵進行歸一化處理。
3)使用歸一化後的獎勵計算優勢函式。
4)透過最大化目標函式更新策略模型。
5)迭代訓練,逐步最佳化策略模型。
5.1 無SFT的R1-Zero訓練
DeepSeek-R1 建立在其基礎模型DeepSeek-V3的混合專家(MoE)架構之上,採用專家並行方式,對於任意輸入,只有部分引數處於活躍狀態。
作為R1的無SFT版本,R1-Zero使用 DeepSeek-V3-Base 作為基礎模型,直接使用 GRPO進行強化學習來提升模型的推理(Reasoning)效能, 根據準確度和格式進行訓練獎勵。
R1-Zero的訓練過程具有重要意義:
1)在大模型訓練領域,SFT 需要高質量的人工標註資料(標註過程一般需要很長週期、成本高,且可能因標記者的偏好而引入潛在偏差)。
2)複雜的推理任務可能超出了普通人類的能力。無SFT的純強化學習方法也許可以使模型能夠湧現出超越傳統人類思維上限的超級推理能力。
3)無SFT的純強化學習不依賴於顯式標註,允許模型使用非自然語言表徵方法進行“思考”,從而具有超越自然語言進行邏輯推理的潛力。
獎勵的計算方式在很大程度上決定了強化學習訓練的效果。DeepSeek-R1-Zero 的基於規則的獎勵系統包括:
1)準確度獎勵(Accuracy rewards)。評估響應是否正確。
2)格式獎勵(Format rewards)。獎勵模型將其思考過程置於“<think>”和“</think>”標籤之間。

DeepSeek的準確度獎勵與格式獎勵(來源:網際網路)
透過強化學習訓練,R1-Zero 形成了複雜的推理能力,包括反思(模型重新審視並重新評估其先前的回答)以及探索解決問題的替代方法。這些能力並非透過常規程式設計或提示工程實現的,而是大模型在強化學習環境中自發產生的能力。
根據R1的論文,強化學習訓練中R1-Zero形成的另一個關鍵特徵是頓悟時刻(Aha Moment)。R1-Zero 透過重新評估其初始方法學會為問題分配更多的思考時間(更長的推理)。無需明確的教模型如何解決問題,只需為其提供適當的激勵,模型就會自主形成解決問題的策略。這也說明強化學習有潛力解鎖新的智慧水平,為未來更自主、更具適應性的模型鋪平道路,提供了形成超級智慧的可能路線。
與OpenAI的GPT-4 相比,DeepSeek-R1-Zero在推理任務上表現出了顯著的改進。例如,在AIME 2024 基準(推理能力測試)上,DeepSeek-R1-Zero的效能從15.6%躍升至71.0%,這表明R1-Zero的無SFT推理訓練方法是有效的。
5.2 DeepSeek-R1的訓練流程
DeepSeek-R1 的訓練過程分為4個階段,包括使用數千高質量CoT示例進行SFT的冷啟動,面向推理的強化學習,透過拒絕抽樣的SFT,面向全場景任務的強化學習與對齊。
兩個SFT階段進行推理和非推理能力的能力植入,兩個強化學習階段旨在泛化學習推理模式並與人類偏好保持一致。

DeepSeek-R1訓練流程(來源:中存算)
5.2.1 冷啟動(Cold Start):CoT SFT
與R1-Zero不同,R1首先基於DeepSeek-V3-Base進行有監督精調(SFT),以克服強化學習的早期不穩定。DeekSeek認為這種基於人類先驗知識冷啟動並進行迭代訓練的方式更適合推理模型。
由於這一訓練階段主要採用CoT資料,我們更喜歡將其稱為CoT SFT。
為構建少量的長CoT資料,DeepSeek探索了幾種合成方法:使用長CoT 的few-shot提示作為示例,直接提示模型透過反思和驗證生成詳細回答,以可讀格式收集DeepSeek-R1-Zero 輸出,並透過人工標註員的後處理來完善結果。在此步驟中收集了數千個冷啟動樣本以進行精調。
其中可讀模式指為每個回答在末尾包含一個摘要,並過濾掉不易閱讀的部分。其輸出格式為 |special_token|<reasoning_process>|special_token|<summary>。
5.2.2 面向推理的強化學習
在基於冷啟動資料對V3-Base 精調後,採用與R1-Zero相當的強化學習訓練流程,基於GRPO進行強化學習,根據準確度和格式進行訓練獎勵。為了解決語言混雜問題,還在強化學習訓練中引入了語言一致性獎勵,該獎勵以CoT中目標語言單詞的比例計算。
此階段主要提升模型的推理(Reasoning)效能,特別是在編碼、數學、科學和邏輯推理等推理密集型任務,這些任務涉及定義明確且解決方案明確的問題。
5.2.3 拒絕取樣與SFT
這是另一個使用標記資料的有監督精調 (SFT)訓練階段,分批進行了兩個epoch的精調,樣本量為800k。800k中包括600k推理資料和200k非推理資料。
與主要側重於推理的冷啟動資料不同,此階段結合了來自其他領域的資料,以增強模型在寫作、角色扮演和其他通用任務中的能力。
拒絕取樣(Rejection Sampling)提供了一種橋樑,使用易於取樣的分佈來近似訓練真正感興趣的複雜分佈。目標響應(ground-truth)從一組生成的回答經過拒絕取樣生成,其分數由獎勵系統確定。
|
---|

拒絕取樣示意(來源:網際網路)
600k推理資料的生成:
1)透過從上一輪強化學習訓練的檢查點進行拒絕抽樣,整理推理提示並生成推理軌跡(Reasoning Trajectories)。
2)除基於規則獎勵進行評估的資料外,還包括了基於獎勵模型的V3判斷生成資料。
3)過濾掉了混合語言、長段落和程式碼塊的思路鏈資料。
4)對於每個提示(Prompt),會生成多個回答,然後並僅保留正確的響應。
200k非推理資料的生成(如寫作、事實問答、自我認知和翻譯等):
1)採用DeepSeek-V3流程並複用V3的部分SFT資料集。
2)可呼叫V3生成潛在的思路鏈,再透過提示回答。
3)對於更簡單的查詢(例如“你好”),不提供CoT回答。
5.2.4 面向全場景的強化學習與對齊
最後,再次進行面向全場景的強化學習和人類偏好對齊,以提高模型的有用性和無害性,並完善推理能力。此階段還整合了來自不同管道的資料,將獎勵訊號與不同的提示分佈相結合。
1)使用獎勵訊號和多種提示分佈(Diverse Prompt Distributions)的組合來訓練模型。
2)對於推理資料,利用基於規則的獎勵來指導數學、程式碼和邏輯推理領域的訓練過程。
3)對於一般資料,採用獎勵模型來捕捉複雜微妙場景中的人類偏好。即參考DeepSeek-V3 管訓練流程,採用類似的偏好對和訓練提示分佈。
4)對於有用性,只關注最終摘要,以確保重點響應對使用者的實用性和相關性,最大限度減少對底層推理過程的干擾。
5)對於無害性,評估模型的整個響應,包括推理過程和摘要,以識別和減輕生成過程中可能出現的潛在風險、偏見或有害內容。
至此已完成R1的完整訓練過程,獲得了具備全場景推理能力的通用MoE模型,上下文長度均為128K。
|
|
|
|
---|---|---|---|
|
|
|
|
|
|
|
|
5.3 從MoE迴歸Dense(蒸餾SFT)
儘管MoE架構有各種優點,特別是在通用的to C領域具備低成本的優勢。但是MoE的架構特點使得其可能不太適用於專業應用場景(例如單一專家場景)和資源限制場景(例如端側推理)。
|
---|

模型蒸餾方法(來源:網際網路)
為了能夠將推理能力遷移到MoE架構不適合的場景,DeepSeek選擇Llama和Qwen系列開源大模型進行蒸餾,使相應的Dense模型也能獲得推理能力。與使用強化學習相比,直接SFT更適合較小的大模型,蒸餾完成的Dense模型推理能力明顯好於原開源模型。
DeepSeek-R1-Distill模型(來源:DeepSeek)
|
|
---|---|
|
|
|
|
|
|
|
|
|
|
|
|
5.4 更大視訊記憶體容量顯得尤為重要?
隨著MoE架構大模型的快速推廣,產業界也有看法認為在單塊GPU上整合更大的超過對等算力的視訊記憶體或擴充套件儲存顯得尤為重要。
我們對此持不同看法,首先要看產品應用場景佔有率,其次要看實際的部署方案,最後要看成本比較:
1)根據前面分析,目前主力的專業行業應用仍是使用Dense模型,能部署MoE模型的通用AI巨頭早已下場完成部署,從目前的應用比例來看,使用Dense模型的依然佔據應用主體。對於Dense模型(實際上是單專家的特例),超過對等算力的單卡大視訊記憶體或擴充套件儲存容易形成浪費。

同樣模型效能下MoE模型需要更大的視訊記憶體(來源:Meta)
2)根據從廠商和V3論文獲得的實際部署方案,為保證MoE部分不同專家之間的負載均衡,會將共享專家和高負載的細粒度專家在叢集的不同GPU做多個複製,讓GPU把更多的熱資料(發給共享專家的)跑起來,V3部署中每個GPU大概託管9個專家。如果考慮這9個專家中有一個是引數最多的共享專家,那麼事實上每塊GPU上的空閒細粒度專家佔據的引數總和可能不超過單塊GPU上總引數量的1/3。

MoE的跨GPU部署模式(來源:微軟)
3)從成本上看,可能把一部分專家放到CPU上更划算。我們認為MoE上的專家可以分為高頻專家、中頻專家,低頻專家。高頻專家和中頻專家搭配部署在GPU上比較合適,低頻專家排程很少,更適合放在伺服器上已有的閒置CPU的記憶體上(CPU上的標準記憶體比GPU的HBM便宜很多,擴充套件性更好),以充分利用全伺服器的算力降低綜合成本。

MoE模型的GPU+CPU混合部署(來源:Meta)
另外,R1自己都做Dense模型的蒸餾版本了,我們為何還要糾結於高於對等算力頻寬的超大視訊記憶體?
6.1 DeepSeek的關鍵貢獻
DeepSeek由梁文鋒於2023 年5月創立,公司獨立運營,並由幻方支援研發資金。這種獨特的模式使DeepSeek能夠在沒有外部投資者壓力的情況下開展跨越式的人工智慧研發,優先考慮長期研發和價值。
成立6個月後,DeepSeek於2023年11月釋出的DeepSeek Coder,隨後是 DeepSeek LLM 67B,DeepSeek逐漸踏上了基礎大模型的競爭賽道。2024年5月推出的DeepSeek-V2就呈現出MLA和AI Infra技術的明顯領先優勢,極具價效比,引發了中國大模型市場的價格跳水和血拼。
在V2釋出後,我們就已經關注到DeepSeek在演算法-硬體協同最佳化方面的出色表現。主編作者在2024年6月,為前來諮詢的投資人推薦DeepSeek的高性價比路線。
V3和R1釋出並開源後,DeepSeek進一步鞏固了其在MoE價效比和AI Infra的地位,並以開源模型中幾乎最出色的推理效能,贏得社會的廣泛關注。
對於R1/V3的主要創新,可以參考下表:
DeepSeek-R1/V3的主要創新(來源:中存算)
|
|
|
---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
我們經過分析,認為DeepSeek的演算法架構能力已經達到國際一線水平(例如MLA和GRPO演算法),而其AI Infra團隊的軟硬體協同設計水平(例如FP8訓練框架和基於PTX進行All-to-All通訊核心最佳化)和自由探索,可能已暫時超越大部分國際大模型企業。基本上DeepSeek團隊對GPU的效能使用率已接近技術上限,實現了在現有GPU體系內的軟體Sacle-up。
如果有這樣超越其他大廠一個數量級的訓練效率提升,估計很多大模型煉丹師夢裡都要樂開花了。
6.2 R1的出現是國運級的貢獻嗎?
有人提出DeepSeek所作的工作可能是一種國運級別的科技成果。
作為本文的主編作者,我個人只在小時候看過一點點梅花易數的介紹,對於推算國運的太乙神數一直沒有機會了解和獲得傳承,不好隨意講這是不是國運級的成果。
我對最近DeekSeek的影響力傳播看法如下:
1)對DeepSeek的成果,特別是V3/R1開源,應有產業的高度肯定。但過度褒揚對DeekSeek大機率是不利的甚至是極為有害的,會導致專心做事的人要疲於應付各種俗務,也大機率導致DeepSeek招致美國商務部的打壓。
2)梁文鋒本人一貫低調,在創立幻方後那麼多年,幾乎沒有出來宣傳或炒作。媒體和社會如能參考DeepSeek創始人的個人行事風格,給更多類似DeepSeek的本土人才和企業予以支援,會更有利於國運。
3)脫離實際技術分析的對DeepSeek的評判多數是霧裡看花,少一些人與亦云的評判,多一些實幹,對所有心懷理想的人都是好事。
4)會有比R1更顛覆性的先進大模型出現。如同前幾年的熱炒OpenAI和Kimi,技術總會不斷進步,對於DeepSeek來說,還有更加重要的目標和星辰大海,R1僅僅是海邊新發現的璀璨貝殼。
5)是否是對OpenAI模型的蒸餾根本不重要。學習和參考是人類社會進步的階梯,開源更是對大模型技術進步的頭號貢獻。一兩家閉源巨頭大機率沒有足夠的資源儲備來推動人類AGI的顛覆式發展,只有更多的DeepSeek這樣的力量貢獻到開源社群,才能形成合力實現超級人工智慧。
6.3 對於國產AI晶片的啟示
DeepSeek的進步和成果,也給國產AI晶片的發展提供了一些啟示。
一方面,一級市場需要升級投資邏輯,不用再崇洋媚外。事實證明純本土的研發團隊,甚至是純本土新人團隊,完全由能力做出有國際影響力的成果和產品。國內演算法不再死跟著老美屁股後面,國內的AI晶片也大可不必死跟著英偉達做傳統GPU。新的架構AI晶片,新的GPU架構,跨領域的技術融合,正形成新的產業視窗。
另一方面,DeepSeek的技術成果,事實也凸顯出算力對模型進步的重要性。DeepSeek的演算法進步速度之快,與其算力使用效率比其他團隊高約一個數量級有非常密切的關係。(當然DeepSeek可使用的算力總量也不低)在這樣的一個演算法大發展契機,儘快發展新架構AI晶片,發展3D封裝整合,發展高速互連,發展開源編譯生態,搶佔MoE模型發展期的技術紅利,對中國的晶片產業就顯得尤為重要。
