萬字揭秘DeepSeek!這個創新讓全世界瘋狂複製,頂尖AI人才年薪千萬,訓練成本被低估

這可能是迄今為止海外對 DeepSeek 最全面的一份分析報告,來自知名半導體研究機構 Semianalysis。
從 DeepSeek 讓訓練成本大幅降低的 MLA 模式,R1 和 o1 等模型的效能對比,人均年薪千萬的頂尖人才,還指出目前 DeepSeek 的成本估算是錯誤的,推測其擁有 大約有 5 萬塊Hopper GPU……
關於 DeepSeek目前很多甚囂塵上的傳言,這篇文章依據現有資訊給出了更客觀的論述。
圖靈獎得主楊立昆最近再次發表了關於 DeepSeek 的觀點,他指出矽谷某些圈子的通病,是認定別處的創新都是靠作弊得來的。
而科技要快速進步,恰恰需要讓更多人才參與並共享創新成果。在 DeepSeek 的開源模型上,我們也看到了這種願景。
報告原文:
https://semianalysis.com/2025/01/31/deepseek-debates/
APPSO 整理了這篇分析報告中的關鍵要點:
推測 DeepSeek 大約有5萬塊 Hopper GPU,在 GPU 上的投資總額超過 5 億美元
 廣為討論的 600 萬美元成本僅指預訓練過程中 GPU 的花費,這只是模型總成本的一部分。
DeepSeek 團隊目前約 150 人,從北大浙大等中國高校招聘人才,年薪可達千萬
多頭潛在注意力(MLA) 是 DeepSeek 大幅降低推理成本的關鍵創新,將每次查詢所需的 KV 快取減少了約 93.3%
在推理效能上 R1 與 o1 不相上下,而 o3 的能力明顯高於 R1 和 o1
關注 AI 第一新媒體,獲取最新 AI 資訊和洞察

DeepSeek 風暴席捲全球

過去一週,DeepSeek 成為了全世界人們唯一熱議的話題。
目前,DeepSeek 的日活(據悉超過 1900萬)已經遠高於 Claude、Perplexity 甚至 Gemini。
然而,對於長期關注 AI 行業的人,這個訊息不算新鮮。我們已經討論 DeepSeek 數月,對這家公司並不陌生,但瘋狂的炒作卻出乎意料。SemiAnalysis 一直認為 DeepSeek 極具才華,而美國更廣泛的公眾並不在意。
當世界終於關注到這家公司,其中狂熱的輿論並沒有完全反映它的真實情況。
我們想強調的是,輿論已經發生了轉變。上個月,當 Scaling Laws (擴充套件定律)被打破時,我們就已揭穿了這個神話;如今,演算法改進的速度過快,而這在某種程度上對英偉達和 GPU 不利。
現在大家討論的是,DeepSeek 效率如此之高,以至於我們不再需要更多的計算資源,而由於模型的變革,出現了巨大的產能過剩。
雖然傑文斯悖論(Jevonʼs Paradox)也被過度炒作,但它更接近現實,因為這些模型已經引發了需求,對 H100 和 H200 的定價產生了實質性的影響。
編者注:傑文斯悖論簡單來說就是,當某種資源的使用效率提高後,雖然單次使用時消耗更少,但因為成本降低、使用更方便,反而可能讓人們用得更多,導致整體消耗量反而上升。

5 萬塊 Hopper GPU

幻方量化是一家中國對沖基金,也是最早在其交易演算法中採用 AI 的先行者。他們早早就意識到 AI 在金融以外領域的潛力以及擴充套件能力的重要性,因此不斷增加 GPU 的供應。
經過使用數千個 GPU 叢集進行模型實驗後,幻方量化在 2021 年,在任何出口限制出臺之前,就投資了 10000 個 A100 GPU。
這筆投資得到了回報。隨著幻方量化的不斷進步,他們意識到是時候在 2023 年 5 月剝離出 「DeepSeek」,以更專注地追求進一步的 AI 能力。
當時由於外部投資者對 AI 缺乏興趣(主要擔心商業模式問題),幻方量化自籌資金成立了這家公司。如今,幻方量化與 DeepSeek 經常共享資源,包括人力和計算資源。
如今,DeepSeek 已經發展成為一項嚴肅且協同的重要專案,絕非很多媒體所稱的「副業專案」。
我們相信即使考慮到出口管制因素,他們在 GPU 上的投資總額超過 5 億美元
我們認為,他們大約擁有 50000 個 Hopper GPU,但這並不等同於擁有 50000 個 H100 GPU。
英偉達根據不同法規要求推出了不同版本的 H100(例如 H800、H20),目前只有 H20 可供中國大模型公司使用。需要注意的是,H800 的計算能力與 H100 相同,但其網路頻寬較低。
我們認為 DeepSeek 擁有大約 10000 個 H800 和大約 10000 個 H100。此外,他們還訂購了更多的 H20,過去 9 個月內,英偉達已為中國市場生產了超過 1000000 個此類 GPU。
這些 GPU 在 幻方量化和 DeepSeek 之間共享,並在地理上有所分佈。它們被用於交易、推理、訓練和研究。
我們的分析顯示,DeepSeek 的伺服器資本支出總額約為 16 億美元,其中與運營這些叢集相關的成本高達 9.44 億美元。
同樣,由於資源集中化是一大挑戰,所有 AI 實驗室和超大規模雲服務商都擁有比單次訓練執行所使用的 GPU 數量要多得多,用於研究和訓練的任務。

年薪近千萬,在中國高校挖頂尖人才

DeepSeek 完全從中國招聘人才,不拘泥於以往的資歷,而是高度重視能力與好奇心。DeepSeek 定期在北京大學、浙江等頂尖高校舉辦招聘活動,許多員工均畢業於這些院校。
崗位職責並完全固定,招聘時會有一定靈活性,招聘廣告甚至宣稱可以無限制呼叫 10000 多個 GPU 。
這些職位競爭極為激烈,據稱對有潛力的候選人提供的薪資超過 130 萬美元(約合 934 萬人民幣),遠高於中國大型科技公司和 AI 實驗室(如 Moonshot)等競爭對手。
目前 DeepSeek 約有 150 名員工,但正在迅速擴張。
歷史證明,一家資金充足且專注的小型初創公司往往能夠突破界限。
DeepSeek 不具備像 Google 那樣的官僚主義,由於其自籌資金,能夠迅速推進新想法。
然而,與 Google 類似,DeepSeek(在大多數情況下)自建資料中心,而不依賴外部方或供應商。這為進一步實驗提供了更大空間,使他們能夠在整個技術棧上實現創新。
我們認為,他們是當今唯一最優秀的「開源權重」實驗室,超越了 Meta 的 Llama 專案、Mistral 以及其他競爭者。

DeepSeek 的極低成本被誤讀了

DeepSeek 的價格與效率引發了矽谷科技圈地震的關鍵。
然而,關於 DeepSeek V3 的訓練成本為 600 萬美元這個廣為流傳的數字,其實是片面的。這相當於只關注產品物料清單中的某一部分,並將其視為全部成本。預訓練成本僅僅是總成本中很小的一部分。
我們認為,預訓練所支出的成本,遠遠不能代表模型所花費的總成本。
我們相信 DeepSeek 在硬體上的支出遠超過 5 億美元。他們為了開發新的架構創新,在模型開發過程中,花費了大量資金用於測試新思路、新架構和消融實驗。
多頭潛在注意力(Multi-Head Latent Attention) —— DeepSeek 的一項關鍵創新,耗時數月開發,花費了整個團隊的大量人力和 GPU 計算時間。
論文中提到的 600 萬美元成本僅指預訓練過程中 GPU 的花費,這只是模型總成本的一部分。研發費用以及硬體本身的總體擁有成本等重要部分並未包含在內。
作為參考,Claude 3.5 Sonnet 的訓練成本達數千萬美元,如果那就是 Anthropic 的全部成本,那麼他們就沒必要從 Google 融資數十億、從亞馬遜融資數十億美元。因為這是他們進行實驗、提出新架構、收集和清洗資料、支付員工工資的必要成本。
那麼,DeepSeek 是如何獲得如此大規模的叢集的呢?出口管制的滯後是關鍵,我們會在下文將詳細討論。

V3 讓效能差距縮小的秘訣

毫無疑問,V3 是一款令人印象深刻的模型,但值得強調的是,它的「令人印象深刻」是相對於什麼而言。
許多人將 V3 與 GPT-4o 進行比較,並強調 V3 在效能上超越了 4o,但 GPT-4o 是在 2024 年 5 月釋出的。以當下 AI 的發展速度,演算法改進方面那個時候和現在已是天壤之別。此外,我們並不驚訝在經過一定時間後,用更少的計算資源就能實現相當或更強的能力。
推理成本大幅下降正是 AI 改進的標誌。
舉個例子,一些可以在筆記型電腦上執行的小模型,其效能可與需要超級計算機訓練,以及需要大量 GPU 推理的 GPT-3 相媲美。換句話說,演算法改進使得用更少的計算資源即可訓練和推理具備相同效能的模型,而這種模式在業內以及出現了多次。
這一次世界終於注意到了,是因為它來自中國的一家實驗室,但小模型效能提升並不是什麼新鮮事。
目前行業的趨勢是,AI 實驗室在投入的絕對資金上不斷增加,以獲取更高的智慧水平。
據估算,演算法效率每年進步 4 倍,即每過一年,用於達到相同效能的計算資源減少 4 倍。
Anthropic 的 CEO Dario 認為,演算法進步甚至會更快,可以實現 10 倍的提升。
就 GPT-3 質量的推理價格而言,成本已經下降了 1200 倍。
在研究 GPT-4 的成本時,我們也看到了類似的下降趨勢,儘管處於曲線的較早階段。時間上的成本差異降低可以解釋為不再像上圖那樣保持效能不變。
在這種情況下,我們看到演算法改進和最佳化使得成本降低 10 倍,同時效能提升 10 倍。
需要說明的是,DeepSeek 的獨特之處在於他們率先實現了這種成本和效能水平。
雖然 Mistral 和 Llama 模型也曾在開源模型上做過類似的事情,但 DeepSeek 做到的程度獨樹一幟。如果到了年底,成本再下降 5 倍,也請不要感到驚訝。

R1 憑什麼迅速追上 OpenAI o1

大家熱議的另一個話題,是 R1 能夠達到與 o1 相當的效果,而 o1 僅在 9 月釋出。
僅僅幾個月時間,DeepSeek 是如何如此迅速地趕上的呢?
問題的關鍵在於,推理能力形成了一種全新的正規化。
推理正規化迭代速度更快,且以較少的計算資源即可獲得顯著收益。正如我們在擴充套件定律報告中提到的,以往的正規化依賴於預訓練,而這這種方式不僅成本越來越高,且已經難以取得穩健的進步。
新的推理正規化,專注於透過合成數據生成和在現有模型上進行後訓練中的強化學習來提升推理能力,從而以更低的成本實現更快的進步。
較低的入門門檻加上易於最佳化,使得 DeepSeek 能夠比過去更快地複製 o1 方法。隨著各方探索如何在這一新正規化下進一步擴充套件,我們預計不同模型在匹配效能的時間差距將會拉大。
需要注意的是,R1 論文中沒有提及所使用的計算資源。這絕非偶然 —— 為了生成用於後訓練的合成數據,R1 需要大量的計算資源,更不用說強化學習了。
R1 是一款非常優秀的模型,但它披露的一些基準測試也具有誤導性。R1 特意沒有提及那些它並不領先的基準測試,雖然在推理效能上 R1 與 o1 不相上下,但在每項指標上它並不都是明顯的贏家,在許多情況下甚至不如 o1。
這裡我們還沒有提到 o3。o3 的能力明顯高於 R1 和 o1。實際上,OpenAI 最近分享了 o3 的結果(還提前釋出了 o3-mini ),其基準測試的擴充套件呈垂直趨勢。
這似乎再次證明了「深度學習遭遇瓶頸」,但這個瓶頸不同以往。

與 Google 的推理模型不相上下

儘管 R1 的炒作熱潮不斷,但很多人忽略了,一家市值 2.5 萬億美元的美國公司在上個月以更低的價格釋出了一款推理模型:Google 的 Gemini Flash 2.0 Thinking。
該模型已經可以使用,並且透過 API 即使擁有更長的上下文長度,其成本仍遠低於 R1。
在已公佈的基準測試中,Flash 2.0 Thinking 超越了 R1,儘管基準測試並不能說明全部情況。Google 只發布了 3 個基準測試,因此情況不夠全面。不過,我們認為 Google 的模型非常穩健,在許多方面可以與 R1 相當,但卻未獲得太多關注。
這可能是由於 Google 營銷策略平平、使用者體驗較差,但同時 R1 也作為一項來自中國的黑馬出現。
需要明確的是,這些都不會削弱 DeepSeek 非凡成就的價值。DeepSeek 作為一家快速運作、資金充足、聰明且專注的初創公司,這正是它在推理模型方面超越 Meta 等巨頭的原因。

讓美國科技圈瘋狂複製的 MLA 創新

DeepSeek 實現了許多領先的 AI 公司都未達到的技術創新。我們預計,接下來 DeepSeek 釋出的任何技術進展,都將幾乎立刻被西方實驗室複製。
這些技術突破是什麼?大多數架構上的成就都與 V3 相關,而 V3 也是 R1 的基礎模型。下面讓我們詳細介紹這些創新。
訓練(預訓練與後訓練)
DeepSeek V3 利用 Multi-Token Prediction (MTP) 實現了前所未見的規模,這是一種新增的注意力模組,可預測接下來的多個 token,而非單一 token。
它在訓練過程中顯著提高了模型效能,並且在推理時可以被移除。這就是一種利用較低計算資源實現效能提升的演算法創新。
還有一些額外的考量,比如在訓練中採用 FP8 精度,但領先的美國實驗室已經使用 FP8 訓練有一段時間了。
DeepSeek V3 還是一種專家混合模型,即由眾多專注於不同任務的小專家組成的大模型,表現出強大的湧現能力。
MoE 模型曾面臨的一個難題,是如何確定哪個 token 應該分配給哪個子模型或「專家」。DeepSeek 實現了一個「門控網路」(gating network),能以平衡的方式將 token 路由到合適的專家,而不會影響模型效能。
這意味著路由效率非常高,在訓練過程中每個 token 相對於整個模型的規模僅需修改少量引數。
這提高了訓練效率,同時也降低了推理成本。
儘管有人擔心專家混合模型(MoE)帶來的效率提升,可能會減少投資,但 Dario 指出,更強大 AI 模型所帶來的經濟效益非常可觀,因此任何節約的成本都會迅速再投資於構建更大規模的模型。
MoE 的效率提升不僅沒有減少總體投資,反而會加速 AI 的規模擴大。目前矽谷的主流科技公司都在正全力以赴地將模型擴充套件到更多計算資源,並在演算法上提高效率。
R1 背後的基礎模型 V3
就 R1 而言,其極大地受益於擁有一個強大的基礎模型(V3),這部分得益於強化學習(RL)。
RL 主要聚焦兩個點:格式化(以確保輸出連貫)以及有用性和安全性(以確保模型實用)。
推理能力是在對模型進行合成數據微調時產生的。正如我們在擴充套件定律文章中提到的,這正是 o1 所經歷的過程。
需要注意的是,R1 論文中沒有提及計算資源的使用情況,這是因為提到所用計算資源的數量會透露他們擁有的 GPU 數量遠超過其對外宣傳的規模。
如此大規模的強化學習需要大量計算資源,尤其是在生成合成資料的場景。
此外,DeepSeek 使用的一部分資料似乎來自 OpenAI 的模型(尚未證實),我們認為這將對從輸出中進行蒸餾的政策產生影響。根據服務條款這是違規的,但未來一種新的趨勢可能會採取類似 KYC(瞭解你的客戶)的方式來阻止資料蒸餾。
談到蒸餾,也許 R1 論文中最值得關注的部分,是能夠透過用推理模型的輸出對非推理小模型進行微調,將其轉變為具備推理能力的模型。
資料集策劃共包含 80 萬個樣本,現在任何人都可以利用 R1 的思維鏈(CoT)輸出建立自己的資料集,並藉助這些輸出構建推理模型。
我們可能會看到更多小模型展示出推理能力,從而提升小模型的效能。
多頭潛在注意力(MLA)
正如我們在前文提到,多頭潛在注意力(MLA) 是 DeepSeek 在推理成本上大幅降低的關鍵創新。
因為與標準注意力機制相比,MLA 將每次查詢所需的 KV 快取減少了約 93.3%。KV 快取是 Transformer 模型中的一種記憶體機制,用於暫時儲存代表對話上下文的資料,從而減少重複計算。
隨著對話上下文的增長,KV 快取也會增加,進而帶來巨大的記憶體壓力。因此大幅減少每次查詢所需的 KV 快取,就能降低每次查詢所需的硬體量,從而降低了整體成本。
不過我們認為 DeepSeek 是以成本價提供推理服務以搶佔市場份額,而並非真正盈利。
Google Gemini Flash 2.0 Thinking 仍然更便宜,且 Google 不太可能以成本價提供該服務。MLA 尤其引起了許多領先的美國實驗室的關注。
MLA 於 2024 年 5 月在 DeepSeek V2 中首次釋出,由於 H20 的記憶體頻寬和容量相比 H100 更高,DeepSeek 在推理工作負載上也獲得了更多效率提升。他們還宣佈與華為建立合作關係,但迄今為止在昇騰計算方面的應用還很少。
昨天矽基流動和華為雲團隊宣佈聯合首發並上線基於華為雲昇騰雲服務的 DeepSeekR1/V3 推理服務。
我們認為,MLA 對利潤率帶來的影響,對整個 AI 生態系統都意義重大。

R1 沒有在技術層面削弱 o1 的優勢

在利潤率方面,我們有一個關鍵發現:R1 並未削弱 o1 在技術上的優勢,反而以更低的成本提供了相似的能力。
這一結果合理且具有啟示意義,促使我們構建了一個面向未來的定價機制框架。能力越強,利潤率越高,這一邏輯與半導體制造行業的發展路徑頗為相似。
當臺積電首次突破至新的工藝節點,推出前所未有的產品時,便能獲得強大的定價權。而處於技術追趕階段的競爭者,如三星和英特爾,則更多依靠在成本和效能之間尋求平衡,通常以低於市場領導者的價格進行競爭。
對於晶片製造商(在這裡可類比為 AI 實驗室)而言,優勢在於可以靈活調整產能。如果某個新模型具備更優的成本效益,企業可以快速增加其產能,同時逐步減少對舊模型的支援。
這種產能調整機制不僅符合當前 AI 實驗室的運作模式,也與半導體行業長期以來的經驗契合。

技術的競爭就是定價權爭奪

這或許預示著未來 AI 競賽的發展軌跡。
率先進入新能力層級的企業將掌握顯著的定價溢價,而跟隨者則只能依靠微薄的利潤勉強維持。
那些在能力上落後的產品仍會存在,前提是它們能滿足特定的使用場景,但每一代產品中能夠趕超領先者的參與者會越來越少。
我們已經在見證,R1 已經達到了領先的能力水平,卻以零利潤的價格銷售。
這種鮮明的價格差異引發人們的疑問:憑什麼 OpenAI 的產品這麼昂貴?因為他們的產品定價基於最前沿的技術,並從中獲取相應的溢價收益。
我們認為,未來的技術發展速度將超過半導體制造業目前的快速節奏。
追求最新能力意味著持續的定價權——以ChatGPT Pro為例,而能力滯後的產品則必須透過降低價格來維持市場,利潤主要依賴於底層的算力和代幣基礎設施。
在當前這個快速迭代的技術週期中,追求卓越能力的動力只會加速產品的更新換代。只要企業能夠持續拓展能力、開發具有新價值的功能,就理應享有定價權;反之,在開放市場中,產品同質化的趨勢會迅速顯現。
在這個背景下,人們對當前局勢存在著根本性的誤解。我們所描述的情景,頗有幾分類似於超高速發展的半導體制造業——這是全球資本密集度最高的行業。沒有哪個行業在研發上的投入超過半導體制造業,但最接近這一現實的AI模型供應鏈,卻常常被視為不利的參照物件。
將 AI token與傑文斯悖論進行比較,可以發現深刻的歷史相似性。
最初,人們對電晶體能否持續微縮存在疑慮;一旦這一趨勢被確認,整個行業便全力以赴推動 CMOS 技術向極限縮放,並在此基礎上構建關鍵功能。
如今,我們正處於將多鏈思維模型和能力整合的初期階段,這與電晶體微縮的早期時代頗為相似。儘管從技術角度來看,這可能是一個充滿動盪的時期,但對於英偉達而言卻是一個好訊息。

免費又強大推理模型能一直持續嗎

事實上市場一直在尋找一種新的破局點,而這正是它所選擇的。
如果 DeepSeek 願意以 0 或甚至負利潤率運營,那麼其產品價格確實可能被壓低到如此程度。
然而,對於前沿 Token 服務的定價彈性顯然要高得多。鑑於 DeepSeek 正處於新一輪融資之中,他們有強烈的動力去追求這一策略。
在推理領域的一個關鍵轉折點上,DeepSeek 打破了 OpenAI 占主導地位的利潤率。這種領先地位能否持續?
我們認為不會——畢竟,一個開源實驗室現在已經展示了曾被認為僅屬於閉源實驗室的能力。雖然這是一個關鍵性的發展,但必須認識到 DeepSeek 仍然是一個快速跟隨者。
我們確實認為,一個更強大的開放實驗室(目前 DeepSeek 是最傑出的代表),將極大地惠及新興雲服務提供商和基礎設施供應商。
無論模型是開源還是閉源,計算資源的集中化依然至關重要。然而,如果建立在這些計算資源之上的上層服務開始免費提供產品,那麼計算本身的內在價值很可能會上升。
更多資本將流向計算基礎設施,而不是封閉模型供應商,這標誌著支出正向硬體轉移。軟體公司也將從這一動態中大幅受益。

相關文章