“3萬張卡”、60億投入後,DeepSeek發了5000億紅包

作者:陳巍 蘇揚
來源:騰訊科技
文章已授權

芯事重重“算力經濟學”系列研究,聚焦有關算力、成本相關話題的技術分析、產業穿透,本期聚焦DeepSeek的使用者現狀、算力儲備、資本支出和產業影響。

DeepSeek在春節期間的驚豔表現,成為中、美科技競爭的新變數。在技術方面,DeepSeek成功地摸索出了一套在“算力受限”的條件下,提升算力效率、實現大模型效能大幅躍升的路徑;對行業而言,DeepSeek自信地用開源的方式賦能各行各業;而對使用者來說,其免費商業模式也意外地推動了“AI技術平權”和“AI普惠”。
DeepSeek在全球AI產業掀起的技術、資本風暴,伴隨而來的是企業和使用者們瘋狂湧入帶來的“潑天”流量。
朱嘉明教授在騰訊科技的《AGI之路系列直播》裡曾提到,人工智慧未來的發展將會出現分叉:一種是更前沿、尖端、高成本的路線,旨在研究人類未知的領域;一種是走向低成本、大規模的大眾化路線,DeepSeek就是這種大眾路線的最佳踐行者——他們不僅選擇了大眾路線,也想把更多的人帶上這條路。
相比出圈爆火,DeepSeek做了一件更值得被記錄在大模型開源史上的事情——透過連續五天的釋出,將其一路走來的方法論、“武功秘籍”公之於人,這其中包括:
  • 開源針對Hopper架構GPU(例如H100或H800)加速MLA機制計算的FlashMLA核心
  • 開源加速MoE模型高效通訊和並行處理,實現H800頻寬翻倍的DeepEP程式碼庫
  • 開源採用CUDA編寫,適用於矩陣和MoE模型計算,支援FP8精度的高效能通用矩陣乘法庫DeepGEMM
  • 開源V3/R1訓練中採用的計算與通訊重疊的雙向管道/流水線並行演算法DualPipe,用以提升資源利用率
  • 開源利用SSD和RDMA網路頻寬設計的並行檔案系統3FS檔案系統,用以提升模型訓推效率
現在,我們完全可以將DeepSeek稱之為 “OpenSeek” 。
DeepSeek“開源五日”這套動作,給外界的觀感是將CUDA、Hopper架構吃透了,甚至可以說DeepSeek的工程師,可能比英偉達的多數研究員更懂CUDA和Hopper,但相關研究的本質還是因為“算力受限”與成本高企。
那麼問題來了,春節之後的這段時間,DeepSeek在使用者和市場份額上的走勢如何,其算力現狀是什麼,他們究竟需要什麼量級的算力,資本支出在什麼量級,會給產業上下游帶來什麼樣的機會?

DeepSeek接入潮的負效應:移動端日活減

根據SensorTower資料,截至2025年2月24日,DeepSeek移動端近30天的平均日活為950萬,2月24日日活接近700萬,對比2月初1500萬的峰值資料,資料接近砍半。

日活使用者大幅度減少,與過去一段時間越來越多的終端廠商、雲廠以及企業私有化部署所組成的“接入潮”有關。
此前,由於使用者扎堆導致DeepSeek官方服務頻繁異常,第三方接入後,大量使用者被分流至外部場景當中。

但同時,低頻使用者的熱情逐漸消退,也是DeepSeek月活下降的一個重要原因。所以,在多數對大模型感興趣的人都已下載的情況下,到2月24日,DeepSeek的日下載量下滑至75萬左右。相比之下,1月28日,DeepSeek在移動端創下了531萬的峰值紀錄。
面對如此的流量下滑之勢,DeepSeek的未來是否值得擔心?答案是否定的。
如果DeepSeek擔心使用者分流而反噬自己,就不會選擇開源核心模型和硬體效率提升的相關方法論,也更不會在行業裡率先發起降價潮,你看最近他們又開始降價了,至少現在看,流量變現不是其最核心的目標。
當然,還要考慮另一重因素,我們所看到的流量下滑只是移動端趨勢的反應,一是網頁端、API接入的資料沒有披露,二是使用者使用頻次這類更細分的資料還未可知。

2000萬日活的入場券:預估需要2.78萬張GPU

相對其他同尺寸的稠密模型,DeepSeek R1模型的DeepSeekMoE+MLA(多頭注意力)架構具備顯著成本優勢。
單Token啟用引數僅37B(670B全引數的5.5%),KV Cache對視訊記憶體的需求,降低至傳統架構的1/3~1/15,理論上視訊記憶體只需要14GB,而H800和A800這些特供版的視訊記憶體都是80GB。
注:KV Cache:將需要重複計算的結果進行快取,需要快取的值為歷史token對應的KV值,用以避免重複計算。
另外,DeepSeek R1/V3還採用了8位(而不是16位的格式)的FP8資料格式,使得所需的視訊記憶體進一步減少。
具體到部署方面,除了常見的IDC叢集部署外,業界也為DeepSeek提供了開源的經濟型部署方案。例如清華KTransformers團隊針對引數儲存進行最佳化,使用單卡4090執行壓縮版671B DeepSeek。所以,這段時間很多人在談論大眾層面的“AI技術平權”,實際上在行業層面,DeepSeek以及清華KTransformers這樣的外部團隊的探索,以及陸續的開源動作,也可以歸結為一種由算力瓶頸驅動的演算法平權
前面提到,DeepSeek移動端大概950萬,如果網頁端+API也按照這個資料計算(實際上從辦公的角度看,web端流量應該更高),保守一點,我們假設其日活2000萬,那麼這個量級的流量,需要多少模型,需要多少算力?
我們假設平均每個使用者每天10次問答,單次平均消耗10秒鐘,即1/8640天,這意味著2000萬日活對應的單日推理請求總計2億次,如果排隊的話,總耗時為2億×1/8640,即1個模型跑23148天,顯然這種策略不合理,但可以換一種理解方式,部署23148個模型並行跑1天。
考慮到推理叢集、時差等因素需要設定一定量的冗餘,在23148個模型的基礎上,取1.2作為係數估算(實際係數與服務和客戶活動曲線有關),即實際部署的並行模型數約為2.78萬。
回到模型本身,DeepSeek R1模型一共有256個專家,根據使用者群的需求動態調整細粒度專家的分佈,這意味需要同時執行2.78萬個DeepSeek R1模型副本,以對應2000萬日活,人均10次問答(平均每次10秒)的推理需求按照DeepSeek論文給出的最佳化部署方案,每個模型的共享專家與8個細粒度專家常駐一個GPU(更精準的描述是Prefill 1+9,Decode 1+2,不影響推算結果),最終需要2.78萬張GPU。
可能會有人問:單一GPU不能同時處理多個查詢請求嗎,實際場景中必須要這麼多模型並行嗎?
正常情況下,單張GPU同一時刻只能執行一個模型,類似人腦同一時間只能處理一個對話。對單個GPU來說,多個並行查詢其實是時分複用排隊或眾核平行計算(不能處理太大計算)的方式,原則上一次對話,由叢集分配給一個GPU或一組GPU儘快算完,然後處理下一個客戶的一次對話,這樣才會有大量GPU同時計算同時服務不同客戶。
注:資料根據前述假設和常規佔用率估算,僅供參考,與實際數量不一定符合

養一個大模型團隊——60億元

2021年,DeepSeek母公司幻方量化在美國對華晶片出口管制生效前,前瞻性地採購了10000張英偉達A100 GPU。
受管制之後,英偉達連續為市場推出了H800、H20等多個特供版本,幻方量化也透過正規渠道採購了部分特供版以及其他型號合規的GPU,但具體數量未公開。
一個訊息可以佐證這個推測——2024年,幻方旗下AI公司DeepSeek在訓練大模型時使用了2048塊英偉達H800 GPU叢集,執行55天完成模型訓練。
考慮到高強度部署和高強度訓練接近佔滿GPU(這裡假設上述2048塊H800 GPU為白天訓練時專用,夜間會排程更多部署用途GPU給訓練),則幻方實際的卡數即2.78萬張(A100+H20)+2048張H800,總計29848張,大概在3萬張卡左右的規模。

注意,這些只是比較保守的預估,與國外技術媒體SemiAnalysis對DeepSeek GPU數量的預估在同一數量級。
3萬張卡的對於一家創企來說,規模已經相當大了。作為對比,矽谷的這些小巨頭們,像xAI Grok 3、OpenAI GPT4.5這些單一模型的訓練,就用到了10萬張、20萬張GPU。
就算基於價效比考慮,用於客戶服務的GPU估計主要為A100、H20,我們假設兩者按比例平均後批次採購價約為10萬元,2.78萬張大概為27.8億人民幣,另外2048張卡為H800,單卡按30萬人民幣計算,成本約為6億人民幣。
也就是說,幻方量化在GPU成本上的投入,總計應該不低於33.8億人民幣,再考慮到CPU、基礎設施建設等相關費用,預計硬體成本至少約為38億人民幣。
在這種規模的硬體投入以及API價格比OpenAI、kimi國內外的同類型產品便宜的情況下,還能做到545%的利潤率,確實非常出彩。不過這個利潤率只是單純的從API服務角度計算而來,未直接包含硬體折舊、人力、工程等諸多成本。
目前DeepSeek團隊規模約150人(新希望集團董事長劉永好也在近期採訪中確認和梁文鋒談話時被告知公司160人左右),主要從中國頂尖高校(如北大、浙大、清華)招聘,對核心研發人員提供年薪超934萬人民幣(約130萬美元,網傳訊息),遠超國內同行水平。若以人均年薪500萬人民幣保守估算,僅人力成本年支出已達7.5億人民幣
另外,綜合成本計算還要將資料成本、水電及管理費用計算在內,假設水電和管理費用為1.5億,則DeepSeek的研發成本顯著高於行業早期估算的557.6萬美元。
綜合計算,硬體、人力成本差不多47億人民幣左右,如果疊加配套軟體環境開發、資料獲取等隱性支出,其總研發投入應超過60億。

給國產算力帶來5000億的機會

這兩天,一些MaaS服務商在說接入DeepSeek虧錢的事情,忽略這種極端案例,總體來說,它給國產算力帶來的是一個巨大的機會。
在DeepSeek釋出後,華為昇騰、沐曦等國產晶片廠商迅速完成DeepSeek全模型適配,翻譯過來就是,一些國產晶片也能較好地用於DeepSeek的推理服務,客戶們在英偉達H20之外,多了一個可選項。
根據業內傳出來的資料,DeepSeek爆發之後,H20 GPU8卡伺服器的價格由從100萬以內,衝到了100萬以上,漲價幅度接近20%,消費級的4090 GPU則大量斷貨。
不過,這場接入潮對國產晶片的考驗不是它們能不能適配DeepSeek,而是有沒有足夠的產能來匹配這波“潑天的富貴”,加入“算力遊戲”當中。

除了晶片層面的適配之外,伺服器提供商這波跟進的也比較快,華為、新華三推出不同配置的DeepSeek大模型一體機伺服器,支援從滿血版到蒸餾版不同尺寸模型的推理服務。
到目前為止,已經有幾十家的伺服器提供商推出了相關的一體機產品,根據配置的差異,價格落在10萬-100萬這個區間。對於那些掌握私有化資料金礦的企業來說,這類一體機提供了API、模型服務商和雲廠之外,更符合其私有化部署和安全策略的選擇。
關於其市場規模,浙商證券在研報中如此說道——2025年至2027年,DeepSeek一體機在央國企市場將達到1236、2937、5208億元注意下,這還只是央國企市場。
所以,DeepSeek的爆火出圈,除了振奮了國產大模型的信心外,也為大模型的普及、落地進行了一場全球性的科普,同時給更多的上下游廠商帶來新的機會,這也是開頭我們所說的開源——它的能量、力量的表現。
你看,黃仁勳在2025財年第四季度財報電話會議上就說,“感謝DeepSeek,它開源了一個絕對世界級的推理模型”,對於享受這波紅利的國產廠商而言,更是如此。

相關文章