
圖片來源:DeepSeek
DeepSeek 風靡全球。過去一週,DeepSeek 成為全世界唯一一個人們願意談論的話題。目前,DeepSeek 的每日流量遠高於 Claude、Perplexity 甚至 Gemini。以下是SemiAnalysis的一篇對DeepSeek的最新分析。文中”我們“指代SemiAnalysis。

對於密切關注該領域的人來說,DeepSeek 並不是什麼“新”訊息。幾個月來,我們一直在談論 DeepSeek(每個連結都是一個例子)。這家公司並不新,但狂熱的炒作卻是新的。SemiAnalysis 長期以來一直認為 DeepSeek 非常有才華,但美國廣大公眾並不關心。
我們想要強調的是,情況與上個月相比已經發生了變化,當Scaling Laws被打破時,我們消除了這個神話,現在演算法改進太快了,這對 Nvidia 和 GPU 來說也是不利的。
現在的說法是 DeepSeek 非常高效,我們不需要更多計算,而且由於模型的變化,現在一切都出現了嚴重的產能過剩。雖然傑文斯悖論也被誇大了,但傑文斯悖論更接近現實,這些模型已經引發了需求,對 H100 和 H200 的定價產生了切實的影響。
DeepSeek 和 High-Flyer
High-Flyer (幻方)是一家中國對沖基金,也是在交易演算法中使用人工智慧的早期採用者。他們很早就意識到人工智慧在金融以外領域的潛力以及擴充套件的關鍵洞察力。因此,他們不斷增加 GPU 的供應。在對具有數千個 GPU 叢集的模型進行實驗後,High Flyer 在 2021 年投資了 10,000 個 A100 GPU,當時還沒有出口限制。這筆投資獲得了回報。
隨著 High-Flyer 的不斷進步,他們意識到是時候在 2023 年 5 月分拆“DeepSeek”了,目標是更加專注地追求進一步的人工智慧能力。High-Flyer 自籌資金,因為當時外部投資者對人工智慧興趣不大,缺乏商業模式是主要問題。如今,High-Flyer 和 DeepSeek 經常共享資源,包括人力和計算資源。
DeepSeek 現已發展成為一項嚴肅、協調一致的努力,絕不是許多媒體聲稱的“附帶專案”。我們相信,即使考慮到出口管制,他們的 GPU 投資也超過 5 億美元。

GPU 的情況
我們認為他們擁有大約 50,000 個Hopper GPU,這與某些人聲稱的 50,000 個 H100 並不相同。Nvidia 按照不同的規定製造了不同的 H100 變體(H800、H20),目前只有 H20 可供中國型號供應商使用。請注意,H800 具有與 H100 相同的計算能力,但網路頻寬較低。
我們認為 DeepSeek 擁有大約 10,000 臺 H800 和大約 10,000 臺 H100。此外,他們還訂購了更多 H20,Nvidia 在過去 9 個月內生產了超過 100 萬臺中國專用 GPU。這些 GPU 由 High-Flyer 和 DeepSeek 共享。它們用於交易、推理、培訓和研究。

我們的分析顯示,DeepSeek 的總伺服器資本支出接近 13 億美元,其中運營此類叢集的成本高達 7.15 億美元。
DeepSeek 招聘的人才全部來自中國,不考慮以前的資歷,重點關注能力和好奇心。DeepSeek 定期在北大和浙江大學等頂尖大學舉辦招聘活動,許多員工都畢業於這些大學。職位不一定是預先定義的,而且招聘具有靈活性,招聘廣告甚至宣稱可以使用 10,000 個 GPU,且沒有使用限制。他們的競爭力非常強,據稱為有前途的應聘者提供超過 130 萬美元的薪水,遠遠超過中國大型科技公司。他們有大約 150 名員工,但發展迅速。
歷史表明,資金充足、專注的小型初創公司往往能夠突破極限。DeepSeek 不像 Google 那樣官僚作風,而且由於資金自足,因此可以快速實施創意。然而,與 Google 一樣,DeepSeek(大部分)運營自己的資料中心,不依賴外部方或提供商。這為實驗開闢了更多空間,使他們能夠在整個堆疊中進行創新。
我們相信他們是當今最好的“開源權重”實驗室,擊敗了 Meta 的 Llama、Mistral 和其他實驗室。
DeepSeek 的成本和效能
DeepSeek 的價格和效率在本週引起了軒然大波,頭條新聞是 DeepSeek V3 的“600 萬美元”訓練成本。這是錯誤的。這類似於指出物料清單中的特定(且很大)部分並將其歸為全部成本。預訓練成本只是總成本中很小的一部分。
訓練費用
我們認為,預訓練數字與模型實際花費的金額相去甚遠。我們確信,在公司歷史上,他們的硬體支出遠高於 5 億美元。為了開發新的架構創新,在模型開發過程中,需要花費大量資金來測試新想法、新架構想法和消融。多頭潛在注意力是 DeepSeek 的一項關鍵創新,花了幾個月的時間才開發出來,耗費了整個團隊的人力和 GPU 小時。
論文中提到的 600 萬美元成本僅僅是預訓練執行的 GPU 成本,這只是模型總成本的一部分。不包括硬體本身的研發和 TCO 等重要部分。作為參考,Claude 3.5 Sonnet 的訓練成本為數千萬美元,如果這就是 Anthropic 所需的總成本,那麼他們就不會從谷歌籌集數十億美元,也不會從亞馬遜籌集數百億美元。這是因為他們必須進行實驗,提出新的架構,收集和清理資料,支付員工工資等等。
那麼 DeepSeek 是如何擁有如此龐大的叢集的呢?出口管制的滯後是關鍵,我們將在下面的出口部分進行討論。
縮小差距 – V3 的效能
V3 無疑是一個令人印象深刻的模型,但值得強調的是相對於什麼而言令人印象深刻。許多人將 V3 與 GPT-4o 進行了比較,並強調 V3 如何超越 4o。這是真的,但 GPT-4o 於2024 年 5 月釋出。人工智慧發展迅速,2024 年 5 月是演算法改進的另一個時代。此外,我們並不驚訝地看到在給定的時間後,更少的計算就能實現相當或更強大的功能。推理成本下降是人工智慧改進的標誌。

例如,可以在筆記型電腦上執行的小型模型具有與 GPT-3 相當的效能,後者需要超級計算機進行訓練和多個 GPU 進行推理。換句話說,演算法改進允許使用較少的計算量來訓練和推理具有相同能力的模型,這種模式一再出現。這一次,全世界都注意到了,因為它來自中國的一個實驗室。但小型模型越來越好並不是什麼新鮮事。

到目前為止,我們看到這種模式的結果是,人工智慧實驗室花費了更多的絕對資金,以獲得更智慧的產品。據估計,演算法的進步速度為每年 4 倍,這意味著每過一年,實現相同功能所需的計算量就會減少 4 倍。Anthropic 執行長 Dario 認為,演算法的進步速度更快,可以帶來10 倍的改進。就 GPT-3 質量的推理定價而言,成本已下降了 1200 倍。
在研究 GPT-4 的成本時,我們發現成本也有類似的下降,儘管在曲線的早期階段。而成本隨時間變化的差異減小可以用不再像上圖那樣保持能力不變來解釋。在這種情況下,我們看到演算法的改進和最佳化使成本降低了 10 倍,而能力提高了。

需要明確的是,DeepSeek 的獨特之處在於他們率先實現了這一成本和功能水平。他們的獨特之處在於釋出了開放重量,但之前的 Mistral 和 Llama 型號過去也做到了這一點。DeepSeek 已經實現了這一成本水平,但到今年年底,成本再次下降 5 倍也不要感到驚訝。
R1 的表現能與 o1 相媲美嗎?
反觀R1,能夠取得與o1相當的成績,而o1才9月份才公佈,DeepSeek憑什麼能追得上這麼快?
答案是,推理是一種新的正規化,它具有更快的迭代速度和更低的收益,與以前的正規化相比,只需較少的計算量就能獲得有意義的收益。正如我們在擴充套件定律報告中概述的那樣,以前的正規化依賴於預訓練,而這變得越來越昂貴,也越來越難以實現穩健的收益。
新正規化專注於透過合成數據生成和強化學習在現有模型上進行後期訓練來提高推理能力,從而以更低的價格實現更快的收益。較低的進入門檻加上簡單的最佳化意味著 DeepSeek 能夠比平時更快地複製 o1 方法。隨著玩家弄清楚如何在這個新正規化中進一步擴充套件,我們預計匹配能力之間的時間差距將會增加。
請注意,R1 論文沒有提及所使用的計算量。這並非偶然——需要大量計算來為訓練後的 R1 生成合成資料。這還不包括強化學習。R1 是一個非常好的模型,我們對此沒有異議,而且如此迅速地趕上推理前沿客觀上令人印象深刻。DeepSeek 是中國公司,而且用更少的資源趕上來,這一事實讓它更加令人印象深刻。
但 R1 提到的一些基準也具有誤導性。將 R1 與 o1 進行比較很棘手,因為 R1 並未明確提及它們不領先的基準。儘管 R1 的推理效能與之相匹配,但它並不是每個指標都明顯勝出,而且在很多情況下它比 o1 更差。

我們還沒有提到 o3。o3 的能力明顯高於 R1 或 o1。事實上,OpenAI 最近分享了 o3 的結果,基準擴充套件是垂直的。“深度學習遇到了瓶頸”,但型別不同。

谷歌的推理模型也不錯
正當 R1 被瘋狂炒作時,一家市值 2.5 萬億美元的美國公司在一個月前釋出了一款更便宜的推理模型:谷歌的 Gemini Flash 2.0 Thinking。該模型可供使用,而且比 R1 便宜得多,即使透過 API 為模型提供更大的上下文長度。
根據報告的基準測試,Flash 2.0 Thinking 擊敗了 R1,儘管基準測試並不能說明全部情況。Google 只發布了 3 個基準測試,因此情況並不完整。不過,我們認為 Google 的模式很強大,在許多方面都與 R1 相媲美,但並沒有受到任何炒作。這可能是因為 Google 的市場策略乏善可陳,使用者體驗不佳,但 R1 也是來自中國的驚喜。

需要明確的是,這些都無損於 DeepSeek 的卓越成就。DeepSeek 是一家發展迅速、資金充足、聰明且專注的初創公司,其結構正是其在釋出推理模型方面擊敗Meta等巨頭的原因,這是值得稱讚的。
技術成果
DeepSeek 破解了密碼,並解鎖了領先實驗室尚未實現的創新。我們預計,任何已釋出的 DeepSeek 改進都將立即被西方實驗室複製。
這些改進是什麼?大多數架構成就都與 V3 有關,而 V3 也是 R1 的基礎模型。讓我們詳細介紹這些創新。
訓練(前期和後期)
DeepSeek V3 以前所未有的規模使用了多標記預測 (MTP),這些是附加的注意力模組,可以預測接下來的幾個標記,而不是單個標記。這提高了訓練期間的模型效能,並且可以在推理期間丟棄。這是一個演算法創新的例子,它能夠以較低的計算量提高效能。
還有一些額外的考慮,例如在訓練中進行 FP8 準確度,但美國領先的實驗室已經進行 FP8 訓練一段時間了。
DeepSeek v3 也是專家模型的混合體,這是一個由許多其他專門研究不同事物的較小模型組成的大型模型。MoE 模型面臨的一個難題是如何確定哪個 token 屬於哪個子模型或“專家”。DeepSeek 實現了一個“門控網路”,以平衡的方式將 token 路由到正確的專家,而不會降低模型效能。這意味著路由非常高效,並且相對於模型的整體大小,每個 token 在訓練期間只會更改幾個引數。這增加了訓練效率並降低了推理成本。
儘管有人擔心混合專家 (MoE) 效率提升可能會減少投資,但Dario指出,更強大的 AI 模型的經濟效益非常可觀,任何成本節省都會很快被重新投資到構建更大的模型中。MoE 的效率提升不會減少總體投資,反而會加速 AI 的擴充套件工作。這些公司專注於擴充套件模型以進行更多計算,並使其在演算法上更高效。
就 R1 而言,它從擁有強大的基礎模型 (v3) 中受益匪淺。這部分歸功於強化學習 (RL)。RL 有兩個重點:格式化(以確保它提供連貫的輸出)以及有用性和無害性(以確保模型有用)。在對合成資料集進行模型微調期間,推理能力應運而生。正如我們在Scaling Laws文章中提到的,這就是 o1 所發生的情況。請注意,在 R1 論文中沒有提到計算,這是因為提到使用了多少計算會表明他們擁有的 GPU 比他們的敘述所暗示的要多。這種規模的 RL 需要大量的計算,尤其是在生成合成資料時。
此外,OpenAI 稱 DeepSeek 蒸餾了來自 OpenAI 的模型,我們認為這將對輸出資料提取政策產生影響。未來的新趨勢可能是採用 KYC(瞭解你的客戶)來阻止資料提取。
說到蒸餾,R1 論文中最有趣的部分可能是能夠透過使用推理模型的輸出對非推理小型模型進行微調,將其轉變為推理模型。資料集策展總共包含 80 萬個樣本,現在任何人都可以使用 R1 的 CoT 輸出來製作自己的資料集,並在這些輸出的幫助下製作推理模型。我們可能會看到更多小型模型展示推理能力,從而增強小型模型的效能。
多頭潛在注意力(MLA)
MLA 是一項關鍵創新,它顯著降低了 DeepSeek 的推理成本。原因是 MLA 與標準注意力機制相比,將每個查詢所需的 KV 快取量減少了約93.3%。KV 快取是 Transformer 模型中的一種記憶體機制,用於儲存表示對話上下文的資料,從而減少不必要的計算。
正如我們在Scaling Laws文章中所討論的那樣,KV 快取會隨著對話上下文的增長而增長,併產生相當大的記憶體限制。大幅減少每個查詢所需的 KV 快取量會減少每個查詢所需的硬體量,從而降低成本。然而,我們認為 DeepSeek 以成本價提供推理是為了獲得市場份額,而實際上並沒有賺到錢。Google Gemini Flash 2 Thinking 仍然更便宜,谷歌不太可能以成本價提供這種服務。MLA 特別引起了許多美國領先實驗室的關注。MLA 在 2024 年 5 月釋出的 DeepSeek V2 中釋出。
DeepSeek 還利用 H20 實現了更高的推理效率,因為與 H100 相比,H20 具有更高的記憶體和頻寬容量。他們還宣佈與華為建立合作伙伴關係,但到目前為止,在 Ascend 計算方面與華為的合作還很少。
參考資料:
[1] DeepSeek Debates: Chinese Leadership On Cost, True Training Cost, Closed Model Margin Impacts, https://semianalysis.com/2025/01/31/deepseek-debates/
歡迎掃碼加群參與討論

———END——–
我們相信認知能夠跨越階層,
致力於為年輕人提供高質量的科技、資本和商業內容。
