DeepMind也酸了?CEO怒噴DeepSeek成本是炒作:很多技術都來自谷歌和DeepMind

整理 | 華衛、核子可樂
就在最近,谷歌 DeepMind 圍繞 DeepSeek 模型成果及其低成本所發表的看法再一次受到關注與熱議。2 月 9 日,谷歌 DeepMind 執行長 Demis Hassabis 在一場活動上表示,DeepSeek 的人工智慧模型 “可能是我見過的來自中國的最好作品”。該人工智慧模型表明,DeepSeek 可以完成 “極其出色的工程”,它 “在地緣政治層面上改變了一切”。
不過,他認為,從技術角度來看,DeepSeek“並未展示任何新的科學進步”。Hassabis 稱,“儘管炒作得很厲害,但實際上並沒有什麼新的科學進展。它使用的是已知的技術。實際上,很多技術都是我們在谷歌和 DeepMind 發明的。谷歌本週向所有人釋出的公司 Gemini 2.0 Flash 模型比 DeepSeek 的模型更有效。“
此外,這位高管還駁斥了 DeepSeek 的出現顛覆了人工智慧開發經濟學的觀點:“我們沒有看到任何新的靈丹妙藥技術,DeepSeek 在效率曲線上並不是一個例外。”在這方面,Anthropic 創始人 Dario Amodei 先前也稱,“DeepSeek-V3 沒有從根本上改變大模型的經濟模式,只是符合持續降低成本曲線上的一個預期節點。不同之處在於,率先實現的是一家中國公司。”
557.6 萬美元訓練成本的“誤會”
談到 DeepSeek 所釋出模型的訓練成本資料,Hassabis 強調,DeepSeek “似乎只報告了最後一輪訓練的成本,而這只是總成本的一小部分”。
與 Hassabis 觀點相似,獨立研究機構 SemiAnalysis 也稱,目前被宣傳的 DeepSeek 成本價格“明顯有誤解”,僅計入了物料清單中的特定部分,並不能反映其全週期內的總體投入。具體來講,“預訓練投入遠遠不是 DeepSeek 花在模型身上的總體金額。透過估算,該公司單硬體支出就遠高於 5 億美元。而新架構的設計與創新、以及後續模型的實際開發都需要耗費大量資金,包括測試新想法、探索新架構的可行性和進行消融實驗等。”
SemiAnalysis 得出的結論是:DeepSeek 論文中提到的 557.6 萬美元成本僅僅是預訓練階段的 GPU 直接成本,只佔模型總實現成本中的一小部分,此外還有硬體本身的研發以及總體擁有成本(TCO)等其他投入。SemiAnalysis 還舉了 Claude 的例子作為參考:Claude 3.5 Sonnet 的訓練成本為數千萬美元,但如果 Anthropic 真的只需要這樣的投入就能完成模型構建,那他們就不會急於從谷歌和亞馬遜處數十籌集億乃至數百億美元。這多出來的部分,還要被用於進行探索性實驗、新架構設計、資料收集與清洗、支付人員工資等。
但其實即使用 DeepSeek 557.6 萬美元的訓練成本與 Claude 更廣泛的成本做對比,也並沒有太大意義。對於 557.6 萬美元的訓練成本,DeepSeek 在論文中已經有明確的解釋:
我們再次強調下 DeepSeek-V3 的訓練成本,總結在表 1 中。這是我們透過對演算法、框架和硬體的最佳化協同設計實現的。在預訓練階段,在每萬億個 token 上訓練 DeepSeek-V3 只需要 180000 個 H800 GPU 小時,即在我們擁有 2048 個 H800 GPU 的叢集上需要 3.7 天。因此,我們的預訓練階段是在不到兩個月的時間內完成的,成本為 2664,000 個 GPU 小時。再加上 119000 個 GPU 小時用於擴充套件上下文長度和 5000 個 GPU 小時的後訓練,DeepSeek-V3 的總訓練成本僅為 278.8 萬個 GPU 小時。假設 H800 GPU 的租賃價格為 2 美元 / 每 GPU 小時,那我們的總訓練成本僅為 557.6 萬美元。請注意,上述成本僅包括 DeepSeek-V3 的官方訓練,不包括與先前研究、架構、演算法、資料和消融實驗相關的成本。
關於 SemiAnalysis 提到的結構、演算法、消融實驗等成本問題,DeepSeek 在論文中也已經說明。不過,對於 Hassabis“僅最後一輪訓練成本”的猜測,論文中並未提及。
SemiAnalysis 還對比了 OpenAI 成本下降幅度來證明成本下降是“自然”的。“目前執行在筆記型電腦上的小模型已經具備與 GPT-3 相當的效能,而當初後者可是需要一臺超級計算機進行訓練、再由多張 GPU 支撐推理;就 GPT-3 級別的推理成本而言,其當前成本已經下降至當初的 1/1200;將目光投向 GPT-4,其成本也出現了類似的下降幅度,只是這條曲線尚處於早期階段。”
因此,在 SemiAnalysis 看來,“演算法的改進使我們能夠以更少的算力支援訓練與推理,最終實現能力相同的模型,而且這樣的情況仍在不斷上演。(DeepSeek )之所以引發了全世界關注,是因為 V3 來自中國實驗室,而小模型越來越強本身並不算什麼新聞。”
據 SemiAnalysis 估計,演算法的進步速度為每年 4 倍,就是說每過一年,實現相同功能所需要的算力資源就降低至四分之一。不過同時,SemiAnalysis 也強調,DeepSeek 的獨特之處正在於他們率先實現了這種強大的成本與能力組合。而且雖然 DeepSeek 目前的成本水平已經相當低廉,但到今年年底,其服務成本可能會進一步降低至五分之一。
當前成果背後的更多投入
我們都知道,DeepSeek 背後是“財大氣粗”的對沖基金幻方量化,管理規模超 600 億元。據瞭解,幻方量化也是在交易演算法中引入 AI 技術的早期先驅之一。他們很早就意識到 AI 在金融業以外領域的巨大潛力與擴充套件空間,因此一直在持續增加 GPU 投入,在透過具有數千張 GPU 的叢集執行模型實驗之後,幻方量化在出口限制尚未落地的 2021 年決定一舉將 A100 GPU 增加至 1 萬張。
隨著專案推進,他們決定在 2023 年 5 月拆分成立“DeepSeek”,旨在更專注於追求並塑造 AI 能力。幻方量化之所以選擇自籌資金,是因為當時外部投資者對於 AI 興趣不大,認為其缺乏有利可圖的商業模式。如今,幻方量化與 DeepSeek 似乎始終在大量共享資源,包括算力及人力等方面。
GPU 儲備成本
DeepSeek 現已發展成為一個緊密協同的嚴肅專案,絕非許多人聲稱的“附帶探索”。根據獨立研究機構 SemiAnalysis 的估算,即使考慮到出口管制,其 GPU 總投資額超過了 5 億美元(合約 36.5 億元人民幣)。SemiAnalysis 在分析報告中稱,“預計 DeepSeek 共掌握約 5 萬張 Hopper GPU,而非部分評論人士所言的 5 萬張 H100。我們認為,DeepSeek 擁有約 1 萬張 H800 和約 1 萬張 H100。此外,他們還大量訂購 H20 GPU。”
目前,英偉達按照法規要求推出了多個 H100 版本(分為 H800 和 H20),其中 H20 是專供中國模型服務商的型號。具體來講,H800 的算力水平與 H100 相同,但網路頻寬較低。過去 9 個月內,英偉達共生產了超百萬張專供中國的 GPU H20。SemiAnalysis 指出,這批 GPU 由幻方量化與 DeepSeek 共同使用,且分散在不同地理區域,主要用於交易、推理、訓練和研究等用途。
透過分析認定,SemiAnalysis 判斷 DeepSeek 的總伺服器資本支出約為 16 億美元,這批叢集的運營成本亦高達 9.44 億美元。需要注意的是,裝置分散化部署將帶來資源集中挑戰,這類情況的各 AI 實驗室和超大規模基礎設施運營商可能都必須採購更多 GPU 以支撐各地的研究和訓練任務。現在只有 X.AI 的情況比較特殊,其全部 GPU 均集中在同一處設施之內。
人力成本
DeepSeek 專門從中國國內招募人才,不考慮以往資歷,重點關注能力和好奇心。據瞭解,DeepSeek 定期在北大和浙江大學等頂尖高校舉辦校招活動,公司員工也多數畢業於這些大學。DeepSeek 提供的工作崗位往往並非提前設定好,而是具有一定靈活性,且在招聘廣告中稱員工可隨意使用多達 1 萬張 GPU。並且,DeepSeek 開出的年薪不菲。有訊息稱,DeepSeek 為頂尖申請者提供超過 130 萬美元的年薪,遠遠高於其他中國科技巨頭及月之暗面等競爭對手。
據公開資料顯示,DeepSeek 目前的員工數量大約為 150 人左右,且仍處於快速擴張階段。在某招聘平臺可以看到,截止今日(2 月 11 日),DeepSeek 放出了 38 個招聘職位,招聘的崗位涵蓋客戶端研發工程師、核心系統研發工程師、AGI 資料百曉生、深度學習研發工程師、全棧開發工程師、自然語言處理演算法、高階移動端開發工程師等多種不同的崗位,其中大部分崗位月薪 3 萬元起步,最高至 9 萬元,且都是“14 薪”,算下來年薪最高能達到百萬級別。就連實習生,都開出了 500-1000 的日薪。其人力成本可見一斑。
但從 DeepSeek 的工商資訊來看,杭州深度求索人工智慧基礎技術研究有限公司在繳社保員工僅 4 人,北京深度求索人工智慧基礎技術研究有限公司參保 0 人。也就是說,現在 DeepSeek 團隊中的大部分人很可能都借調於母公司幻方量化。
此外,近日 DeepSeek 在北京的辦公地址也被曝出位於北京北四環邊上,這棟樓裡還有 AMD、百度風投、蘋果智元公司、紅帽軟體、超威半導體等,租金應當也不菲。
參考連結:
https://semianalysis.com/2025/01/31/deepseek-debates/#deepseek%e2%80%99s-cost-and-performance
https://www.cnbc.com/2025/02/09/deepseeks-ai-model-the-best-work-out-of-china-google-deepmind-ceo.html

相關文章