“算力崩塌”,是真是假

算力基礎設施仍是一種人工智慧時代不可或缺的創新土壤、社會資源。
來源 | 巨潮WAVE
作者 | 謝澤鋒 
DeepSeek的開發成本極低,開源、服務完全免費——
這讓山姆·奧特曼和其他AI人工智慧的從業者“印象深刻”,讓世界首富馬斯克破防,讓瑞·達利歐對美股深感擔憂。
知名投資人“木頭姐” 凱茜·伍德甚至直言:
DeepSeek加劇了人工智慧的成本崩潰。
“神秘的東方力量”讓全世界為之側目,也引發了中美AI領導地位更替的思考。
不過,對於算力進行重新判斷,可能仍然為時尚早。
當前,我國AI算力部署佔全球算力基礎設施的26%,名列世界第二。
在“算力即國力”的思潮下,東數西算等數字基礎設施工程正積極進行。
DeepSeek顛覆了固有的“大力出奇跡”的大模型效能提升路徑,短期內對算力需求預期會出現大幅下降。
但長期來看,算力部署仍然有大規模需求擴張的基礎。
正在進行的超大規模算力投資,對於中國科技產業來說,仍是一筆巨大的財富。
Deepseek帶來的對算力成本的大幅節省,與如今中國大規模投入的算力基礎設施建設並不衝突。
01

顛 覆

DeepSeek的顛覆性創新,在於極致的效率革命。
它僅用不到OpenAI十分之一的成本,就達到了後者最新大模型的效能。
1月20日,DeepSeek 正式釋出DeepSeek-R1模型系列。
大模型排行榜Chatbot Arena上,DeepSeek- R1的基準測試排名已升至全類別第三,與ChatGPT-4o最新版並駕齊驅,並在風格控制類模型分類中與OpenAI-o1並列頭名。
R1模型雖未公佈訓練成本,但據DeepSeekV3技術報告——
V3模型的訓練總計只需要278.8萬GPU小時,相當於在2048塊H800 (英偉達特供中國市場的低配版GPU)叢集上訓練約2個月,合計成本僅557.6萬美金。
有傳言,R1模型的訓練成本基本相當,但引數規模達到驚人的6710億,這些資料都足夠令外界震驚。
作為對比,GPT-4o模型的訓練成本約為1億美元,需要英偉達GPU量級在萬塊以上,且是比H800效能更強的H100。
同樣是開源模式的Meta Llama 3 系列模型,其訓練需要多達3930萬H100 GPU小時,DeepSeek的訓練成本約相當於Llama 3的7%。
也有AI大佬表示過,僅DeepSeek-V3級別的能力就需要接近16000顆GPU的叢集。
也就是說,這家中國初創AI公司僅用不到十分之一的成本,就達到了世界一流水平。
這種顛覆性的成本優勢,極有可能改變過往“高投入、高算力”的研發路徑,市場對算力硬體需求持續高增長的預期或產生動搖。
“四兩撥千斤”的能力源於其自研的MLA和MOE架構,為其自身的模型訓練成本下降起到了關鍵作用。
此外,R1模型使用資料蒸餾技術(Distillation),透過一系列演算法和策略,將原始複雜的資料進行去噪、降維、提煉,從而得到更為精煉、更為有用的資料,提升訓練效率。
模型蒸餾可以透過訓練小型模型模仿大型模型,廣泛應用於提高AI效率與降低成本。
比喻來說,DeepSeek相當於透過更高效的學習方法獲得了優異分數,而OpenAI還在搞題海戰術。
關於“蒸餾技術”網路上出現了一些爭議
OpenAI的訓練非常依賴人工——
其資料團隊甚至分為不同水平的部門,大量資料標註還要轉交給肯亞等廉價外包勞工,高維資料還需更高素質的專業人員進行標註。
這些都是成本。
近期OpenAI和一些輿論也在公開指責DeepSeek團隊透過“模型蒸餾”技術“違規復制”其產品功能,但始終未提供具體證據。
而且“資料越多效能越強”屬於慣性固有思維,因為資料量越多,其中的干擾也將隨之變大。
在此之前,市場上已經有“人工智慧變蠢了”的討論出現。
也就是說,如何對資料進行清洗和精煉,同樣是提升模型能力的關鍵。
透過創新訓練方法,DeepSeek改變了堆砌算力的共識。
正如創始人梁文鋒所說:“我們想去驗證一些猜想。”
02

改 寫

半導體領域普遍遵循摩爾定律,AGI行業則是沿著Scaling Law(模型規模定律)向前演進。
Scaling Law被業界認為是大模型訓練的“第一性原理”,模型效能與規模(引數量、資料大小、算力資源)呈正相關——
引數越多、計算資源越大,模型的效能就越強。
好比一箇中學生,給他提供更豐富的學習資料、更長的學習時間和更好的學習環境,他的學習成績普遍會更好。
此次AI浪潮正是以Scaling law為底層邏輯的技術革命。
但DeepSeek的出現打破了這一定律,或者至少讓Scaling law的邊際效益出現放緩的跡象。
這帶給業界的啟示是,人工智慧產業將不再一味追求大規模算力的投入,而是在模型架構和工程最佳化結合上進行突破。
粗放式的瘋狂投入發展階段逐步退潮,AI創新進入追求效率,追求模型架構設計、工程最佳化全新階段。
正如達摩院首席科學家趙德麗所認為的——
大模型可以看成是知識的壓縮,怎麼利用知識產生更好的智慧,就是基於基礎模型的思維推理必然發展的方向。
如微軟rStar-Math無需蒸餾,用60塊A100訓練的7B模型在數學推理上可媲美 OpenAI-o1;
上海 AI 實驗室的書生·浦語3.0,僅使用4T資料進行訓練,綜合性能超過了同量級的開源模型,而且訓練成本降低了75%以上。‌
DeepSeek帶來的“正規化轉移”,不僅破除了科技大廠建立的技術領先壁壘,同時還打破了重資本比拼的遊戲慣例。
而且它不僅開源,而且還免費。
作為回應,OpenAI緊急上線新一代推理模型o3系列的mini版本,並且首次免費向用戶開放其基礎功能。
奧特曼承認,“我個人認為,在(開閉源)這個問題上我們站在了歷史的錯誤一方,需要找出一個不同的開源策略。”
效率最佳化策略,無疑給網際網路大廠們的超級願景潑了一盆冷水。
字節跳動2024年在AI賽道的資本開支就高達800億元,接近BAT的總和;
微軟、谷歌、亞馬遜、Meta、蘋果五巨頭合計資本開支2253億美元,2025年有望繼續增長19.6%。
其中,單是微軟就計劃在2025財年砸下800億美元,用於建設人工智慧資料中心。
就在DeepSeek-R1模型釋出兩天後,美國政府就聯合OpenAI、軟銀、甲骨文等啟動“星際之門”專案,計劃在未來四年內最高投資5000億美元。
孫正義還宣佈要給OpenAI投資250億美元。
巨頭們期望透過“軍備競賽”,維持自身在AI領域的全球領導地位。
此前,美國大廠為GPT-5、Llama4等下一代模型正使盡全力補充算力。
奧特曼甚至一度去找到中東鉅富,計劃籌集7萬億美金建設一座超級資料中心和晶片製造廠。
DeepSeek的出現,改變了這種超大規模擴張算力的行業發展“固定路徑”,但同時也出現了一種應該徹底放棄算力建設的聲音
03

 過剩?

國家算力戰略部署的複雜性,顯然會超過一般輿論討論所得出的結論。
尤其是,我國算力基礎設施目前仍處於初步搭建階段,還遠未到過剩狀態。
一方面,隨著訪問量急速飆升,使用者蜂擁而至,DeepSeek深度思考和聯網搜尋功能也出現了宕機情況。
DeepSeek移動應用上線僅18天就迎來了1600萬次下載——
幾乎是ChatGPT同期的兩倍,更是成為全球140個市場中下載量最高的APP。
另一方面,需要注意的是,DeepSeek目前僅支援文字問答、讀圖、讀文件等功能,還未涉及圖片、音訊和影片生成領域,未來要想突破文字範疇,其對算力和前期訓練成本的投入都將呈幾何級飆升。
對於其他追隨DeepSeek的大模型公司來說情況也是類似,隨著使用者的增長和產品線的不斷豐富,最終都需要不斷擴張算力。
目前國內各大投資機構都在“瘋狂對接”DeepSeek,顯然是對此有非常清晰的判斷。
百度CTO王海峰就認為,規模定律(Scaling Law)仍然有效,更高質量更大規模的資料、更大的模型將會帶來更強的能力。
目前算力建設已成為國家級戰略。
2024年《政府工作報告》中就明確提出,適度超前建設數字基礎設施,加快形成全國一體化算力體系。
根據《中國綜合算力指數(2024年)》報告,截至2023年末,我國算力基礎設施規模佔全球的26%,名列第二,僅次於美國。
工信部資料顯示,截至2024年9月,我國算力總規模246EFLOPS(每秒進行百億億次浮點運算的能力),在用算力中心機架總規模超過830萬標準機架。
此前,六部門聯合印發《算力基礎設施高質量發展行動計劃》,其中指出到2025年,我國算力規模將達到300EFLOPS,智慧算力佔比要達到35%。
“東數西算”工程早在2021年5月就已啟動,京津冀、長三角、粵港澳大灣區、成渝、貴州、內蒙古、甘肅、寧夏八大樞紐和10大叢集雛形已現。
國內已建、正在建設的智算中心超過250個,規劃具有超萬張GPU叢集的智算中心已有十多個,國產晶片廠商也因此受到極大關注。
華為昇騰910B、寒武紀思元590、百度昆倉芯II-R200、海光資訊深算二號,加上中芯國際,共同形成了對抗英偉達、AMD的中國軍團。
這些大規模部署和研發投入,都具有歷史性的戰略意義,是人工智慧時代的重要社會財富。
04

寫在最後

用低成本開發出優質產品,是中國在資源匱乏的歷史條件下,實現工業現代化的獨特文化。
而美國則擅長所謂的“範佛里特彈藥量”,倚仗超大規模投入獲得超級領先地位。
在當前的世界經濟格局中,中國家電、光伏等製造業基本都是以高性價比策略取勝。
DeepSeek的成功,也是在另一個領域中體現出了中國智慧、巧思和韌性。
中美AI拉鋸的混戰中,原先還處在追趕階段的中國企業,突然以一種領先或顛覆者的身份出現,讓全球科技界大為吃驚。
但我們仍需要保持冷靜和謙遜的心態。
就像梁文鋒所說的:
在美國每天發生的大量創新裡,這是非常普通的一個。
他們之所以驚訝,是因為這是一箇中國公司,以創新貢獻者的身份,加入到他們的遊戲裡去。
也正因如此,算力基礎設施仍是一種人工智慧時代不可或缺的創新土壤、社會資源。
  ·   END   ·  
視 頻 推 薦
合 作 對 接
尋求報道、商務合作、投融資對接媒體互推、開白、投稿、爆料等……

掃碼新增投資人說運營者微信,備註「商務合作」詳細溝通。


超 級 社 群
【投資人說】正在組建超級投資者社群、超級創業者社群、超級讀者群、超級媒體群等,目前總人數已超1000人。
關注【投資人說】微信公眾號,傳送資訊「進群」,與各行業精英直接交流,共同進步。
旗 下 媒 體
發現在看了嗎,戳下看看

相關文章