DeepSeek,攪了誰的局?

作者 | 蘇琦
編輯 | 魏佳
來源 | 定焦One(ID:dingjiaoone)
不要神化DeepSeek,但必須擁抱AI浪潮。
上一次AI行業引起全民震動還是2022年11月ChatGPT的橫空出世,此後AI行業每逢重大變革,都被稱為是“ChatGPT時刻”。
這個詞在2024年年底被改寫,“DeepSeek時刻”出現,被看作是AI歷史上的新轉折點。
2025年春節前期,中國杭州的一家AI企業DeepSeek(深度求索)接連發布了V3(2024年12月26日)和R1(2025年1月20日)兩大開源模型。
其中,DeepSeek宣稱V3在效能上接近閉源模型OpenAI的GPT-4o與Anthropic的Claude-3.5-Sonnet,優於開源模型Meta的Llama 3,且總訓練成本僅為557.6萬美元。推理模型R1的效果則逼近OpenAI o1,同時API(應用程式程式設計介面)價格僅為OpenAI o1的3.7%。
這是一家成立於2023年7月17日的初創公司,手上卻握著萬張英偉達晶片,以海外AI巨頭們7%左右的成本訓練出了效能不錯的大模型。這家公司早在2024年5月釋出V2模型後,正式打響中國大模型價格戰,被位元組、阿里、百度等大公司盯上,年底又成功將價格戰燒到海外。
DeepSeek的出現,一度讓全球算力概念股暴跌,疊加美股科技股普跌的影響,英偉達股價下跌近17%,市值蒸發近6000億美元,規模創美股史上最大。OpenAI和谷歌也在近期緊急上線最新模型,AI行業堪稱烈火烹油。
DeepSeek爆火之後,矽谷巨頭們開始掀桌,OpenAI表示已經發現證據,證明DeepSeek“蒸餾”OpenAI模型的跡象,Anthropic創始人和CEO Dario Amodei發文否認R1取得的突破,並呼籲加強對中國的算力出口管制。
拋開這場盛宴背後的情緒,本文試圖理清,DeepSeek到底有沒有被“高估”,以及DeepSeek將會對國內外AI產業帶來哪些漣漪效應。
欲戴其冠,必承其重
DeepSeek-R1上線20多天,接受了多少掌聲,就承受了多少壓力。
AI行業從業者林志總結了DeepSeek口碑的來源:1、完全免費使用。2、在和使用者聊天時會展示思維過程,這樣也能反向最佳化使用者的提問形式,提升對話體驗,而o1就沒有公佈思考過程,原因可能是怕競爭對手將過程複製後訓練自己的模型。3、將技術論文和模型進行毫無保留的開源,部分開源大模型還是會將最好的版本留給自己。
但前幾天因為熱度前來的使用者發現,DeepSeek頻繁出現宕機,幾乎無法正常使用,原因是公司伺服器受到了大規模DDoS惡意攻擊,截至發稿,DeepSeek已恢復正常使用。
DeepSeek表示服務執行穩定
當然,上述特徵只是讓DeepSeek有了使用者自發傳播的基礎,DeepSeek之所以火爆,一定程度上是因為它讓海外AI巨頭“破防”,出現了“掀桌子”的行為。
面對不少人士“DeepSeek是否有創新”的質疑,DeepSeek在其披露的V3和R1的技術論文中已經有過回應:1、V3模型採用多項自研技術進行架構創新,包括DeepSeekMoE+DeepSeekMLA架構、MTP多Token預測技術,使低成本訓練成為可能;2、R1模型放棄了傳統RLHF(人類反饋強化學習)中的HF部分,透過純強化學習(RL)直接訓練,驗證了RL的優先順序和有效性,進一步優化了訓練效率。
這也意味著,DeepSeek證明了自己的確可以做到“以不到600萬美元的訓練成本(可以理解為淨算力成本),完成一個性能接近巨頭的模型”。
不過,半導體市場分析和預測公司SemiAnalysis指出,557.6萬美元這個數字主要指的是模型預訓練的GPU成本,考慮到伺服器資本支出、運營成本等因素,DeepSeek的總成本在4年內可能達到25.73億美元。
不可忽略的是,創新成本下降的趨勢早已開始,DeepSeek只是加速了這一程序。方舟投資管理公司的創始人兼CEO“木頭姐”指出,在DeepSeek之前,人工智慧訓練成本每年下降75%,推理成本甚至下降85%到90%。
英諾天使基金合夥人王晟也有相同看法,比如年初發布的模型,到年底再發布同樣的模型,成本都會有大幅度下降,甚至有可能降至1/10。而且OpenAI作為閉源模型,對外披露的算力成本也有虛高的可能性,因為要留部分利潤空間,也要不斷對資本市場強化成本很貴的故事,以此得到更高的投資。
不過,DeepSeek的可貴性並不僅僅在於“便宜”,更在於它是一個“屠龍少年”的故事。
在ChatGPT橫空出世之前,在中國面臨算力管制之前,DeepSeek就已經擁有了超萬張的GPU儲備。這關聯到DeepSeek的創始人梁文峰從2008年開始探索的量化交易,因為要將深度學習模型應用於實盤交易,必須儲備大量算力,2019年至2021年間,梁文峰的另一家公司幻方相繼自主研發了“螢火一號”與“螢火二號”AI叢集,囤積大量晶片和技術人才。
幻方為梁文峰提供了很多東西,足夠的卡、對AI的sense以及模型層面的工程化能力,梁文峰也為DeepSeek提供了很多東西,不以盈利為導向,對AGI純粹的好奇心和探索欲,以及足夠開放的心態。有參與者表示,幻方曾用很低的價格將卡提供給演算法研究機構使用。
這樣的故事具有不可複製性和美感,這也使得DeepSeek聚集了全民性的熱度。
DeepSeek讓誰慌了?
DeepSeek火了之後,一石激起千層浪,中美AI產業鏈上下游的企業都受到了衝擊。
首當其衝的要數chatbot類(聊天機器人)AI應用,根據AI產品榜的資料,DeepSeek在2025年除夕前後,日活超過2000萬,超越國內的豆包和Kimi登頂中國第一。同時,DeepSeek僅用一週就使用者破億,而ChatGPT用時2個月。
實際上,在DeepSeek釋出R1的幾乎同一天,月之暗面推出了自己的Kimi k1.5思考模型,並在Kimi免費開放使用,豆包APP也更新即時語音通話功能,面向所有使用者開放,但是兩者聲量均被蓋過,日活也受到影響。
林志認為,這件事充分展示了使用者對chatbot這種模式的忠誠度是很低的,一旦出現了更強大更便宜更快的模型,大家就會遷移過去。
不過,從產品形態來看,豆包已經在產品中接入多模態大模型,而DeepSeek目前還只有對話,且體驗不穩定。雖然DeepSeek在除夕當天(1月28日)釋出了開源文字生成影像(文生圖)大模型Janus-Pro 7B,但是暫時還沒有接入DeepSeek網頁和APP中使用。
上為豆包,下為DeepSeek
在真正的殺手級應用出現之前,比拼的還是背後的大模型能力。在這個層面上來看,目前受到DeepSeek直接影響的第二批公司是自研大模型公司。
從投資人的視角出發,王晟指出,從2024年5月DeepSeek釋出V2模型打響中國大模型價格戰時,圈內基本達成一個共識——國內巨頭中,最好用的大模型是阿里的Qwen,豆包在2023年還不夠好用但在2024年下半年提升很快;創業公司裡DeepSeek和月之暗面(Kimi)增長最快,其餘五小龍(零一萬物、MiniMax、百川智慧、智譜AI、階躍星辰),有的轉型、有的放棄、有的背靠國資,但增長逐漸慢下去了,六小龍的格局也基本瓦解。
某種程度上,這些閉源大模型公司也要面臨和國外巨頭一樣的拷問:訓練成本能不能降下來?有沒有更高效的訓練方式?API價格戰還打不打?
至於DeepSeek是否會改變晶片市場的格局,多位行業人士則表示,算力之爭不會消失,但是現在到了一個重估的階段。之前英偉達的熱度過高,現在股價只是迴歸到了合理區間,但是最終英偉達的價值還是會上去。也就是說,英偉達並非DeepSeek的受害者。反而是隨著模型應用場景的擴充套件,模型越“平權”,對算力的需求越大。
DeepSeek把大家從一腔熱血只追求AGI的上限,拉回到轉向關注產業落地的現實裡,它用很低的成本給到相對高的能力,能促進產業鏈上的創新,將利好AI原生應用和AI硬體的發展。“2025年將是AI商業化落地元年”,林志稱。
同時,DeepSeek驗證了國內AI產業從晶片到模型是可以部分實現國產替代的,提振了產業信心。春節期間,國內雲服務廠商和GPU廠商紛紛部署DeepSeek。
不過,隨著一步步被推向“神壇”,DeepSeek的最大沖擊或許將來自於自身的選擇。
有信源稱,阿里正計劃以100億美元的估值,投資10億美元認購DeepSeek10%的股權。這一估值已經超過月之暗面(33億美元)和智譜AI(20億美元)。這一訊息被阿里方面否定,也有人指出背靠幻方的DeepSeek一直沒有尋求過融資,但市場仍擔心還有其他戰略方正在接觸DeepSeek。
這或許是市場最不想看到的結局,在這個春節接到“潑天富貴”的DeepSeek,原本是一家自由的公司,梁文鋒也曾對媒體提到,與大廠模型的最大區別是,“大廠會和平臺或生態捆綁,而我們是完全自由的”。有人擔心如果DeepSeek此次拿了任何戰略投資方的錢,AI六小龍的故事或許將在它身上重現。
DeepSeek的新正規化,
還有成長空間
放到更大視角來看,DeepSeek的崛起之所以被海外巨頭如此重視,背後是兩種路徑的對比。
王晟解釋,AI產業在跑通AGI方向上往往有兩種不同的路徑選擇:一個是“算力軍備”正規化,堆技術堆錢堆算力,先把大模型效能拉至一個高點,不斷推高AGI的能力上限,再考慮產業落地;另外一個是“演算法效率”正規化,一開始就以產業落地為目標,透過架構創新和工程化能力,推出低成本高效能模型。
可以看到,以往大模型公司之間的競爭,基本都是押注“算力軍備”正規化。在這種正規化下,OpenAI、Anthropic、谷歌,包括國內AI六小龍等企業,都是重資本投入型企業。
因為需要巨大的資金量,這意味著資本市場只能支援少數幾家企業,AI巨頭的市場集中度遠高於其他行業。
DeepSeek-R1釋出之際,美國總統特朗普宣佈了一個總額達5000億美元的AI基礎設施專案“星際之門”,OpenAI、軟銀和甲骨文等都已承諾參與其中。稍早前,微軟表示2025年將在AI基礎設施上投入800億美元,扎克伯格則計劃在2025年為其AI戰略投資600多億美元。
一個無法忽略的市場環境是,過去大家都在追求AGI能力的不斷增長,只要模型效能增長的夠快,競爭對手在後面無論怎麼進行資料工程最佳化都追不上頭部企業。但是到2024年11月左右,“高質量文字訓練資料即將被消耗殆盡”的論調敲響了行業警鐘,如果資料供應停滯,模型訓練也可能停滯,大家意識到之前比較粗放的訓練模式確實可能存在瓶頸,即使往上堆算力,延長訓練時間和增大資料量級,能力增長也幾乎到頭了。
圖源 / Unsplash
在這個時間點,其實也有企業認為“演算法效率”正規化是當下可行的正規化,只是DeepSeek先做出來了。“它的一系列模型也證明了,在天花板漲不動的情況下,把重點放在最佳化效率而非能力增長上的正規化也具有可行性。”王晟稱。
這樣的背景下,DeepSeek以一個“攪局者”的身份出現,美國AI巨頭“花錢砸模型很值”的資本故事逐漸不成立了。
DeepSeek以開源模型入場,被視為是靠生態的力量去挑戰領先者,而領先者為了怕被攪局,通常會越來越封閉。
“其實中美的主流路線已經完全反過來了”,林志稱。在阿里Qwen效能追趕上來之前,全球最主流的開源模型是Meta的Llama,在海外市場,Llama一度落後於OpenAI跟Claude等閉源模型,但在國內,目前在大模型上支大旗的反而是開源模型。
不過,也有不少業內人士認為不應該過分樂觀,因為DeepSeek只能說是給2025年開了個好頭,競爭還在繼續,差距依舊存在。
近期,幾大海外巨頭就推出了新模型。2月1日,OpenAI釋出最新推理模型o3-mini系列,這是OpenAI首個開放給免費使用者的推理模型。2月6日,谷歌官宣Gemini 2.0家族更新,其中Gemini 2.0 Flash-Lite版本被稱為谷歌目前為止價效比最高的模型。
正如梁文鋒自己所說,雖然具體技術方向一直在變,但模型、資料和算力這三者的組合是不變的。資料工程也是其中很重要的一環,OpenAI雖然面臨侵權問題但積累了自己的資料庫,豆包因為TikTok事件影響也宣稱自己不會進行資料蒸餾,“原生搭建的資料庫”成為大廠的護城河之一。
另外,王晟提到,根據Trade-off Curves(取捨曲線),DeepSeek選擇的路徑意味著它的精力重點在於工程最佳化,那就很難在能力上限上取得突破,“它用現有方法繼續迭代新版本,能力能提升多少?這是個問題。”
從學生時代起,梁文鋒就展現出探索AGI的熱情和不斷創新的追求,DeepSeek此前只是躲開了無效或失敗的嘗試,但我們也不應該否認前一種路徑中,巨頭們不惜代價,透過各種未知的嘗試來拓寬AGI邊界的努力。
DeepSeek攪動的這一片汪洋,漣漪還在繼續擴大。
*題圖來源於Pexels。應受訪者要求,文中林志為化名。

相關文章