
作者丨陳彩嫻
2025 年的春節無疑已被 DeepSeek 霸屏。
過去三年每年的春節都有一次重磅的 AI 討論:2023 年是 ChatGPT、2024 年是 Sora,這兩股風潮都是由 OpenAI 掀起,而 2025 年則是 DeepSeek 的 V3 與 R1。
除夕當天 1 月 28 日,DeepSeek 更是趁熱釋出了文生圖模型 Janus-Pro,但後者沒有 V3 與 R1 吸引的關注大,原因在於其沒有像前者一樣動搖了過去基座大模型的「奇蹟」來源:算力。
DeepSeek V3 的引數規模是 6710 億,訓練成本不到 560 萬美元,訓練時長在 280 萬 GPU 小時。相比之下,GPT-4o 的訓練成本約為 1 億美元,Llama 3 405B 訓練時長則為 3080 萬 GPU 小時。
Meta 的 Llama 3 是用 16000 張 H00 訓練,此前還計劃在 2024 年囤卡 60 萬張英偉達 GPU 去做模型升級;馬斯克創立的 XAI 甚至囤卡 10 萬張 H100 建資料中心。
根據媒體報道,DeepSeek V3 與 R1 釋出後,Meta 在內的多家矽谷企業受到極大震撼,並開始質疑以往 OpenAI「大力出奇跡」的成功方法論,引起矽谷多家科技巨頭的暴跌,比如英偉達一夜之間被幹掉 4.3 萬億市值,相當於騰訊與美團兩家中國網際網路巨頭加起來的市值。
對於 DeepSeek 帶來的震撼,業界不難聯想到「漂亮國將出臺一系列制裁政策」等等往日常規反應。
值得注意的是,在 DeepSeek 給矽谷帶來地震的不久前,1 月 15 日,美國才剛將中國最早的大模型創業公司「智譜 AI」列入實體清單。AI 1.0 時代,商湯、曠視等企業也被美國列入實體清單。被列入實體清單的一大掣肘就是難以購買海外英偉達生產製造的 GPU,其在短期內仍是基座大模型訓練升級的一個重要條件。但 DeepSeek 的崛起證明了:
無論他們採取怎樣的「卡脖子」措施,都無法阻止中國 AI 技術的持續創新。
他們將智譜列入實體清單,但沒想到 DeepSeek 緊隨其後,並且採用了更低的訓練成本去做模型更新與開源。同樣,哪怕他們再繼續將 DeepSeek 列入清單,致力於開源的中國模型廠商還有面壁、智譜、階躍等等團隊不斷推陳出新。
另一個值得注意的事實是:OpenAI 在 2024 年 9 月釋出推理模型 o1,但 DeepSeek 在不到 4 個月後釋出的 R1 就已經能媲美 o1。這意味著,中國在大模型上的 AI 能力已經與美國的時間差距越來越小,從 2023 年到 2024 年底,這個時間差從超過一年縮短為 4 個月。
加上多位 OpenAI 前員工作證 DeepSeek 的 R1 獨立發現並實現了 o1 的一些獨特思想,也意味著 2025 年中國大模型的創新會更加獨立、超前,不再是跟隨、而是獨創。
AI 的星星之火已經開始燎原,難以再被撲滅。
DeepSeek 在矽谷引起的震盪,驗證了海外對中國 AI 技術創新的「始料未及」,同時也驗證了中國 AI 創新的可能性與巨大潛力。
此前在多數人包括國人的心中,中國的大模型沒有獨立創新能力,要跟隨海外頂尖團隊的步伐。也是因此,DeepSeek 帶來的震撼才會如此之大。設想一下,如果是 OpenAI、Anthropic 或谷歌等美國公司釋出了相似的成果,2025 年春節還會這麼熱鬧嗎?
正是因為競爭來自從前未曾意料到的對手,昔日的巨人才會被打得措手不及。
值得注意的是,在被忽視或吐槽的一年中,2024 年中國的大模型已經跋涉千里,且不像海外,國內多家創業公司的模型像 DeepSeek 一樣都是開源的。2023 年被稱為「百模大戰」,主要集中在單一的文字模態,但 2024 年的模型更新實則更猛:不僅數量更多,模態、尺寸、效能覆蓋也更多。
海外團隊必須開始正視一個既定事實:昔日他們眼中的技術「矮子」已茁壯成長,並可能成為下一個「巨人」。
筆者粗略統計了一下,除去位元組、阿里、百度等大廠,從 2024 年到 2025 年 1 月,單單是大模型創業公司就釋出了超 50 個模型數量。
先看第一梯隊中兩個對標 OpenAI、角逐基座模型的廠商智譜與階躍:
2024 年,智譜一共釋出與升級了超 10 款基座模型,包括文字、影像、語音、影片、程式碼生成等多個領域,如基座語言大模型 GLM-4 與 GLM-4-Plus,垂類模型 CharacterGLM(6B 開源)、AutoWebGLM,視覺大模型 CogVLM2,文生圖模型 CogView-3-Plus、影像/影片理解模型GLM-4V-Plus、影片生成模型 CogVideoX,端到端語音大模型 GLM-4-Voice,CogVideoX系列模型(2B、5B、5B-I2V)等等。
智譜還開源多款模型,包括 GLM-4-9B、CodeGeeX 第四代模型、Video版CogVLM2、CogVideoX-2B與5B、CogAgent-9B、CogVideoX v1.5-5B 與 CogVideo v1.5-5B-I2V 等等超 10 款模型。1 月被列入實體清單後,智譜更釋出了端到端模型 GLM-Realtime,同步升級了 GLM-4-Air 和 GLM-4V-Plus 模型。
而階躍星辰在 2024 年釋出了超 8 款模型,包括多模態大模型 Step-1V 與 Step-1.5V、影像生成大模型 Step-1X、影片理解模型 Step-1.5v-turbo、影片生成模型 Step-Video、語音復刻和生成大模型 Step-tts-mini、語音識別大模型 Step-asr 與語音大模型 Step-1o Audio。2025 年 1 月,階躍又更新發布升級了 6 款模型,包括多模態理解模型 Step-1o vision、語音模型 Steo-1o Audio 升級、影片生成模型 Step-Video 升級至 V2 版,釋出了 Step 系列的首款推理模型 Step Reasoner mini,以及小模型 Step R-mini 和 Step-2 文學大師版。
即使是在外界看來專注 C 端產品應用的月之暗面與 MiniMax,也釋出了多款產品:
月之暗面釋出了 K0-math、Moonshot-v1 系列文字與多模態模型。MiniMax 釋出了同是 MoE 架構的千億引數模型 abab6 與萬億引數模型 abab6.5,2025 年 1 月又釋出了基礎語言大模型 MiniMax-Text-01、視覺多模態大模型 MiniMax-VL-01、影片模型 S2V-01、語音模型T2A-01,並首度開源。
專注醫療與行業應用的百川智慧也釋出了超千億引數模型 Baichuan 3、Baichuan 4 等模型,但沒有開源。
除智譜外,另一家一直與 DeepSeek 相提並論的是清華團隊面壁智慧。此前,面壁小鋼炮模型被斯坦福團隊抄襲,在圈內引起轟動,其與 DeepSeek 一樣押注模型的高效訓練,一樣開拓了模型架構的稀疏化創新路線,並透過端側小模型驗證了其所提出的「Densing Law」(即模型的能力每 3.3 個月翻一番),2024 年以來發布了 8 款基座模型、多模態模型,陸續把 GPT-4V、GPT-4o 等巨無霸標杆進行極致智慧壓縮,放到了迷你尺寸的端側模型上。在晶片禁令下,這兩家因高效低成本技術探索,從去年就雙雙成為外媒重點關注物件。(想進一步瞭解的讀者可以閱讀《大模型隱藏玩家上桌:DeepSeek 向左,面壁向右》)
同樣,面壁智慧的模型也對外開源,與 DeepSeek、通義千問在海外被統稱中國大模型的「開源三劍客」。DeepSeek 的崛起被認為不僅是中國大模型與美國大模型的對抗,也是開源模型與閉源模型的對抗——答案顯而易見,開源模型更勝一籌。
以 50 款基座模型的更新速度來計算,2024 年中國大模型圈平均每個月釋出或升級 4-5 個 AI 模型,其中 1/3 在 GitHub 與 Hugging Face 上開源。綜合種種,不難推斷,美國想要透過管制人才、晶片等方式來遏制中國 AI 技術發展的時代已經過去。
海外需要接受中國技術創新力量的崛起是既定事實,國人也要對國產創新有更大的信心。
雷峰網創始人林軍在書寫中國科技史的過程中,透過觀察中國網際網路與移動網際網路的崛起,總結出一個規律,其認為:每個時代角逐到最後,往往只有四類企業各憑本事勝出,一類是靠資本/資源,一類靠商業模式,一類靠技術/產品的創新,以及永遠有一類是所有人都想不到的黑馬。
這個規律可以對應 PC 網際網路與移動網際網路時代的所有終局者,AI 時代也大約不會有太大的變化。大模型的競爭還未塵埃落定,最終贏家還未確定,但 DeepSeek 無疑已經是業內公認的一匹黑馬,其 V3 與 R1 帶來的影響甚至遠超 OpenAI 的 o1。
根據相關訊息,DeepSeek 至今仍未計劃對外融資,其主要依託幻方與梁文鋒個人輸血,但對中國其他大模型公司的融資與戰略也將帶來不小的震撼。據筆者觀察,春節期間不僅矽谷動盪,國內其他幾家主流的大模型公司也在加班拆解 DeepSeek 的模型秘籍。
DeepSeek 的崛起,肉眼可見將從以下幾個角度影響中國大模型的競爭:
首先是技術創新的天花板被拉高。
DeepSeek 不是第一家提出「要在 OpenAI 以外創新」的大模型團隊,此前其他國產大模型團隊的創始人也提出過相似的觀點,但 DeepSeek 是第一家透過釋出新技術、身體力行踐行了這一觀點的團隊。
V3 證明了訓練千億基座大模型的成本可以進一步將下降,R1 的獨創(如完全用強化學習替代 SFT)證明了 OpenAI 並不是唯一能夠提出 AGI 解法的公司。儘管 GPT-5 遲遲未釋出、大模型一度被認為已停滯不前,但 DeepSeek 在近兩個月的研究突破錶明:大模型的潛在技術空間仍然是非常大的。
放棄預訓練的團隊,或許是資源不足,也或許是技術創新力不夠。這也驗證了大模型的技術創新在短期記憶體在高壁壘,應心存敬畏。
其次是「高效訓練」的概念將得到重視。
在當前的第一梯隊大模型公司中,「高效訓練」並不佔主流觀點。例如,MiniMax 的大模型雖然也是採用 MoE 架構,但在其他高效訓練的方法創新上不見明顯發力。反而是第二梯隊的面壁智慧一度透過端側模型引起業內關注。但在 DeepSeek 受追捧前,即使面壁智慧、乃至一切企圖顛覆 Transformer 架構的基座模型研究都不受重視。
此前大算力訓練是基座模型廠商融資與構建壁壘的競爭砝碼,但 DeepSeek V3 的引數規模為 6710 億、訓練成本卻不足 560 萬美金,過去大算力出奇跡的粗放方式也受到了質疑。接下來,高效模型不僅是 DeepSeek、面壁與通義等開源擁躉的追求,在其他模型團隊的優先順序上也會更加靠前。
高效訓練的目標在於用更小的引數規模、更小的訓練成本來實現更高的效能。以面壁小鋼炮系列為例:MiniCPM 3.0 只有 4B 引數就能帶來超越 GPT-3.5 的效能,量化後的記憶體僅 2GB;MiniCPM-o 2.6 的引數規模僅 8B 就逼近了 GPT-4o,而且實現了即時流式的全模態看聽說,在“真影片”等很多功能上達到了以端勝雲的效果。
DeepSeek 有訓練條件,此前傳出有一萬張卡,其做法是先做大再做小,而面壁智慧由於融資與算力所限,並沒有採取先做大再做小的方法,而是直接做端側小模型。蒸餾後的小模型更擅長特定任務,在部分任務上的表現或不如通用模型,但在個人移動裝置的部署上已綽綽有餘。未來或許可以結合定製化晶片開拓出新的市場。
此外,大模型技術與產品創新的分野會更明顯。
事實上,在 DeepSeek 火爆之前,大模型的應用與技術競爭就已出現分流;DeepSeek 火爆後,分野會更加明顯,且由於 DeepSeek 的模型均是開源,交付模型的商業模式或將產生新的變動。
在 2023 年到 2024 年上半年,由於基座模型的進展較慢,交付基座模型與行業模型的商業模式尚有利潤空間。雖然這一模式沒有打破 AI 1.0 的正規化,但其對創業公司的迅速增收是十分有利的。但隨著 Llama 等開源模型的興起,加上 DeepSeek 的開源,模型中文任務能力的資訊差也被打破,模型的商業價格在開源的免費價格前失去優勢,商業模式也或不復存在。
如前所述,DeepSeek 的技術創新仍具有高壁壘,而技術的創新根源還是在人才。國內最頂尖的計算機人才在清華,傳聞 DeepSeek 的研究團隊也主要以清北競賽人才為主,這意味著能夠繼續參與基座大模型競爭的團隊也將越來越精、同時越來越少。
國內除了 DeepSeek,另外集結了較多清北畢業生的團隊只有智譜、面壁、月之暗面與階躍。這也意味著,2025 年,大模型創業公司的格局或許還會進一步生變。此外,2024 年字節跳動也重金挖了很多牛人,但位元組本就財大氣粗,不作更多討論。
除了技術創新,產品想象力將成為 2025 年與之後參與大模型市場的主要條件。除了技術創新,透過攏資源、商業模式與產品創新來取勝,也是更多創業團隊的形勢所驅。
舉例來說,MiniMax 雖然沒有在技術上取得頭籌、但其仍受到業界追捧的一個重要原因,就是在於產品與商業模式的創新,在 C 端與出海上都領先其他團隊。如外媒報道屬實,MiniMax 在 2024 年的營收超過 7000 萬美金,將是國內營收最高的大模型創業公司。
加上 DeepSeek 強大基座模型的開源,AI 產品的創新動力也會更大。捲不起基座模型的創業團隊將更多的精力放在卷產品與應用上,也不失為市場的幸運。
當前業內心照不宣的觀點是:靠產品與商業模式取勝的前景遠比技術創新取勝更大。
以 AI 1.0 時代的一家獨角獸為例,其上市前估值 2000 億港幣、開盤後 800 多億,最低跌到 200 多億,如今只有 500 多億。如果單靠技術創新與傳統的商業模式來盈利,多位 VC 認為技術驅動的大模型公司也無法打破上一代獨角獸的天花板。
對於大模型企業來說,可參考的發展物件是上一代 AI 獨角獸。因此,當前哪怕是智譜、階躍等被視為技術主導的大模型公司在商業模式上也不斷求新,並謀求突破 C 端的應用與收入。
最後,是中美 AI 的較量會得到重新思考。
隨著 DeepSeek 與面壁等團隊在高效訓練上的成功實踐,被 GPU 卡脖子的危機也將降低,國產模型與應用的更新自主性也會加大。
如前所述,此前國產大模型在訓練上受到 GPU 數量與規模的限制,大家在思考破局之路時也是首先從晶片端入手,但無奈國產晶片的進展遲遲無法替代英偉達。但 DeepSeek 的 V3 釋出後,大家開始注意到:演算法架構的創新同樣可以實現大模型訓練與部署的成本下降。
例如,DeepSeek 的 R1 採用了混合專家模型(MoE)、多頭潛注意力(MLA)、多令牌預測(MTP)、長鏈式推理(CoT)、DualPipe 演算法等設計,並進行了只採用 RL 而不作 SFT 的訓練嘗試,但在數學、程式碼、自然語言推理等任務上效能比肩 OpenAI o1 正式版。
R1 的訓練成本暫未披露,但不難推測其遠遠低於 o1 的訓練成本。此前爆料 DeepSeek 的 GPU 卡規模是一萬,這個數字比國內的許多大模型公司都多,可跟矽谷的多家巨頭比是「小巫見大巫」,但也未見 Meta 等團隊率先發布能夠媲美 o1 的模型。
同樣,先不論 DeepSeek,此前面壁也曾用一個 2.4B 的小模型 MiniCPM 實現了對標 Llama 2 13B 的效能,而前者具體資料的配比、引數配置是用十分之一甚至更小的模型訓練、預測出的。這種以小見大的路徑證明了:當引數潛力被激發,小模型完全能使用更高效的訓練方式實現更好的效能。
屆時,無論是 OpenAI、Anthropic 是否堅持閉源,或漂亮國堅持晶片出口的管制,在 DeepSeek、面壁這類團隊的研發創新下,用更小的算力成本來獨立開拓更強的 AI 模型都不再是天方夜譚,反而潛力與日俱增。
再加上國內 AI 人才培養較之十年前已是另一番模樣,且 AI 應用爆發後,擅長推理的國產晶片呼之欲出,國產 AI 的獨立創新、快速落地實則早已孕育胎中。身處局中的我們,要學會的第一件事,或許就是:AI 技術的民族自豪感。


更多內容,點選下方關注:

未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社群進行轉載!
公眾號轉載請先在「AI科技評論」後臺留言取得授權,轉載時需標註來源並插入本公眾號名片。
未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社群進行轉載!
公眾號轉載請先在「AI科技評論」後臺留言取得授權,轉載時需標註來源並插入本公眾號名片。