

“AI 六小虎”是過去兩年國內大模型時代的一個標誌,指的是當年最早完成 10 億 + 美元融資,且均擁有自研千億引數級大模型,在國際基準測試中與 GPT-4、Llama 等對標的大模型創業公司。
這是當時那個階段中國大模型的代表,代表了一個時代的認知。但如今,隨著六家公司分化出各自不同的道路,這個符號背後代表的大模型發展也有了不同的含義。
2023 年上半年,百川智慧、階躍星辰、零一萬物和月之暗面成立,DeepSeek 也是這一年成立。智譜和 MiniMax 要更早些,分別是在 2019 年和 2021 年。
在過去兩年多時間裡,大模型公司主要圍繞著模型層、產品層和營銷層三個方面展開較量。
總體看來,MiniMax、月之暗面前期在技術上的對外分享並不多,反而是在產品上更有優勢,比如月之暗面鉅額投放的 kimi、MiniMax 主打出海的 AI 虛擬人物聊天軟體 Talkie 等,其應用的知名度高於大模型本身。而百川、階躍星辰、零一萬物和智譜入局後都先將精力放在了模型研發上,大模型的知名度高於後推出的應用。
過去兩年間,對國內大模型公司基座模型研發影響最大的就是 OpenAI。從 1 億多引數的 GPT-1 到 1.8 萬億引數的 GPT-4,模型引數成為早期大模型創企的必爭指標。在去年上半年,AI 六小虎大都邁入了千億引數模型行列,但之後基座模型的引數規模也基本停留在了這個階段。
-
百川最早在 23 年 6 月釋出了中英文語言模型 Baichuan-7B,24 年 1 月釋出了超千億引數的大語言模型 Baichuan 3,四個月後釋出 Baichuan4。
-
階躍星辰在成立一年後的 24 年 3 月,首發了千億引數語言大模型 Step-1、Step-1V 千億引數多模態大模型和 Step-2 萬億引數 MoE 語言大模型預覽版。當年 7 月,又釋出了 Step-2 正式版、Step-1.5V 多模態大模型和 Step-1X 影像生成大模型。
-
零一萬物在當年 11 月開源釋出首款預訓練大模型 Yi-34B,24 年 5 月釋出千億引數閉源大模型 Yi – Large。
-
MiniMax 的 ABAB 大模型在 2023 年 8 月透過備案,向公眾開放。去年 4 月,ABAB 6.5 萬億引數的 MoE 模型釋出,支援 245k 上下文視窗。
-
智譜 2021 年開源百億大模型 GLM-10B,2022 年 8 月就釋出了千億引數大模型 GLM-130B,2024 年 1 月迭代到最新的 GLM-4。
-
這一時期,月之暗面並未公佈基座模型的引數資訊,技術上是靠長上下文出圈。
第一輪關於引數的爭奪基本落幕。但當前,基座模型的引數量還遠遠沒有達到瓶頸和人類順利使用大模型的需求目標,不再卷引數規模反映出了大模型一直以來都面臨的困境。
正如白鯨開源 CEO 郭煒所說,大模型公司競爭的關鍵要素其實一直沒有變化,模型引數規模還是重要的衡量指標,只不過中國原創大模型都遇到了“三不夠”的挑戰:錢不夠、卡不夠、資料不夠,這種情況下,大模型引數很難提上去。
基座模型最核心的問題在於需要持續投入高額算力和密集的高階人才,處於追趕階段的大模型公司需要投入更多。另外,基座模型的盈利週期較長,短期內難以擁有自我造血能力,這就要求企業要麼持續大規模融資,要麼自身具備足夠雄厚的現金流來支撐長期競爭。
但對於初期還在快速向前奔跑的公司來說,降本不是一件重要的事情,佔領市場更重要。郭煒認為,等發現“三不夠”的時候再做降本這件事也來得及,但就要看公司的戰略決心和戰略眼光了。
在“三不夠”的情況下,AI 六小虎早已分化賽道,這並非完全因為 DeepSeek,更多是在資源不足下,有的企業開始轉而求其次,在新大模型下蒸餾和工程化創新、在細分領域深耕領域大模型、在全球化領域想辦法做應用掙錢,這些是無奈的選擇。
比如,百川現已轉向垂直模型。早在去年 2 月,百川釋出了醫療垂域通用大模型 baichuan2-Turbo,同年 12 月推出全鏈路領域增強金融大模型 Baichuan4 – Finance。今年 3 月訊息稱,百川再收縮和裁撤金融業務、all in 醫療,此外也暫停了預訓練。
零一萬物在去年 5 月就放棄了原定的萬億引數 Yi-X-Large 模型訓練計劃,轉而訓練更輕量化、更具商業落地前景的 MoE(混合專家)模型 Yi-Lightning。2025 年更是與阿里雲合作,將耗費成本和精力更大的超大模型交給阿里訓練,並明確表示不會再做萬億以上超大引數模型。
張鵬則在近期表示智譜依然還在做預訓練模型,並非只訓小模型。去年底,階躍星辰稱自己堅持預訓練、繼續衝擊 AGI。MiniMax、月之暗面目前也未有停止預訓練的訊息。可見,基礎大模型的引數之爭或許不再激烈,但整體競爭還遠遠沒到得出結果的時候。

推理是大模型燒錢背景下做出的一個重要路徑選擇。OpenAI 在 2024 年 9 月釋出的推理模型 GPT-o1 成為大模型競爭的一個分界點,而後來者 DeepSeek 無疑成為這次遊戲的最大贏家之一。
有投資人指出,DeepSeek 的出圈並不是靠模型能力碾壓 OpenAI 或 Claude、達到三五倍的使用者體驗優勢,而是透過一種極具中國特色的“製造業式”成本控制——在各個維度效能差距僅 5%-10% 的情況下,將推理成本壓縮到了 1/30 至 1/50。
這就好比在軟體商店裡用極致價效比實現了突圍,這種出圈方式反過來也印證了當前行業的競爭邏輯。DeepSeek 探索出的這條路徑目前給其他幾家的技術路線帶來了挑戰。
DeepSeek 的爆火和開源無疑讓投資人和大模型企業紛紛緊張,但他們最終得出的結論是:目前還遠未到能對整個行業格局下定論的時候,整個行業仍處於你追我趕的發展階段,並非終局。
而 DeepSeek 最重要的行業影響之一在於幫助整個生態的參與者快速找準了自己的戰略定位。如果說之前大家還在猶豫是做大模型、應用開發還是深耕垂直領域的話,DeepSeek 則讓各方迅速認清了適合自己的發展方向。
-
百川智慧戰略收縮,聚焦在了 B 端醫療領域深耕,比如與北京兒童醫院合作推進醫療大模型,逐漸深化技術場景化能力。但目前基座模型迭代速度放緩,其 C 端應用發展不及預期,近期人才流失也較為嚴重。
-
階躍星辰目前有萬億級模型和多模態技術儲備,長期以來較為低調,市場聲量、使用者認知度可能不及其他五家。
-
零一萬物刻意控制模型研發成本,聚焦在輕量級模型上。商業化路徑確定 To B 市場,透過價效比和本地化服務與大廠競爭,此外海外使用者付費意願強,單款產品年收入過億元。但其靈活調整的戰略也帶來了人才流動和業務重心頻繁轉變的挑戰。
-
Minimax 作為國內首家多模態大模型創業公司,有一定多模態技術積累,而且國內外產品雙線佈局,取得了可觀商業化收入,2024 年收入或達 7000 萬美元,其中多數來自 Talkie。但多模態領域競爭激烈,海外產品也會面臨合規等風險。
-
智譜還在持續迭代基礎模型和多模態模型,並技術開源。商業化路徑也較為清晰,其在 B 端和 G 端市場表現突出。但 B 端服務上有被質疑“只會做定製化專案”,可能限制規模化發展,C 端應用開發和流量不夠突出。此外,智譜目前已在北京證監局辦理輔導備案,由中國國際金融股份有限公司擔任輔導機構,為其上市程序做準備。
-
月之暗面有很突出的 C 端產品 Kimi,但前期過於依賴大廠流量投放,使用者黏性和可持續性面臨挑戰。此外,模型資訊透明度較低,最初建立的長文字優勢被快速打破,需建立新的技術突破,C 端也面臨大廠擠壓風險。
此外,AI 六小虎的分化,也讓大廠迎來了趕超的最佳時機,如阿里的 Qwen、位元組的豆包等大模型,騰訊混元也在後續發力,吸納了大量 DeepSeek 紅利和流量。
郭煒分析稱,AI 六小虎的“三不夠”,正是大廠的“三夠”,與 C 端 App 短期燒錢就能燒出結果不同,大模型是一個長期的“全面戰爭”,大廠“三夠”情況下更能堅持下去。
對於是否還要投入基礎模型的問題,答案其實無外乎堅持和轉向。
現在,大模型公司面臨的選擇基本就是:要麼轉向投入較低的方向、以維持更長時間實現盈利,要麼繼續爭取更多資金去摘取“皇冠上的明珠”,但這要看市場是否還願意支援這個還要持續高投入三、五年之久的夢想。至於最終登頂的是誰,取決於其選擇的發展路徑和關鍵環節的把握,而答案可能需要等兩到三年的時間才能分曉。
有一部分人並不太看好繼續堅持基座模型。某大廠高管認為,如果做不到 DeepSeek 的水平,可能就沒必要投入基座大模型的研發了。現在這個賽道的門檻已經高到離譜——光是訓練叢集就得從 1 萬張顯示卡起步,絕大多數公司根本承擔不起這種成本。DeepSeek 團隊也純粹是因為老闆資金雄厚。其認為,現階段最現實的路徑還是等他們即將開源的新版本。只要完整的技術方案公開,行業跟進的成本會大幅降低。
在該高管看來,除非出現革命性的技術路線突破,比如多模態領域找到新方向才值得重點關注,因為多模態技術能整合影像、語音等多媒體資料,理論上具備近乎無限的資料擴充套件空間。
但是,基座模型的戰略價值依然顯著,它不僅為上層應用提供技術底座,還對整個 AI 生態發展有不可替代的推動作用。
如果要想在大模型上繼續突破,有業內人士認為必須在兩個維度有所突破:第一是模型能力必須足夠驚豔,但這一點很難:第一波從 60% 到 80% 準確率容易,但現在從 95% 到 97% 會異常艱難;第二是成本控制,能否用更創新的架構實現比 DeepSeek 更低的推理成本,然後出圈,這也是很好的一條路徑。但如果這兩點都做不到,那就需要認真考慮戰略轉型:是擁抱開源生態做 ToB 服務,還是徹底轉向產品化做 ToC 應用。
值得注意的是,郭煒指出,大模型沒有技術壁壘,或者說,在商業世界裡技術本身就不是壁壘。“雖然有些絕對,但是創業之後我深刻理解到:超強的技術演算法優勢背後是人才的競爭,是戰略的先知先決,是困難時刻戰略方向的堅持,是大量資本的投入,這都與技術無關。所以,模型技術能力在短期競爭內有決定性作用,但是在中長線競爭當中絕對不是最重要的壁壘。”
但目前大模型公司基本已經形成了開源的共識。“擁抱開源是 AI 六小虎的唯一齣路。”郭煒說道。
“大模型週期太長、投入太大了,一家公司很難融到那麼多錢、買到那麼多卡、找到那麼多資料,只有充分利用開源的方式建立起市場的認知標準,全民一起共建才有勝利的希望。否則,DeepSeek 及其開源大模型相關生態會碾壓過去 AI 六小虎的所有成就。那麼,AI 六小虎也只能是“AI 六小貓”,去做細分領域模型和應用了。”郭煒分析稱。
一直以來,國內外的大模型公司都面臨著閉源與開源路線的選擇。經過兩年以來的開閉源之爭,天平已經明顯傾向了開源,之前閉源的 OpenAI、百度等也開始擁抱開源。而在被曝出開啟上市輔導的同一天,智譜又一口氣上線並開源了三大類最新的 GLM 模型。
另外,最近可以看到大模型企業開始紛紛“秀客戶”,來證明自己的商業落地能力。
郭煒表示,商業化對 AI 六小虎不是那麼重要,反而收縮戰線,形成單點突破(比如 DeepSeek)比全面出擊商業化重要得多。
關於這一點,王小川在百川兩週年的全員信中也提到了過早商業化的問題,基礎模型、垂直模型、C 端應用到過早商業化,全面佈局的結果就是極大增加了百川智慧組織的複雜度。
而有的投資人則認為,大模型企業必須緊跟場景,發揮資料優勢、完善商業閉環。“無論世界怎麼變化,商業的本質始終存在。”核心打法是要做出差異化。
實際上,對於一直在尋求融資的 AI 六小虎來說,不商業化似乎也是不可能的。與 DeepSeek 不同,AI 六小虎融到的錢總有一天會花完,他們必須要自我造血、創造現金流。
普遍來看,業內人士更看好 To B 領域,因為這項技術能夠大幅提高效率、降低成本,並減少人力投入,因此開始產生一些收入,尤其 DeepSeek 極大減輕了市場教育壓力,很多企業是主動部署,而非被動推銷。但在 To C 領域,目前還沒有出現爆款應用,另外緊貼大模型能力開發的應用,一旦基礎模型升級,很多應用可能就要徹底改變。
關鍵在於什麼樣的應用場景能讓使用者願意支付如此高昂的成本使用 AI 來解決問題。研究領域相對特定且擁有高質量資料集,這個場景下,使用者可能願意為了發表論文每個月支付 200 美金。但在更發散、更泛化的環境裡,情況就完全不同了。
在最終沒有跑出結果之前很難談優劣,創業者永遠都是和時間賽跑,太早就是“先烈”,太晚湯都喝不到。合適的時機、合適的場景做出合適的產品,是創業者最難的決策,也是最有意思的挑戰。
在郭煒看來,AI 六小虎是大模型領域的先驅,也是這個市場最好的“教育者”,如果沒有他們,大多數技術開發者都無法接觸到廉價的國產大模型,也就不會有 DeepSeek 的爆點。然而,最終先驅是不是先烈,還是看“三不夠”場景下,如何在大模型領域形成自己的生態和閉環。
“不要妄談任何一個這個時代的大模型創業者,所有人都是勇士。”郭煒說道。
宣告:本文為 InfoQ 整理,不代表平臺觀點,未經許可禁止轉載。
今日好文推薦
AICon 2025 強勢來襲,5 月上海站、6 月北京站,雙城聯動,全覽 AI 技術前沿和行業落地。大會聚焦技術與應用深度融合,匯聚 AI Agent、多模態、場景應用、大模型架構創新、智慧資料基建、AI 產品設計和出海策略等話題。即刻掃碼購票,一同探索 AI 應用邊界!
