騰訊在AI拐點到來前的700天

新節奏、不賽馬、好運氣。
高洪浩
編輯黃俊杰
DeepSeek 今年春節火遍中國之後,騰訊是第一個全線產品盡數接入的巨頭,從微信、QQ 到騰訊自己的 AI 助手元寶和才上線幾個月的工作臺產品 ima。這被認為是騰訊 AI 投入爆發的開始。
但據我們瞭解,改變比這早幾個月。從去年下半年起,微信便探索起了 AI 相關的能力。DeepSeek 出來以前,騰訊高層也已著手,將分散在各事業群裡的工具產品打包起來,統一管理。
騰訊最新公佈的財務資料也證實了這一點。騰訊在 2024 年最後三個月將該季度大部分稅後經營所得——390 億元——用於資本開支,主要是採購顯示卡、投建算力中心。這意味著騰訊一個季度的 AI 基建投入接近此前兩年的總和。
ChatGPT 在 2022 年底上線。隔年 2 月,GPT-4 模型推動中國科技行業全面投入 AI。但這之後近兩年,騰訊不論投資還是產品都顯得不太著急。
這是騰訊投入節奏的改變。
此前十來年,每當行業鉅變、對手逼近,騰訊會調動力量快速應戰,通常第一批產品都不能改變局面,卻總能留在牌桌上,再來一次,最後打出絕殺。
比如短影片。從外部看,微視是一款失敗的產品——砸錢砸流量做大一款不夠好的產品,但隨即快速隕落。但客觀說,微視作為騰訊的短影片反擊也實現了一定戰略價值——試錯、為後續產品爭取時間,也儲備了人才。今天,影片號的日活躍使用者數超過 5 億,逼近抖音主應用,是明確的行業第二。
遊戲戰場從 PC 轉手機,騰訊是這樣過來的,移動支付、音樂也有類似的經歷。
當 AI 大模型成為新的技術變革,騰訊大致延續了類似的應對,但下場節奏完全變了。
2023 年初,ChatGPT 問世幾個月後的一次管理層戰略會上,騰訊技術與工程事業群總裁盧山以 ChatGPT 舉例,認為 OpenAI 從推出 GPT 模型開始,“花了三年時間才真正產品化,而騰訊的大模型肯定會很多坑要踩,所以不會著急。” 一位在場人士轉述他的話。騰訊的 AI 助手產品元寶在 2024 年 5 月底才釋出,比豆包、Kimi 晚了近一年。
當阿里與位元組在大模型、軟體和硬體上全面出擊時,一位騰訊人士記得,騰訊董事局主席兼 CEO 馬化騰跟一些 AI 團隊說,“要好好與外部合作,不要想著什麼都自己做”。2024 年,位元組在為豆包大舉投放、成為英偉達重要客戶時,騰訊則花費了 1120 億港元回購股份,創下了其年度回購金額的歷史新高。
“在等待一個拐點。” 上述騰訊人士說,“Pony(馬化騰)對內說的是,要清醒地認識到實際情況,不要過高估計自己的能力。” 騰訊要抓的是 AI 應用的機會,但過去兩年裡出現的國產大模型,能力都遠不足以支撐一個好的 AI 應用。
“微信的網路效應牢不可破,他們只要耐心等待底層的新技術成熟,再加以善用就可以了。” 一位字節跳動 AI 業務的負責人說。
大力投入發生在 2024 年的最後一個季度。當時阿里已經廣泛投資了一批創業公司;位元組則孵化出了數十款 AI 產品,旗下豆包也成為了中國使用者數最多的 AI 助手類產品,“對手的激進也讓騰訊有了緊迫感。” 一位騰訊人士說。回頭看這是堅定的投入,也是絕佳的運氣。
幾個月後,基金公司幻方默默投入四年孵化的開源大模型 DeepSeek 出人意料地點亮了中國的 ChatGPT 時刻,為整個行業重新畫了一條起跑線。
騰訊和阿里最新一季的資本開支都超過了 2023 全年。
意外之喜,DeepSeek 重畫了一條起跑線
2025 年初,騰訊的高層們在一次總辦會上決定,將原本分散在各部門的 AI 應用打包起來,放到一個事業群裡集中管理,讓技術與工程事業群(TEG)專注於大模型的技術研發。不過究竟由哪個事業群來管理,並無定論。
在經歷了幾年的降本增效後,騰訊絕大部分業務部門都已盈利,進入相對穩定的狀態。“儘管 AI 代表了未來,但也意味著高度的不確定性。” 上述騰訊人士說。

最終,雲與智慧產業事業群(CSIG)主動把這個任務接了下來,原本隸屬於技術與工程事業群(TEG)的 AI 助手產品騰訊元寶,以及隸屬於平臺與內容事業群(PCG)的 QQ 瀏覽器、搜狗輸入法、ima 等工具產品都將陸續遷至 CSIG。
這是騰訊 AI 戰略的第一次轉變。過去兩年,騰訊在 AI 業務上的佈局從未呈激進之態。進入 2025 年,大模型能力的進一步提升讓智慧體(Agent)與 AI 應用的落地成為可能,騰訊決定可以先動起來了,“而且 AI 這種大機會不應該賽馬,得集中資源押注。”
上一年,字節跳動不僅研發大模型,還推出了數十款軟硬體產品;一位位元組人士透露,公司原本要給抖許多業務拿來打仗的預算也被部分調劑給了 AI 業務;新的一年,位元組還將斥百億美元儲備晶片。
1 月 20 日,來自深度求索的 DeepSeek-R1 模型橫空出世,騰訊的姿態在此刻徹底扭轉。DeepSeek-R1 是國內唯一一個性能比肩 OpenAI o1 並達到應用級程度的大模型,最重要的是它完全開源,還在極短時間裡擁有了國民級的品牌辨識度。
騰訊沒有一絲猶豫,所有業務接入 DeepSeek-R1。“老闆們的態度非常明確:先走出來看看再說,否則永遠不知道接下來會怎麼樣。” 一位騰訊人士說。
不少業務部門在春節期間加起了班。騰訊雲最早上線了 DeepSeek-R1 及 V3 原版模型 API 介面;其次是 AI 智慧工作臺產品 ima 與 AI 助手元寶。2 月 16 日,微信搜一搜灰度測試接入了 DeepSeek。
這顯然是一次計劃之外的 “練兵”。一位接近騰訊的人士透露,微信灰度測試接入 DeepSeek 後流量突然激增導致算力告急,集團緊急排程自有資料中心資源,但僅能調撥出有限的伺服器機架。
不得已,微信只能控制灰度測試的數量,並將更多使用者分流至騰訊元寶上。由於元寶的流量是逐步累加的,節奏可控,騰訊也有更多時間來準備算力。
幾乎同一時間,騰訊開始下單買卡補充算力,保證 DeepSeek 能在騰訊系的產品內平穩執行。春節後,“寒武紀也拿到了幾百片來自騰訊的測試訂單。” 一位知情人士說。
相比之下,字節跳動對於旗下產品是否接入 DeepSeek 反而猶豫了。“內部一開始的普遍想法是,反正 DeepSeek 就在那兒,什麼時候接都行,不急。” 一位位元組 AI 產品經理說。一個春節過後,“很多產品突然意識到遲了,於是匆忙組織團隊緊急加班開發,接入 DeepSeek。” 不過目前,抖音、豆包等核心產品仍堅持使用位元組的自研模型。 
今年 2 月底,騰訊元寶在接入 DeepSeek 後,開啟了激進推廣,投放力度超過了豆包和月之暗面的 Kimi,還一度越過 DeepSeek 衝上了 iOS 免費榜的第一名。根據 QuestMobile 資料,元寶的日活躍使用者數只用了一週時間便增長了十倍,逼近 260 萬。
一位接近元寶人士說,這款產品在去年定下過一個日活躍使用者數超百萬的目標,但實際上並沒有投入太多資源買量,“核心策略是借勢騰訊內部的產品和應用。” 比如曾與騰訊影片一同開發 AI 角色陪聊的功能;也曾在《王者榮耀》週年慶之際,與專案組探討開發遊戲內的數字互動形象。
DeepSeek 激活了騰訊久違的戰鬥力。上述元寶人士稱,現在這個階段談卡位、佔入口都太早了,但 DeepSeek 的出現確實給了騰訊一個機會,能讓業務藉此找找做 AI 產品的手感、感受市場的水溫,“否則如果後面真的機會來了後,我們連怎麼做都不知道。”
大模型,從 AI Lab 的邊緣嘗試變成騰訊高層每天討論的議題
騰訊是較早開始研究 AI 的中國網際網路公司,2016 年成立的 AI Lab 則是推動騰訊 AI 研發與產業應用的核心部門之一。
早年間,AI Lab 從百度研究院、IBM 沃森研究中心、微軟研究院等機構招攬來了一批科學家助陣。原雅虎研究院主任科學家、百度研究院副院長張潼便曾擔任 AI Lab 的創始主任。第二年,騰訊總裁劉熾平在一次財報會上提到,人工智慧具有戰略意義,騰訊會對 AI 進行持續、長期而有耐心的投資。
AI Lab 有著國內大公司少見的寬鬆、開放的研究環境。它的的員工不用揹負硬性考核指標,他們曾以在頂級會議上發表的論文數作為績效標準,但很快便發現這個目標太容易實現了。
一位知情人士回憶,AI Lab 曾在一年時間裡投中了 20 篇 ACL(國際計算語言學協會年會)論文,重新整理了國內紀錄,“後來內部慢慢就不怎麼提這個目標了,還是想做影響力更大些的事情。”
各團隊研究的方向也無需與集團業務強繫結,於是許多人探索起了 AI 醫療、機器人,還有一些幾乎找不到落地場景的方向,“只要你認為是正確的,基本也能做下去。” 上述人士說。生成式大語言模型便是其中之一。
在 ChatGPT 問世前,學界與業界普遍將基於雙向注意力機制的預訓練正規化(如 Google BERT)視為技術演進主流,但騰訊 AI Lab 仍保持了在生成式大語言模型上的研究。
團隊也不用太考慮研究的投入成本——2020 年,他們用上了數十億量級的引數訓練模型,比 OpenAI 在前一年推出的 GPT-2 要大幾倍。相比之下,當時國內多數研究團隊受算力與資金限制,只用得起幾千萬量級的引數訓練。
只是一段時間過後,AI Lab 團隊發現大模型的表現總不盡如人意,還有嚴重的幻覺問題。當時 GPT-3 的釋出也沒有增添太多信心。於是一些參與者開始朝更垂直的落地場景繼續探索,更多人則將精力轉移到了更務實的搜尋、廣告、推薦技術上去了。
戲劇性的一幕發生在年底,ChatGPT 問世並在全球掀起風暴,這款產品史無前例地上線僅兩個月便攬入了上億使用者,甚至被認為將徹底重構傳統網際網路的業務形態。“有太多的沒想到。” 一位參與大模型研發的騰訊人士說,“以前從沒想過做千億級引數的生成式模型訓練,也想不到能直接給模型純文字指令來做監督微調。”
一位騰訊人士說,從 2023 年起,馬化騰開始每週和各業務部門的技術專家們開會討論大模型,“許多會還是一對一的。” 騰訊高層間建了一個針對大模型技術變革的分享和討論群。5 月的騰訊股東大會上,馬化騰直言,“我們最開始以為(人工智慧)是網際網路十年不遇的機會,但是越想越覺得,這是幾百年不遇的。”
技術部門也被集結了起來。騰訊 AI Lab 因長期研究自然語言處理,衝在了最前線,旗下的美國西雅圖實驗室負責訓練起了新的大模型。不過因為這個團隊常年埋頭鑽研學術,缺少專案開發與管理的經驗,最終做出的大模型效果欠佳。

恰在此時,與 AI Lab 同屬技術與工程事業群(TEG)的機器學習平臺部和資料平臺部也訓練了一個大模型,這支團隊有豐富的業務落地經驗,在這場競速中勝出。
一位騰訊投資部人士稱,ChatGPT  出來後,騰訊曾討論過,是否要激進投資國內的大模型創業公司。“剛開始是挺著急的”,所以最初的策略是儘可能每家都投一點。但隨著研究的深入,騰訊的判斷髮生了轉變:訓練大模型對算力要求非常高,不是一般創業公司能玩得起的遊戲,與其花高價激進投資,不如把錢留下來,做好自己的模型。“心一下就定了下來。”
騰訊 TEG 也很快組織起了一支聯合戰隊,機器學習平臺部負責大模型基座與純文字的模組、資料平臺部負責多模態模組、安全平臺部負責預訓練資料等,所有工作流程、管線開始從零開始搭建與磨合。騰訊其它的事業群也派出了自己的技術負責人支援。
與多數大公司一樣,騰訊最初在訓練大模型時也付出了不少的探索成本。
最早顯現出來的是晶片能力的問題。DeepSeek 是先花了大量時間和資源,解決好了這類最底層的硬體問題,最後才在模型訓練時效率飆升。但幾個大公司都在同時追逐每個新的技術熱點,一位騰訊人士說,“目標太多了,只能邊開飛機邊修引擎,最佳化效果效率很難像他們那麼高。”
新組織的磨合也需要時間。起初,文本團隊與多模態團隊的協作不夠緊密,導致前者未能及時調整文字模型進行端到端訓練,最終只能採用低效的兩階段模式(先單獨訓練各模組再整合)。
在訓練影片模型時,新團隊得先花大半年的時間,將每日處理的影片資料量級從上百萬提高到千萬以上。相比之下,在一些公司,大模型是由業務相關的團隊操刀訓練的,他們原本每天就在處理幾千萬的影片素材,類似的工程環節便不再需要重新摸索。
“不過一旦把底層的架構和組織梳理清楚,效率就能明顯提升,這也是我們過去兩年主要在做的事情。” 一位知情人士說。進入 2025 年,混元大模型的節奏明顯也在加快,上線業界首個一站式 3D 內容 AI 創作平臺—混元 3D AI 創作引擎、推出了混合 Transformer-Mamba MoE 架構的混元的混元 Turbo S,又在 3 月釋出並開源其圖生影片模型、推出了基於 Turbo S 基座模型的深度推理模型 T1,以及 5 個 Hunyuan 3D-2.0 系列的 3D 生成模型。
“公司在積極擁抱 DeepSeek 的同時,並沒有任何減少對混元的投入。” 上述騰訊人士說。他認為即便從防禦的角度,騰訊也一定不會放棄自己的模型。
有穩固的壁壘,但也有更迫切的挑戰
當美國科技巨頭重注押寶大模型時,蘋果成了一個孤本。它自己沒有激進研發最先進的大模型,而是選擇與 OpenAI 等公司合作,將對方的 AI 能力接入自己的平臺。儘管 Apple Intelligence 嚴重延期,但蘋果的股價並沒有因此暴跌。
蘋果投資者的共識是,隨著 AI 普及,人們將需要便捷的使用者入口、更強的本地運算能力,只要 AI 顛覆不了智慧手機,蘋果就是這場技術變革的受益者。
騰訊有著類似的獨特位置。它有最便捷的入口:微信是中國人使用最多的手機應用,使用者數超過了 13 億。目前 AI 產品偏向對話的使用者介面,和這個入口天然契合。中國的第二大對話入口則是 QQ。它們是最能讓 AI 迅速普及到所有人的渠道。
“內部提的一個詞叫 AI 普惠,即藉助自己的產品能力和規模優勢,更多人使用上 AI。” 一位騰訊人士說。
騰訊的另一個獨特優勢源於使用者信任與合規的資料生態。AI 服務若想真正貼近需求,就需在嚴格隱私框架下,更理解一個人。一位微信人士稱,作為國民級社交平臺,始終將隱私保護置於技術演進首位。
2025 年,馬化騰鼓勵所有業務部門都去大膽嘗試 AI 轉型。他承諾每個團隊都能有充足的卡來訓練模型,也不再要求業務與騰訊自己的混元大模型強繫結,“外部如果有更合適的基座模型就用外部的。” 一位騰訊人士說。
馬化騰關注每一個創新產品,無論體量大小。年初,他就曾提議,是不是可以把 ima(由 QQ 瀏覽器孵化的一款智慧工作臺產品)鑲嵌進 QQ 瀏覽器。
據我們瞭解,微信和 QQ 團隊目前正在重點探索 AI 相關的功能。
前景無限開闊,但迫近的問題非常現實,騰訊需要大興 AI 基建。
字節跳動傳統業務高度依賴推薦演算法,在幾年前便是中國 GPU 算力規模最大的公司。它的 AI 基建投資也先於對手啟動。
騰訊去年底開始的大規模資本開支要變成算力需要相當長的時間。
買卡是第一個問題。全球的先進製程晶片製造商都在 24 小時生產,但進口的 GPU 和國產 GPU 產能總和也不能滿足中國各大巨頭今年的需求。
更麻煩的是 GPU 需要放進專門設計的算力中心。一般而言,建一座算力中心需要 9-12 個月的時間,投建還受到持牌承包商產能、城市電力規劃等多方面的限制,缺口比買卡更嚴重。
一位深入研究 AI 的二級市場人士測算,目前的主流 AI 產品如果服務 1 億日活使用者,需要約 40 萬張卡的算力,這大約對應十個新的算力中心。而微信全球月活 13 億,大部分在中國。
這個計算還沒有考慮新的 Agent 產品,如果類似 Manus 的產品開始流行,單個使用者每天需要的算力可能還會再翻幾倍。
劉熾平在 2024 年報後的營收會上也提到了算力緊缺的問題。“我們必須把這些 GPU 裝到資料中心裡,這需要一些時間。所以我們在今年一季度沒能抓到那麼多需求。”
這一輪的 AI 競爭,DeepSeek 很大程度上拉平了大廠之間的模型差距,讓 AI 應用的嘗試和普及成為可能,這利好騰訊。但要抓住可能到來的新需求,每個大公司都得準備好足夠龐大的算力,這是需要錢才能解決的問題,但並不是光有錢就能很快解決。
題圖來源:《天才捕手》
FIN


相關文章