作者 | 王延鶴
臨界點在加速到來。
特朗普重返白宮第二天,就宣佈「星際之門」專案Stargate Project:
OpenAI、甲骨文和軟銀將成立合資公司,未來四年投資5000億美元(約3.6萬億人民幣)用於AI基礎設施。包括Arm、微軟、英偉達、甲骨文和OpenAI等科技公司,都是初始技術合作夥伴。這似乎就是美國在AI時代的「曼哈頓計劃」,向AGI時代無限加速。
趕在春節前夕,中國的頭部大模型企業,密集進行了一輪推理模型更新。目前,DeepSeek的R1、Kimi的k1.5、智譜的GLM-Zero、階躍星辰的Step-1o系列等,都在對標OpenAI的o1模型。
集體的智慧湧現,意味著:中國廠商經過兩年衝刺,透過跟隨式創新縮小差距,甚至走出一條用更少資源、效能比肩的不同道路。如今,也到了原創式創新、大規模商用化的臨界點。
1月22日,字節跳動正式釋出了豆包大模型1.5系列。Doubao-1.5-pro模型在知識、程式碼、推理等權威測評得分全面超越GPT-4o 和 Claude 3.5 Sonnet,達到全球領先水平,並同步上線火山方舟對外提供服務,價格“加量不加價”。

過去一年,字節跳動是大模型增長最快的廠商。在2024年年初,字節跳動還被擔憂入局大模型時間太晚。經過一整年全力投入的高頻作戰,位元組取得的戰果是:
據QuestMobile資料,截至2024年12月,豆包APP的月活使用者約7523萬; 截至12月中旬,豆包大模型日均Tokens使用量超4萬億,「豆包+火山引擎」大模型和雲服務的組合,突破了B端企業市場和雲計算的原有格局。
這堪稱一次位元組式「慢思考、快執行」的經典戰役。
換句話說,每一次豆包大模型更新,都在以更低門檻、更低成本,將人工智慧技術傳遞給上億使用者、開發者和企業。在事實上,豆包大模型已成為國內AI普惠的「佈道者」。

此次,字節跳動釋出的豆包大模型1.5系列,包括了:
Doubao-1.5-pro:滿血效能,支援256k長文字,多項測試得分優於 GPT-4o、Claude 3.5 Sonnet 等業界一流模型; Doubao-1.5-lite:輕量級成本,旗艦級效能,極致響應速度,測評指標持平或超越 GPT-4o mini、Claude 3.5 Haiku; Doubao-1.5-vision-pro:視覺理解模型,在視覺推理、文字文件識別、細粒度資訊理解、指令遵循方面的能力全面升級; Doubao-1.5-realtime-voice-pro:真正實現端到端語音對話,在豆包APP全量上線,即將開放API服務。
目前,Doubao-1.5-pro已經在火山方舟全面上線,我們也上手進行了幾波測試。

最為核心的,就是豆包通用模型 1.5 Pro。
目前,Doubao-1.5-pro 在知識、程式碼、推理、中文等多個權威測評基準上都獲得了最佳成績。

這意味著,企業無論是需要處理中文文字,搜尋專業知識,做程式設計開發,還是進行的複雜邏輯推理任務,都能全面勝任。
當然,到底能不能打,我們也上手實測體驗了一波。
首先,我們測了兩個邏輯推理題:
1. 繞暈很多人的「算賬問題」
三個人去餐館吃飯,總共消費了30元,每人付了10元;後來老闆說今天打折,只收25元,讓服務員退回5元;服務員私吞了2元,把剩下3元分給了三個人,每人退回1元;這樣,每個人實際上付了9元,三個人總共付了27元;加上服務員私藏的2元,總共是29元。那麼,還有1元去哪裡了?
Doubao-1.5-pro用0.46s秒答了:

2. 非常經典的「動物過河」問題:
農夫需要把狼、羊和白菜都帶過河,每次只能帶一樣物品狼和羊不能單獨相處,羊和白菜也不能單獨相處請問農夫一共要過幾次河
Doubao-1.5-pro用0.61s秒答了:

整體思路很清晰,根本難不倒它。
隨後,我們也測試了故事創作能力:
請以“一場暴雨導致城市停電”為開頭創作一個至少包含三次反轉的懸疑短篇小說結局需要出人意料
豆包不到10秒給了我這樣一個小短篇,大家可以評判一下:

輕量級的Doubao-1.5-lite,在效能上其實和去年9月的豆包Pro版本媲美。相當於說,企業客戶只需花更少的成本,就能獲得更出色的效能,AI的“智價比”更高了。
同時,此次多模態能力的全面提升,讓豆包在互動和能力上,都更懂人,也更像人。
視覺理解能能力上,Doubao-1.5-vision-pro在多模態資料合成、動態解析度、多模態對齊、混合訓練上進行了全面升級,提升模型視覺推理、文字文件識別、細粒度資訊理解、指令遵循方面的能力。
在升級之後,Doubao-1.5-vision-pro可以讀懂任意解析度、任意比例的圖片,不管是隨手拍的圖片、裁切後的模糊小圖,豆包都能理解。
比如,能夠完全識別手寫的試卷,並進行判分:



同時,豆包APP已全量上線即時語音功能。
支援和真人一樣的聊天互動,豆包可以模仿不同語氣、情緒,能夠在對話中處理打斷和插嘴,也可做到唱歌、說悄悄話等有趣的互動方式。
比如我們讓豆包模仿唱了一段已經解凍的《恭喜發財》:
距離豆包基礎模型上次更新,才過了一個月。
我們從豆包大模型1.5 Pro的變化,也能看出位元組在技術上的思路轉變:
1.採用係數MoE(混合專家系統)架構,用啟用引數僅為稠密模型引數量 1/7 的 MoE 模型,超過了稠密模型的效能,將效能槓桿提升至 7 倍,業界普遍為3倍。
2.字節跳動對硬軟體進行了深度定製。自研伺服器、網絡卡和網路協議,提升了算力叢集的通訊效率;運算元層計算和通訊的高效交疊,保障多機分散式推理的穩定和高效;精細量化和 PD 分離等方案,靈活使用算力和多工混合排程,實現更高效算力利用。
3.不使用任何其他模型資料,豆包構建了完全自主的資料生產體系,最佳化資料質量的同時,確保資料來源的獨立性和可靠性。
不直接追求更大量級的模型規模,不走蒸餾模型的“捷徑”。
豆包是在探索「模型效果、執行效率、成本控制」,三者之間的最佳平衡點——用更低的成本,提供更強的能力。

字節跳動在匹配應有的段位。如果2024年大模型行業是3倍速發展,字節跳動就是10倍速的躍遷。
去年年初,位元組提高AI的戰略定位,積極招攬頂尖人才,大量資源壓強投入。「慢思考、快執行」的風格,貫徹了位元組的作戰思路:
1. 從C端破局,大規模、多領域、全覆蓋推出AI應用。這是字節跳動最擅長的產品驅動+流量打法的「大力出奇跡」模式
2. 在B端飽和猛攻,透過極致最佳化的模型推理成本攻入企業市場。同時,在大模型加持下的火山引擎,也抬升了在雲服務市場的地位。
先看C端產品,2023年8月,Grace改名“豆包”,作為AI智慧助手正式上線;據QuestMobile資料, 截至2024年12月,豆包APP的月活使用者數約為7523萬。
多個渠道統計,豆包的使用者量在國內AI產品遙遙領先,千萬級的DAU是第二名的3倍(300萬);在全球,豆包的月活使用者數也僅次於ChatGPT(2.8億)。
豆包APP完成階段性使命,為位元組獲得初具規模的使用者基礎。目前,字節跳動已推出近20款AI應用,覆蓋聊天、影片、程式設計、社交、教育等賽道。例如,AI影片生成的即夢,AI聊天社交的貓箱,AI教育的豆包愛學,AI音樂的海綿音樂。
再看B端,2024年5月,位元組統一將大模型更名“豆包”,推出9款豆包大模型。當月,豆包大模型也透過字節跳動旗下的雲與AI服務平臺“火山引擎”,正式提供服務。
目前,字節跳動已推出了包括影片生成、即時語音、視覺理解、文生圖、同聲傳譯等超10款大模型。
字節跳動在B端的策略,是「更強模型、更低成本、更易落地」。透過豆包大模型和火山引擎這一對「大模型+雲服務」組合抱團破局。
2024年5月推出時,豆包主力模型的定價僅為0.0008元/千Tokens,比當時行業價格便宜99.3%,帶動了阿里雲、百度等大模型降價,B端大模型價格進入“釐”時代; 12月火山引擎Foce冬季大會上,豆包視覺理解模型的定價,為0.003元/千Tokens,比行業價格低85%; 2025年1月,豆包大模型1.5全系產品,也提質不加價,在火山引擎上售賣API的Doubao-1.5-pro,隨著推理成本持續最佳化,毛利率提升到50%;
從時間上看,火山引擎在2021年12月才正式加入雲計算競爭,相比阿里、騰訊、華為、百度這四朵雲,入場時間晚了一輪週期。坦白來說,雲計算是一個對後來者非常不友好的賽道,哪怕是字節跳動。
火山引擎也是抓住了這一輪「大模型+雲廠商」的熱浪,終於取得了較大突破。2023年6月,火山引擎正式推出“火山方舟”平臺,提供大模型的部署、精調、推理等服務。
在那個時間點,國內對算力的需求,重心還在大模型的訓練側。當時中國7成做大模型的公司,包括月之暗面、智譜AI等明星公司,都跑在火山引擎上。這個時期主要客戶,也仍然是做大模型的少數幾家企業。
隨著大模型開始落地,大量企業客戶開始參與到AI應用開發中,行業對算力和雲服務的需求轉向推理側。火山引擎也將重心轉向AI Infra能力,以及打造開發平臺、工具鏈等各層次的生態補全。
2024年2月,火山引擎推出AI應用開發平臺釦子,提供主流大模型的API,開發者和企業能低程式碼構建AI Bot; 5月,推出HiAgent平臺,被稱為企業開發應用的“SDK”,企業能快速開發大模型應用和智慧體,成為火山引擎增長最快的產品之一。 12月,火山引擎升級以GPU為中心的AI Infra分散式業務體系,透過 vRDMA 網路支援大規模平行計算及 P/D 分離推理架構,提升訓練和推理效率,降低企業使用成本;EIC 彈性極速快取解決方案,實現 GPU 直連,使大模型推理時延降低至五十分之一,成本降低 20%。
這一套「模型能力+低成本+生態搭建」的組合拳,讓火山引擎迅速在2024年取得了數量級的突破,核心在於為企業落地大模型、打造AI應用提供全週期的支撐。
根據火山引擎披露資料,截至2024年12月中旬,豆包大模型的日均Token使用量已超過4萬億,相比5月上線時的資料(1200億)增長了33倍。
目前,豆包大模型已在金融、消費、電商、教育、汽車等30多個行業完成落地,與企業深度開發AI應用樣板間。截至12月,豆包大模型已經與八成主流汽車品牌合作,並接入到多家手機、PC等智慧終端,覆蓋終端裝置約3億臺。
例如,火山引擎在去年5月,與一汽紅旗、東風、吉利、長城等24家車企成立了“汽車大模型生態聯盟”;8月,火山引擎與多點DMALL成立“零售大模型生態聯盟”。
小米的“小愛同學”,OPPO的Find X8新機,都使用豆包大模型提升使用者體驗;浙江大學與火山引擎搭建了“浙大先生”智慧體應用開發平臺;釦子專業版和HiAgent等工具生態,金融行業的招商銀行、華泰證券、國信證券等十餘家客戶。
火山引擎總裁譚待表示,豆包大模型目前的定價,依然是有合理毛利的。這個價格是靠模型技術能力、工程能力、軟硬體結合能力做到的,而不是隻靠燒錢的卷低價。
這個思路的潛在意思是說:AI的To B業務還處於初期階段,只有讓更多企業和開發者用得起,一起持續降本、最佳化效率、做大蛋糕,商業模式才能長期成立。

到2024年的第四季度,大模型廠商的分化就已經塵埃落定。即便是「AI六小虎」,也已經有廠商在後撤,退出超大模型研發,轉向垂直領域、行業模型和AI應用的層面。
目前市場上的廠商裡:1.有能力繼續迭代基礎模型,2.有希望實現商業化盈利。能符合這兩個要求的廠商可能只有十家,2025年還會進一步縮圈。
模型能力始終是第一位的。
Scaling Law仍發揮作用,下一代基礎模型的引數和算力規模仍會有量級增加。據分析,GPT-4估計是1.8萬億引數,每輪訓練成本6000萬美金;GPT-5引數到十幾萬億,每輪訓練耗時幾個月,算力成本5億美金。
量級增加的成本,高頻的研發週期,就會出清絕大部分非大廠的AI企業。而MoE、推理模型、多模態、Agent等眾多的新技術方向,頭部廠商也全部都要跟進。因為尖端競爭,無法再容忍因錯過趨勢,而導致落後出局。
與此同時,AI需要的龐大資金投入,與相比之下極少的盈利回報,也日益成為大模型發展的主要矛盾。
同樣以OpenAI為例,ChatGPT活躍使用者近3億,去年底推出了每月200美元的ChatGPT Pro,而Sam Altman仍吐槽:Pro版訂閱服務實際在虧損。據報道,OpenAI在2024年的收入約37億美元,而虧損達50億美元。創造規模化、成熟的盈利模式,是行業的共同難題。
對字節跳動來說,豆包大模型1.5 Pro躋身頂尖,C端產品積累龐大使用者基礎,火山引擎的B端業務厚積薄發,接下來更多要「直面天命」,找到在AI時代不可被替代的位置。
在2024年的大模型招標中標名單裡,火山引擎的名字開始更多出現。在大模型的長期盈利模式尚不明朗的情況下,我們也要看到亞馬遜AWS、微軟Azure和谷歌雲,都以驚人的增速在創造財務新高。2025年,火山引擎除了全生態的佈局,在「更強模型、更低成本、更易落地」戰術上還將猛攻。
在國內To B市場,火山引擎抓住了明晰的主線:
1.未來算力需求會進一步轉向推理,直到超過模型訓練算力; 2.當前絕大部分企業,仍無法上手大模型和AI應用; 3.混合雲和私有化等定製需求,仍然持續高漲。只有把蛋糕做大,商業模式才有希望跑通。
據報道,字節跳動在1月下旬成立Seed Edge專案,核心是做比預訓練和大模型迭代更長期、更基礎的AGI前沿研究。這是位元組在慢下來,用更長研發週期,探索更底層、更多元、更有想象力的技術變革。
從追隨式的自我證明,到進入「無人之境」創造不可能。

原創不易,感謝有你!
一起轉發出去,讓更多人看到。
☞智谷趨勢為中產階級的資本覺醒服務,幫助更多人獲得財富。宏觀經濟、商業邏輯、企業興衰、產業轉型……這裡有最真實的中國,有許多人難以察覺到的趨勢訊號。