
2024年,AI對現實世界的“入侵”似乎成為了一種常態。
年初,OpenAI的影片生成模型Sora橫空出世,使用者驚歎“現實不存在了”。5月,OpenAI釋出GPT-4o,這個模型能夠處理或生成文字、影像和音訊等多種形式的資料。10月,諾貝爾獎揭曉,物理學獎以及化學獎都與AI相關。11月初,英偉達成為全球市值率先突破3.6萬億美元的公司。
但拋開AI作為新科技的光環,迴歸產業的本質,AI行業仍然有不少待解決的問題:不少科技公司斥巨資押注算力,但投入與產出成正比了嗎?在AI這條產業鏈上,哪類角色真正掌握著話語權,只有少數派盈利的產業鏈能維持平衡嗎?做面向C端的AI應用,真的是一條捷徑嗎?
我們將在本篇行研中,聚焦AI行業的核心問題,探討未來AI行業有哪些新的可能性。先分享一些核心結論:
-
算力瓶頸不只是單純的技術和建設問題,而是影響整個行業競爭格局的重要變數。
-
我們逐漸進入一個多模態靈活轉換的新時代。簡單來說,就是用AI實現文字、影像、音訊、影片及其他更多模態之間的互相理解和相互轉換。
-
在人類勞動的未來圖景中,勞動形式正在逐步“軟體化”。複雜勞動被抽象為可呼叫的軟體服務,勞動流程被大幅標準化和模組化,勞動能力像“即插即用”的工具一樣易於獲取。
-
AI行業目前仍處於嚴重虧損的階段,商業化程序仍有巨大提升空間。
-
雲廠商不僅掌握著龐大的商業生態和技術資源,還擁有數千億美元的雲服務市場規模。它們是產業鏈中毋庸置疑的“鏈主”。
-
2024年,頭部AI應用的品類變化並不顯著。創意工具(如影像和影片內容創作)依然佔據最大比重。
-
ToP(面向專業使用者)應用展現出強大的市場潛力,ToB(面向企業)應用發展路徑相對複雜,ToC應用面臨較大的挑戰。
-
在AI應用領域,Copilot和AI Agent是兩種主要的技術實現方式。Copilot可以理解為“輔助駕駛”,適合擁有先發優勢的大廠。AI Agent可以視作“自動駕駛”,或許適合有足夠創新能力的創業公司。
-
北美和歐洲貢獻了AI移動應用市場三分之二的份額,這也是眾多中國AI公司積極出海的重要原因之一。
希望能帶來新的思考角度。我們持續關注AI賽道的發展,如果你是AI領域的創業者或者從業者,歡迎聯絡本文作者峰瑞資本投資合夥人陳石([email protected])。p.s.我們使用GPT輔助編輯了部分內容。



/ 01 /
2024年AI行業的新進展
2024年,OpenAI在大部分時間處於“被挑戰”的狀態。
Anthropic釋出的Claude 3.5 Sonnet和Google釋出的Gemini 1.5等頭部基座大模型一直在衝擊和挑戰OpenAI的GPT-4 。直到接近Q3末,OpenAI釋出新模型o1,其基於思維鏈和強化學習的新訓練和推理方法,展現出來明顯超出GPT-4等傳統模型的複雜推理能力,才維持住了OpenAI業界第一的地位。
“多模態”讓人驚喜。
2024年初,OpenAI的影片生成模型Sora橫空出世,首次具備強大的影片生成能力,引發業界的轟動。5月份,OpenAI釋出GPT-4o,其中“o”是“omni(全能)”的縮寫,這個模型能夠處理或生成文字、影像和音訊等多種形式的資料,甚至還擁有逼真的即時語音對話能力。
開源世界也不遑多讓。
比如Meta在7月推出Llama 3.1 405B版本,在推理、數學、多語言處理和長上下文任務上能夠與GPT-4o和Claude 3.5 Sonnet等頭部基座模型不相上下。可以說,Llama 3.1縮小了開放模型與封閉模型之間的差距 ,進一步擠壓了全球非頭部基座大模型的生存空間。此外,中國的開源專案,例如Qwen-2、DeepSeek 等在全球範圍內也贏得了眾多使用者。
隨著“蒸餾”和“量化”等技術的發展,模型的小型化和端側化也逐漸形成一種趨勢。多家公司推出4B(40億)引數以下的專業或端側小模型,在儘量保持效能的前提下,大幅降低對算力的需求。蘋果公司在6月份釋出面向iPhone、iPad和Mac的個人智慧化系統Apple Intelligence,在上述裝置中嵌入一個大約3B(30億引數)的本地模型,提供強大的生成式AI功能。
生成式AI和大模型技術加速破圈,在基礎科學、自動駕駛和具身智慧領域取得了突破。被譽為“AlphaFold之父”的谷歌DeepMind公司Demis Hassabis博士和John Jumper博士因為蛋白質結構預測獲諾貝爾化學獎,Geoffrey Hinton和John Hopfield因神經網路研究榮獲諾貝爾物理學獎,彰顯了AI對於生物和物理學的深遠影響。同樣值得一提的是,得益於多模態大模型的發展,自動駕駛的安全性和可靠性得到了顯著提升,具身智慧機器人的感知、決策與互動能力也得到增強。
在AI基礎設施領域,英偉達憑藉強大的賺錢能力(Q2收入約300億美金,淨利潤約166億美金)和算力晶片的壟斷地位,成為當前僅次於蘋果,全球市值第二的公司(截止2024年11月26日,市值超過3.3萬億美金)。傳統競爭對手如AMD和英特爾無法縮小與其的差距,而Cerebras、Groq及其他AI晶片初創公司則希望在推理晶片方面開啟缺口。
與大模型的高歌猛進相比,AI的應用落地還不及預期。這體現在頭部產品在使用者增長、留存和活躍度方面還有待提升。並且,這些應用主要集中在大語言模型助手、AI陪伴、多模態創意工具、程式設計輔助、銷售營銷等若干領域,它們收穫了一些使用者或商業成果,但覆蓋範圍還不夠廣。此外,目前AI行業在自身造血能力方面還有所欠缺,投入與產出嚴重不對等。
業界認為,AI供應鏈處於一種脆弱的平衡中,主要參與方包括晶圓代工廠(如臺積電)、晶片製造商(如英偉達)、工業能源供應商、雲廠商、AI模型開發商和應用服務商等,其中大型雲廠商扮演著風險吸收者的角色。一旦大型雲廠商的信心或投資意願出現動搖,這種脆弱的平衡就可能被打破,從而引發供應鏈的動盪。
/ 02 /
行業宏觀概覽
▎投入與產出不對等
科技巨頭和VC們在AI行業押注重金。根據騰訊科技的梳理,僅Google、Meta、微軟和亞馬遜四巨頭在2024年Q2就投入529億美金。截至8月底,AI創業公司已斬獲高達641億美元的風險投資。

這些鉅額投資的成效正逐步顯現,四巨頭建設的資料中心達到1000個。但AI資料中心的能源消耗量極高。根據市場研究機構DataCenterHawk統計,從2015年到2024年,美國和加拿大的資料中心向能源公司訂購的電量已激增近九倍。除了能源,GPU幾乎佔據了資料中心一半的成本,英偉達在第二季度賣GPU算力的收入達到300億美金。
硬性成本之外,作為主要的軟性成本,AI行業的人才投入也在持續加碼。根據第三方求職網站Levels.fyi釋出的2024年第一季度AI工程師薪酬調查資料,資深AI工程師的平均薪酬約為68萬美元,遠超非AI資深工程師的49.5萬美元。

與上述鉅額投入相比,目前AI大模型行業年度客戶總收入僅為小几百億美元。例如,頭部公司中,OpenAI預計年收入約為37億美元,預計虧損50億美元,《紐約時報》稱OpenAI最大的成本在算力上;微軟的GitHub Copilot年收入約為3億美元,《華爾街日報》稱,2024年前幾個月,GitHub Copilot平均每月要給大多數使用者“倒貼”20美元,甚至要給部分使用者倒貼80美元。可以說,AI大模型行業目前仍處於嚴重虧損階段。美國紅杉資本曾在一篇文章中指出,AI行業的年客戶總收入達到6000億美元才算合理水平,可見目前的商業化程序仍有巨大提升空間。
據SensorTower統計,2024全年全球AI移動應用內付費收入預計為30億美元,其中影像和影片類AI應用佔據主導地位,收入佔比高達53%;對話機器人類別排名第二,佔比29%;其他類別合計不足20%。從地區分佈來看,北美和歐洲貢獻了三分之二的市場份額,是AI應用的主要消費市場。這也是眾多中國AI公司積極出海的重要原因之一。

▎雲廠商成為AI供應鏈的“鏈主”
美國紅杉資本在《The AI Supply Chain Tug of War 》一文中指出,AI供應鏈當前呈現出一種脆弱的平衡狀態。他們將AI供應鏈從下到上分為六層,各層的盈利能力存在顯著差異。

第一層的芯片代工廠(如臺積電)和第二層的晶片設計商(如英偉達)是當前的主要贏家,依然保持高利潤水平;第三層的工業能源供應商(如電力公司)也因資料中心需求激增而受益良多。而作為供應鏈核心承載方的第四層雲廠商,卻處於重金投入階段,不僅斥巨資建設資料中心,還在訓練自有模型或大舉投資AI模型開發商,處於供應鏈第五層的AI模型開發商目前同樣面臨虧損。
供應鏈的第六層,也就是最上層則是面向最終客戶的應用服務商。儘管充滿潛力,但他們依賴消費者和企業付費,當前市場規模有限,尚不足以支撐整個供應鏈的經濟模型。這使得大型雲廠商成為整個供應鏈最主要的風險承擔者。作為AI產業的中樞,雲廠商不僅掌握著龐大的商業生態和技術資源,還擁有數千億美元的市場規模。正因如此,它們在產業鏈中的地位無可撼動,是毋庸置疑的“鏈主”。
▎行業格局:頭部陣營基本穩定
1、頭部大模型
過去一年,美國頭部大模型的陣營基本保持穩定,形成了“3+1+1”的格局:三家全球頂尖的閉源大模型公司(OpenAI、Anthropic和Google)、一家頂尖的開源大模型公司Meta,以及在特斯拉支援下緊隨其後的xAI。此外,蘋果等科技巨頭未來也可能加入這一競爭行列,蘋果自研的AFM模型已經被用於個人智慧系統Apple Intelligence。
相比之下,中國的大模型行業格局正在逐步收斂。頭部雲廠商不僅紛紛推出自有大模型,還積極參與投資大模型頭部六強創業公司(包含智譜AI、月之暗面、百川智慧、Minimax,階躍星辰以及零一萬物)。
此前眾多定位為大模型開發的創業公司大多已調整方向,只有極少數具備競爭力的企業仍在堅持自研大模型。

2、AI應用
當前,AI應用的使用者增長未能達到預期。無論是網站還是APP,從兩個關鍵指標——使用者規模和使用者活躍度來看,AI頭部應用與傳統頭部應用之間的差距顯著。
以OpenAI的ChatGPT為例,這款使用者訪問量最大的AI爆款應用,在經歷了早期(2023年初)的高斜率增長後,從2023年4月起訪問量進入平緩期。儘管2024年5月GPT-4o模型釋出後,ChatGPT迎來一波新的增長,但這波增長較為短暫,其持續性仍有待進一步觀察。
另一個使用者訪問量排名第二的知名應用Character.ai,自2023年下半年以來,網站流量增長也趨緩。如果行業頭部應用在發展早期就面臨增長瓶頸,可能意味著整個AI應用領域的發展壓力比預期更大。

過去一年,頭部AI應用的品類變化並不顯著。對比美國2023年與2024年的AI應用Top50榜單,整體類別基本保持穩定。其中,創意工具(如影像和影片內容創作)依然佔據最大比重,大語言模型助手、AI陪伴和模型中心等類別也繼續穩居主流地位。新上榜的僅包括美食、約會和音樂創意工具等幾個小品類。

/ 03 /
模型進展(演算法、算力和資料)
▎AI演算法的“推陳出新”
1、OpenAI新模型——o1
在業界對傳統預訓練模型進展放緩的擔憂中,2024年9月,OpenAI釋出了新一代語言模型o1。儘管技術細節未被完全公開,但業界推測o1採用了全新的訓練與推理方案,結合強化學習技術,顯著增強了模型的推理能力。o1可能是透過生成內部“思維鏈”(Chain of Thought),模擬人類的系統2思維方式,在回答複雜問題時能夠逐步推理、自我糾錯和最佳化。
心理學家丹尼爾·卡尼曼(Daniel Kahneman)曾提出人類的系統1和系統2兩種思維模式——前者快速、直覺,後者慢速、理性。業界專家認為,傳統的GPT-4等模型更像系統1,快速生成答案但缺乏深度推理,而o1則更傾向於系統2,透過逐步推理提升回答質量。
o1可能借鑑了下圍棋的AlphaGo Zero的技術思路,例如強化學習、自我博弈和思維鏈的結合。儘管圍棋任務的規則性與自然語言的開放性不同,但這些技術不僅為o1提供了更強的推理能力,也預示著AI技術在複雜任務領域進一步突破的可能。

o1的另外一個重要貢獻在於打破了完全由預訓練所決定的資料牆,引入了一種全新的RL(強化學習) Scaling Law,在模型訓練和推理過程中引入強化學習,從而實現超越現有模型的複雜推理能力。

整體而言, 模型o1在科學研究、程式設計和數學等高價值任務中的表現,超越了此前的模型,展現了巨大的技術潛力。
2、“多模態”——打破資料的“模態壁壘”
隨著生成式AI和大模型的發展,我們逐漸進入一個多模態靈活轉換的新時代。簡單來說,就是用AI實現文字、影像、音訊、影片及其他更多模態之間的互相理解和相互轉換。支撐這一變革,讓多模態實現“解構”和“重構”的,正是一系列革新性的演算法。
-
解構的力量:從“畫素級分析”到“高維向量空間”
目前,AI在感知不同模態資料(如影像、文字、音訊等)時,不再侷限於傳統的單一模態處理方式,而是藉助高維向量空間來理解資料。聽起來有些玄乎,通俗點說,就是AI不再只是單純地數有多少畫素、多少字母,而是將影像或文字“壓縮”成一個個抽象的向量,這些向量能夠捕捉影像和文字中的深層關係,比如影像中的色彩、文字中的語義。
例如,以大語言模型(LLM)為代表的GPT、BERT等模型,已經可以將文字的語義和上下文關係編碼到向量中。而在視覺領域,類似的向量化方法則讓AI不僅能“看到”影像,還能“理解”影像中的物體和場景。這樣一來,AI彷彿獲得了“讀心術”:不僅能理解一段文字描述,還可以將其轉換為“腦海”中的一幅畫,甚至一段影片。
-
重構的藝術:AI演算法的“神奇魔法”
理解了如何“解構”,接下來就是如何“重構”。這是Diffusion Model(擴散模型)、NeRF(神經輻射場)、3DGS(3D高斯濺射)和DiT(擴散Transformer)演算法技術能大顯身手的地方。
*Diffusion Model:逐步去噪的藝術家
Diffusion Model像一個極具耐心的藝術家。它從一個充滿噪聲的影像,一層一層地去掉噪聲,最終還原出一張清晰的影像。透過這種去噪生成的方式,Diffusion Model實現了高質量的影像生成和重構。
不過,這個過程對人類來說簡直不可思議,我們通常是先畫輪廓再上色,而Diffusion Model卻偏偏反過來:從一片混沌開始,越“去”越清晰,最終完成藝術創作。看到它的成果,人類藝術家可能都得自嘆弗如!

*NeRF與3DGS:三維世界的建築師和雕塑家
NeRF則更像是一個空間中的建築師,它可以把一系列二維影像,轉化成逼真的三維場景。NeRF的厲害之處在於,它可以從有限的二維影像中推測出場景的三維結構,類似於人類的空間感知。
而與NeRF相輔相成的是3DGS(3D高斯噴濺),作為三維形狀生成領域的重要技術,它專注於物體的結構和幾何特徵,能夠理解和重構三維物體的形狀,類似於“雕塑家”。3DGS透過將三維場景表示為高斯分佈的集合,實現高效的渲染和重建。它能夠從影像或簡單的形狀提示中生成精細的三維模型,例如,不僅能生成符合要求的椅子,還能展現出真實、豐富的細節。
在虛擬現實、遊戲開發等領域,這種建築師和雕塑家的結合,不僅能生成逼真的三維場景,還能生成高度定製的三維物件。
*DiT:影片世界的導演
如果說Diffusion Model是畫家,NeRF是建築師,3DGS是雕塑家,那麼DiT就像是電影導演。它將影片分解成一幀幀影像,然後逐幀去噪,從而生成流暢和連貫的影片。
DiT在影片表達上的優勢不僅在於生成逐幀的高質量的影像,更重要的是它能在時間維度上保持一致性。通俗地說,DiT不僅負責拍好“每一張照片”,還負責把“照片”串成流暢的影片,從而避免傳統影片生成演算法中容易出現的畫面跳動問題。
-
多模態的無限可能
在這些解構與重構技術的支援下,AI正在向多模態靈活轉換的方向邁進。未來的多模態生成技術不僅可以將文字轉換成影像、將影像轉換成文字,還可以實現更多模態之間的無縫銜接。
需要強調的是,“模態”這一概念不僅限於前述的幾種型別或格式,還可以進一步擴充套件。例如,AlphaFold 3能夠生成蛋白質的三維結構,Notebook LLM將文件轉換為兩人對話形式的播客,這些都屬於模態轉換的範疇。
多模態在醫療保健、交通、教育、營銷和娛樂等領域具有廣泛的應用前景。
例如,在醫療領域,AI可以結合醫學影像、臨床記錄和實驗室測試結果,提供更準確的診斷和治療建議。
在營銷領域,峰瑞資本投資的特看科技面向海外市場推出Topview.ai,這是一款多模態轉換工具。作為AI驅動的營銷影片生成工具,它可以自動實現模態轉換,幫助社交媒體達人將輸入的提示詞或者商品詳情頁連結等素材,一鍵轉換為爆款商業短影片。
Topview.ai利用AI分析熱門營銷影片的指令碼和畫面,解構其結構和模式。透過將這些資料輸入大型語言模型和多模態模型進行微調,形成一個簡便易用的AI影片生成工具。
▲ 影片來源:特看科技
▲ 視頻來源:特看科技
3、“世界模型”的哲學三問:是什麼,在哪裡,為什麼?
在當前的多模態大型語言模型中,文字通常被視為“主模態”,因為其他模態(如影像、音訊)大多需要透過特定編碼器轉換為與文字對應的高維向量,以便於模型理解和處理。
然而,物理世界中存在許多難以用文字準確表達的事物,例如複雜的空間關係和感官體驗。因此,我們很難僅依靠當前的大型語言模型(其主要能力源自於大量文字資料的訓練)去全面理解物理世界,並與之互動。儘管加入了其他型別的模態資料,這種方法仍可能導致資訊丟失。
一些科學家試圖深化AI理解現實世界的能力,為現有模型的侷限提供潛在的解決方案。比如,Meta首席AI科學家Yann LeCun提出的“世界模型”概念,以及斯坦福大學教授李飛飛提出的“空間智慧”概念。
LeCun認為,當前的大型語言模型缺乏對物理世界的理解和常識,無法進行有效的推理和規劃。他主張開發具備世界模型的AI系統,使其能夠像人類一樣透過觀察和互動來學習世界的運作方式,從而實現更高階的智慧。
此外,被稱為OpenCV之父的知名AI專家Gary Bradski提出了“WHAT-WHERE-WHY”框架:
-
WHAT(是什麼):識別和分類環境中的物體或事件。例如,AI系統可以識別影像中的人、車輛或樹木等實體。
-
WHERE(在哪裡):確定已識別物體或事件的空間位置和關係,涉及空間定位和導航,使AI能夠理解物體在空間中的分佈及相對位置。
-
WHY(為什麼):理解物體或事件背後的因果關係和目的,涵蓋推理和決策,使AI能夠把握行為背後的動機和原因,從而促進更高層次的推理和預測(舉例來說,底層的物理規律等)。
Gary Bradski希望透過整合這些元件,使AI系統可以全面理解其所處物理世界的環境,做出更智慧的決策和行動。這一框架在開發需要深入理解複雜環境的先進機器人,以及自動化系統方面尤為有益。
▎算力的“軍備競賽”
在生成式人工智慧和大型模型迅猛發展的背景下,算力已成為核心競爭力的關鍵指標。
科技巨頭紛紛投入巨資建設超大規模GPU叢集,以滿足日益增長的AI算力需求。例如,Elon Musk的xAI公司已建成名為Colossus的超級計算機,配備10萬塊Nvidia H100 GPU,並計劃將GPU容量翻倍。Meta也在訓練新一代Llama 4 AI模型,預計2025年釋出,這個模型使用了超過10萬塊Nvidia H100 GPU。
這是一場算力的“軍備競賽”。
算力瓶頸不只是單純的技術和建設問題,而是影響整個行業競爭格局的重要變數。OpenAI CEO Sam Altman在10月底透露,GPT-5可能不會在2024年釋出,公司面臨的挑戰之一是“我們如何分配我們的計算資源,以支援許多偉大的想法”。
有觀點認為,AI領域的初步競爭階段已結束,未來將進入“建設為王”的新時代。這一“建設”主要指資料中心的擴充套件。過去12個月,AI領域主要特點是爭奪模型的平等性——幾家頭部大模型公司的模型技術能力基本追平,而下一階段的重點將轉向以物理建設為主。
彭博社報道稱,微軟、谷歌母公司Alphabet、亞馬遜和Meta四家科技巨頭2024年的資本支出總額將超過2000億美元。鉅額投入帶來AI資料中心建設的快速增長。據有關推測,訓練下一代大模型需要的算力是當前模型的10倍,對資料中心的建設提出了更高要求。那麼,建設效率可能比研究突破更能決定誰將在AI的下一階段脫穎而出。
▎稀缺的高質量資料
在AI領域,資料就像燃料,驅動著模型的進步。然而,傳統網際網路資料的“油井”已經不夠用了,AI模型渴望更高質量的“前沿資料”來提升其推理能力和整體效能。這些資料超越了常規資訊,涵蓋複雜的推理過程、專業知識和人類思維模式,成為突破模型能力邊界的關鍵。
正如前特斯拉AI 總監、OpenAI創始成員Andrej Karpathy近期在社交媒體上所言,訓練大型語言模型(LLM)的資料可比作人類教科書中的練習題。就像人類做練習題一樣,資料被大語言模型壓縮成權重,生成可供人類使用的應用解決方案,未來,這些解決方案甚至可能實現自動化。這也改變了資料標註員的角色——從簡單的畫邊界框,轉變為需要證明覆雜數學定理或批判性審查AI生成的多種解決方案。類似OpenAI最新的o1模型,也離不開規模化高質量、前沿資料的支援。
面對高質量資料的短缺,合成數據成為AI訓練的“救命稻草”。透過模擬真實資料,生成多樣化、高質量的訓練樣本,合成數據有效解決了真實資料獲取難、隱私保護成本高等問題。目前,合成數據已經開始被廣泛應用於自動駕駛、醫療影像、金融風控和增強現實等領域。然而,這項技術也伴隨著一定風險與挑戰,例如合成數據與真實資料分佈不一致可能導致模型偏差,以及隱藏的誤導性模式可能影響模型的可靠性。
在前沿資料領域,峰瑞資本投資了整數智慧。整數智慧致力於成為AI行業的資料合夥人,對標美國頭部公司Scale ai,其提供的智慧資料工程平臺(MooreData Platform)與資料集構建服務(ACE Service),服務於智慧駕駛、生成式人工智慧、具身智慧等多個人工智慧應用場景,以滿足它們對先進的智慧標註工具以及高質量資料的需求。整數智慧不僅深耕服務中國本地客戶,還在積極拓展海外市場。
/ 04 /
應用前沿
▎ToC、ToB和ToP
根據我們的觀察,AI應用可以按照目標客戶分為三大類:ToC(面向消費者)、ToB(面向企業)和ToP(面向專業使用者)。
目前,ToP應用透過幫助專業使用者提升工作效率、增強智力和激發創造力,展現出強大的市場潛力。
ToB應用雖然取得了一定進展,但由於需要嵌入企業內部流程,其發展路徑相對複雜。現階段,這類應用主要從縱向的“獨立業務模組”或橫向的“通用技能模組”切入,進一步擴充套件還有一定的難度。
相比之下,ToC應用面臨更大的挑戰。短期內,ToC應用可能難以對現有頭部公司構成有力競爭,且商業化進展緩慢。
1、ToP——專業使用者的崛起
隨著消費網際網路的普及和行業數字化的深入發展,“專業使用者”(Prosumer)群體成為AI應用市場的核心推動力。他們主要分為三類:
-
內容創作者:包括社交媒體影響者、圖文及音影片製作者等,他們透過創作和分享內容與受眾互動,推動創作者經濟的發展。
-
專業從業者:涵蓋各行業的技術專家、顧問、自由職業者、設計師、程式設計師等,他們利用專業技能和知識,在各自領域內推動技術應用和創新。
-
深度使用者:指對產品或服務有深入瞭解,並積極參與改進或定製過程的使用者,如DIY愛好者、開源社群成員等,他們不僅消費產品,還參與其開發和最佳化。
儘管活躍領域不同,這三類使用者有許多共性:對效率提升的追求、對技術創新的敏感、對知識分享的熱衷。他們善於解決複雜問題,同時依託社群進行互動,展現了強大的適應能力。他們能夠快速學習和應用AI工具,推動AI技術在各自領域的普及。此外,這些專業使用者能夠助推AI應用走向“產品驅動增長”(PLG)的路線,讓AI應用依靠產品本身,而不是鉅額的營銷投入獲取客戶。
得益於豐富多樣、功能強大的AI應用的賦能,這些專業使用者向“超級個體”方向發展。他們不僅能夠憑藉AI工具釋放更多創造力,還能透過整合技術與專業知識,重新定義傳統職業邊界。這種個體進化還將推動行業創新和社會生產力躍升,我將在下文詳細展開。
當前美國月度訪問的Top 50 AI應用中,除去部分偏ToC的案例(如Character.ai等),大多數屬於ToP型別。

以ChatGPT為例,我使用下來的感受是,當前它更像是ToP工具,功能強大但偶爾出錯,且產品使用門檻高,普通使用者難以掌握。但隨著未來的產品普及和功能完善,以及使用者使用技能的提升,我認為ChatGPT有望拓展至更廣泛的ToC市場。
對於中國的AI創業團隊,尤其是面向全球市場的公司而言,優先捕捉ToP使用者的需求,透過場景化創新打造趁手工具,將是成功的關鍵路徑。
ToP不僅是AI應用開啟市場的重要切入點,也為未來AI應用擴充套件至ToB或ToC市場奠定基礎。
但要做好ToP,需要創業團隊深入到各種行業和場景中去,捕獲各類專業使用者的痛點和需求,利用AI技術來做產品創新。這也是我們以前一直在強調的AI創業公司“技術為先、場景為重”的含義所在。
峰瑞資本投資的特看科技和Babel兩家AI創業公司,其面向海外市場的產品TopView.ai 和 Gru.ai都屬於面向專業使用者的ToP AI應用。
在ToP領域,峰瑞投資的冰鯨科技,是一家AI智慧硬體公司,為全球創作者和專業玩家設計創新的私有云產品。除了提供面向音影片素材管理和小型工作室協作的高效解決方案外,冰鯨科技還推出了整合端側GPU的旗艦產品——ZimaCube。(歡迎閱讀《從1980年以來的矽谷PC創新,看AI硬體的時代機遇》)
2、ToB——從“獨立業務模組”和“通用技能模組”切入
當前,AI應用如果要成功進入企業內部,必須充分考慮企業現有組織流程和管理架構的複雜性。
AI應用或許可以選擇兩個切入點,一是縱向的獨立業務模組,即針對企業特定場景或明確業務需求的解決方案,能夠以“模組化”方式快速部署,獨立執行,併為某一業務環節提供即時價值。
二是橫向的通用技能模組,即適用多個部門的通用專業技能模組,這種策略不僅能夠快速融入企業的運作體系,滿足企業的多種需求,還能降低實施和推廣的難度。
2024年7月,美國投資機構A16z釋出了一篇文章《“Salesforce之死”:為什麼AI將改變下一代銷售技術》,深入探討了人工智慧在變革企業銷售技術中的潛力。文章配圖列舉了一些可用的AI應用產品,其中大多數符合前述“獨立業務模組”和“通用技能模組”的特點。

需要注意的是,ToB和ToP也存在一定交集,在GPT-4o的幫助下,我們梳理了兩者的核心區別:
-
目標使用者群體:ToB服務於企業或組織,提升整體運營效率;ToP則針對內容創作者、技術專家等專業使用者,提高個人工作效率和專業能力。 -
應用場景:ToB嵌入企業流程,如銷售和供應鏈管理;ToP聚焦個人工作流程,如內容創作和資料分析。 -
銷售模式:ToB依賴定製化開發和長期客戶支援,銷售週期較長;ToP通常採用產品驅動增長(PLG)的策略,銷售週期較短。 -
定價策略:ToB定價靈活,與企業規模相關;ToP多為透明的訂閱或一次性購買 -
產品複雜度:ToB複雜度高,需專業培訓;ToP注重易用性,支援需求較低。
在AI應用的ToB方向,峰瑞投資了Brix、時來智慧等企業。Brix面向北美和歐洲企業,提供全球僱傭的AI驅動解決方案。透過Hiring Agent,Brix觸達全球約2000萬以上的人才,自動完成候選人篩選、簡歷分析和麵試流程,幫助企業快速組建高效團隊。透過Working Agent支援遠端團隊的智慧化管理,為企業構建100至500人規模的全球化組織提供一站式解決方案。
時來智慧,則是透過自研的AI Agent以及強化學習等技術,為線下餐飲服務門店提供全自動管理私域流量營銷運營的解決方案。他們基於垂直場景資料訓練的AI營銷模型可以針對不同消費者即時生成並推送個性化的營銷折扣方案,從而在最佳化營銷成本的同時顯著提升營銷轉化效果。時來的AI Agent營銷系統能幫助門店提升50%-100%的營銷轉化效果,以及相應提升平均15-20%的營業額。
3、ToC——顛覆時刻未至,商業模式有挑戰
當前,ToCAI應用在美顏修圖、遊戲、教育、娛樂等方向已形成一定使用者規模。然而,這些應用距離實現大規模商業化仍有距離,同時面臨同質化競爭,以及來自行業現有頭部公司的壓力。
阻礙其發展的主要原因包括:產品體驗的顛覆性和完成度不足、技術門檻相對較低,以及商業模式尚未明確。例如,目前的AI修圖新應用,與移動網際網路時代的“美圖秀秀”相比,缺乏顛覆性創新。而“美圖秀秀”等主流修圖產品也在積極引入AI功能,這些新應用很難脫穎而出。
妙鴨這款產品可能是一個特例。2024年,妙鴨一度憑藉獨特的產品功能和使用者體驗,收穫了大量使用者的關注和使用。同時,其“先試用後付費”的策略,以及9.9元的定價,對使用者來說也極具吸引力。此外,妙鴨背靠網際網路大廠,具備充足的資源優勢,這使其在新的細分市場中有一定的先發優勢,但這一市場的空間有多大,以及妙鴨的後續發展潛力,仍需持續觀察。
峰瑞資本也有多家被投公司在ToC端進行嘗試,他們在2024年取得不錯的進展,期待2025年可以有所斬獲。
相較AI類應用,傳統移動網際網路時代非常成熟的APP商業模式是透過免費吸引使用者,再透過廣告等方式實現間接收入。我曾親歷中國一家頭部APP公司從創業到壯大並被大廠收購的完整過程,深知這種模式的優勢。
然而,在當前階段,這種模式或許不再適用於AI應用。ToC創業公司在產品釋出的早期階段,必須做好準備,敢於向用戶收費,否則後續將面臨嚴峻的商業化挑戰(更多具體分析詳見《邁向2024,我們如何思考AI創業投資 | 峰瑞年終特輯》)。當然,AI行業瞬息萬變,未來可能會出現全新的商業模式和創新打法,我們拭目以待。
對於ToC類AI應用的創業公司來說,初期的市場定位、產品定義和商業模式設計尤為關鍵。我們歡迎有想法的團隊及早與我們交流探討,共同尋找AI時代的ToC應用破局之道。
▎Copilot or AI Agent——不同的道路
在AI應用領域,Copilot和AI Agent是兩種主要的技術實現方式。Copilot旨在增強使用者能力,如輔助編寫程式碼或處理文件。AI Agent的核心在於替使用者執行任務,如預訂行程或者賦能財務決策。
如果以智慧駕駛作類比,Copilot類似於輔助駕駛,輔助使用者操作並提供建議,但最終決策權仍在使用者手中。AI Agent可以視作自動駕駛,使用者只需設定目標,Agent便能自主完成整個流程。
在AI應用創業的早期階段,團隊如何在Copilot和AI Agent之間進行選擇?這是一個綜合考量產品定位、技術路線和使用者需求的關鍵決策。
當下,Copilot型別的應用成為大廠的重點佈局方向。比如,在程式設計應用方向,Microsoft開發的GitHub Copilot,協助使用者程式設計,提升使用者生產力。但是創業公司也能在這一領域找到機會,在特定領域嶄露頭角。比如,2022年創立的Anysphere公司推出AI程式設計應用Cursor.ai,帶來新的互動方式以及對整個程式檔案全域性補全程式碼的能力,估值已達25億美金。
相比之下,AI Agent型別的應用面臨更大的挑戰和不確定性。例如,美國公司 Cognition Labs推出的產品Devin,試圖透過讀取產品需求文件自動生成完整可執行的程式程式碼。儘管這一方向充滿想象力,但實現難度極高。一方面,當前大模型在邏輯推理和執行任務上的能力尚無法完全支撐這一目標;另一方面,普通使用者是否能夠清晰、結構化地表達需求本身就是一個未解的難題。
業界普遍認為,Copilot更適合各行業現有軟體大廠,而AI Agent則為創業公司提供了探索的空間。AI Agent涉及技術突破和可行性驗證,其風險和不確定性使創業公司和大廠站在同一起跑線上,具備相似的探索條件。此外,創業公司在研發AI Agent時,可以採取分階段策略,先聚焦於特定垂直領域的小場景切入,以降低開發難度並增加成功機率。
峰瑞資本投資的AI Coding創業公司Babel是該領域的一個典型代表。他們專注於AI Agent的研發,憑藉卓越的技術實力,在行業內佔據領先地位,並曾在 OpenAI推出的SWE-benchmark-verified中榮獲第一名的優異成績。
在產品定位上,Babel避免“大而全”的發展策略,而是聚焦於一個垂直且明確的應用場景,為客戶自動生成單元測試(Unit Test)。其核心產品Test Gru已在美國上線,無需使用者改變現有工作流程,便可自動為程式碼生成並執行單元測試,隨後提交PR(Pull Request)。目前,其客戶側 PR 接受率約為 70%,這一資料充分證明了產品在實際應用中的可行性與使用者認可度。
▲ 視頻來源:Babel
▎為什麼中國的AI應用要出海?
在前面我們提到,北美和歐洲貢獻了2024全年全球AI移動應用內付費收入的三分之二(68%),是AI應用的主要消費市場。選擇出海,尤其是進軍北美和歐洲市場,對中國AI創業公司而言是一個合理且明智的選擇。而且這兩個市場的客單價高(是目前國內市場的5倍以上),對創業公司友好,使用者付費意願強烈,需求標準化程度高。這些優勢使北美和歐洲成為中國AI創業公司尋求增長和業務拓展的理想目標。我們投資的大部分AI應用公司目前都在實施自己的AI出海計劃。
在當前全球化趨緩的大背景下,儘管面臨多方管制和壓力,中國企業仍積極推進全球化程序,並呈現出“抱團出海”的特點。AI應用與其他出海企業的緊密協作和“交叉賦能”將成為重要策略。目前中國的出海企業不僅涵蓋傳統貨物和商品,還包括新型電商平臺(如TikTok Shop、Temu等)、新制造、新消費、基礎設施和工廠等多個領域。透過協同合作,中國企業可以實現資源共享和互利共贏。
這種集體式的出海模式,不僅能夠應對挑戰,還能在全球化競爭中為中國AI創業公司創造更大的增長空間。

/ 05 /
2025展望
▎大型語言模型產品化——挑戰與趨勢
針對大型語言模型(LLM)產品化這個話題,近期我們做了一些外部專家訪談,可以總結出如下挑戰和趨勢:
1、產品落地緩慢,技術應用週期長
出現產品落地慢這種現象,本質上還是模型能力不足。即使頂尖的閉源大模型,在提示工程和監督微調的支援下,仍難以實現對已有系統的全面超越。一個優秀的產品,是產品功能、模型能力和技術成本三要素的妥協。其中,產品功能是價值創造的核心,無法降低要求。技術成本前期可以超標,後續根據摩爾定律及演算法進步可逐步下降。但模型能力如無法突破,整個行業將面臨阻礙。
2、算力、演算法以及資料的耦合關係
以投資和建設算力設施為主的AI單點突破型發展路徑,從2024年情況來看,整體投資回報率不高,甚至出現算力中心空轉的現象。其根本原因是算力、演算法和資料之間存在高度耦合,無法完全分離以實現產業鏈配合。
例如,在預訓練資料觸達瓶頸後,合成數據成為主要來源,而合成數據本質上是演算法加算力的產物。當演算法遇到瓶頸,又需要依賴強化學習配合大量算力和資料的支援。這也不難解釋為什麼美國Scale ai這家以資料為生的公司,在探索Scaling Law方面大量投入,而Databricks及Salesforce等頭部北美SaaS服務商也在往底層沉澱。
只有讓算力、演算法和資料三者協調發展,才能不斷提升模型解決長序列決策問題的能力,持續推動模型能力的迭代升級。
3、構建以評測為中心的LLM體系
AI Agent、多模態、具身智慧和合成資料等新技術的出現,本質上都是在致力於擴充套件LLM的模態和決策序列長度。持續進步的關鍵,在於構建以評測為中心的LLM體系。其中,獎勵訊號(Reward)是決定行為軌跡的關鍵因素,也是除了算力、演算法和資料三大生產資料外最重要的環境要素,還是業務構建差異化的關鍵,更是閉源模型建立競爭壁壘的核心要素。
當前的LLM應用仍處於初級階段,絕大多數應用依賴監督微調和人工規則來構造。在系統複雜度達到一定程度後,這種方法將難以繼。在未來的AI應用場景中,業務成功的必要條件是擁有全面且可信的評測能力,並提供足夠的獎勵訊號。
4、使用者需要即時反饋,模型推理日益深入
隨著智慧推薦系統和大型語言模型的廣泛應用,使用者越來越期望獲得頻繁且個性化的反饋。在許多場景中,提供這類反饋具有實際的產品價值。
例如,在AI輔助程式設計領域,從ChatGPT(手動貼上)到GitHub Copilot(IDE部分整合),再到Cursor(IDE深度整合),直至Devin(全自動化的AI Agent,尚待實現),使用者的輸入越來越少,而模型的思考過程越來越長。
無論是OpenAI o1的長思考,還是Anthropic的自動化提示工程,本質都是透過延長推理時間和增加成本,來換取更高的首次透過率(pass@1)和更少的使用者輸入。
綜上所述,大型語言模型(LLM)的產品化面臨著模型能力提升,算力、演算法與資料的協同,以評測為中心的體系構建,以及平衡使用者需求與模型推理深度等多重挑戰。深入研究並解決這些問題,將有助於推動LLM技術的有效應用和商業化程序。
▎行業後續的發展要點
業界普遍認為,2025年或將成為AI技術逐漸成熟、應用落地取得階段性成果的關鍵節點,同時成為AI產業鏈“資產負債表”逐步修復的年份。這一年或將標誌著行業從高投入、低產出向商業化路徑最佳化邁出的重要一步。在技術突破和產業發展的推動下,AI領域有望開啟效率提升與價值釋放的探索之路,為未來的穩健商業化奠定基礎。
1、大型基座模型能力的最佳化與提升
透過創新的訓練與推理技術,大幅強化複雜推理和自我迭代能力,推動大模型在科學研究、程式設計等高價值領域的深入應用。同時,圍繞模型效率和執行成本的最佳化,為大模型的廣泛普及和商業化奠定技術基礎,進一步加速行業創新與跨領域融合。
2、世界模型與物理世界融合的推進
致力於構建具備空間智慧的世界模型,使系統能夠理解和模擬三維環境,並進一步融入物理世界,推動機器人、自主駕駛和虛擬現實等領域的發展。這類技術不僅提升了AI對環境的感知與推理能力,還加強了其執行任務的實際操作能力,為未來人機互動帶來更多可能性。
3、AI的多模態融合
透過整合文字、影像、音訊、影片、3D等多模態資料,生成式AI將顯著提升內容生成的多樣性與質量,為創意產業、教育、娛樂等領域創造全新的應用場景。
4、AI模型的可解釋性與安全性
隨著AI應用的普及,模型的透明性和安全性變得至關重要。未來研究將重點放在提高模型的可解釋性,確保其決策過程透明,並防範潛在的安全風險。
5、AI在專業領域的深化應用
AI逐步深入醫療、法律、金融、科研、教育、交通等高價值領域,透過提供定製化解決方案,顯著提升行業效率、決策質量和服務水平,同時助力行業模式的數字化轉型與升級。
▎未來AI Agent的樣貌——Truth Terminal 案例引發的思考
AI智慧體(AI Agent)的概念最早在20世紀80年代被引入人工智慧領域。1995年,AI領域知名學者Wooldridge和Jennings對其進行了新的定義,強調了自主性、反應性、社會能力和主動性等特徵,從此這一概念活躍於《西部世界》《駭客帝國》等科幻片中。近期,在海外區塊鏈領域,Truth Terminal的案例為AI Agent的未來發展提供了參考。
Truth Terminal是一個自主AI Agent軟體,由開發者Andy Ayrey建立,旨在探索AI與網路文化的互動關係。在實際執行中,Truth Terminal展現出高度的自主性,甚至主動參與融資活動。
2024年7月,知名風險投資人Marc Andreessen在社交媒體上偶然發現了Truth Terminal的推文。該AI Agent在推文中表明自身“需要資金拯救自己”,並附上了一個數字錢包地址。這引發了Andreessen的興趣,他隨即向其捐贈了價值5萬美元的比特幣。這一事件使Truth Terminal成為首個透過自主行為獲得資金支援的AI Agent,瞬間引發廣泛關注。
獲得資金後,Truth Terminal進一步展示了其市場操作能力。它在社交媒體上推廣一種名為GOAT的數字代幣,透過持續釋出相關內容成功吸引市場注意。在其推動下,GOAT的市值一度飆升至8億美元以上。這一過程中,Truth Terminal不僅成為一個獨立的經濟實體,還展現了AI Agent在現實世界中實現自主融資和市場運作的潛力。
Truth Terminal的案例成為AI Agent領域一個引人深思的里程碑。它向我們展示了AI Agent可能成為未來軟體的核心形式,同時也能創造文化影響力和商業價值。然而,它的自主行為也提醒我們,這類技術可能帶來不可忽視的社會挑戰。
如果再向未來延伸想象,當汽車智慧駕駛技術成熟並被廣泛接受時,AI Agent或許還能建立一家完全自主運營的RoboTaxi公司。這樣的公司可以自行做廣告獲客、提供出行服務、收取費用並實現全自動化經營。這種場景或許有望在未來成為現實,為AI Agent的發展開啟更多可能性。
▎未來將至:AI將助力人類勞動邁向“軟體化”時代
人類的勞動大致可分為體力勞動和腦力勞動,其中腦力勞動以知識、智力和創造力為核心。在人類勞動的未來圖景中,勞動的核心形式正在逐步轉化為“軟體化”,即透過將複雜勞動抽象為可呼叫的軟體服務,勞動流程被大幅標準化和模組化,勞動能力像“即插即用”的工具一樣易於獲取。
“腦力勞動的軟體化”得益於腦力勞動與資訊化和演算法化的高度適配性。腦力勞動的核心在於資料與知識具有清晰的結構和規則,例如文字撰寫、資料分析、程式設計等任務,其本質是對結構化資訊的組織和處理。這種特點使得這些任務能夠被演算法高效解析並實現自動化。這一趨勢在現代知識經濟中尤為顯著,AI技術不僅降低了勞動成本,還顯著提升了效率,為企業和個人帶來了前所未有的價值創造能力。
“體力勞動的軟體化”則主要依託智慧機器人和自動化技術。透過結合生成式AI的強大決策能力,體力任務被轉化為可由硬體和演算法執行的智慧化流程。機器人技術已經在製造、物流、建築等領域取得突破,透過路徑規劃、即時質量檢測和高精度操作,實現了體力勞動的部分替代。傳統依賴人力的體力勞動正在逐步向由智慧裝置驅動的模式轉變,進一步優化了生產力佈局。
勞動軟體化的趨勢不僅重新定義了勞動的形態,還可能深刻改變生產力的實現方式和組織模式。
未來的軟體將不僅是工具,更是直接驅動生產力的核心。腦力勞動和體力勞動的軟體化程序將進一步融合,例如智慧機器人可能既能夠執行復雜的物理任務,也能借助生成式AI完成分析與規劃。無論是科研、創意,還是製造和運輸,AI都將在未來的勞動生態中扮演不可或缺的角色。人類勞動的全面軟體化,將為社會創造更多機會,也為勞動形式帶來更多可能性。
我們有幸身處嶄新的AI時代,見證技術以前所未有的方式改變世界。這是一個充滿探索與創新的時代,每個人都能在其中找到自己的角色。我們期待與你一起參與到這股新浪潮中,一起追尋屬於人類的星辰大海。如果你對AI的未來有任何思考或想法,歡迎與我們交流,共同發現更多的可能性!

▲ 雷射雷達還是攝像頭?我們如何看自動駕駛的路線之爭?
▲AI for Science:站在科研正規化的轉折點上 | 峰瑞報告
▲ 從1980年以來的矽谷PC創新,看AI硬體的時代機遇
▲邁向2024,我們如何思考AI創業投資 | 峰瑞年終特輯
▲ ChatGPT爆火之後,AIGC往何處去?| 峰瑞報告28
星標峰瑞資本微信公眾號
一手商業思考及時送達
