2025 年 2 月的全球 AI 重要趨勢。
文丨賀乾明
2025 年 2 月的 AI 月報,你會看到:
矽谷巨頭的新共識:推理能力是大模型的一部分
OpenAI 和 Manus 的 Agent 開發經驗
DeepSeek 推動中國大公司加大算力投入,阿里、位元組兩家加起來,今年就超過 2000 億
3 家售價過億的 AI 公司和 23 家獲得超過 5000 萬美元融資的 AI 公司
OpenAI 時薪 100 美元招專家生產資料提高模型能力
這一期月報中,我們開始邀請研究者、創業者和投資人提供一手視角的對每月 AI 趨勢和標誌性事件的評述和洞察。
晚點 AI 月報,每月選取最值得你知道的 AI 訊號。
以下是我們第 4 期 AI 月報,歡迎大家在留言區補充我們沒有提到的重要趨勢。
技術丨GPT-5 雛形出現,行業新共識誕生
DeepSeek 帶來的衝擊波繼續擴散,全球大模型公司陷入混戰:不論是馬斯克用超過 10 萬張 GPU 訓練的 Grok 3,還是 OpenAI 可能投入 10 億美元訓練的 GPT-4.5,或是 Anthropic 融合推理(reasoning)能力的最新模型 Claude 3.7 Sonnet,都沒有帶動大模型能力大幅提升。
釋出 GPT-4.5 前,OpenAI 給出模型能力繼續提升的路徑:把基礎模型(如 GPT-4.5)和推理模型 o3 融合在一起釋出 GPT-5,有點像 Claude 3.7 的做法。
這是大模型行業頭部公司的新共識。從 OpenAI 跳槽到 Google 的開發者關係負責人洛根·基爾帕特里克(Logan Kilpatrick)說:“這一直是 Gemini 的計劃,確保推理能力是基礎模型的一部分,而不是一個支線任務,因此開發了 Gemini 2.0 Flash Thinking。”
OpenAI 認為,無監督學習(unsupervised learning)和推理(reasoning),代表智慧的兩個軸 [1]:
無監督學習,用更多資料、更多算力等提高世界模型(world model)的準確性和直覺,GPT‑3.5、GPT‑4、GPT‑4.5 推動該正規化的發展。
推理,讓模型回答之前先思考,生成一系列思維鏈,從而能解決複雜的理工科或邏輯問題。o1 和 o3‑mini 等模型推動該正規化的發展。
“我們發現這兩種正規化互補,並認為它們之間存在反饋迴圈。”OpenAI 首席研究官陳信翰(Mark Chen)參加播客節目時說,“知識是推理的基礎。模型不能從零開始學習推理。”
但這類模型在投入使用時會面臨麻煩:不是所有問題,都需要用領先模型解決,比如總結一段文字,能在手機上部署的模型沒比 GPT-4o 差多少。
OpenAI 準備做一個自動識別使用者提出的問題、判斷用什麼模式回答問題的系統,但會給免費使用者和付費使用者分層 [2]:
免費使用者用標準智慧模式與 GPT-5 聊天交流。
每月花 20 美元的使用者可以用更高智慧模式的 GPT-5。
每月花 200 美元的使用者可以用最高智慧模式的 GPT-5。
斯坦福大學計算機科學助理教授珀西·梁(Percy Liang)在社交媒體上評論 [3]:
從產品的角度來看,這樣做非常合理。然而,從研究人員和開發人員的角度來看,將所有內容都封裝起來,會讓我們越來越難理解底層的運作機制。我們過去擁有一個對應自迴歸機率模型的端點(endpoint),能直接處理 token;但現在,我們將只有一個神秘的 “黑盒子”。
一位中國大模型公司研究員說:
這也是我們正在做的方向。(大模型公司)基本最後都會走 system1(GPT-4o 類模型) 跟 system2 (o1 或 R1 類模型)結合的路線。現在大家都是摸著石頭過河。
應用丨Deep Research 成為熱門 Agent
知名分析師的使用經驗:每月花 200 美元僱了一名員工
Deep Research 成為大模型 Agent 時代的熱門應用。OpenAI 介紹,只需提供一個提示,它就會呼叫模型查詢、分析和綜合數百個線上資源(搜尋、解釋和分析網際網路上大量的文字、影像和 PDF 檔案,根據遇到的資訊靈活調整策略),生成一份研究員水平報告。
知名分析師本·湯普森(Ben Thompson)[4] 用 Deep Research 寫蘋果財報分析後評論:“感覺有點像 AGI”“像是每月花 200 美元的驚人低價僱了一名員工”。他分享了理由和使用技巧:
給 Deep Research 充分的提示資訊,比如告訴它重點關注“服務收入如何影響利潤率”,比只讓它“分析蘋果最新財報”得到的反饋更好。
給 Deep Research 充分的提示資訊,讓它就不算熟悉的公司高管比如 ServiceNow 的 CEO 寫採訪提綱,雖然問題普通,但可以節省時間。
給 Deep Research 提供非常充分的資訊,分析一個行業的參與者、供應鏈、客戶等,它能給出充分的回答,但也會遺漏最重要的參與者。
Deep Research 存在的問題是:話題越熱門,最有可能被低質量資訊(無論是人生成還是 AI 生成)汙染,它就越沒有價值。反過來,話題越精確、越冷門,Deep Research 的價值就越高。
Deep Research 極有可能成為有史以來最高效的搜尋引擎,但如果關鍵資訊不在網際網路上,它無法給出真正有價值的報告。
OpenAI 開發 Deep Research 的經驗:強化學習是關鍵
去年 12 月,Google 就釋出基於 Gemini 1.5 模型的 Deep Research 功能;OpenAI 剛推出一天,開源社群 HuggingFace 就提供了開源復現版本;之後不久,大模型搜尋應用 Perplexity 推出類似的功能。
但最受關注的還是 OpenAI 版本的 Deep Research——哪怕每個月要付 200 美元才能自由使用。
“歸根結底,在於如何開發模型、是否努力構建資料集。”OpenAI 負責開發 Deep Research 的喬什·託賓(Josh Tobin)說。
他和另一位 Deep Research 的開發者伊薩·福爾福德(Isa Fulford)參加紅杉資本的播客節目,分享了 OpenAI 開發 Deep Research 的經驗 [5]:
Deep Research 的新穎之處在於端到端訓練,讓模型學習如何針對搜尋到的內容作反應,而不是事先編排好規則,讓模型一步步執行。這是 AI 領域反覆上演的教訓:研究者總以為自己編寫程式碼,能比模型自己訓練更聰明,但用上強化學習的模型能提出更好的解決方案。
想要實現這一點,需要大規模、高質量的資料集。投入模型的資料質量,很可能是決定模型質量的最大因素。OpenAI 的研究者投入大量精力製作了複雜的示例,比如搜尋有效資訊的資料,用它微調了 o3 模型(現在 o3 並沒有開放)。
在模型的基礎上用強化學習調優,很可能是開發強大 Agent 的關鍵。現在行業有了用海量資料訓練的大模型,能遵循指令完成特定任務,可以定義“獎勵函式”的實用場景,用強化學習得到更好結果的時機已經成熟。
本期月報釋出前,中國創業公司釋出的 Agent 應用 Manus 引發關注。Manus AI 的聯合創始人、首席科學家季逸超分享了他們開發 Agent 的經驗:
我們堅信並踐行 less structure,more intelligence 的哲學:當你的資料足夠優質、模型足夠智慧、架構足夠靈活、工程足夠紮實,那麼 computer use、deep research、coding agent 等概念就從產品特性變為了自然湧現的能力。技術之外,迴歸第一性原理也讓我們對產品形態有了全新的思考:
AI 瀏覽器不是在瀏覽器里加 AI,而是做給 AI 用的瀏覽器;AI 搜尋不是從索引召回再總結,而是讓 AI 以使用者的許可權去獲取資訊;操作 GUI 不是搶奪使用者裝置的控制權,而是讓 AI 有自己的虛擬機器;編寫程式碼不是最終目的,而是解決各種問題的通用媒介;生成網站的難點不是搭建框架,而是讓內容言之有物;Attention 不是 all you need,解放使用者的 attention 才能重新定義 DAU。
投資了多家大模型創業公司的真格基金管理合夥人戴雨森說:
模型的推理能力、程式設計能力、工具使用能力提升,解鎖了 Agent 。沒有推理能力,無法很好地計劃,無法消化海量資訊。沒有程式設計能力,無法用 Python 等工具處理檔案、資料等任務。而工具方面,瀏覽器只是一個最基本的工具,以後還會有其他的軟體。
這些能力的共同進步,到達臨界點後,能夠把一個 Agent 產品做出來。當然,這些能力還有很多的提升空間,所以現在還是非常早期的階段。再過半個月、半年、一年,產品能力可能又會變得不一樣。
以前人類用的所有工具都需要 Attention,即需要人給予注意力,關照工作的進度,“ Attention is all you need;而 AI 技術進步,大家會做出來不需要 Attention 就能主動完成複雜任務的工具,這會解鎖人類的潛能。
基建|DeepSeek 成為算力投資關鍵變數
DeepSeek 推動中國公司擴大算力投入,阿里計劃三年投 3800 億元
DeepSeek 讓大量原本處於觀望狀態的行業、公司接受大模型,帶動中國的算力投資:
2 月 24 日,阿里宣佈計劃未來三年將投入至少 3800 億元(530億美元),用於建設雲計算和 AI 基礎設施。
此前有媒體報道稱,位元組今年的資本開支預計達到 200 億美元,同樣用於 AI 基建。
騰訊 CEO 馬化騰在 1 月員工年會上說,騰訊會持續投入資源儲備算力,推動旗下各業務線接入大模型。我們瞭解到,DeepSeek 之後,騰訊採購英偉達 GPU 的計劃比去年大幅增長。
DeepSeek 模型的特點是低成本、高效率,但大規模投入使用仍需要大量的算力,主要有兩個因素:
DeepSeek 的 V3、R1 模型引數達到 6710 億,需要多張 GPU 才能部署下。矽基流動創始人袁進輝曾說,他從 DeepSeek 創始人梁文峰那裡得到的建議是:部署 V3 模型(R1 是在 V3 基礎上後訓練來的模型),用 10 臺 H800 推理速度會很慢,想流暢最少 20 臺 H800,最好是 80 臺——每個月要投入五六百萬。
如果部署完整版的 DeepSeek-R1 模型,會有“思考”過程,消耗算力會大幅增長。英偉達 CEO 黃仁勳近期說,因為採用逐步思考“如何最佳回答”問題的推理方法,下一代大模型解決任務需要的算力,比舊模型多 100 倍。
已經投資了兩年的微軟說:算力中心存在過度建設
微軟上個月叫停在建的威斯康星州資料中心後,2 月又取消一批美國資料中心的租約。一個可能的因素是,微軟不再是 OpenAI 唯一算力供應商,OpenAI 正在加大甲骨文算力的用量。
微軟 CEO 薩提亞·納德拉(Satya Nadella)在一檔播客節目說 [6]:(算力)會有過度建設,微軟 “非常高興在 2027 年、2028 年租賃大量的算力”,因為 “建設的唯一結果是價格會下降。”
英偉達陷入震盪,反彈的股價又跌了回去
英偉達的股價在 2 月走過一個倒 U 型曲線,前 20 天上漲 17%,基本回到 DeepSeek 衝擊前的水平;隨後又開始下跌,到 3 月初降了近 20%。
美國晶片出口禁令還可能擴大,英偉達難從中國大公司擴大算力投資中獲得儘可能多的收入。黃仁勳說,到今年 1 月,英偉達來自中國的收入已經降低到 15%,比沒有禁令時期少了一半。
美國大客戶們今年持續擴大投入,它們需要英偉達,但掌控使用者使用場景的大公司幾乎都在自研 AI 晶片;另一方面,有大公司有了後撤跡象。
投融資丨3 家 AI 公司賣了超 1 億美元,23 家 AI 公司融資超過 5000 萬美元
3 筆金額超過 1 億美元的併購案,有一筆投資人回報豐厚,有一筆投資人虧損:
Voyage AI 被資料庫軟體公司 MongoDB 收購,總價 2.2 億美元的現金和股票。Voyage AI 成立於 2023 年 11 月,主要最佳化大模型使用 RAG(檢索增強生成)時的表現,主要目標是大模型的幻覺。成立以來,Voyage AI 共融資 2800 萬美元。創始人是清華大學姚班畢業生馬騰宇。
Humane 被惠普收購大部分股權,總價 1.16 億美元。Humane 成立於 2018 年,開發 AI 硬體 AI Pin,售價 499 美元,但市場表現糟糕。成立以來,Humane 融資 2.5 億美元,估值一度達到 8.5 億美元。
Kinara 被恩智浦半導體收購,總價 3.07 億美元。Kinara 成立於 2013 年,專注於設計用於終端的 AI 晶片。2021 年,Kinara 在 B 輪融資 2500 萬美元。
基礎模型:兩家 OpenAI 系公司尋求高估值融資
2 月,我們只關注到一家研發基礎模型的公司宣佈完成超 5000 萬美元融資:
Latent Labs 獲得 5000 萬美元融資。它成立於 2023 年,目標是開發模型,把生物系統轉變成類似計算機軟體一樣可控、可設計的系統(making biology programmable),創始人曾在 Google DeepMind 參與開發 AlphaFold。
但還有兩家 OpenAI 系基礎模型公司正在尋求高估值融資,儘管它們沒有產品、沒有收入:
OpenAI 原首席科學家伊爾亞·蘇茨克維(Ilya Sutskever)創辦的 Safe Superintelligence 正在以 300 億美元融資。
OpenAI 原 CTO 米拉·穆拉蒂(Mira Murati)創辦的 Thinking Machines Lab,正在以 90 億美元的估值融資 10 億美元。
基礎設施:英偉達是大贏家;還有兩家量子計算公司融資
英偉達投資的 GPU 算力租賃公司 CoreWeave 在近期遞交招股書,預期集資 40 億美元,估值約 350 億美元。2 月還有英偉達支援的另外兩家 GPU 算力租賃公司宣佈獲得大額融資:
Together AI 融資 3.05 億美元,估值達到 33 億美元。它成立於 2023 年。
Lambda Labs 融資 4.8 億美元,估值達到 25 億美元。它成立於 2012 年。
其他獲得超過 5000 萬美元的融資的 AI 基礎設施公司有:
EnCharge AI 融資 1 億美元。它成立於 2022 年,主要開發用於筆記型電腦、桌上型電腦、手機和可穿戴裝置等裝置中模擬儲存晶片,他們認為可以加速 AI 處理、降低成本。
Dream 融資 1 億美元,估值達到 11 億美元。它成立於 2023 年,主要開發提高 AI 網路安全的技術。
Baseten 融資 7500 萬美元,估值達到 8.25 億美元。它成立於 2019 年,主要基於公共雲提供 AI 模型部署服務。
2 月還有兩家量子計算公司獲得超過 5000 萬美元融資:
QuEra Computing 融資超過 2.3 億美元。它成立於 2018 年,主要使用 “中性原子”(理論上比其他量子計算系統更容易擴大規模、降低錯誤率)開發量子計算機。
Quantum Machines 融資 1.7 億美元。它成立於 2018 年,主要開發量子計算機控制系統,已經與英偉達等 10 多家開發量子計算硬體的公司合作。
應用:主要是前 ChatGPT 時代成立的公司拿到融資
跟前兩個月類似,獲得超過 5000 萬美元融資的 AI 應用公司,基本都在 2023 年之前成立,2023 年及之後成立的公司有兩家:
Genspark 融資 1 億美元,估值達到 5.3 億美元。它成立於 2023 年,主要開發 AI 搜尋引擎,創始人是百度旗下智慧硬體公司小度的原 CEO 景鯤、原 CTO 朱凱華。
Eudia 融資 1.05 億美元。它成立於 2023 年,主要開發幫律師提效的 AI 應用,比如分析合同、整理資料等。
其他共識都瞄準特定行業或應用場景,大模型到來前就積累了大量客戶:
Abridge 融資 2.5 億美元。它成立於 2018 年,用 AI 把患者與臨床醫生之間的對話轉化為結構化的臨床筆記,整合到電子健康記錄系統中。
Harrison.ai 融資 1.12 億美元。它成立於 2018 年,主要提供 識別分析 X 光片、CT 掃描影像、 病理切片的 AI 軟體。
OpenEvidence 融資 7500 萬美元,估值達到 10 億美元。它成立於 2021 年,僅使用同行評審的醫學期刊資料訓練了對話機器人,幫助醫生下判斷。
Tines 融資 1.25 億美元,估值 11.3 億美元。它成立於 2018 年,主要用 AI 技術開發簡化網路安全等工作的軟體。
Semgrep 融資 1 億美元。它成立於 2017 年,主要開發分析程式設計程式碼的產品,幫開發者找安全漏洞和 bug。
Hightouch 融資 8000 萬美元,估值達到 12 億美元。它成立於 2018 年,為企業提供管理客戶資料做個性化營銷的產品。
Augury 融資 7500 萬美元,估值超過 10 億美元。它成立於 2011 年,提供利用 IoT(物聯網)和 AI 技術檢測工廠機器故障的軟體。
Luminance 融資 7500 萬美元。它成立於 2015 年,主要為法律行業提供 AI 軟體,用於自動管理、分析合同等。
Sardine 融資 7000 萬美元,估值達到 6.6 億美元。它成立於 2020 年,為金融機構和企業提供 AI 反詐產品,跟馬斯克的 X 達成了合作。
Sanas 融資 6500 萬美元,估值超過 5 億美元。它成立於 2020 年,主要開發將使用者口音轉換為標準口音,如美國英語或英國英語的技術,主要應用場景是呼叫中心。
SpotDraft 融資 5400 萬美元。它成立於 2017 年,開發利用 AI 技術的合同管理軟體,追蹤合同建立、審查、簽署和儲存等過程。
Saronic 融資 6 億美元,估值 40 億美元。它成立於 2022 年,主要開發自動駕駛的軍用艦艇。
Apptronik 融資 3.5 億美元。它成立於 2016 年,開發人形機器人。去年 Apptronik 與 Google DeepMind 建立了合作。

Apptronik 開發的人形機器人。
最後丨OpenAI 提升模型能力的一個方法:時薪 100 美元找人寫資料
大模型的能力無法沿著過往 Scaling Laws 提升的桎梏,是領先的大模型已經吞掉幾乎所有公開、優質的資料。
為了解決這個問題,大模型公司嘗試用 AI 生成資料。比如 DeepSeek 訓練 R1 模型時,就訓練了 “專家模型” 生成數學、程式設計等領域的問題。OpenAI 也在利用 o 系列模型生成用於訓練 GPT-4.5 的資料。
也有公司花重金僱專家撰寫資料。2 月,有媒體報道了 OpenAI 用人生產資料的情況 [7]:
OpenAI 付 100 美元時薪,找了至少 300 名資深程式設計師或博士,回答醫學、法律、計算機科學、物理學等領域的問題,並詳細解釋為何要如此回答,平均一個問題耗費 2 個小時。
其中一個問題是:請總結截至 2024 年 8 月前可用的溼實驗方法,用於並行評估人類非編碼調控 DNA 序列(如啟動子和增強子)中多種不同變異對基因表達的影響。針對每種方法,請說明基因表達的測量方式及變異的識別策略,描述各方法中引入變異的相關技術,並分析其核心優勢與侷限性。最後,假設預算低於 5 萬美元,建議哪種方法最適合用於在數百個不同調控元件中測試數千個與冠狀動脈疾病(CAD)相關的 SNP。
這些造價高昂的資料,主要用在模型的 “後訓練” 階段,讓經過海量資料訓練的模型更好的回答特定領域的問題。
OpenAI 的價格並不是最高的。資料公司 Labelbox 近期完成的一個專案,時薪 200 美元僱會計師,讓他們根據股票表現等資料,修正大模型分析特定公司前景的報告。
在 AI 領域存在一個定律:資料質量決定模型能力。模型演算法隨著開源和人才流動在行業中擴散,資料在競爭中的重要程度越來越高。
“真正在意軟體的人,應該自己造硬體。” 計算機科學家艾倫·凱(Alan Kay)的這句名言,在大模型時代也有了新的變體:真正在意 AI 的人,應該重視資料。
[1] OpenAI 分享如何提升大模型能力
https://openai.com/index/introducing-gpt-4-5/
[2] 阿爾特曼談論 GPT-5 的規劃
https://x.com/sama/status/1889755723078443244
[3] 斯坦福大學計算機科學助理教授珀西·梁評論 GPT-5 規劃
https://x.com/percyliang/status/1890107330320347623
[4] 分析師本·湯普森使用 Deep Research 的體驗
https://stratechery.com/2025/deep-research-and-knowledge-value/
[5]OpenAI 研究者分享開發 Deep Research 的經驗
https://www.sequoiacap.com/podcast/training-data-deep-research/
[6] 微軟 CEO 納德拉分享談論大模型基建:
https://www.dwarkeshpatel.com/p/satya-nadella
[7]The Information 報道 OpenAI 僱專家寫資料
https://www.theinformation.com/articles/will-deepseek-hurt-scale-ais-business-model?rc=chhbyg
題圖來源:AI 生成。
– FIN –



