

2025 年 3 月全球 AI 重要趨勢。
文丨賀乾明
2025 年 3 月的 AI 月報,我們開始嘗試一種新形式:和知乎一起舉辦 “AI 腦暴” 線下活動,圍繞每月一個熱門 AI 主題,邀請相關學界研究者、業界從業者(研發或技術人員)、投資人等一起做閉門圓桌討論。
3 月 30 日,第一期 AI 腦暴舉行,主題是 Agent,我們邀請 6 位嘉賓參加,他們來自高校、網際網路公司和非營利 AI 研究機構。本期月報中,我們摘錄了部分 AI 腦暴中的討論。
本期月報,你會看到:
為什麼開發 Agent 簡單,但做好很難
AI 腦暴活動中 “殼重要還是模型重要” 部分討論要點
大模型應用成為網際網路流量入口的可能和 OpenAI 的平臺設想
算力投資分歧引發英偉達股價持續震盪,黃仁勳講了個推理故事
併購交易活躍,英偉達積極出手
31 家 AI 公司獲得超 5000 萬美元融資,垂直 AI 應用受青睞
“顯微鏡” 追蹤大模型內部決策路徑的六個案例
以下是我們第 5 期 AI 月報,歡迎大家在留言區補充我們沒有提到的重要趨勢。
開發 Agent 簡單,讓它好用難
3 月初,通用 Agent 產品 Manus 上線第二天,就被複刻出兩個開源版本——OpenManus、OWL。OpenManus 甚至只用 4 個人,花 3 個小時。
這種 “速成” 似乎暗示:做 Agent 沒那麼難。但從實際體驗和系統複雜度來看,讓 Agent “真正好用” 仍存在挑戰。
大模型公司 Anthropic 與數十個團隊合作開發 Agent 後,把其分成兩類 [1]:
Workflows,透過預先定義好的程式碼路徑,協調大模型和各種工具的系統。
Agents,是大模型自主決定處理過程和工具使用方式的系統,能獨立完成任務。
Agent 的開發看起來變得容易,是因為底層模型、框架、工具生態正在成熟。OpenAI、Anthropic 等公司提供了模型 API,呼叫瀏覽器、檔案、搜尋等元件已經有開源標準。Anthropic 推出的 Model Context Protocol(MCP)正在被更多公司接納,規範了 Agent 如何與外部工具對接,OpenAI 也已加入。
但無論是 Manus 和它的各種開源變體,還是 OpenAI 開發的 Deep Research 等 Agent,問題仍層出不窮:
大模型自身侷限:幻覺嚴重、邏輯跳躍、長文字處理能力不足、模型訓練資料不夠新鮮等,仍需要 RAG(檢索增強生成)等技術兜底,會引入更多誤差。
系統設計難:難以精確引導模型行為,執行復雜任務容易陷入死迴圈;任務鏈越長,誤差累積越多;公開資訊有限,而且主要是為人服務,而不是為大模型服務。
Anthropic 總結過幾點工具層面的改進建議 [1]:
站在模型的角度思考,一個好的工具定義通常包括使用示例、邊界情況、輸入格式要求等,與其他工具有明顯區分。
持續測試模型如何使用工具,觀察模型犯的錯誤,然後不斷迭代改進。
設定 “防呆機制”(Poka-yoke),調整引數設定,降低模型出錯的機率。
在大模型創業公司 Pleias 訓練大模型的亞歷山大·多利亞(Alexander Doria)認為 “模型就是產品”[2]:
OpenAI 的 Deep Research 並沒有在 o3 模型上做產品封裝,而是用強化學習的方式,在 o3 的基礎訓練一個新模型,讓它具備搜尋的能力,而不是呼叫外部的工具、增加提示詞或者編排任務。
目前大多數 Agent 產品都是工作流(Workflows)產品,它在垂直場景有價值,但要實現重大突破,必須重新設計模型。僅專注應用開發,就像是 “用上一場戰爭的將軍,來打下一場戰爭”。
在 AI 腦暴活動上,我們討論了 “對 Agent 來說,殼重要還是模型重要”,部分要點如下:
1. Anthropic 的 CPO 邁克·克里格 (Mike Krieger) 提到的 “一方產品”“三方產品” 的觀點,用來理解這個問題很有意思。Cursor 是一個成功的三方,它沒有訓練自己的大模型,但互動設計做得很好,構造了一個沉浸式的 Agent,滿足了 Agent 與人和(生產)環境統一對齊的情況,所以三方產品也能做得很好。
2. 對於 Agent 來說,殼至少是一個起點,你能先把這個東西做出來。如果你這個殼足夠有前瞻性的話,你可以等著模型變強,然後這個東西就會變得更好。
3. 像 OpenHands 剛開始就是搭一個殼,在 Roadmap 上面寫要訓模型,但沒有優先推進。接入一個商用模型 API,好像並不影響使用者用你的這套東西。他們認為,先把這個效果做好,大家能用起來,可能就足夠了。重點最佳化這一層殼,也能看到 Claude 3.5 到 3.7 陸續釋出,它的能力變得越來越強。
4. 所謂套盒,其實是在改模型的輸入和輸出。它們決定給基礎模型提供哪些內容,有時它們會對基礎模型的輸出進行特定的格式化。兩者實際上是正交的,當一方變得足夠強大時,另一方的強弱對整體效果的影響可能不再顯著。
5. Anthropic 推出的 MCP(Model Context Protocol)也在提高 Agent 產品的價值。他們寫了一層協議,以某種方式將所有現有的軟體轉化為語言模型呼叫的工具。它是一個開放的生態系統,任何公司都可以做貢獻,希望被大型語言模型呼叫的軟體,可以自行接入 MCP。現有軟體都可以透過 MCP 重新封裝一遍。
6. 大模型預訓練、後訓練和 Agent 架構最佳化是整體工程,層層遞進,能力相互關聯。對 DeepSeek 及其他推理模型案例研究發現,推理模型能力離不開基礎模型的持續迭代,本輪 Agent 應用的發展也源自 LLM-Based 對 RL-Based 的架構迭代。
7. 基礎模型迭代仍是 Agent 效能提升的重要影響因素,基礎模型迭代的速度持續放緩,一方面來自於預訓練 Scaling Laws 邊際效應遞減。另一方面,更大規模的資源投入門檻讓下一代模型的 “擁有權” 收斂到頭部廠商中。
8. 大模型的發展,會推動垂直頭部應用廠商升級,而非顛覆垂直應用的市場格局;在超級應用的市場爭奪中,參與者需要強大生態渠道構建能力,快速整合本地生活、地圖、支付等一系列通用場景建設生態,推動大模型從簡單的問答與靈感提示,向日常生活中進一步滲透,改變人機互動方式。
9. 與網際網路與移動網際網路時期一樣,大模型推動的智慧應用時代,正在從通用技術的發展嚮應用能力提升過渡,基礎模型的迭代是 Agent 應用的基石,而 Agent 應用的壁壘除了必要的工程能力外,會轉向使用者、場景和行業知識的理解與積累。
大模型成為流量入口會怎樣
3 月,OpenAI CEO 山姆·阿爾特曼(Sam Altman)接受採訪時被問 [3]:“五年後,擁有 10 億日活、無需獲客的網站和最先進的模型,什麼更有價值?”
他沉吟 2 秒,選擇 “10 億日活使用者的網站”。阿爾特曼設想了一個 OpenAI 成為網際網路世界入口的未來:使用者用 OpenAI 賬戶,能帶著使用額度、定製模型等,自由使用任何集成了 OpenAI 模型 API 的第三方服務。
他說,“這是真正成為一個偉大平臺的關鍵部分。”
OpenAI 的這一平臺願景,已經在其 1 月釋出的 Agent 產品 Operator 中初現端倪。Operator 可以搜尋網頁為使用者規劃旅行方案、寫報告、提供購物建議,與外賣平臺 DoorDash、網約車平臺 Uber、購物網站 Ebay 等服務打通。
Operator 還沒有帶來太大沖擊,但大模型應用成為流量入口的趨勢日益明顯。Adobe Analytics 分析了美國電商零售網站超萬億次訪問後發現 [4]:
2024 年 9 月以來,大模型應用帶來的流量每兩個月翻一番;去年末兩個月,這類流量同比增長 1200%。
與傳統流量來源相比,從大模型應用引導的流量在網站上停留的時間增長 8%,頁面瀏覽量增加 12%,跳出率低 23%,但是轉化率低 9%,不過也在提升。
Adobe 還調研 5000 名美國消費者獲知:近四成人正在使用大模型輔助購物,過半人計劃今年這麼做。
許多電商或本地生活應用的核心收入都是站內的推薦廣告,比如亞馬遜、阿里、京東、拼多多、美團等。如果訪問這些網站的是 AI,而不是人,這些廣告系統還能起效嗎?
今年 2 月的財報會上,亞馬遜 CEO 安迪·賈西(Andy Jassy)被問及 “Agent 如何影響公司電商業務”。他給出一個模稜兩可的答案:“大多數零售商都會有某種與 Agent 互動的條款,我們也不會有什麼不同。”
沃爾瑪美國業務的首席技術官哈里·瓦蘇德夫(Hari Vasudev)提出了一個應對策略:“開發自己的 Agent 與其他的 Agent 互動,推薦產品或提供更多商品資訊。”
AI 腦暴活動中,一位 AI 戰略研究人士認為,就算是流量入口發生變化,現有的大廠和在特定場景深耕的公司依然會有優勢:
隨著開源模型與閉源模型的效能持續逼近,應用廠商可以透過較低成本獲得模型能力,基於行業資料有監督微調(SFT)一個業務可用的行業模型和 Agent;過去有使用者、資料和 IT 能力積累的公司,在這場競爭中更具競爭優勢。
算力投資分歧,英偉達的推理故事
3 月,算力投資的分歧持續,英偉達股價持續波動:月初 10 天下降 13%,隨後反彈,然後又跌了下來。
這一波動背後是兩個未達成共識的問題:算力消耗從訓練大模型轉向推理,英偉達的 GPU 還是唯一選擇嗎?當前算力投資是否飽和?
過去這個月,算力可能飽和甚至過剩的跡象增多:
引數更小的模型效能提升。Google 開源的 270 億引數模型 Gemma 3 模型,在 Chatbot Arena 上得分超過老版 DeepSeek-V3(引數 6710 億,每次回答問題啟用 370 億引數);阿里開源 320 億引數推理模型 QwQ,得分幾乎追上 R1 。

據媒體報道,因為 DeepSeek、阿里、Google 等公司開源算力消耗更少但效能不差的模型,許多美國公司都削減了 AI 支出。
AWS 以英偉達 H100 晶片 25% 的價格向客戶銷售自研 AI 晶片 Trainium 的相同算力;Google 找聯發科生產自研 AI 晶片,要進一步壓低 AI 晶片成本。
微軟 CEO 薩提亞·納德拉之後,阿里董事局主席蔡崇信也警告,美國一些資料中心公司冒險建設新設施,稱 “開始看到一些泡沫”。
但一直不願與英偉達合作的蘋果開始採購英偉達晶片,又給市場注入信心。3 月的 GTC 大會上,英偉達 CEO 黃仁勳講了關於推理的新故事:
OpenAI 釋出 o1 這樣的推理模型後,AI 算力的需求超過去年英偉達預期需求的 100 倍。能夠推理的 AI,將問題一步步分解,可能以幾種不同的方式接近並選擇最佳答案,生成的 Token 數量輕鬆達到百倍以上。
資料中心可用的電力資源有限。相同功耗,英偉達的 B 系列 GPU,效能比 H 系列提升 25 倍。2026 年將推出的 Vera Rubin 架構晶片,會在 B 系列基礎上再次大幅提升——消耗相同的電,可以生成更多 Token。
推理模型需要更高的吞吐效率,才能保證使用者體驗。英偉達開發 Dynamo 軟體,能動態調整 GPU 處理 Token 的情況。推理模型解決任務時需要大量輸入資訊,模型處理提示詞和大量原始資訊的階段(Prefill,預填充)任務重,它可以把更多算力調配過來,保證使用者體驗和 GPU 的使用效率。

英偉達展示 GPU 優勢。縱軸是算力伺服器處理 Token 的規模,橫軸是算力伺服器返回 Token 的速度。它們構成 Token 的吞吐量。Token 吞吐量越高,回報就越高。
“當 B 系列 GPU 開始大量出貨時,你甚至無法把 H 系列免費送出去。” 黃仁勳說。他經常用 “買得越多,省得越多” 推銷英偉達先進 GPU,現在變成了 “買得越多,賺得越多”。
並非所有任務都需要推理模型解決,且更小的推理模型如 o3 mini、QwQ-32B 同樣能實現良好效果。整體算下來,推理模型確實增加 Token 消耗,具體是否會到百倍以上仍有待驗證。
AI 腦爆活動上,一位專注 AI 推理的研究者說:
當前看上去消耗大量算力的 Agent 應用,還有很多算力最佳化空間。Agent 瀏覽網頁獲取資訊的時候,可能會抓取大量無用的資訊作為輸入,比如給網頁截圖提取資訊,可能與 99% 的畫素是無用的,導致算力成本大幅增加。
投融資風向:併購交易變多,獲得大額融資的 AI 公司聚焦垂直領域
併購活躍,頭部公司擴充套件業務邊界
3 月宣佈的大額併購交易超過前三月總和,6 起金額超過 1 億美元的交易公開,另有多起仍在談判中。
AI 行業正在從 “單一的技術或產品競爭” 向 “生態系統整合” 轉變,頭部公司積極擴充套件業務邊界,挖掘生態護城河:
英偉達 3.2 億美元收購合成數據公司 Gretel、正在洽談數億美元收購阿里前副總裁賈揚清創辦的 AI 推理服務公司 Lepton AI,從算力加速向推理、資料層拓展。
馬斯克旗下 xAI 用股權併購 X(Twitter),整合資料、模型、算力、分發渠道和人才。交易中,xAI 的估值是 800 億美元,X 的估值 330 億美元。
Google 以 320 億美元現金收購網路安全創業公司 Wiz,ServiceNow 斥資 28.5 億美元收購 AI 創業公司 Moveworks,UiPath 收購開發定價、庫存管理等 AI 工具 的 Peak 等,進一步擴張企業服務生態。
同時,英偉達投資支援的 GPU 算力租賃創業公司 CoreWeave 上市,籌集 15 億美元,此前它計劃籌集 40 億美元。
拿到大額融資的公司變多,聚焦垂直領域
3 月,融資超過 5000 萬美元的 AI 公司達 31 家,比上月增加 8 家,投資風向相對穩定。
基礎模型方向,頭部公司融資驚人:OpenAI 又融資 400 億美元,累計融資額達到 586 億美元,最新估值超過 3000 億美元;Anthropic 又融資 35 億美元,累計融資額達到 180 億美元,估值達到 615 億美元。
國內,智譜先後宣佈拿到杭州、珠海、成都等三地國資的投資,總額達 18 億元,累計融資超百億人民幣,完成公司股份制改革,為上市鋪路。
基礎設施方向,GPU 算力租賃服務的公司融資潮告一段落,研發 AI 晶片的以色列公司 Retym 和為大公司提供網路解決方案的 Nexthop AI 拿到大額融資。
為 OpenAI、Google 等公司提供程式設計資料的創業公司 Turing 拿到 1.11 億美元融資,估值 22 億美元,其年化收入達到 1.67 億美元,已經盈利,顯示資料標註服務的商業模式正在成熟。
Scale AI 正在推動估值 250 億美元的老股交易,相比去年 5 月估值提升 80%。Scale AI 正在拓展業務範圍,為人形機器人公司提供資料採集服務。
人形機器人創業公司迎來融資高潮,單月出現 7 筆大額融資,創近年新高:
國內,智元機器人、它石智慧、千尋智慧、維他動力等專案完成億元級人民幣或美元融資,估值最高的智元機器人已經達到 150 億元。
海外,Agility Robotics 籌集 4 億美元,Dexterity 融資 9500 萬美元,Apptronik 上個月融資 3.5 億美元后再次融資 5000 萬美元;軟銀則領投 Terabase Energy 的 1.3 億美元融資,該公司用機器人建設太陽能發電廠。
應用方向,大額融資主要流向用大模型技術改造垂直領域的創業公司,分佈在程式設計、醫療健康、企業資料服務、金融防詐、物流運輸、藥物發現等領域,至少有 18 家。
這些公司多數成立在 ChatGPT 釋出之前,已在各自領域中積累穩定客戶和資料資源。它們不是給大模型做 “殼”,而是想把大模型與垂直場景連線起來,用 AI 改造原本的流程,挖掘新的增長空間。
許多投資人把這個方向當作創業公司的機會——這些領域需要長期、深入的積累才能有競爭力,潛在收入規模尚未大到吸引巨頭入場。多位矽谷的投資人告訴媒體,他們現在被覆蓋全行業的 AI 應用創業計劃書淹沒。
顯微鏡下的大模型思考軌跡
大模型輸出結果看似合理,但內部決策過程不透明,是一個黑盒子。3 月,Anthropic 釋出兩篇論文,嘗試用 “AI 顯微鏡” 技術追蹤模型內部運作機制,研究自研的大模型 Claude 如何識別指令、組織語言、執行推理 [6]。
大模型如何掌握數十種語言?
Claude 具備多語言能力,並不是靠 “法語 Claude”“中文 Claude” 同時上線,而是依賴一個共享的跨語言抽象機制。研究顯示,在不同語言中提問 “小的反義詞” 時,Claude 啟用的是相同的 “小” 與 “相反” 概念,最終生成 “大的” 語義,再翻譯成原語言輸出。隨著模型規模擴大,這種語言間的共享特徵也顯著增強。這表明模型具備跨語言遷移能力,推理和理解能力可在多領域中應用。
大模型預測下一個詞輸出,它怎麼押韻?
比如下面這兩句英文詩:
He saw a carrot and had to grab it
His hunger was like a starving rabbit
為了寫出第二行,大模型必須要滿足兩個條件:與 “grab it” 押韻、邏輯通順(為什麼要抓胡蘿蔔)。按照通常的大模型預測下一個詞的理解,大模型一邊寫詞一邊思考,直到末尾才會選了一個押韻的詞。
Claude 在寫詩時並非逐字生成到末尾才湊韻,而是提前規劃。例如在寫與 “grab it” 押韻的第二句前,它會預先檢索相關話題詞如 “rabbit”,再圍繞這個詞遣詞造句。如果修改其內部狀態中表示 “rabbit” 的部分,發現 Claude 會改寫成以 “habit” 結尾的句子,仍然通順押韻;若注入 “green” 概念,結尾則變為 “green”,不押韻但合理。這表明,大模型具備語言規劃能力和靈活性,能夠根據目標調整生成策略。
大模型不是計算器,如何心算數學題?
Claude 不是專門為計算設計的,訓練目標只是預測下一個詞,但它能在不一步步書寫計算過程的情況下,正確計算如 36+59 的結果。研究發現,Claude 並非靠死記硬背或模擬標準演算法,而是用並行路徑完成計算:一條估算總和,另一條精確確定末位數字,最終合成答案。Claude 並不 “自知” 這些策略,它解釋運算過程時仍引用人類常規演算法,表明實際計算與解釋機制是分離的。
大模型的思維鏈看上去很有邏輯,可靠嗎?
Claude 3.7 Sonnet 等推理模型能進行較長的 “思維過程” 再輸出答案,通常能提升準確性,但有時也會偽造看似合理的推理步驟。比如計算 0.64 的平方根時,Claude 激活了與中間計算步驟對應的特徵;但在處理難題,如大型餘弦函式時,有時會 “胡謅” 答案,甚至反向寫一個合理的思維鏈。
明明訓練大模型不要亂說,為什麼它還會捏造事實?
大語言模型天生會有 “幻覺”,即使不知道答案也必須輸出下一個詞。Claude 訓練中,學會在不確定準確答案時預設拒答,其內部存在一個 “拒答” 迴路一直啟用,除非識別到熟悉資訊,如 “Michael Jordan”,此時 “已知實體” 特徵會抑制該回路,模型才會作答。但大模型識別出是一個人名的時候,如 “Michael Batkin” 卻不瞭解相關資訊,就可能誤啟用 “已知” 特徵,導致拒答機制失效,從而捏造看似合理卻完全虛構的答案。
大模型的安全護欄為什麼會失效?
大模型一旦開始處理句子,就傾向完成語義合理、語法正確的表達,即使這會輸出有害內容。一個案例:模型被引導拼出 “BOMB”(透過 “Babies Outlive Mustard Block” 的首字母),從而生成炸彈製作說明。Claude 下意識地拼出 “BOMB” 後繼續生成內容,直到完成一個完整句子後,才 “意識” 到問題,切換為拒絕響應。
Anthropic 稱,當前的研究方法還有侷限:只是處理幾句簡短的提示詞,花數個小時也只能觀察到大模型計算過程的一小部分,還不一定真實反映模型在做什麼,如果想要分析模型處理長達成千上萬個詞的思維過程,不僅需要改進方法,可能還要用 AI 幫忙理解 AI。
歡迎大家到知乎搜「晚點」,閱讀文章參與相關討論。
[1] Anthropic 的 Agent 開發經驗
https://www.anthropic.com/engineering/building-effective-agents
[2] 亞歷山大·多利亞 “模型就是產品” 部落格文章
https://vintagedata.org/blog/posts/model-is-the-product
[3] 阿爾特曼接受本·湯普森訪談
https://stratechery.com/2025/an-interview-with-openai-ceo-sam-altman-about-building-a-consumer-tech-company/
[4] Adobe Analytics 的流量分析報告
https://searchengineland.com/generative-ai-surging-online-shopping-report-453312
[5] 黃仁勳在 GTC 上的發言
https://www.nvidia.com/gtc/keynote/
[6] Anthropic 追蹤大模型內部思考過程的研究
https://www.anthropic.com/research/tracing-thoughts-language-model
題圖來源:AI 生成。
– FIN –



