AI月報丨大模型下半場與產品成敗的關鍵;擁有更多使用者可能會讓模型更強;全球算力投資又涼了一些

2025 年 4 月全球 AI 重要趨勢。
賀乾明
編輯高洪浩
2025 年 4 月的 AI 月報,你會看到:
“評估(Evals)” 成為模型和 AI 產品開發的關鍵詞
Google 繼續提升 Gemini 模型能力的思路
OpenAI 的 GPT-4o 為什麼變得諂媚,以及背後的問題
使用者規模與模型能力提升關係不大?可能要有變化了
業務週期影響,全球的算力投資又放緩了一些
AI 安全成為投資新風向,單月有 10 家相關公司拿到超 5000 萬美元融資
中國大廠的 Agent 產品上線,面臨創新窘境
以下是我們第 6 期 AI 月報,歡迎大家在留言區補充我們沒有提到的重要趨勢。
評估(Evals):大模型下半場的焦點,AI 產品成敗的關鍵
模型的基準測試得分≠實際能力,要靠更好的評估提升能力
OpenAI 研究員姚順雨釋出文章,稱大模型行業將要進入下半場。上半場 AI 的發展主要是找到有效訓練模型的方法,讓它解決影像識別、語言理解等廣泛的問題,而下半場則需要找到可行的方案,讓模型解決人們生活和工作中更實際的問題。
他認為,焦點將從解決問題轉向定義問題,在這個時代 “評估(衡量模型效果)變得比訓練更重要”[1]:
我們不能只是問 “能否訓練一個模型來解決 XX?”,還要問 “我們應該訓練 AI 做什麼,以及如何衡量真正的進步?”
我們應該從根本上重新思考評估模型能力的方式。這意味著不僅要建立新的、更有挑戰的基準測試,還要從根本上質疑現有的評估框架,並建立新的體系,突破現有方法論的侷限,併發明新方法。
這是當下的 AI 開發者正遇到的麻煩。美國的創業者迪恩·瓦倫丁(Dean Valentine)在 2024 年中覺得大模型已經足夠成熟,便和朋友創辦了一家可以自主監控程式碼庫安全的 AI 公司。隨後 Claude 3.5 Sonnet 釋出,他們發現與 GPT-4o 相比,將前者用到產品中效果更好 [2]。
但從那之後,不論是後來的 Claude 3.7、還是 OpenAI 的新模型,雖然基準測試得分更高,都不能有效提升產品能力。
“就解決新任務或承擔更多使用者腦力勞動方面的能力來說,大模型自去年 8 月以來沒有顯著提升。” 瓦倫丁找多位 AI 創業者交流後,發現大家也有類似的感受:等到 o99-pro-ultra(OpenAI 未來可能釋出的更強模型代號)釋出,基準測試表現優異,實際用起來效果可能也很一般。
“這些新模型的基準測試成績之所以能不斷提升,大機率是因為它們事先看過答案並照抄了下來。” 他認為推出大模型的公司大機率在撒謊。
今年 4 月底 Meta 的 Llama 4 釋出,瓦倫丁又多了新證據——儘管 Meta 宣稱這款新模型在其內部的基準測試中,得分與市面那些領先模型的差別不大甚至更高,但未修改版的 Llama 4 Maverick 在大模型競技場(Chatbot Arena LLM)上的排名,實際是低於半年前其他公司釋出的模型。
而行業內重點關注的推理模型,依賴強化學習技術,還是在沿著 OpenAI 釋出 o1 時展現出來的 “理科強、文科弱” 特徵發展:那些可以驗證正確答案的問題上表現良好,比如數學、程式設計等,而在沒有統一正確答案的領域,比如寫作,推理模型效果就不如人意,不論是 DeepSeek 的 R1 還是 OpenAI 的 o3,幻覺都比基礎模型更嚴重。
Google  Gemini 負責人杜爾西·多希(Tulsee Doshi)說 [3],提升模型能力的關鍵,在於找到評估 “優質答案” 的方法,並透過強化學習將這些標準教給模型。
Google 會請資料標註或撰寫資料的公司提供大量優質問答,把人類創作的內容投餵給模型;收集使用者 “偏好資料”,看他們給什麼樣的回答點贊,什麼樣的回答點踩,用來改進大模型——這些在移動網際網路時代司空見慣的產品迭代方法,直到今年強化學習在大模型領域變得可行後,才真正發揮出了更大的作用。
姚順雨認為,大模型研究員要在大模型下半場有建樹,“需要及時轉變思維方式和技能組合,或許更接近產品經理的角色。”
AI 產品層面,“評估會決定產品成敗”
OpenAI 首席產品官凱文·威爾(Kevin Weil)說:“設計評估方法將成為產品經理的核心技能,它是打造優質 AI  產品的關鍵環節。”[4]
吳恩達(Andrew Ng)與曾在蘋果、Cruise、Spotify 當產品經理,現任 AI 創業公司 Arize AI 產品總監的阿曼·汗(Aman Khan)合作,製作了專講 AI 產品評估的課程。阿曼·汗在 4 月初的文章中寫道 [5]:
幾乎所有 AI 產品經理都沉迷於打磨更好的提示詞、追逐最新的大模型,卻很少有人精通做好 AI 產品背後的 “隱形槓桿”——評估。
只有評估,才能把系統的每一步拆解開來、精準衡量單項改動對產品的具體影響,為下一步改進提供資料與信心。提示詞能讓產品登上頭條,但評估才決定產品成敗。
如果使用者想制定 “舊金山附近、預算不超過 1000 美元的週末度假方案”,沒有經過嚴格評估的 AI 產品上線後,可能會難以理解使用者需求,或者因為幻覺問題,給出不實用的方案,甚至把航班訂到了聖地亞哥而非舊金山,會讓產品失去發展空間。
一位開發 AI 產品的資深產品經理說,移動網際網路時代開發產品,靠大量前期調查確定的邏輯、規則決定產品的核心功能,使用者開啟產品能解決什麼問題,得到什麼體驗,上線前幾乎就固定了;而 AI 產品靠輸出結果並不確定的大模型決定產品功能,給使用者體驗增加了大量不確定性。
所以他們開發完 AI 產品後,會製作更多使用者可能提出的問題資料集,更頻繁地評估產品的表現,然後引入標註團隊處理反饋,再拿去改進產品,而不只是依靠過去開發產品時常用的 A/B 測試。
一位大廠 Agent 產品負責人說,只是讓 Agent 學會遵循使用者指令呼叫工具、解決問題就需要做大量工作——單個工具就需要數百個問題測試、反饋、改進。他說,這只是讓大模型表現 “較好”,想要更好體驗,還需要產品上線後,根據使用者的反饋迅速迭代。
阿曼·汗認為,傳統的產品是 “火車行駛在軌道上”,而 AI 產品是 “汽車行駛在開放道路中”,他把評估比作給 AI 產品 “考” 駕照,關鍵在於:
能否正確解讀訊號(使用者需求),並對變化的環境做出適當反應?
在無法預測的情況下,是否可靠地給出正確答案?
能否始終遵循使用者的要求,到達預定目的地,而不會偏離路線?
使用者規模與模型能力提升關係不大?可能要有變化了
4 月 25 日,OpenAI 更去年釋出的基礎模型 GPT-4o,只過 3 天就回滾到原來版本。
使用者發現新版的 GPT-4o 更諂媚,比如問 “天空為什麼是藍色的”,它會回覆 “這真是一個非常有見地的問題,你有一個美麗的心靈。我愛你。” 其他的例子是:“這是個令人毛骨悚然的好問題”“你 1000% 是對的” 等等。
OpenAI 在回滾模型時釋出文章 [6],解釋了為什麼新版 GPT-4o 會更諂媚。
問題主要出現在 “後訓練(Post-Training)” 的強化學習環節。OpenAI 稱,他們會拿一個預訓練基礎模型,利用人或現有模型編寫的一系列資料對它監督微調,然後用多種來源的獎勵訊號,藉助強化學習提高模型能力。
強化學習過程中,OpenAI 的研究者給模型提示,要求其生成回應,然後他們根據 “獎勵訊號” 給回應評分,讓模型傾向給出高評分的回應,減少低評分回應。
為了讓模型滿足各種要求,OpenAI 還會綜合各個方面的 “獎勵訊號”,比如回應是否正確、是否有幫助、是否符合規範、是否安全、使用者是否喜歡等等,並分配不同權重。
在訓練最新版 GPT-4o 的時候,OpenAI 又調整了獎勵訊號,引入使用者反饋——ChatGPT 中使用者點贊和點踩資料,畢竟點踩通常意味著回答出現了問題。
引入使用者反饋,也是 Google 提升 Gemini 模型能力的策略。此前不少大模型研究者認為,模型能力與使用者規模沒有太多關係,風向似乎在發生變化。如果使用者反饋真的能提升模型實力,搶奪使用者的競爭會變得更加激烈。
模型變得更諂媚就是在這個過程中衍生出來的新問題。一方面,新的獎勵訊號削弱了原本抑制模型討好人的訊號;另一方面,使用者經常會點贊討好的回應。
“最重要一課是,我們充分認識到人們已開始將 ChatGPT 用於獲取個人建議。”OpenAI 在文章中寫道,這種現象一年前還不多見。
當前,每週使用 ChatGPT 的使用者已經超過 5 億。對於 OpenAI 來說,已經沒有 “小” 釋出了。
業務週期影響,全球的算力投資又涼了一些
不缺卡的一些美國雲計算大廠,4 月繼續調整算力投資計劃。
市場調研機構 Semianalysis 稱[7],過去兩個季度,微軟放棄遠超 2GW 功耗的資料中心租賃合同,近期又凍結 1.5GW 自建資料中心專案——這些專案原計劃在 2025 年和 2026 年投入使用。作為對比,馬斯克旗下 xAI 建設的大型資料中心,剛開始功耗大約 0.5 GW。
一位投資人調研國內算力市場後預估,中國大廠今年的資料中心需求大概在 3GW,相當於微軟放緩的體量。而且微軟能用的 GPU,相同算力下比國產替代品或 H20 功耗更低。
亞馬遜也在暫緩租賃更多資料中心。富國銀行的分析師 4 月釋出報告稱[8],他們從多位行業人士那裡聽說,AWS 暫停推進部分資料中心租賃的訂單談判。
他們稱,大廠短暫放緩算力投資可能不代表長期趨勢,更像是公司的週期調整,當前業務沒有跟上早期的算力規劃。比如 Google 曾在 2024 年放緩資料中心建設,2025 年初又重新加速。
英偉達的股價在 4 月持續波動。在 4 月中旬一度比月初下跌 20%,到月底又反彈回來。不過與年初比,英偉達股價已經下跌 17%。
英偉達還有一些支撐。Google、Meta、xAI、OpenAI 依然在積極搶購英偉達的 GPU,他們希望建立更多人使用的 AI 產品,甚至還有一些公司去競爭對手那裡租算力。中國的大廠,比如騰訊也從位元組的火山引擎租了算力。
投融資:併購繼續活躍,解決 AI 安全問題的公司受關注
大額併購事件變多,中型公司變得積極
4 月公開的上億美元 AI 併購事件達到 8 起,比 3 月多了 2 起。整體的風向沒有太大變化:AI 行業正在從 “單一的技術或產品競爭” 向 “生態系統整合” 轉變,頭部公司積極擴充套件業務邊界,挖掘生態護城河。
比如 OpenAI 以 30 億美元的價格收購 AI 程式設計公司 Windsurf;高通收購 AI 汽車產品公司 VinAI 的大模型部門等。
明顯的變化是中型公司更活躍了。比如電商公司 Infinite Reality 花 5 億美元收購開發 AI 導購產品公司;做醫學影像業務的 RadNet 花 1 億美元併購開發 AI 癌症篩查軟體的 iCad;音樂公司 Splice 併購用 AI 技術混合音訊樣本的 Spitfire Audio 等。
中國的大模型公司智譜啟動上市輔導。如果一切順利,智譜預計會在 6~9 個月後完成 IPO,可能成為中國第一個上市的大模型公司。
10 家瞄準 AI 安全的創業公司拿到大額融資
4 月,融資超過 5000 萬美元的 AI 公司達 42 家,比上月增加 11 家, 比 2 月增加超 80%。
基礎模型方向,不再是頭部公司佔主流。馬斯克旗下的 xAI 想融資 200 億美元,但還沒有落地。獲得融資最多的模型公司是 OpenAI 原首席科學家伊爾亞·蘇茨克維(Ilya Sutskever)創辦的 Safe Superintelligence,融到 20 億美元,估值衝到 320 億美元——目前還沒有釋出任何產品。
OpenAI 原 CTO 米拉·穆拉蒂(Mira Murati)創辦的 Thinking Machines Lab,也調高了籌資規模,從 2 月的 10 億美元增加到 20 億美元,估值提升到百億美元,還沒有明確訊息確定這筆交易落地。
此外,影片模型公司 Runway  融資 3.08 億美元,估值衝到 30 億美元。大模型公司 Anthropic 也投資了一家 AI 公司 Goodfire,對方主要業務是研究解釋大模型,近期完成 5000 萬美元融資,估值達到 2.5 億美元。
基礎設施方向,4 月拿到大額融資的公司中,同樣沒有 GPU 算力供應商的身影,但整體數量從上個月的 2 家增加到 8 家——覆蓋資料庫軟體開發、資料中心能源、降低算力成本、資料中心互聯、量子計算等方向。
應用方向與前幾個月有顯著變化。之前拿到大額融資的 AI 應用公司多數成立在 ChatGPT 釋出之前,已在各自領域中積累穩定客戶和資料資源。它們不是給大模型做 “殼”,而是想把大模型與垂直場景連線起來,用 AI 改造原本的流程,挖掘新的增長空間。
這樣的公司在 4 月有 11 家,分佈在醫療、法律、金融等行業,但不再是主流。更多的資金流向迎著大模型浪潮發展起來的公司,比如開發 Agent 產品 Manus 的公司蝴蝶效應拿到矽谷風投 Benchmark 領投的 7500 萬美元投資,估值到 5 億美元。
一個新出現的投資主題是 AI 安全。4 月一共有 10 家相關公司拿到大額融資。相關的背景是,還不完美的大模型正在迅速擴散,帶來更多安全風險。據諮詢公司麥肯錫的資料 [ 9],ChatGPT 釋出後的一年裡,試圖誘騙使用者洩露身份和支付憑證的 “釣魚” 網站數量增長 138%,達到 500 萬個。
3 月創下融資紀錄的機器人領域,新的一月只有制一家制造手術機器人的公司 CMR Surgical 拿到大額融資。硬體方向,還有生產無人機的 Brinc 拿到融資,以及兩家無人物流配送車公司拿到大額融資,一家是美國的 Nuro、另一家是中國的九識智慧,都宣佈拿到上億美元資金。
大廠 Agent 產品開始上線,面臨創新窘境
4 月 18 日,位元組推出 Agent 產品 “釦子空間”;第二天,百度上線 Agent 產品 “心響”。與一個月前釋出的 Manus 等產品類似,這些大廠的產品都定位 “通用 Agent”,各自還增加不少功能,比如釦子空間有使用者研究、股票助手這樣的 “專業 Agent”,心響看重移動端,推出手機 App 並主打生活場景,但都沒能像 Manus 釋出時那樣引發行業討論與關注。
微信指數顯示,Manus 的關鍵詞熱度最高到 5.5 億,而心響最高只到 300 多萬,釦子空間還低一些。在大廠的兩個產品釋出期間,它們的微信指數都明顯低於 Manus。
我們瞭解到,還有一些大廠的 Agent 產品正在開發中。僅在位元組,除了釦子空間,還有至少六款對內和對外的 Agent 產品立項。
“在中國做 Agent 產品有劣勢,能夠支援呼叫工具的模型有限。” 多位 AI 從業者說,位元組、百度有針對工具使用場景精調過的 Function Call 模型,但相比海外的 Claude 系列、o 系列、Gemini 系列等 “原生” 支援工具呼叫的模型還有差距,會影響 Agent 產品的效果。
“這是 Manus 、Genspark 把重心放在海外市場的原因之一。” 一位 AI 投資人說,他們可以用海外效果更好的模型。我們瞭解到,百度原副總裁景鯤帶隊開發的 Genspark 的 Agent,上線 9 天 ARR(年度經常性收入)就達到 1000 萬美元。
阿里在 4 月底開源 Qwen 3 系列模型,聲稱 “呼叫工具能力、遵循指令” 方面能力 “出色”,但效果還有待驗證。
底層模型能力之外,是大廠面臨 “創新窘境”。位元組的扣子空間開發團隊、百度的心響團隊,都在不同渠道提出他們早就在研究、開發 Agent 產品,但還是比創業公司上線晚。
類似的情形,在大廠追趕 DeepSeek-R1 推出自研推理模型時,就已經上演過一次,同樣是沒有哪家能夠像 DeepSeek 那樣引發全行業關注。
不只中國的大廠,Google、Meta 等海外大廠也沒有像 OpenAI 先推出引起使用者關注的大模型或產品。在 AI 程式設計領域,當前最受關注的是創業公司開發的 Cursor,而不是微軟、Google 等大公司的產品。隨著 OpenAI 變大,他們的行動也變得遲緩,選擇收購 AI 程式設計創業公司提高競爭力。
大廠不缺聰明人、有更多的資源。為什麼不能率先推出類似 DeepSeek-R1、 Manus 型別的模型和產品?我們曾發文討論過這個現象 [10]:
網際網路巨頭崛起、維持統治地位不靠時刻引領創新,而靠在有人驗證需求後,成體系地做出同款,以更高效率大量拉來使用者,再根據使用者反饋快速迭代改進體驗。更好的體驗帶來更多的收入,這些收入又被拿來投放,獲得更多使用者,如此迴圈。
當下 AI 產品體驗提升幾乎全部來自底層模型能力提升。大廠燒錢換來使用者,無法保證底層模型遠超同行,就無法阻止使用者投奔體驗更驚豔的競品。大模型開源讓創業公司能用和大公司差不多的成本,調動差不多的智慧;做出足夠好的產品,初期靠自然傳播也有機會飛速增長。
而且當需求從開發大模型轉向尋找具體應用場景,創業者天然比大公司裡被 OKR、KPI、季報、雙月會牽引的聰明人更容易嘗試新點子。
管理學家克萊頓·克里斯坦森(Clayton Christensen)上世紀提出 “創新者的窘境”,似乎正在大模型領域上演。但任何一個成熟的管理者都不會對 “創新者窘境” 感到陌生,為什麼還是會出現類似的情況?這或許是更關鍵的問題。
[1]OpenAI 研究員姚順雨的博文
https://ysymyth.github.io/The-Second-Half/
[2]AI 創業者眼中的大模型進展
https://www.lesswrong.com/posts/4mvphwx5pdsZLMmpY/recent-ai-model-progress-feels-mostly-like-bullshit
[3]Gemini 負責人談模型能力提升策略
https://www.theinformation.com/articles/openais-innovators-dilemma-geminis-product-lead-next
[4]OpenAI 首席產品官談評估重要的播客
https://www.lennysnewsletter.com/p/kevin-weil-open-ai?source=queue
[5] 阿曼·汗討論評估的博文
https://www.lennysnewsletter.com/p/beyond-vibe-checks-a-pms-complete
[6]OpenAI 解釋為什麼 GPT-4o 變諂媚
https://openai.com/index/expanding-on-sycophancy/
[7]Semianalysis 談微軟凍結算力投資的文章
https://semianalysis.com/2025/04/28/microsofts-datacenter-freeze/
[8] 亞馬遜也在暫緩租賃更多資料中心
https://www.reuters.com/business/retail-consumer/amazon-has-halted-some-data-center-leasing-talks-wells-fargo-analysts-say-2025-04-21/
[9] 麥肯錫關於釣魚網站的資料
https://www.mckinsey.com/featured-insights/sustainable-inclusive-growth/charts/phishing-with-ai-is-cybersecuritys-new-hook
[10] 晚點 LatePost 討論大廠開發 AI 產品正規化變化的文章
https://mp.weixin.qq.com/s/3Xdz8qCQvU69WIS5s8ACFg
題圖來源:《機械姬》
 FIN 


相關文章