李飛飛團隊456頁最新報告:中美AI模型效能近乎持平,DeepSeek崛起!

點選下方卡片,關注“CVer”公眾號

AI/CV重磅乾貨,第一時間送達

新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球可以獲得最新頂會/頂刊上的論文ideaCV從入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!

轉載自:新智元 | 編輯:編輯部

【導讀】2025年斯坦福HAI報告重磅釋出,456頁深度剖析全球AI領域的最新趨勢:中美頂級模型效能差距縮至0.3%,以DeepSeek為代表的模型強勢崛起,逼近閉源巨頭;推理成本暴降,小模型效能飆升,AI正變得更高效、更普惠。
就在剛剛,每年都備受矚目的斯坦福AI指數報告,重磅釋出了!
這份報告由斯坦福大學以人為本AI研究員釋出,代表著每年AI領域最核心和前沿的動向總結。
今年,這份報告長達456頁,丟擲不少驚人觀點。
比如,如今在2025年,中美頂級AI模型的效能差距已經縮小到了0.3%(2023年,這一數字還是20%),中國模型正在快速追趕美國的領先地位!
而DeepSeek領銜的開放權重模型,更是以1.7%之差,逼宮各大閉源巨頭。前者和後者的差距,已經由2024年的8%,縮小至2025年的1.7%。
當然,目前從行業主導企業來看,美國仍然領先於中國。在2024年,90%的知名AI模型來自企業,美國以40個模型領先,中國有15個。
更明顯的一個趨勢,就是如今大模型的效能已經趨同!在2024年,TOP1和TOP10的模型的差距能有12%,但如今,它們的差距已經越來越小,銳減至5%。
十二大亮點
最新的斯坦福HAI兩篇博文中,濃縮了2025年AI指數報告的十二大亮點。
1. AI效能再攀高峰,從基準測試到影片生成全面突破
2023年,研究人員推出了MMMU、GPQA和SWE-bench等新基準來測試先進AI系統的極限。
僅一年後,效能便大幅提升:AI在三項基準得分分別飆升18.8%、48.9%和67.3%。
不僅如此,AI在生成高質量影片方面取得重大突破,甚至,在某些場景下AI智慧體甚至超越人類表現。
·更有用智慧體崛起 
2024年釋出的RE-Bench基準測試,為評估AI智慧體複雜任務能力設立了嚴苛標準。
資料顯示:在短期任務(2小時內)場景下,頂級AI系統的表現可達人類專家的4倍;但當任務時限延長至32小時,人類則以2:1的優勢反超。
值得注意的是,AI已在特定領域,如編寫特定型別程式碼,展現出與人類相當的專業水平,且執行效率更勝一籌。

2. 美國領跑頂尖模型研發,但中國與之差距逐漸縮小

2024年,美國產出40個重要AI模型,遠超中國的15個和歐洲的3個。
然而,中國模型在效能上的差距正加速縮小:MMLU等基準測試中,中美AI差異從兩位數縮小至近乎持平。
同時,中國在AI學術論文和專利申請量上持續領跑,中東、拉美和東南亞地區也湧現出具有競爭力的模型。

3. AI正變得高效且普惠,推理成本暴降280倍

隨著小模型效能提升,達到GPT-3.5水平的推理成本在兩年間下降280倍,硬體成本以每年30%的速度遞減,能效年提升率達40%。
更令人振奮的是,開源模型效能突飛猛進,部分基準測試中與閉源模型的差距從8%縮至1.7%。
· 大模型使用成本持續走低,年降幅最高900倍
在MMLU基準測試中達到GPT-3.5水平(MMLU準確率64.8%)的AI模型呼叫成本,已從2022年11月的20美元/每百萬token,驟降至2024年10月的0.07美元/每百萬token(谷歌DeepMind的Gemini-1.5-Flash-8B模型),18個月內AI成本下降280倍。
視具體任務需求,LLM推理服務價格的年降幅可達9-900倍不等。
·小模型效能顯著提升,引數暴減142倍
2022年,在大規模多工語言理解(MMLU)基準測試中,得分超60%的最小模型是 PaLM,引數量為5400億。
到了2024年,微軟Phi-3-mini僅用38億引數,就取得了同樣的實力。
這代表,兩年多的時間裡模型引數減少了142倍。

4. 科技巨頭稱霸AI前沿,但競爭白熱化

2024年,近90%的重要模型源自企業,學術界則保持基礎研究優勢。
模型規模呈指數增長:訓練算力每5個月翻番,資料集每8個月擴容一倍。
值得注意的是,頭部模型效能差距顯著縮小,榜首與第十名得分差已從11.9%降至5.4%。

5. AI邏輯短板,推理能力仍是瓶頸

採用符號推理方法的AI系統,能較好解決IMO問題(雖未達人類頂尖水平),但LLM在MMMU等複雜推理任務中表現欠佳,尤其不擅長算術推導和規劃類強邏輯性任務。
這一侷限影響了其在醫療診斷等高風險場景的應用可靠性。

6. 大廠ALL in AI,投資與採用率創雙紀錄

科技大廠們,正全力押注AI。
2024年,美國私營AI投資達1091億美元,約為中國(93億)的12倍、英國(45億)的24倍。
生成式AI勢頭尤猛,全球私募投資達339億美元(同比增18.7%)。
與此同時,企業AI採用率從55%升至78%。研究證實,AI不僅能提升生產力,多數情況下還可縮小勞動力技能差距。
更引人注目的是,將生成式AI應用於至少一項業務職能的企業數量激增——從2023年的33%躍升至去年的71%,增幅超一倍。

7. AI榮膺科學界最高榮譽,摘諾獎桂冠

2024年,兩項諾貝爾獎分別授予深度學習理論基礎(物理學)和蛋白質摺疊預測(化學)研究,圖靈獎則花落強化學習領域。

8. AI教育普及加速,但資源差距仍存

全球2/3國家已或計劃開展K-12計算機科學教育,但非洲地區受限於電力等基礎設施,推進緩慢。
美國81%的計算機教師認為AI應納入基礎課程,但僅47%具備相應教學能力。

9. AI正深度融入日常生活

從醫療到交通,AI正快速從實驗室走向現實。
1995年,FDA批准了第一款AI賦能的醫療器械。
截至2024年8月,FDA已批准950款AI醫療裝置——較2015年的6款和2023年的221款,增長迅猛。
而在自動駕駛領域,汽車已脫離實驗階段:美國頭部運營商Waymo每週提供超15萬次無人駕駛服務。

10. 全球AI樂觀情緒上升,但地區差異顯著

中國(83%)、印尼(80%)和泰國(77%)民眾對AI持積極態度,而加拿大(40%)、美國(39%)等發達國家則相對保守。
值得關注的是,德國(+10%)、法國(+10%)等原懷疑論國家態度明顯轉變。

11. 負責任AI生態發展不均

雖然AI安全事件激增,但主流模型開發商仍缺乏標準化評估體系。
HELM Safety、AIR-Bench和FACTS等新基準為事實性與安全性評估提供工具。
企業普遍存在「認知與行動脫節」,而各國政府加速協作:2024年,經合組織、歐盟等國際機構相繼釋出聚焦透明度、可信度的治理框架。
· 問題AI數量躍升
根據權威AI危害追蹤資料庫「AI事件庫」(AI Incidents Database)統計,2024年全球AI相關危害事件激增至233起,創下歷史新高,較2023年暴漲56.4%。
其中既包括深度偽造私密影像案件,也涉及聊天機器人疑似導致青少年自殺等惡性事件。
儘管該統計未能涵蓋全部案例,但已清晰揭示AI技術濫用正在呈現驚人增長態勢。

12. 全球監管力度持續加強

2024年美國聯邦機構頒佈59項AI法規,涉及部門數量翻倍。
75個國家立法機構提及AI頻次同比增長21.3%,較2016年增長九倍。
投資方面:加拿大承諾24億美元,中國設立475億美元半導體基金,法國投入1090億歐元,印度撥款12.5億美元,沙特啟動千億美元級的「超越計劃」。
詳細亮點解讀
下面,我們將摘出報告中的亮點內容,提供更詳細的解讀。

 中美差距僅剩0.3%
翻開502頁的報告,最吸睛的部分,莫過於中美AI差異這部分了。
報告中強調,雖然2024年,美國在頂尖AI模型的研發上依然領先,但中美模型之間的效能差距,正在迅速縮小!
為了衡量AI領域過去一年演變的全球格局,HAI特意用AI指數,列出了具有代表性的模型所屬國家,美國依然居首。
資料顯示,在2024年,美國機構以擁有40個知名模型領先,遠遠超過中國的15個和歐洲的3個。
總體來說,模型釋出總量已經下降,可能是多個因素共同導致的,比如訓練規模日益龐大、AI技術日益複雜,開發新模型方法的難度也在增加。

AI模型已成為算力巨獸
· 引數趨勢
簡單的說,引數就是AI模型透過訓練學到的一些數字,這些數字決定了模型如何理解輸入和怎樣輸出。
AI的引數越多需要的訓練資料也越多,但同時效能也更厲害。
從2010年代初開始,模型的引數量就蹭蹭往上漲,這背後是因為模型設計得越來越複雜、資料更容易獲取、硬體算力也更強了。
更重要的是,大模型確實效果好。
下圖用了對數刻度,方便大家看清楚AI模型引數和算力近年來的爆炸式增長。
隨著模型引數數量的增加,訓練所需的資料量也在暴漲。
2017年釋出的Transformer模型,掀起了大型語言模型的熱潮,當時它用了大約20億個token來訓練。
到了2020年,GPT-3 175B模型的訓練資料已經飆到了約3740億個token。
而Meta在2024年夏天釋出的模型Llama 3.3,更是用了大約15萬億個token來訓練。
根據Epoch AI的資料,大型語言模型的訓練資料集規模大約每八個月翻一倍。
訓練資料集越來越大,導致的訓練時間也變得越來越長。
像Llama 3.1-405B這樣的模型,訓練大概需要90天,這在如今已經算是「正常」的了。
谷歌在2023年底釋出的Gemini 1.0 Ultra,訓練時間大約是100天。
相比之下,2012年的AlexNet就顯得快多了,訓練只花了五六天,而且AlexNet當時用的硬體還遠沒有現在的先進。
· 算力趨勢
「算力」指的是訓練和執行AI模型所需的計算資源。
最近,知名AI模型的算力消耗呈指數級增長。據Epoch AI估計,知名AI模型的訓練算力大約每五個月翻一番。
這種趨勢在過去五年尤為明顯。
去年12月,DeepSeek V3一經推出就引發了廣泛關注,主要就是因為它在效能上極其出色,但用的計算資源卻比許多頂尖大型語言模型少得多。
下圖1.3.17比較了中國和美國知名AI模型的訓練算力,揭示了一個重要趨勢:美國的頂級AI模型通常比中國模型需要多得多的計算資源。
· 推理成本
推理成本,指的是對一個已訓練模型進行查詢所需的費用,通常以「每百萬tokens的美元價格」來衡量。
這份報告中AI token的價格資料,來源於Artificial Analysis和Epoch AI的API定價專有資料庫,而價格是根據輸入與輸出token的價格按3:1的權重平均計算得出的。
可以看出,單位效能的AI成本正在顯著下降。
而Epoch AI估計,根據不同任務型別,大型語言模型的推理成本每年下降幅度可達9倍至900倍不等。
雖然如此,想要獲得來自OpenAI、Meta和Anthropic的模型,仍需支付不小的溢價。
· 訓練成本
雖然很少有AI公司披露具體的訓練成本,但這個數字普遍已達到數百位美元。
OpenAI CEO奧特曼曾表示,訓練GPT-4的訓練成本超過了1億美元。
Anthropic的CEO Dario Amodei指出,目前正在訓練的模型,成本約為10億美元。
DeepSeek-V3的600萬美元,則打破了新低。
圖1.3.24展示了基於雲計算租賃價格的部分AI模型的訓練成本估算。
圖1.3.25展示了AI指數所估算的所有AI模型的訓練成本。
在2024年,Epoch能估算的少數模型之一,就是Llama 3.1-405B,訓練成本約為1.7億美元。
另外,AI模型的訓練成本與其計算需求之間存在直接的關聯。如圖1.3.26所示,計算需求更大的模型訓練成本顯著更高。
參考資料:YZNH
https://www.nature.com/articles/d41586-025-01033-y
https://hai.stanford.edu/ai-index/2025-ai-index-report
https://hai.stanford.edu/news/ai-index-2025-state-of-ai-in-10-charts

何愷明在MIT授課的課件PPT下載
在CVer公眾號後臺回覆:何愷明,即可下載本課程的所有566頁課件PPT!趕緊學起來!

CVPR 2025 論文和程式碼下載

在CVer公眾號後臺回覆:CVPR2025,即可下載CVPR 2025論文和程式碼開源的論文合集

ECCV 2024 論文和程式碼下載

在CVer公眾號後臺回覆:ECCV2024,即可下載ECCV 2024論文和程式碼開源的論文合集
CV垂直方向和論文投稿交流群成立
掃描下方二維碼,或者新增微訊號:CVer2233,即可新增CVer小助手微信,便可申請加入CVer-垂直方向和論文投稿微信交流群。另外其他垂直方向已涵蓋:目標檢測、影像分割、目標跟蹤、人臉檢測&識別、OCR、姿態估計、超解析度、SLAM、醫療影像、Re-ID、GAN、NAS、深度估計、自動駕駛、強化學習、車道線檢測、模型剪枝&壓縮、去噪、去霧、去雨、風格遷移、遙感影像、行為識別、影片理解、影像融合、影像檢索、論文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要備註:研究方向+地點+學校/公司+暱稱(如Mamba、多模態學習或者論文投稿+上海+上交+卡卡),根據格式備註,可更快被透過且邀請進群

▲掃碼或加微訊號: CVer2233,進交流群
CVer計算機視覺(知識星球)來了!想要了解最新最快最好的CV/DL/AI論文速遞、優質實戰專案、AI行業前沿、從入門到精通學習教程等資料,歡迎掃描下方二維碼,加入CVer計算機視覺(知識星球),已彙集上萬人!

掃碼加入星球學習
▲點選上方卡片,關注CVer公眾號
整理不易,請點贊和在看


相關文章