斯坦福456頁AI報告劃重點:中美AI競爭格局變了!

中美頂尖大模型的能力差距大幅縮小。
編譯 |  陳駿達程茜
編輯 |  Panken
智東西4月8日報道,今天,斯坦福大學以人為本AI研究院(HAI)釋出長達456頁的《AI指數報告2025》,全面介紹了中美AI競爭態勢、開源模型、模型技術性能、大模型投融資、AI for Science等領域的最新資料和進展,其中DeepSeek被提及45次
《AI指數報告2025》中寫道:“美國在頂尖AI模型產出上仍保持領先——但中國正快速縮小效能差距。”
報告以DeepSeek-V3為典型代表,論證了大模型推理、訓練成本的驟降;來自清華大學、北京智源研究院的數十篇科研成果被納入全球Top100;來自阿里、位元組、DeepSeek、騰訊、智譜等企業的15款模型被選為過去一年中的重要AI模型。
整體而言,中國大陸的AI研究論文在全球總髮表量中佔比23.2%,被引量佔全球總量的22.6%。不過,美國在研究成果在影響力上更勝一籌,且依舊是重要AI模型的主要來源地。2024年,美國機構開發了40個重要AI模型,遠超中國大陸的15個和歐洲的3個。過去十年美國開發的機器學習模型數量居全球之首。
算力作為驅動AI發展的重要因素,也在迅速變化。以16位浮點運算為基準,2008-2024年間機器學習硬體效能年均增長約43%(每1.9年翻番),固定效能水平的硬體成本正以每年30%的幅度下降。
AI正對經濟產生深刻影響。在麥肯錫的調研中,已有至多49%的企業稱AI為企業實現了降本,其中,中國大陸企業在AI採用率上提升迅速,已達75%,與北美地區差距縮小到7%。
2024年,全球AI投資達到2523億美元,其中私人投資增長44.5%,生成式AI領域的投資達到339億美元,2024年美國AI投資額達到1091億美元,幾乎是中國大陸投資額93億美元(摺合人民幣約682億元)的12倍。
我們還首次見證了AI研究獲得2項諾貝爾獎,並在生物醫藥領域展現出巨大的應用潛力。
01.
產業界主導大模型開發,中國AI專利量全球領先
全球AI領域呈現出多維度的快速發展態勢。AI已成為計算機科學中的主要研究領域,產業界在AI大模型開發中扮演著關鍵角色,學界則在高被引論文上表現突出。過去1年,重要AI模型的數量雖有所減少,但產業界開發的模型佔比顯著上升。
硬體成本的持續下降為AI的發展提供了有力的支援。同時,AI學術會議參會人數的增長也反映出學界、業界對AI研究的熱情高漲,整個行業正處於蓬勃發展的關鍵時期。
1、中美AI科研影響力持續提升
總體來看,AI研究論文的總量持續增長,並已主導計算機科學領域。2013-2023年間,AI研究論文的數量從10.2萬篇增至24.2萬篇,在計算機科學論文中的佔比從21.6%升至41.8%。學術界貢獻了更多的高被引研究。
從地區來看,中國大陸AI論文發表總量領先,2023年,中國大陸機構的AI論文在全球總髮表量中佔比23.2%,被引量佔22.6%。
美國則發表了更多高影響力研究。2021年-2023年,美國分別貢獻了AI領域Top100高被引論文中的64篇、59篇與50篇,中國大陸分別貢獻了33篇、34篇與34篇。
按機構來看,在2021年-2023年的Top100高被引論文中,谷歌、清華大學、卡耐基梅隆大學、微軟、北京智源人工智慧研究院、香港科技大學、上海人工智慧實驗室、中國科學院、Meta、英偉達的表現較為搶眼。
2、重要AI模型(Notable AI models)由產業界主導
AI指數資料提供商Epoch AI根據是否為最新技術進步、是否具有歷史意義或引用率等標準,定義了一個囊括900餘個重要AI模型的資料庫。
過去數年來,重要AI模型的引數規模、資料集大小、訓練時長等資料都呈現增長態勢。產業界正持續加大AI投入,並主導了重要模型的開發工作,2024年,由產業界開發的重要模型佔比達90%(2023年為60%)。
重要AI大模型的數量出現了明顯減少,由2023年的105個減少至2024年的61個。同時,有越來越多的大模型選擇了API、託管獲取許可權等非開源方式進行釋出。
美國仍是重要AI模型的主要來源地。2024年,美國機構開發了40個重要AI模型,遠超中國大陸的15個和歐洲的3個。過去十年美國開發的機器學習模型數量居全球之首。
2024年,幾乎所有重要AI模型都來自產業界,其中谷歌和OpenAI憑藉7款重要模型位列榜首,阿里憑藉6款模型位居第三。位元組、DeepSeek、騰訊、智譜AI分別憑藉2款模型上榜。
回顧2014年-2024年的資料,谷歌貢獻了最多的重要AI模型,其次是Meta、微軟、OpenAI等企業。多所美國計算機強校登上這一榜單,清華大學和阿里分別貢獻了22個與14個重要AI模型。
美國頂級AI模型的算力需求普遍遠超中國大陸模型。根據Epoch AI資料,自2021年底以來,中國大陸訓練算力排名前十的語言模型年均增長約3倍,顯著低於2018年以來全球其他地區年均5倍的增速。
3、開源AI專案數量陡增
自2011年以來,程式碼託管平臺GitHub上的開源AI專案數量持續增長,從2011年的1549個激增至2024年的約430萬個。特別值得注意的是,僅過去一年內,GitHub AI專案總量就實現了40.3%的陡增。
截至2024年,美國貢獻GitHub中23.4%的AI專案,佔據最大份額;印度以19.9%的佔比位居第二;歐洲緊隨其後,貢獻了19.5%的專案。美國開發者和中國大陸開發者在GitHub開源AI專案中的佔比都出現不同比例的下降。
4、硬體成本每年下降30%
報告強調,硬體進步是推動人工智慧發展的核心驅動力。儘管模型規模擴大和海量資料訓練帶來了顯著效能提升,但這些突破本質上都依賴於硬體技術的革新——尤其是更強大、更高效的圖形處理器(GPU)的發展。
根據Epoch AI測算,以16位浮點運算為基準,2008-2024年間機器學習硬體效能年均增長約43%(每1.9年翻番)。這一進步主要源於電晶體數量持續增加、半導體制造工藝革新和專用AI計算硬體的演進。
固定效能水平的硬體成本正以每年30%的幅度下降。以2022年3月釋出的H100為例,其每美元可實現220億次浮點運算,價效比較2020年6月釋出的A100提升1.7倍,較2016年4月的P100更是提升16.9倍。
5、中國大陸AI專利授權量領先
過去10餘年,AI專利申請量激增。2010-2023年AI專利從3833件增至122511件,年增幅29.6%。中國大陸以69.7%的授權量領先,韓國和盧森堡人均專利產出最高。
6、AI學術會議參會人數增長
自2014年以來,全球主要AI學術會議的參會人數增加了6萬多人,AI研究熱情不斷增長。資料顯示,NeurIPS仍然是參會人數最多的AI學術會議,2024年吸引了近2萬名參與者。在主要的AI學術會議中,NeurIPS、CVPR、ICML、ICRA、ICLR、IROS和AAAI在過去一年中參會人數都有所增加。
02.
開源模型迎頭趕上,
中美大模型質量差距縮小到0.3%
2024年,AI模型的效能實現諸多突破。AI在多項基準測試中表現優異,超越人類或與人類差距迅速縮小,並攻克了2023年新提出的多項基準測試。
開源模型在2024年迎頭趕上,頂尖開源模型與頂尖閉源模型的差距大幅縮小,前沿AI模型的效能分佈趨於收斂,小模型的能力也在不斷增強。此外,AI Agent等新技術展現出初步潛力。
1、2024年AI領域重要釋出
以下是報告中列舉的2024年最具代表性的模型、資料集和功能釋出,由業內專家組成的AI指數指導委員會選出。來自阿里的Qwen2、Qwen2.5和來自DeepSeek的DeepSeek-V3上榜,Cohere、北京智源人工智慧研究院等釋出的提示詞資料集也被認為具有重要意義。
2、AI在多項基準測試中領先人類
截至2024年,人類能力超過AI的任務型別已經非常少,即使在這些任務上,AI與人類之間的表現差距也在迅速縮小。
例如,在MATH(競賽級別數學的基準測試)上,最先進的AI系統現在已經領先人類表現7.9%,而2024年時這一差距僅為0.3%。同樣,在MMMU(複雜、多學科、專家級問題的基準測試)上,2024年表現最佳的模型o1得分為78.2%,僅比人類基準的82.6%低4.4%。
2023年,AI研究人員引入了幾項具有挑戰性的新基準測試,包括MMMU、GPQA和SWE-bench,旨在測試日益AI模型的極限。
到2024年,AI模型在這些基準測試中的表現取得了顯著進步,分別在MMMU和GPQA上實現了18.8%和48.9%的提升。在SWE-bench上,AI模型在2023年只能解決4.4%的程式設計問題,而這一比例在2024年躍升至71.7%。
4、開放權重模型迎頭趕上
去年的AI指數報告揭示,領先的開放權重模型遠遠落後於其封閉權重的同類產品。到2024年,這一差距幾乎消失。
2024年1月初,領先的封閉權重模型在聊天機器人競技場排行榜上比頂級開放權重模型高出8.0%。到2025年2月,這一差距縮小至1.7%。
5、中美模型差距縮小
2023年,領先的美國模型顯著優於其中國大陸同類產品——這種優勢已不復存在。2023年底,在MMLU、MMMU、MATH和HumanEval等基準測試中,效能差距分別為17.5%、13.5%、24.3%和31.6%。到2024年底,這些差距大幅縮小至0.3%、8.1%、1.6%和3.7%。在大模型競技場上,中美大模型的差距縮小至30分以內。
6、AI模型效能在前沿領域趨於收斂
根據去年的AI指數報告,聊天機器人競技場排行榜上前十名模型與排名第一的模型之間的Elo評分差距為11.9%。到2025年初,這一差距縮小至5.4%。同樣,排名前兩名的模型之間的差距從2023年的4.9%縮小到2024年的0.7%。人工智慧領域的競爭日益激烈,越來越多的開發者提供了高質量的模型。
7、小模型能力日益增長
2022年,在MMLU上得分超過60%的最小AI模型是PaLM,擁有5400億個引數。到2024年,微軟的Phi-3-mini僅擁有38億個引數,就達到了相同的閾值,後者的引數量僅為前者的0.7%。
8、AI Agent展現出初步潛力
2024年推出的RE-Bench可用於評估AI Agent在複雜任務上的能力,測試標準較為嚴格。
在短時間(2小時)內,頂級AI系統的得分是人類專家的4倍,但隨著時間的增加,人類的表現超過了AI。
例如,在32小時的時間範疇上,人類的得分是AI的2倍。AI Agent已經在某些特定任務(如編寫Triton核心)上與人類專家相匹配,同時能夠更快地交付結果且成本更低。
03.
全球投資熱蔓延,
中國大陸工業機器人部署全球第一
2024年,AI領域的投資和應用迎來諸多變化,但存在明顯區域差異。全球企業AI投資創下歷史新高,美國投資規模一騎絕塵,北美地區AI採用率領先全球,但中國的採用鋁也迅速提升。
AI正給企業帶來一定的經濟效益,儘管大多數受訪者的成本節省不到10%,但這一趨勢仍具有重要意義。
1、全球AI投資創歷史新高
2024年企業AI投資達到2523億美元,其中私人投資增長44.5%,這是自2021年以來首次同比增長。
2024年生成式AI領域的投資達到339億美元,比2023年增長18.7%,是2022年水平的8.5倍以上。該領域如今佔所有AI相關私人投資的20%以上。
2、美國在全球AI投資中的領先優勢擴大
2024年美國AI投資額達到1091億美元,幾乎是中國大陸投資額93億美元(摺合人民幣約682億元)的12倍。在生成式AI領域,美國的投資超過了中國大陸、歐盟和英國的254億美元(摺合人民幣約1864億元)總和。
3、AI採用率水平前所未有
2024年,該報告提到,其關於使用AI的調查受訪者比例從2023年的55%躍升至78%。同樣,受訪者在至少一項業務職能中使用生成式AI的數量翻了一倍多,從2023年的33%升至去年的71%。
4、AI開始降本增效
49%的受訪者稱使用AI進行服務運營為其節省了成本,其次是43%受訪者將AI用於供應鏈管理和41%受訪者用於軟體工程,此外大多數受訪者的成本節省不到10%。
5、中國AI採用率迎頭趕上
按地區來看,AI的採用率出現明顯變化,中國迎頭趕上。儘管北美的組織和企業在AI採用率方面仍保持領先地位,但中國具有最顯著的年度增長率,組織使用AI的比例增加了27%。歐洲緊隨其後,增加了23%。
6、中國大陸在工業機器人領域的主導地位延續
中國大陸安裝工業機器人的數量超過世界其他國家的總和。2023年中國大陸安裝了276300臺工業機器人,是日本的6倍、美國的7.3倍。自2013年超過日本以來,中國大陸在全球安裝量中的佔比已從20.8%上升到51.1%。
04.
更精準蛋白質測序模型亮相,
AI臨床表現優於醫生
2024年,AI在生物醫學領域取得了重大突破,推動了科學研究和臨床應用的快速發展。模型的規模、準確性不斷提升,應用領域從實驗室擴充套件到臨床。AI研究更是在2024年斬獲兩項諾貝爾獎,獲得學界認可。

1、更大、更好的蛋白質測序模型出現

2024年出現了包括SM3、AlphaFold 3等在內的幾種大規模、高效能蛋白質測序模型。隨著時間推移,這些模型規模顯著增大,蛋白質預測準確率不斷提升。

其中ESM3集成了多模態輸入(序列、結構和互動資料),再加上其引數規模更大,提高了模型預測的代表性和準確性。隨著ESM系列規模的擴大,蛋白質預測效能也得到了提高,2o04年釋出的較新的模型ESM C在結構預測關鍵評估(CASP15)挑戰中對蛋白質結構的預測準確性更高。

2、AI在科學進步中的作用不斷擴大

2022年、2023年是AI驅動科技進步突破的早期階段,但2024年AI應用在學術研究中獲得了顯著的關注,包括為生物任務訓練Agent的Aviary和顯著增強野火預測的FireSat。

3、AI臨床應用增加

MedQA基準測試中,OpenAI o1得分達到96.0%的最高水平,比2023年的最高分數高出5.8個百分點,相比2022年底成績提高了28.4個百分點。MedQA是評估臨床知識的關鍵基準。

4、AI在關鍵臨床任務上的表現優於醫生

一項新研究發現,GPT-4本身在診斷複雜臨床病例方面的表現優於醫生。其他近期研究表明,AI在癌症檢測和識別高死亡風險患者方面超越了醫生。

5、合成數據在醫學領域顯示出巨大前景

2024年釋出的研究表明,AI生成的合成數據可以幫助模型更好地識別健康的社會決定因素,增強隱私保護的臨床風險預測,並促進新藥物化合物的發現。

6、基礎模型進入醫學領域

2024年,一波大規模醫學基礎模型釋出,從Med-Gemini等通用多模態模型到用於超聲心臟病學的 EchoCLIP和用於放射學的ChexAgent等專用模型。

7、AI研究獲得兩項諾貝爾獎

谷歌DeepMind的Demis Hassabis和John Jumper因其使用AlphaFold在蛋白質摺疊方面的開創性工作而獲得諾貝爾化學獎。約翰·霍普菲爾德和傑弗裡·辛頓因其對神經網路的奠基性貢獻而獲得諾貝爾物理學獎。

05.
30%國家將計算機科學教育列為必修課

2024年,全球約有2/3的國家提供或計劃提供計算機科學教育,30%的國家將計算機科學教育列為小學和/或中學的必修課程,其中歐洲是此類國家最多的地區。

2023年美國獲得AI碩士學位的學生數量急劇增加,畢業生數量翻番。
2023年AI專業畢業生人數最多的美國高等院校中,卡內基梅隆大學數量最多。
06.
結語:中國大陸民眾整體對AI持樂觀態度
AI正以前所未有的速度滲透到千行百業之中,調查顯示,全球約2/3的人認為,AI驅動的產品和服務將在未來三到五年內顯著改變日常生活。全球60%的受訪者認為AI將在五年內改變工作方式,但僅36%擔心其崗位會被取代。
絕大多數中國大陸民眾(83%)認為,AI技術利大於弊,而在加拿大(40%)、美國(39%)和荷蘭(36%),持此觀點者仍佔少數,但比例有所上升。
(本文系網易新聞•網易號特色內容激勵計劃簽約賬號【智東西】原創內容,未經賬號授權,禁止隨意轉載。)


相關文章