

小紀有話說:
-
阿里、位元組、騰訊、智譜和 DeepSeek 組成“國產五英傑”,躋身全球頭部模型開發機構。 -
清華大學 2023 年發表的高被引論文數量並列全球第一,與 Google 同為 8 篇。 -
中國 2023 年 AI 授權專利佔全球總量的 69.7%,在專利數量和論文產出方面保持全球領先。 -
2024 年中國企業 AI 使用率同比增長 27 個百分點,為全球增長最快地區,應用水平快速提升。 -
中國繼續引領全球工業機器人部署,2023 年新增安裝量達 27.6 萬臺,佔全球總量超一半。 -
公眾對 AI 態度方面,中國 83% 的受訪者認為“利大於弊”,為全球最高比例之一。
本文經授權轉自賽博禪心

AI 演進趨勢
2024 年,AI 模型在多個能力測試中的表現提升明顯:模型規模持續擴大,訓練資源需求上升,但推理成本顯著下降。企業成為模型開發的主要力量,中國在論文、專利和模型釋出方面活躍度持續提高。
要點如下
中國模型表現
到 2024 年底,中國模型在 MMLU、HumanEval 等核心測試中的表現增長迅速,例如 MMLU 差距為 0.3 個百分點,HumanEval 為 3.7 個百分點。

中國模型表現
「國產五英傑」位列主要模型開發機構
2024 年,阿里巴巴釋出 6 個知名(notable) 模型,全球排名第三。字節跳動、DeepSeek、騰訊、智譜各發布 2 個知名模型:「國產五英傑」,集體進入世界第一陣營。

圖1.3.6:各機構貢獻的知名模型數量
清華大學高被引論文數量全球領先
清華大學 2023 年釋出 8 篇進入全球前 100 高被引論文,與 Google 並列第一。

圖1.1.13:清華的學術產出卓著
多項成績大幅提升
AI 在 SWE-bench 中,截止到 2023 年底,最好成績是 4.4%,而最新的成績已經達到了 71.7%。GPQA 和 MMMU 兩項新測試的成績也分別提升了 48.9 和 18.8 個百分點。

目前的最好成績,由 OpenAI o3 保持
企業主導模型開發
2024 年,90% 以上的知名模型由企業釋出。MIT 和 UC Berkeley 等高校也釋出了 2 個 notable 模型。

圖1.3.5:知名模型背後的貢獻者
模型規模和訓練時間增加
訓練 GPT-4o 級別的模型,需約 38B petaFLOP,週期在 90~100 天之間。

圖1.3.16:不同模型的引數量
小模型取得較高效能
Phi-3-mini 模型引數量為 3.8B,在 MMLU 測試中得分超過 60%,接近 GPT-3.5。

圖2.1.38:達到 60% MMLU,所需的模型尺寸在不斷縮小
推理成本下降
GPT-3.5 水平模型推理成本從 2022 年的 20 美金/百萬 tokens 降至 2024 年的 0.07 美金,降幅超過 280 倍。

圖1.3.22:模型成本下降顯著
中國論文與專利數量位居全球前列
2023 年,中國 AI 論文佔全球 23.2%,引用佔 22.6%;AI 授權專利佔全球 69.7%。

圖1.1.6:AI 領域論文比例

圖1.1.7:AI 領域引用比例

圖1.2.3:AI 授權專利比例
可用資料或將趨緊
研究估計,高質量網路訓練資料可能在 2026~2032 年間消耗殆盡,行業正關注替代資料來源。

圖1.3.19:資料使用情況

AI 能力持續提升
2024 年,多項新模型在語言、數學、影片生成等能力上取得進展。領先模型之間的差距縮小,小模型表現提升明顯。AI 在推理能力方面仍存在挑戰。
要點如下
模型在多個新基準上取得進步
在 2023 年引入的新測試中,AI 表現在一年內快速提升:MMMU 得分提升 18.8 個百分點,GPQA 提升 48.9 個百分點,SWE-bench 提升 67.3 個百分點。
模型排名差距縮小
在 Chatbot Arena 排行榜上,排名前十的模型 Elo 得分差從 11.9% 降至 5.4%;第一名和第二名之間的差距從 4.9% 降至 0.7%。

圖2.1.39:DeepSeek 迎面趕上
引入“Test-Time Compute” 提升模型推理能力
在國際數學奧賽選拔題上,OpenAI 推出的 o1,作為推理模型得分達 74.4%,明顯高於 GPT-4o 的 9.3%。但 o1 模型在推理時比 GPT-4o 慢 30 倍,成本高 6 倍。

圖2.2.14:增加推理時間,提升模型效果
新測試標準持續推出
為應對現有測試趨於飽和,研究者推出了多個更難的新測試集,例如:
-
• Humanity’s Last Exam:最高分僅為 8.8% -
• FrontierMath:AI 正確率約為 2% -
• BigCodeBench:AI 得分為 35.5%,低於人類水平的 97%
文字生成影片技術顯著進步
2024 年釋出的多個模型在文字生成影片方面質量明顯提升,包括 OpenAI 的 Sora、Meta 的 Movie Gen、Google DeepMind 的 Veo 2 等。

圖2.3.9-10:SDV 和 Sora
小模型取得優異表現
2022 年,超過 60% MMLU 得分的最小模型是 PaLM(540B 引數);2024 年,Phi-3-mini(3.8B 引數)也達到了該水平。可理解為同表現下,引數量下降 142 倍。
推理能力仍有限
儘管“思維鏈”方法改善了模型表現,AI 仍難以穩定解決大型邏輯或規劃問題,尤其是在訓練範圍之外的任務上。
AI 代理在短期任務中表現優於人類
在兩小時預算內,AI 代理在 RE-Bench 測試中得分是人類的 4 倍。但在 32 小時任務中,人類得分是 AI 的兩倍。AI 在部分任務中效率更高,但仍有時間限制。

圖2.8.4:Agent 在短時任務中,表現超過人

AI 安全體系仍不完善
AI 應用規模持續擴大,但圍繞安全性、可信度、偏見與誤用的挑戰也在增加。行業在相關評估與治理上的行動仍有限,政府與研究界的介入力度逐步增強。
要點如下
RAI 的評估仍未普及
雖然 HELM Safety、AIR-Bench 等新測試被提出,但主要模型開發方仍缺乏統一的 RAI(Responsible AI)評估流程,實踐不一致。

圖3.2.6:各類模型,都有標準的效能評估方法

圖3.2.7:各類模型,在安全評估上,未有共識
AI 相關事故持續上升
2024 年,AI Incident Database 收錄的報告達 233 起,比 2023 年增長 56.4%,為歷史新高。
企業識別風險,但應對不足
根據 McKinsey 調查,大部分企業管理者意識到 RAI 風險,但採取行動的不多。管理者對不準確性、法規合規和網路安全的關注度分別為 64%、63%、60%。
政府合作加強
2024 年,多國機構(OECD、歐盟、聯合國、非盟等)釋出 RAI 治理框架,內容涉及透明性、可解釋性和信任等核心原則。
網路訓練資料受限比例上升
許多網站設定限制,減少 AI 模型對網頁內容的抓取。2024 年,C4 資料集中受限 token 比例從前一年的 5~7% 上升至 20~33%。
C4:Colossal Clean Crawled Corpus
這是一個大規模的文字資料集,廣泛應用於大型語言模型(LLM)的預訓練。該資料集來源於 Common Crawl 專案收集的海量公開網頁抓取資料。為了提升資料質量以適應模型訓練的需求,原始的 Common Crawl 資料經過了大量且細緻的清洗與過濾處理,旨在移除例如網站模板程式碼、導航元素、重複內容以及其他非自然語言文字。

圖3.6.2:按 robots.txt,看 C4 資料限制

圖3.6.3:按服務條款,看 C4 資料限制
模型透明度有所提升
Foundation Model Transparency Index 顯示,主要模型開發者的平均透明度得分從 2023 年 10 月的 37% 上升至 2024 年 5 月的 58%。
針對事實準確性的測試更新
相比 HaluEval、TruthfulQA 等舊方法,2024 年新推出的 FACTS、SimpleQA 和更新版 Hughes Hallucination Evaluation Model 被更多研究者採納。
AI 選舉虛假資訊引發關注
2024 年,十餘個國家在選舉期間出現 AI 相關虛假內容,但實際影響仍不明確,部分預期效果未實現。
模型偏見仍未解決
GPT-4、Claude 3 Sonnet 等模型在性別與種族上仍表現出隱性偏見。例如,女性更常被關聯到人文學科,男性更常與領導角色相關聯。
學術界對 RAI 研究熱度上升
2024 年,RAI 相關論文在主流 AI 會議中的錄用量為 1278 篇,比 2023 年增長 28.8%。自 2019 年以來,該方向保持持續增長。

AI 投資加速
2024 年,AI 在商業領域的應用加快,全球投資總額創歷史新高。生成式 AI 領域尤其受到資本青睞。各行業開始感受到初步的財務影響,但普遍仍處於早期階段。
要點如下
全球 AI 投資創新高
2024 年,全球 AI 投資達到 2523 億美元,同比增長 26%。其中,私人投資直接投資增長 44.5%,併購增長 12.1%。
這裡的私人投資,包括個人、企業、私募、VC/PE、公司戰略投資

圖4.3.1:按服務條款,看 C4 資料限制
生成式 AI 投資持續增長
2024 年,在生成式 AI 領域,美國的私人投資在達 339 億美元,同比增長 18.7%,比 2022 年增長超過 8.5 倍,佔全部 AI 投資的 20% 以上。

圖4.3.3:按服務條款,看 C4 資料限制
各國 AI 相關投資
2024年,在整個 AI 投資領域,美國的私人投資為 1091 億美元,是中國(93 億美元)的近 12 倍,是英國(45 億美元)的 24 倍。

圖4.3.8:2024 年,各國 AI 有關的投資

圖4.3.10:2013年至今,各國 AI 有關的投資
企業使用 AI 的比例持續上升
2024 年,78% 的企業報告正在使用 AI,比上一年(55%)顯著增長。採用生成式 AI 的企業佔比也從 33% 提升到 71%。

圖4.4.4:2023 年vs 2024 年,AI 的企業滲透
財務回報仍處於早期階段
在已有使用的企業中,49% 在服務運營中報告了成本下降,但多數降幅低於 10%。在銷售、供應鏈等環節中,也有 50~70% 的企業報告了營收增長,主要集中在 5% 以下。
區域差異變化顯著
中國大陸和港澳臺地區的企業 AI 使用率增長了 27 個百分點,增長幅度為全球最高。歐洲增長 23 個百分點。
中國繼續引領工業機器人部署
2023 年,中國安裝了 27.6 萬臺工業機器人,是日本的 6 倍、美國的 7.3 倍,佔全球總量的 51.1%。
協作型機器人使用增加
2023 年,協作型機器人佔新裝工業機器人的 10.5%,2017 年該比例為 2.8%。服務型機器人在醫療以外的應用也呈現增長。
AI 使用推動能源結構調整
多家科技公司與核電廠達成合作協議,支援 AI 所需的高能耗執行。包括微軟重啟美國 Three Mile Island 核反應堆,Google 與 Amazon 也已簽署相關協議。
AI 被證明可提升生產力、縮小技能差距
多項研究顯示,AI 應用可帶來整體生產率提升,尤其有助於低技能崗位員工提高績效,與高技能員工之間的差距有所縮小。

AI 在科研領域發力
AI 在生物醫藥、臨床知識、基礎科學等領域的應用不斷擴大。多個新模型釋出,研究效率提高。AI 在特定任務中已具備超越人類的能力,但模型驗證、臨床整合仍是挑戰。
要點如下
蛋白質結構預測模型持續升級
2024 年釋出了多款大規模蛋白質序列預測模型,包括 ESM3 和 AlphaFold 3,模型規模增加帶來預測精度的進一步提升。
AI 在科研中的作用進一步增強
新工具如 Aviary(用於訓練生物任務的 LLM agent)和 FireSat(用於預測森林火災)在 2024 年得到應用,展示出 AI 在科研支援上的多樣化方向。
醫學大模型臨床知識水平提升
OpenAI 的 o1 模型在 MedQA 基準測試中得分達 96%,比 2023 年領先模型提高 5.8 個百分點,自 2022 年以來總提升達 28.4 個百分點。
部分任務中 AI 表現優於醫生
研究發現,GPT-4 在複雜病例診斷中表現優於醫生團隊。其他研究也表明 AI 在癌症檢測、高風險患者識別等任務中具備較高準確性。
AI 輔助的 FDA 批准裝置數量增長
截至 2023 年,FDA 批准的 AI 醫療裝置總數達 223 個。相比 2015 年(僅 6 個),增長顯著。

圖5.4.10:FDA 批准的 AI 醫療裝置數量顯著提升
合成數據在醫療研究中展現潛力
2024 年的研究表明,AI 生成的合成醫療資料可在保障隱私的同時,用於改進健康風險預測和新藥發現。
醫療倫理研究熱度上升
關於醫療 AI 倫理的論文數量自 2020 年以來增長近四倍,從 288 篇增至 1031 篇,反映該議題在學術界受到重視。
醫療領域出現多種基礎模型
2024 年釋出了多種專門面向醫學場景的大模型,包括:
-
• Med-Gemini(通用多模態) -
• EchoCLIP(超聲心動圖) -
• VisionFM(眼科) -
• CheXagent(放射影像)
公共蛋白質資料庫持續擴充
自 2021 年以來,UniProt 增長 31%、PDB 增長 23%、AlphaFold 資料庫增長 585%,為蛋白質科學研究提供基礎支撐。
AI 研究獲得諾貝爾獎認可
2024 年,兩項 AI 相關研究獲諾貝爾獎:
-
• 化學獎授予 AlphaFold 團隊,用於蛋白質摺疊預測 -
• 物理獎授予神經網路研究者 John Hopfield 與 Geoffrey Hinton

AI 政策監管加強
全球多個國家在 2024 年加強了 AI 基礎設施投資和監管推進。AI 成為政策議程核心議題,國家層面機構與國際組織陸續釋出治理框架,AI 安全合作初具體系。
要點如下
美國州級立法活躍
2016 年,全美僅有 1 項州級 AI 法律
2023 年,增至 49 項;
2024 年翻倍至 131 項。
相比之下,聯邦級立法仍進展緩慢。
多國推進 AI 基礎設施投資
2024 年主要國家的投資承諾包括:
-
• 加拿大:24 億加元 -
• 中國:475 億美元(晶片專項基金) -
• 法國:1090 億歐元 -
• 印度:12.5 億美元 -
• 沙烏地阿拉伯:1000 億美元(Project Transcendence)
AI 相關立法提及數量持續上升
2024 年,75 個國家中,立法文字中提及 AI 的次數增長 21.3%,達 1889 次,是 2016 年的 9 倍。
全球 AI 安全機構體系初步建立
在 2023 年的英國 AI 安全峰會後,首批國家級 AI 安全研究所設立於美國與英國。2024 年的首爾 AI 峰會推動更多機構承諾加入,包括日本、法國、德國、義大利、新加坡、韓國、澳大利亞、加拿大及歐盟。
美國 AI 監管部門數量翻倍
2024 年,美國共有 42 個聯邦機構出臺 AI 相關規章制度,是 2023 年的兩倍。全年共釋出 59 項新規,比去年增長超過一倍。
Deepfake 治理擴充套件至更多州
截至 2024 年,美國有約 24 個州已經就 Deepfake 問題,展開治理工作。

AI 教育關注度提升
全球越來越多國家將 AI 和計算機科學納入基礎教育體系,美國高校相關畢業人數持續增長。但教育資源、師資能力、基礎設施等方面的區域差異仍然存在。
要點如下
美國高中計算機課程參與率略有上升
2023–2024 學年,美國高中階段學生參與計算機科學課程的比例有所提升。但在州別、種族、性別、收入等方面仍存在明顯差距。
多數 CS 教師支援教授 AI,但信心不足
美國 81% 的 K–12 計算機科學教師認為 AI 應納入基礎課程體系,但僅不到一半的教師表示自己具備教授 AI 的能力。

圖7.2.13:美國各地 K-12 有關 AI 的內容
全球三分之二國家已引入或計劃引入 K–12 CS 教育
相較於 2019 年,這一比例翻倍。其中,非洲與拉丁美洲國家的進展最為顯著。但一些非洲國家仍因基礎設施(如供電)問題導致教學覆蓋不足。
美國 AI 相關碩士畢業生數量大幅增長
2023 年,美國獲得 AI 相關碩士學位的畢業生人數相比 2022 年幾乎翻倍。雖然本科與博士層面的增長較緩,但整體呈持續上升趨勢。
美國仍是 ICT(資訊通訊技術)人才培養大國
在資訊與通訊技術畢業生數量上,美國仍居全球領先位置。西班牙、巴西、英國緊隨其後。土耳其在性別平衡方面表現最佳。

公眾態度分化明顯
2024 年,多數國家的公眾對 AI 帶來積極影響的期待上升,但對 AI 公司、資料隱私及演算法公平性的信任普遍偏低。各國之間的態度差異顯著。
要點如下
全球整體 AI 樂觀情緒上升
在 26 個國家中,有 18 個國家的受訪者更傾向於認為 AI 產品利大於弊。全球總體比例從 2022 年的 52% 上升至 55%。
AI 被認為將在日常生活中發揮重要作用
約三分之二的受訪者認為,未來 3~5 年內,AI 將對個人日常生活產生顯著影響。相比 2022 年增加了 6 個百分點。
對 AI 公司信任度下降
認為 AI 公司能妥善保護個人資料的受訪者比例,從 2023 年的 50% 降至 2024 年的 47%。對演算法是否公正的信心也有所下降。

圖8.1.1:人們對 AI 產品的態度變化
各國對 AI 的態度差異明顯
在中國(83%)、印尼(80%)、泰國(77%)等國,絕大多數人認為 AI 利大於弊;而在加拿大(40%)、美國(39%)、荷蘭(36%)等國家,這一比例顯著偏低。

圖8.1.2:不同地區的人,對 AI 的正面態度
美國公眾對自動駕駛信任度較低
2024 年,美國有 61% 的受訪者表示“擔心自動駕駛汽車”,僅 13% 表示信任該技術。雖然擔憂比例相比 2023 年略有下降,但仍高於 2021 年(54%)。
地方政府對 AI 監管支援度較高
2023 年,美國地方層級的政策制定者中,73.7% 支援加強 AI 監管,高於 2022 年的 55.7%。其中民主黨支援率為 79.2%,共和黨為 55.5%。
過去對 AI 持懷疑態度的國家也出現轉變
例如德國、法國、加拿大、英國、美國的 AI 樂觀比例相比 2022 年分別提升了 10%、10%、8%、8%、4%。
大多數人預期 AI 將改變工作方式,但對被取代的擔憂較少
全球範圍內,60% 的受訪者認為 AI 將在未來 5 年內改變自己的工作方式,但只有 36% 擔心 AI 會在這段時間內取代自己的崗位。
地方政策制定者對監管重點意見不一
在美國地方政府中,對隱私保護(80.4%)、再培訓政策(76.2%)和部署規範(72.5%)支援度較高。但對停用人臉識別(34.2%)、工資補貼(32.9%)、全民基本收入(24.6%)支援度較低。
AI 被認為能提升效率和娛樂性,但經濟與就業作用信心不足
55% 的人認為 AI 能“節省時間”,51% 認為它能“帶來更好的娛樂體驗”,但只有 36% 看好它能改善國家經濟,31% 認為它將改善就業市場。

圖8.1.9:人們對「AI 改善生活」的信心

圖8.1.10-11:人們對「AI 改善就業」的信心

