斯坦福最新AI報告：成本下降280倍，中國緊追美國

👆如果您希望可以時常見面，歡迎標星🌟收藏哦~

來源：內容綜合tomshardware.，謝謝。

根據斯坦福大學2025年人工智慧指數報告，在短短18個月內，高階人工智慧法學碩士（LLM）的訓練成本已從每百萬個tokens 20美元暴跌至每百萬個tokens 0.07美元。斯坦福大學的年度報告對全球人工智慧格局進行了全景式概述，並指出迫切需要制定更負責任的人工智慧護欄，以及美國和中國在新興人工智慧技術領域的競爭日趨激烈。

斯坦福大學以人為本人工智慧研究所 (HAI) 自 2017 年起每年釋出其年度人工智慧指數報告，其近期報告經常被世界各國政府引用。HAI 收集並整理了人工智慧各個方面的資料，研究了市場投資、該技術最常被應用的領域和方式，以及最缺乏的領域。今年的報告對 2024 年人工智慧的發展提供了深刻的見解，並預測了其未來的發展方向。

訓練成本越來越高，推理成本越來越低

僅在去年，人工智慧模型的使用成本就大幅下降，但與此同時，它們的訓練成本卻更高。HAI 的研究附帶圖表展示了這一明顯的矛盾：隨著各大公司對其旗艦模型的投資不斷增加，執行和查詢相同模型的成本卻大幅下降。

OpenAI、Meta 和Google都大幅增加了對其旗艦語言模型的投入。平均而言，每家公司訓練其最新旗艦 AI 模型的投入是前一代的 28 倍（Meta 的投入從 300 萬美元增至 1.7 億美元，增幅最大）。其他相對較新的公司，例如 Mistral 和 xAI，也投入了鉅額資金進入該領域——Grok-2 的訓練成本估計為 1.07 億美元。

訓練這些大模型（LLM）的成本似乎也不會很快下降。xAI 於 2 月份向公眾釋出的 Grok-3 據稱使用的訓練 GPU 是 Grok-2 的 10 倍。Grok-3 沒有官方價格標籤，但其完成成本可能高達 10 億美元甚至更多。

如果訓練計算機程式所需的這些數字看起來像天文數字，那是因為它們本來就如此。儘管這些價值數萬億美元的公司為下一代人工智慧投入了數千億美元，但達到 GPT-3.5 效能的成本卻大幅下降。從 2022 年 11 月到 2024 年 10 月，推理一個達到 GPT-3.5 級別效能（HAI 定義為 64.8% 的準確率）的模型的成本下降了 280 倍。

小型AI模型的硬體和運營成本下降是價格下降的主要原因。去年，企業AI硬體成本下降了30%，新硬體的能效也提高了40%。企業可能會繼續每年在旗艦模型的訓練上投入越來越多的資金，但對GPT-3.5效能感到滿意的普通使用者會發現他們的成本越來越低。

中國正在追趕美國的主導地位

自人工智慧技術突破性地進入主流以來，美國一直是該領域投入最多、成果最顯著的國家。然而，中國在這場人工智慧競賽中緊隨其後。在行業基準測試中，美國和中國大模型專案的頂尖水平越來越接近。

在LMSYS Chatbot Arena的盲測投票中，美國最佳模型僅比中國冠軍模型高出1.70%。頂級基準測試MMLU和HumanEval的結果也開始接近，但美國仍然略微領先。

美國在數量上仍然輕鬆超越中國，即便質量並非如此。在 HAI 收集的一系列備受矚目的人工智慧模型中，美國憑藉 2024 年最引人注目的大模型（LLM）中的 40 個輕鬆領先。中國則以 15 個模型遠遠落後，而整個歐洲僅為這場競賽貢獻了 3 個模型。

有害人工智慧事件

HAI 關於“負責任的人工智慧”的章節更清晰地描繪了使用人工智慧的現實，其風險並非為零。致力於收集有害人工智慧事件資訊的非營利研究機構——人工智慧事件資料庫 (AIID) 報告稱，2024 年有害人工智慧事件數量令人擔憂地大幅增加。2024 年，AIID 共收到 233 起有害或危險事件報告，超過了 2023 年的約 150 起和 2022 年的約 100 起。

HAI 的完整第三章列出了 2024 年發生的一些最嚴重的事件。這些事件包括利用防盜 AI 偽造身份，將購物者誤認為是商店扒手、深度偽造色情內容，以及聊天機器人鼓勵有害行為（包括自殘）的案例。值得注意的是，很少有 AI 公司在發生 AI 事件時願意承擔責任，上述幾起事件導致涉事公司拒絕道歉或賠償。

這份 8 章的研究報告涵蓋的範圍遠超本文，需要大量時間閱讀。人工智慧領域比以往任何時候都更加廣闊，投入也更多，因此近期可能撼動現狀的關稅措施對這個尚處於萌芽階段的行業來說令人擔憂。這項技術的未來尚不明朗，但希望在未來幾年，訓練和應用中的安全和責任能得到更充分的關注。

最重要的結論

1. 人工智慧在高要求基準測試中的表現持續提升。

2023 年，研究人員推出了新的基準——MMMU、GPQA 和 SWE-bench——來測試高階 AI 系統的極限。僅僅一年後，效能就大幅提升：MMMU、GPQA 和 SWE-bench 上的得分分別上升了 18.8、48.9 和 67.3 個百分點。除了基準之外，AI 系統在生成高質量影片方面取得了重大進展，在某些情況下，語言模型代理甚至在時間預算有限的程式設計任務中勝過人類。

2. 人工智慧日益融入日常生活。

從醫療保健到交通運輸，人工智慧正迅速從實驗室走向日常生活。2023 年，FDA 批准了 223 種支援人工智慧的醫療裝置，而 2015 年只有 6 種。在道路上，自動駕駛汽車不再是實驗性的：美國最大的運營商之一 Waymo 每週提供超過 15 萬次自動駕駛汽車，而百度價格實惠的 Apollo Go 機器人計程車車隊現已服務於中國眾多城市。

3. 企業全面投入人工智慧，推動創紀錄的投資和使用，因為研究繼續表明人工智慧對生產力有強大的影響。

2024年，美國私人人工智慧投資增長至1091億美元，幾乎是中國（93億美元）的12倍，英國（45億美元）的24倍。生成式人工智慧發展勢頭尤為強勁，吸引了339億美元的全球私人投資，較2023年增長18.7%。人工智慧的商業應用也在加速增長：78%的組織報告稱，2024年他們將使用人工智慧，高於前一年的55%。與此同時，越來越多的研究證實，人工智慧能夠提高生產力，並且在大多數情況下，有助於縮小勞動力的技能差距。

4. 美國在生產頂級人工智慧模型方面仍然處於領先地位，但中國正在縮小效能差距。

2024 年，美國機構開發了 40 個值得關注的 AI 模型，遠遠超過中國的 15 個和歐洲的 3 個。雖然美國在數量上保持領先，但中國模型已迅速縮小質量差距：MMLU 和 HumanEval 等主要基準測試上的效能差異從 2023 年的兩位數縮小到 2024 年的接近平價。與此同時，中國在 AI 出版物和專利方面繼續保持領先地位。與此同時，模型開發日益全球化，中東、拉丁美洲和東南亞等地區推出了引人注目的模型。

5. 負責任的人工智慧生態系統發展不平衡。

與人工智慧相關的事件急劇增加，然而，在主要的工業模型開發者中，標準化的 RAI 評估仍然很少見。然而，像 HELM Safety、AIR-Bench 和 FACTS 這樣的新基準測試為評估事實性和安全性提供了有前景的工具。在企業中，識別 RAI 風險與採取有效行動之間仍然存在差距。相比之下，各國政府正表現出越來越強烈的緊迫感：2024 年，全球人工智慧治理合作加強，包括經合組織、歐盟、聯合國和非洲聯盟在內的組織釋出了以透明度、可信度和其他負責任人工智慧核心原則為重點的框架。

6. 全球對人工智慧的樂觀情緒正在上升，但地區間分歧依然嚴重。

在中國（83%）、印度尼西亞（80%）和泰國（77%）等國家，絕大多數人認為人工智慧產品和服務利大於弊。相比之下，加拿大（40%）、美國（39%）和荷蘭（36%）等地的樂觀程度仍然低得多。不過，情緒正在轉變：自2022年以來，一些此前持懷疑態度的國家的樂觀程度顯著增強，包括德國（+10%）、法國（+10%）、加拿大（+8%）、英國（+8%）和美國（+4%）。

7.人工智慧變得更加高效、經濟實惠且易於獲取。

在小型模型能力不斷增強的推動下，GPT-3.5 級別系統的推理成本在 2022 年 11 月至 2024 年 10 月期間下降了 280 多倍。在硬體層面，成本每年下降 30%，而能效每年提升 40%。開放權重模型與封閉模型的差距也在縮小，在某些基準測試中，一年內效能差距從 8% 縮小到 1.7%。這些趨勢正在迅速降低高階人工智慧的門檻。

8. 各國政府正在透過監管和投資加大對人工智慧的投入。

2024年，美國聯邦機構出臺了59項與人工智慧相關的法規，數量是2023年的兩倍多，釋出的機構數量也是2023年的兩倍。在全球範圍內，自2023年以來，75個國家的立法中對人工智慧的提及增長了21.3%，是2016年的九倍。除了日益增長的關注度外，各國政府也在大規模投資：加拿大承諾投資24億美元，中國啟動了475億美元的半導體基金，法國承諾投資1090億歐元，印度承諾投資12.5億美元，沙烏地阿拉伯的“超越計劃”（Project Transcendence）是一項1000億美元的計劃。

9. 人工智慧和計算機科學教育正在擴大，但在獲取和準備方面的差距仍然存在。

目前，三分之二的國家提供或計劃提供K-12計算機科學教育，數量是2019年的兩倍，其中非洲和拉丁美洲的進步最為顯著。在美國，過去10年中，擁有計算機學士學位的畢業生數量增長了22%。然而，由於電力等基礎設施的缺口，許多非洲國家仍然難以獲得此類教育。在美國，81%的K-12計算機科學教師認為人工智慧應該成為基礎計算機科學教育的一部分，但只有不到一半的教師認為自己有能力教授人工智慧。

10. 工業界在人工智慧領域正在快速發展，但前沿領域正在縮小。

2024年，近90%的知名AI模型來自工業界，高於2023年的60%，而學術界仍然是高引用率研究的主要來源。模型規模持續快速增長——訓練計算量每五個月翻一番，資料集每八個月翻一番，功耗每年增長。然而，效能差距正在縮小：排名前十的模型之間的得分差距在一年內從11.9%縮小到5.4%，前兩名之間的差距現在僅為0.7%。這個前沿領域的競爭日益激烈，競爭也日益激烈。