阿里AI實力獲斯坦福權威報告蓋章!通義千問貢獻排名全球第三、中國第一

中美 AI 競爭差距縮小,阿里 Qwen 成最大推手之一。
作者丨洪雨欣
編輯丨陳彩嫻
近日,斯坦福大學人工智慧研究所釋出了最新一期《2025年人工智慧指數報告》。研究報告顯示,在2024年度全球重要大模型中,中國貢獻15項。從具體機構分佈來看,谷歌與OpenAI各佔7席並列榜首,阿里巴巴以6個入選模型緊隨其後,排名第三。
這份連續釋出八年的年度報告由斯坦福人工智慧實驗室主任李飛飛教授領銜編制,自2017年首度釋出以來,其多維度的評估框架和跨年度的資料追蹤,已成為全球學術界和產業界觀察AI技術演進的重要參照。
2025年的斯坦福報告指出,中國和美國是全球AI最具影響力的兩大國家,且中美模型的效能差距顯著縮小,效能表現由2023年的17.5%驟降至0.3%,差距接近抹平。
而阿里作為入選重要大模型最多的中國科技公司,其入選的6款模型分別為:Qwen-72B、Qwen1.5-72B、Qwen2-72B、Qwen2.5-72B、Qwen2.5-32B、QwQ-32B,是中國 AI 力量在全球影響力崛起的最大推手。
至今,阿里通義實驗室已開源200多款模型。目前千問在全世界的衍生模型數破10萬,超越美國Llama成為世界第一開源大模型。
1
中美差距縮小,阿里通義千問功不可沒
美國曆來是人工智慧研究和模型開發的主導。然而,最近的證據表明,中國模型的效能正在逐步逼近美國。
2024年1月,在LMSYS聊天機器人競技場上,美國頂級模型的表現優於中國最佳模型9.26%。到了2025年2月,這一差距縮小至僅1.70%。
2023年底,美國領先模型的表現顯著優於中國同類模型。在MMLU、MMMU、MATH和HumanEval等基準測試中,中美效能差距分別為17.5、13.5、24.3和31.6個百分點。2024年底,這些差異顯著縮小至僅0.3、8.1、1.6和3.7個百分點。
這一重要轉變的背後是阿里和DeepSeek的持續努力和爆發。2024年5月24日,阿里巴巴釋出開源Qwen2.5,效能超越Llama 405B。2025年1月20日,DeepSeek釋出DeepSeek-R1,同步開源模型權重。前有阿里開荒拓土,後有DeepSeek持續發力。如今,阿里和DeepSeek已經成為了中國AI在世界舞臺中激烈角逐的兩股領先力量。
根據斯坦福的報告,阿里是唯一進入全球大模型貢獻前三的中國公司。統計資料顯示,在備受關注的全球重大模型榜單中,谷歌與OpenAI分別上榜7個,並列第一。阿里則以6個上榜模型位居全球第三、中國第一。在業內頂級專家評選出的32項“2024年AI領域重要釋出”中,阿里Qwen2、Qwen2.5及DeepSeek-V3三大發布上榜。
報告顯示,Qwen2.5-72B的訓練資料量要略高於Llama-405B和DeepSeek-V3,成為截至2024年訓練資料量最大的模型。Qwen2.5全系列模型訓練資料量為18 萬億 tokens,而Llama-405B僅僅只有15 萬億tokens的資料量。這意味著Qwen2.5擁有更多的知識、更強的程式設計和數學能力。
報告中對比了中美兩國知名機器學習模型的訓練算力,揭示出一個關鍵趨勢:美國頂級AI模型的算力需求普遍遠超中國同類產品。這說明,在實現頂尖效能的同時,中國模型所需計算資源顯著低於多數主流大語言模型。下圖顯示,Qwen2.5和DeepSeek-V3的訓練算力低於10B,而以Claude 3.5 Sonnet和Grok-2為代表的頂尖模型,算力需求遠超於此。
除此之外,閉源與開源LLM之間顯著的效能差距也進一步縮小。2024年1月初,領先的閉源模型效能超出頂級開源模型8.0%。而截至2025年2月,這一差距已縮小至1.7%。2024年,Qwen系列模型已超越Llama,成為當前全球最大的開源模型。阿里和DeepSeek作為行業領頭羊,有望繼續強勢扭轉開源落後的局面。
在對AI的投入決心方面,阿里在中國是最激進的。就在今年年初,阿里CEO吳泳銘宣佈未來三年,阿里預計在AI和雲計算領域投入3800億元人民幣,加速雲和AI硬體基礎設施建設、提升AI基礎模型的研發、推動AI應用的轉型升級。
2
阿里 AI,當之無愧
事實上,2025 年斯坦福 AI 指數報告中阿里大模型的亮眼成績並非橫空出世,而是積步千里。
早在ChatGPT之前,阿里就開啟了大模型的研究探索。
2023年4月,“通義千問”大模型正式釋出,之後以平均每兩個月的速度迭代一次。同年8月Qwen-7B宣佈開源,阿里首次加入自研大模型開源行列。
2024,是通義千問爆發的一年。阿里分別在5月、6月、9月、12月推出開源模型Qwen2.5、Qwen2-72B、Qwen2.5-72B、QVQ-72B-Preview。
今年2月,視覺生成基座模型通義萬相(Wan)開源,在 VBench中以總分86.22%的成績穩居榜首。3月,首個端到端全模態大模型Qwen2.5-Omni-7B釋出,並於4月登頂Hugging Face開源大模型榜單。
具備強大的、不斷迭代的基礎模型後,阿里不是“閉關鎖國”,而是從 2022 年開始就採取開源措施,將自家的基礎模型開放給 AI 社群,繼而構建了強大的開源生態。
最新資料顯示,通義已接入29萬家企業,包括90%網際網路公司,90%上市商業銀行,90%汽車品牌等。
Qwen開源模型在國內備受青睞,Manus透過Qwen在國產模型和算力平臺上實現全部功能,迅速走紅於各大社交平臺。DeepSeek使用R1蒸餾出6個開源模型,其中有4個來自Qwen。
目前,海內外開源社群中千問Qwen的衍生模型數量已突破10萬,穩居世界最大AI大模型族群。根據Huggingface2025年2月10日最新的全球開源大模型榜單,排名前十的開源大模型全部是基於通義千問Qwen開源模型二次開發的衍生模型。
甚至李飛飛等斯坦福大學研究人員也基於阿里通義千問Qwen2.5-32B-Instruct開源模型為底座,僅用不到50美元,便打造出了效能卓越比肩OpenAI的O1和DeepSeek的R1等尖端推理模型的s1-32B模型。
從2023年至今,阿里通義團隊已開源200多款模型,囊括文字生成、語音理解、文生圖及影片模型等全模態模型,覆蓋全尺寸引數,支援29種語言。
通義千問促進中國大模型生態繁榮的背後,是阿里雲打下的算力基礎。2023年7月7日,阿里雲宣佈,將把促進中國大模型生態的繁榮作為首要目標,向大模型創業公司提供全方位的服務,包括最強大的智慧算力和開發工具,並在資金和商業化探索方面提供充分支援。
2022年,阿里雲在業界首提MaaS(Model as a Service,模型即服務)理念,提出了一種全新的、以AI模型為核心的開發正規化。阿里雲據此搭建了一套以AI模型為核心的雲計算技術和服務架構,並將這套能力將全部向大模型初創企業和開發者開放,提供包括模型訓練、推理、部署、精調、測評、產品化落地等在內的全方位服務。
截至目前,中國眾多頭部主流大模型都已透過阿里雲對外提供API服務,包括通義系列、Baichuan系列、智譜AI ChatGLM系列等。百川智慧創始人兼CEO王小川也曾表示,“百川成立僅半年便釋出了7款大模型,快速迭代背後離不開雲計算的支援。”
一些科研機構和創業公司還基於千問開發了自己的模型和產品。中國科學院國家天文臺人工智慧工作組基於Qwen開源模型釋出了新一代天文大模型“星語3.0”。中國科學院地球化學研究所與阿里雲基於Qwen開發了國際首個“月球科學多模態專業大模型”。千問QwQ-32B也成為AI for Science科研領域最受歡迎的大模型之一,已服務300多家科研院所和高校。
2025 年,大模型技術圈依然熱鬧非凡。繼 DeepSeek 席捲全球后,AI Agent 又開啟新的大模型產品形態競爭。AI 智慧體的進一步發展正在肉眼可見地加深模型應用與基礎模型的關聯,同時加大推理側的需求增長。而阿里同時坐擁基礎模型與雲平臺基礎設施的兩大“護法”,在新一輪的 AGI 競爭中仍有極大優勢,拭目以待。

更多內容,點選下方關注:

未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社群進行轉載!
公眾號轉載請先在「AI科技評論」後臺留言取得授權,轉載時需標註來源並插入本公眾號名片。

//
推薦閱讀

相關文章