阿里通義大模型持續霸榜，中國AI開源雙雄鼎立

作者 | 傅斯特

農曆春節前，深度求索公司（DeepSeek）旗下的應用程式和R1推理模型先後因登頂多地App Store免費下載榜和質優價廉，引發全民熱議。

農歷春節後，阿里旗下通義系列大模型除多次創造“屠榜”佳績外，還成了全球最大開源模型，被開發者親切地稱為“源神”。

最新的進展是，3月6日阿里雲釋出並開源了全新推理模型通義千問QwQ-32B，該模型用更小的引數但在數學、程式碼及通用能力上整體比肩DeepSeek-R1，在開源當日就登頂了全球主流AI開源社群Hugging Face的趨勢榜。本月稍早，阿里雲旗下的視覺基座大模型萬相2.1（Wan2.1）在釋出和開源後僅僅六天，就登上了Hugging Face趨勢榜、模型空間榜兩個榜單，成為近期全球開源社群最受歡迎的模型。

（千問QwQ-32B開源當日即登頂Hugging Face趨勢榜，第四位為阿里旗下萬相2.1視覺模型。圖源|Hugging Face社群截圖）

這意味著，在全球前三的AI開源公司中，中國（杭州）就獨佔兩席。

政策層面，AI也在進入視野中心。從2017年首次寫入政府工作報告，到2025年全國兩會，人工智慧已7次出現在政府工作報告中，且每次的表述都更加具象化。一系列脫穎而出的變化，在凸顯國家對新一代人工智慧發展高度重視的同時，還蘊含著，因一批中國公司在人工智慧領域崛起，所形成的強大創新支撐力。

深度求索公司憑藉開源性、價效比及降低算力依賴等優勢，當之無愧地成了近期最“耀眼”的明星。但獨木難成林，要堅定中國人工智慧發展的長期信心，就必須有更多持續性、全場景的突破。而從2023年8月就堅持走開源路線，總計開源超200款全尺寸、全模態模型的通義系列模型似乎在近期給出了最好的答案。

《南華早報》今年2月曾報道稱，阿里通義千問系列模型使斯坦福、伯克利復刻低成本DeepSeek成為可能。“阿里巴巴模型的能力再次證明，中國正在縮小與美國領先企業的人工智慧差距，而基於阿里千問開源開放的路線，研究人員越來越多地利用阿里巴巴的技術來降低AI訓練成本。”文章寫道。

那麼，為什麼DeepSeek和通義系列模型會成為交相輝映的開源“雙子星”？開源又為什麼成為中國AI破局的必然選擇？

中國開源“雙雄”

全球AI競賽的劇本，矽谷本已寫好勝利的結局：

閉源模式，限制技術擴散；

算力堆砌（Scaling Law），抬高追趕壁壘；

壟斷優勢，獲得高昂商業利潤。

這是一個靠科技和地緣樹立的權力遊戲。

在晶片被卡脖子的情況下，中國AI企業能使用的圖形處理器，比美國有兩代差異。如果繼續沿著“大模型=大算力”這一條路走下去，那始終是在被動追趕。

中國企業卻反其道而行之，走向了開源、分散式、資訊平權的生態。前谷歌執行長埃裡克·施密特曾評論說，DeepSeek的釋出，標誌著全球AI競賽迎來新的轉折點。

而DeepSeek最被公眾認可的“破圈”原因，主要是訓練成本低、效能相對優異同時開源使用。具體而言，DeepSeek-R1在後訓練階段大規模使用了強化學習技術，在僅有極少標註資料的情況下，效能比肩 Open AI o1正式版，但其訓練成本僅為GPT-4的1/180。

此外，DeepSeek還在應用程式上採取全部免費策略，這使得其迅速登上多地App Store免費下載榜，並在沒有進行任何廣告投放的情況下，僅用時7天就完成了1億使用者量的積累。ChatGPT官方雖然沒有公佈達成這一使用者量的時間，但瑞銀分析師勞埃德·沃姆斯利在研報中指出這一時間大概約兩個月。

儘管過去一年，ChatGPT的使用者數仍在增長，但其高昂的定價策略，已將大量使用者拒之門外，據瞭解，ChatGPT Pro的月費達到了200美元。

更難能可貴的是，DeepSeek-R1同步開源了模型權重。DeepSeek在其開源倉庫統一採用標準化、寬鬆的MIT License，實現完全開源，不限制商用，且無需申請，還允許使用者透過蒸餾技術藉助R1訓練其他模型。

在DeepSeek系列模型變身當紅“炸子雞”後，同在杭州的通義系列模型則成了逐漸被公眾發現的“寶藏男孩”、“AI界汪峰”，杭州AI雙雄共同構築起了開源界的中國宇宙，他們也直接粉碎了開源模型效能不如閉源模型的論調。

從時間路線上看，早在2023年7月，阿里雲首席技術官周靖人在上海世界人工智慧大會發表演講時就堅定地表達了對開源路線的選擇，而通義系列模型在次月（2023年8月）就身體力行地開源了通義千問模型Qwen-7B，這也開啟了國內巨頭企業開源大模型產品的先河。後續騰訊控股、智譜華章、百川智慧等企業也先後跟進開源了多款大模型產品。

從開源數量上看，阿里已經開源了Qwen、Qwen1.5、Qwen2、Qwen2.5等4代模型系列，覆蓋從0.5B到110B等的“全尺寸”，總計開源超200款模型。相比DeepSeek開源的1.5B、7B、14B、32B、70B以及670B多個型別的模型，通義系列模型除了在尺寸上更多元外，還包括語音、視覺、文字等全模態。

從便捷性上講，雖然DeepSeek-V3、DeepSeek-R3模型可以實現本地化部署，但671B的滿血版DeepSeek-R1，需要8卡的伺服器才可以部署，光硬體成本就在數百萬級。但上述阿里最新開源的千問QwQ-32B在個人用消費級顯示卡NVIDIA 4090，甚至蘋果M4 Mac電腦上都可以執行。再加上整體比肩DeepSeek-R1的效能，使QwQ-32B在開源當日就被開發者推上了就Hugging Face趨勢榜榜首。

寬鬆的開源許可和部署條件，意味著只要開發者或企業願意，就可以本地部署QwQ-32B，不花一分錢地使用高效能AI。開發者或企業也可以根據需求，用“蒸餾技術”去蕪存菁地保留需要保留的內容，形成專用模型，讓它從事任何你希望的工作，比如司法、教育、醫療和情感陪伴，這些“蒸餾後”的模型甚至可以對外商用。

由於通義系列模型“全尺寸、全模態、全場景”的堅定開源策略，它也被多位產學研界大咖作為基座模型進行精調和蒸餾。

比如，李飛飛團隊以千問Qwen2.5-32B-Instruct開源模型為底座，訓練出新模型s1，取得了與Open AI的o1和DeepSeek的R1等尖端推理模型數學及編碼能力相當的效果；DeepSeek官方曾透露，其將DeepSeek-R1的推理能力蒸餾 6個模型開源給社群，這當中4個模型是基於Qwen-32B蒸餾的模型；伯克利Tiny Zero及上海交大LIMO也都在通義系列模型底座基礎上啟用其更強的推理效能。

通義系列模型積極貢獻開源社群的同時，開發者和企業也在利用智慧“反哺”通義系列模型的進化、升級。目前在開源社群Hugging Face上，通義系列衍生模型數突破10萬，成為全球最大開源模型，持續領先美國Llama等其他開源模型。今年2月，Hugging Face開源大模型榜單的前10名，全部是基於阿里通義系列模型二次開發的衍生模型。

（Hugging Face開源大模型榜單的前10名都是來自通義系列的衍生模型。圖|Hugging Face截圖）

為什麼通義系列模型得以傳播如此廣泛？這就不得不提AI領域的開源和閉源之爭了。

開源（Open Source）的全稱為開放原始碼，是指使用者可以利用原始碼在其基礎上修改和學習。而Open AI開源到GPT-3以後，就閉源了，更不要說後來的GPT-3.5和o1，這背後的考量有安全性、可控性，也有商業利益和地緣政治因素。

而Meta的“開源”則採用了比DeepSeek和通義系列模型更為嚴格的Meta Llama 3許可，上面介紹的很多許可權是不被允許的（具體對比詳見下圖）。

（Meta、DeepSeek和通義系列的開源許可對比。圖|開源社群綜合整理）

事實上，開源的力量就體現在匯聚全球的智慧，共同推進技術研發，再將成果普惠所有人；中國製定的AI標準，也能隨著技術擴散到各個國家。這就不得不提到，通義系列模型是支援語言最多的開源模型，在海外收穫了很眾多第三世界國家極客的點贊。

在正在進行的全國兩會上，也有不少海外記者在接受“玉淵潭天”採訪時表示，自己國家的技術人員在利用中國開源大模型“蒸餾”屬於本國的模型。

中國開源模型的速度，也倒逼著全球AI企業加速創新，他們在農曆春節後動作頻頻：Open AI推出了o3-mini，免費開放使用；馬斯克推出“最聰明的AI” Grok3；Anthropic更新了混合推理模型 Claude 3.7 Sonnet。

Open AI的執行長薩姆·奧特曼說：沒有開源，是站在了歷史錯誤的一邊。

Meta首席人工智慧科學家楊立昆說，與其說是中國打敗了美國AI，不如說是開源戰勝了閉源。

阿里的新增長曲線

DeepSeek的橫空出世，挑戰了Open AI等美國企業；阿里通義系列模型長期位於全球最大開源模型榜首，這些事實都“打臉”了過去幾年美國的科技封鎖。

外資集體看多中國，阿里巴巴的股價從1月13日的每股77.35港元開始啟動，到3月7日達到每股145.90港元的新高點，累計漲超88.6%。

（1月13日以來阿里港股股價累計漲超80%。圖|Wind截圖）

價值重估源於阿里多年來對“AI+雲計算”的佈局。

15年前，阿里下定決心投入雲計算研發，2018年起探索AI大模型，如今，阿里不但擁有全球領先、亞太第一的雲計算，還研發出頂尖的通義系列模型。2月以來，阿里繼續重注云計算和AI，吳泳銘宣佈未來三年將投入超過3800億元，用於建設雲和AI硬體基礎設施，總額超過去十年的總和。

AI技術的廣泛應用為百業千行帶來價值，這也帶動了客戶對阿里雲產品需求快速增長，其中既包括了AI技術產品，也包括了支撐AI應用的資料、儲存、計算等公共雲產品需求。據阿里巴巴集團2025財年三季度財報，季度內阿里雲收入重回13%的同比雙位數增長，達到317.42億元，AI相關產品收入連續六季度保持三位數增長。此外，阿里雲也是國內唯一保持穩定盈利的雲計算服務商。

資料顯示，80%的中國科技公司、65%的專精特新“小巨人”企業和60%的A股上市公司使用阿里雲的算力服務，中國一半以上大模型公司跑在阿里雲上。中國石油、國家電網、招商銀行、中華財險、杭州地鐵集團、魅族、雷鳥等均圍繞深度用雲和AI應用落地展開廣泛合作。蘋果的Apple Intelligence在中國最終選擇與阿里合作，也將迅速為阿里補全在C端的AI應用佈局。

目前，阿里雲在全球28個地域運營86個可用區，是全球領先、亞太第一的雲計算公司，不僅服務自身，還服務全球500萬客戶。早在2022年，阿里雲就首提MaaS（Model as a Service，模型即服務）理念，面向AI時代，全面重構了一個從底層硬體到計算、儲存、網路、資料處理、模型訓練和推理平臺的全棧技術架構體系。

彭博社曾在2月10日的報道中指出，