最新一期的 LiveBench 國際權威榜單放出來,阿里通義千問 QwQ-32B 一舉衝進全球前五,並且直接坐穩最強開源模型的寶座!
過去幾年,聊起開源大模型,大家第一反應肯定是 Meta(Llama)、Mistral 這些歐美廠牌,基本是他們說了算。而如今,我們的DQ(DeepSeek & Qwen)以壓倒性優勢登頂 LiveBench,標誌著中國 AI 開源模型正式進入全球第一梯隊!

作為32B的引數量的輕量級選手,它超越那些動輒數百億引數的巨型模型 OpenAI GPT-4.5 preview、Google Gemini 2.0、DeepSeek R1 等一眾頂級閉源模型,更是在開源模型中穩坐最強之位!

LiveBench官網:https://livebench.ai/#/
從曾經的追趕者,到今天的全球領跑者,中國 AI 正在迎來自己的高光時刻!
QwQ-32B的核心:強化學習
Qwen 團隊在模型訓練過程中,採用了高質量的強化學習(RL),真的挺猛的,使得 QwQ-32B 在數學、程式設計等核心任務上取得突破
第一階段:專攻數學 & 程式設計,模型能力持續攀升
-
在冷啟動的基礎上,他們進行了大規模強化學習(RL),首先重點最佳化數學和程式設計能力。不同於傳統獎勵模型,他們直接校驗數學答案的正確性,並透過程式碼執行伺服器驗證程式碼是否能透過測試用例。隨著 RL 訓練的推進,這兩項能力持續提升。
第二階段:通用能力強化,確保整體效能均衡提升!
-
隨後,他們加入針對通用能力的 RL 訓練,結合通用獎勵模型和規則驗證器,進一步最佳化整體效能,同時確保數學和程式設計能力不受影響。

在數學能力測試AIME24評測集和程式碼能力評估LiveCodeBench中,千問 QwQ-32B 的表現與DeepSeek-R1旗鼓相當,遠超o1-mini及同尺寸的R1 蒸餾模型。
此外,在多個權威評測中,QwQ-32B 也展現出全面領先的實力:
-
在由Meta 首席科學家楊立昆領銜的LiveBench中,QwQ-32B 得分超越 DeepSeek-R1。 -
在 谷歌 IFEval(指令遵循能力評測)中,QwQ-32B 交出更優答卷。 -
在 BFCL 測試(由加州大學伯克利分校等提出,用於評估大模型呼叫函式/工具的準確性)中,QwQ-32B 同樣表現強於 DeepSeek-R1。
親測,用Ollama和q4量化的QwQ-32B,24G以內的GPU的視訊記憶體都可以跑。這說明你只要一張RTX4090就可以享用了,根本不需要啥H20和A100。當然想跑滿血版,大概需要 120GB 視訊記憶體。

來看一下幾個實測例子。這裡使用了OpeanAI-o1, 滿血 DeepSeek-R1 還有就是滿血的 QwQ-32B。
先說結論,我用下來的感覺就是基本媲美別人家的滿血模型還有閉源模型。
最重要的是你可以在本地部署,32B 引數量的效果都超 100+B 引數的模型了,還要啥腳踏車,大家用起來吧!
-
測試一下數學能力怎麼樣,比一下大小。
提示詞:9.11和9.9哪個大?
結論:Qwen 和 DeepSeek 都做出來了正確答案還給出了相應解釋。DQ 組合還溫馨的提示了常見錯誤。但是曾號稱地標最強模型的 o1,迅速地給出了錯誤答案。
-
QwQ-32B: -
OpeanAI-o1: -
DeepSeek-R1:
-
看看語文能力怎麼樣。
提示詞:用蘇軾風格創作讚美量子力學的七言律詩(需符合平仄對仗)
這個問題上,o1有點幽默回答裡還帶上了英文了,哈哈哈。
-
QwQ -32B: -
OpeanAI-o1: -
DeepSeek-R1:
-
最後,還是一個經典問題數 r
提示詞:數strawberry有幾個r?
在這個問題上三個模型都做出了正確的回答,但是我們的 DQ 組合還是溫馨的給出了易錯提示。值得注意的是除了 o1 用了幾秒就回答出來了,Qwen 和 DeepSeek 花了好一會兒才回答出來。
-
QwQ -32B:
-
OpeanAI-o1:
-
DeepSeek-R1:
Qwen 生態:全球 AI 開源最強家族!
阿里通義團隊,不僅只涉足文字模型,還有視覺、語音、文生圖、影片等等。他們一年開源200+ 款模型,覆蓋全模態,全尺寸。
-
引數規模從 0.5B 到 110B,滿足不同場景需求! -
開源即霸榜,Hugging Face 最受歡迎開源模型!
Qwen的Hugging Face官網:
https://huggingface.co/Qwen
就連最近大火的 AI 智慧體 Manus,創始人都在推特上爆料說,他們的核心模型之一也是用 Qwen 家的。

目前,國家超算網際網路平臺、廣州人工智慧公共算力中心、東南大學、天津大學、山東大學 等985/211 高校均已接入 QwQ-32B,壁仞科技、摩爾線程、矽基流動、CAMEL-AI、OpenReuter、SambaNova Cloud 等企業紛紛推出基於 QwQ-32B 的產品和 API 服務!
Qwen 衍生模型數量已經突破 10 萬個,直接超越 Meta 旗下的 Llama,成為全球最大開源模型家族, 並且數量還在不斷上升中。

中國開源模型全面崛起
雖然國產大模型起步較晚,最初在能力上有所差距,但我們始終奮力追趕。
如今,2025 年的LiveBench 榜單上,全球前十的模型中僅有兩款開源模型,而它們全部來自中國——DeepSeek 和 Qwen,國產大模型正式站上世界之巔。

其實這也說明了一件事:開源可能才是是通向 AGI 的必經之路。
閉源模型確實強,但封閉生態始終有侷限,只有開源模式才能吸收全球開發者的智慧,快速迭代,持續最佳化演算法和模型效能。
像 QwQ-32B 這種 32B 級別的小模型都能吊打部分閉源巨頭,足以從一定程度上說明:開源 AI在未來會越來越重要!
從更廣泛的視角來看,開源生態或許是實現AGI的必經之路。因為AGI不僅僅意味著單一領域的突破,而是需要模型在跨學科、跨模態以及廣泛場景下擁有高度的泛化能力。
這種複雜性與多樣性,要求模型具持續的反饋迴圈和快速迭代,這正是開源模式天然的優勢所在。
我們可以預見,未來AI通向AGI的道路上,開源生態將繼續扮演著核心引擎的角色,推動全球技術的協作進步。
未來,隨著 Qwen、DeepSeek 等國產開源模型的崛起,中國 AI 有望在全球形成更大的影響力,甚至徹底超越歐美閉源巨頭!
最後……不得不說,真的挺喜歡千問團隊起的名字QwQ。