今早凌晨 5 點,阿里開源了他們最新的基座大模型 Qwen3(千問3)!

看得我都有點精神恍惚,這個效能對比圖,我直接看傻了:


這簡直是效能怪獸,最新開源的 Qwen3-235B-A22B、Qwen3-32B 全面領先 OpenAI-o1、DeepSeek-R1、Grok 3 Beta 等。
我其實關注並使用 Qwen 很久了,完全是看著它一路堅持開源,並不斷突破的。
不知道大家有沒有發現一個現象:越來越多的企業和研究者,把阿里千問模型作為基座,開發各類衍生產品。
這一趨勢絕非偶然,而是有深層次的原因,已有研究者專門分析了其中的奧秘:

在一項對比實驗中,研究者用相同的資料、相同的訓練環境,分別訓練了千問2.5和LLaMA-3,結果發現:千問2.5的效果始終優於LLaMA-3。
更令人驚訝的是,千問2.5展現出了更強的學習能力:在同樣的資料量下,千問學得更快、效果更好,而LLaMA-3要達到相同水平,必須消耗更多的資料。
如果用一個簡單的比喻,這就好比學霸和普通人在讀同一本書:學霸不僅學得快,而且學得牢。
這篇研究論文指出,千問底座模型在初期訓練上投入了巨大精力,加上採用更加優秀的模型架構設計,基礎非常夯實。
而現如今,Qwen3(千問3)都來了!
一、千問3
阿里千問團隊在這個夯實的基礎上,再進一步,正式開源了新一代的通義千問模型:Qwen3(千問3)!
這代千問3,效能方面全面超越了Deepseek-R1、OpenAI-o1及等國內外領先模型的同時, 4 張 H20 就能實現本地滿血部署,視訊記憶體佔用僅為效能相近模型的三分之一。
同時,千問3遵循Apache 2.0開源協議,支援免費下載與商用,延續千問家族開源的傳統。
體驗方法也很簡單,現在可以透過阿里雲百鍊呼叫API,或者在通義 App 上直接使用,夸克瀏覽器也即將上線接入。
-
Qwen Chat:
https://chat.qwenlm.ai
-
Hugging Face:
https://huggingface.co/collections/Qwen/qwen3-67dd247413f0e2e4f653967f
-
ModelScope:
https://modelscope.cn/collections/Qwen3-9743180bdc6b48
-
GitHub:
https://github.com/QwenLM/Qwen3
-
通義APP
二、全尺寸覆蓋
這次千問3一口氣釋出了8個尺寸的模型,覆蓋面很廣:
-
6款Dense模型:0.6B、1.7B、4B、8B、14B、32B
-
2款MoE模型:Qwen3-30B-A3B和旗艦版 Qwen3-235B-A22B

其中旗艦版Qwen3-235B-A22B,總引數量達到了2350億,但推理時只用啟用220億——相當於在保證效果的同時,大幅降低了推理成本(比同類比如DeepSeek-R1便宜了35%左右)
對普通玩家也很友好,比如Qwen3-30B-A3B,雖然總引數是300億,但推理只啟用30億,效能對標上代Qwen2.5-32B,而且效率直接提升了10倍以上,家用顯示卡就能跑得動
此外,還有超小的Qwen3-0.6B,看來是為了手機等端側部署,進行提前佈局。
三、實際測試
這次千問團隊從版本2.5升級到版本3,看起來並不是簡單地引數堆疊或小修小補,而是深層次的改進啊。
它支援,混合快慢推理,MCP支援,多語言支援等等。
價效比與效率齊聚一身
以前用OpenAI、Gemini的時候,總糾結選哪個型號——o1?4o?mini-high?選模型花半天時間。
但是,千問3這次化繁為簡。他們把頂尖的推理和非推理模式融合到了一個模型裡面,實現了「既能快答簡單問題,也能深思複雜問題」的效果。
目前,在開源世界裡的模型只有千問3可以做到這一點,閉源的則是Claude3.7以及Gemini 2.5 Flash。
這就好比我們人類的快慢思考過程,當遇到簡單問題,我們能迅速給出反應,當遇到有難度和深度問題時候,我們進行一步步問題拆解,分析,歸類,用相對較長的時間進行思考,再給出答案。
之前我在用DeepSeek的時候經常發現模型會有無效思考時候,浪費生成思考字數和時間。千問為了解決這一痛點,支援設定思考字數滴控制,滿足開發者在時間與成本上的自由權衡。這次真的用心了!

也就是說,再執行深度思考之前,可以手動調節這個思考預算,花費多少 tokens 預算你說了算。
你可以像我這樣,直接滿預算跑,給它出個腦筋急轉彎:等紅燈時在等綠燈還是紅燈?Qwen3-235B-A22B 可以很快給出正確答案:

我從 Leetcode 找了一道難度係數為困難的程式設計題:

它的回答是這樣的:


執行結果直接擊敗 **97.72%**:

在數學方面,我們先來一道初中題目試試水:“如果 f(x)=3x−2x−2f(x) = (3x-2)/(x-2),那麼 f(−2)+f(−1)+f(0)f(-2) + f(-1) + f(0) 的值是多少?請用最簡分數表示你的答案”。正確答案:14/3。初中題目千問3隨便輕鬆拿捏啊。

你也可以控制預算,這次我給到它11264的token預算,但是實際上並沒有全部用完。我拿出一道2022年高考乙卷的數學題:我們已知三角形 △ABC 的內角 A,B,C 對應的邊分別為 a,b,c,且滿足以下恆等式:sinC⋅sin(A−B)=sinB⋅sin(C−A)並附加條件:若 A=2B,求角 C。
部分思考過程:

最終結果:

最近的小球測試也是難道眾多的大模型,看看千問3是否能輕鬆拿下。
提示詞:"write a Python program that shows a ball bouncing inside a spinning hexagon. The ball should be affected by gravity and friction, and it must bounce off the rotating walls realistically。
很快就得到了執行程式碼:

這是程式碼執行的結果:
強大Agent表現
為了迎接智慧體時代的大爆發,千問團隊也是看準了未來的趨勢,在智慧體這一方面也是做足充分的準備。
像最近爆火的MCP,它也是原生支援,也為各式各樣的Agent框架包括Qwen-Agent進行最佳化調整,使其具備天然強大的工具呼叫、結構化輸出與多模態協作能力,延續千問家族在基座模型上就有優越表現的傳統。
在BFCL智慧體評測中,千問3打破開源紀錄,展現出領先的Agent執行能力。
多語言支援
千問3,它支援多達119種語言,覆蓋多語種的需求。我覺得這也是非常重要的一個方向,就比如我前段時間學習西班牙語,感覺到現在的大模型對於小語種的表現好像還是有所欠缺。所以這對於學習小語種的朋友也是一個加分項。
更重要的是,讓那些小語種,沒有能力自行訓練大模型的國家和地區來說,千問3的開源,讓他們第一次有了屬於自己的AI。

測試一下,多語種寫詩歌的能力。
-
中文:用優雅的詩歌語言,描述量子碰撞 -
日語:優雅な詩のような言葉で、量子衝突を描寫してください。 -
西班牙語:Describe la colisión cuántica con un lenguaje elegante y poético. -
世界語:描述優雅和詩意語言的量子碰撞。 -
德語:Beschreibe die Quantenkollision in eleganter, poetischer Sprache. -
泰語:อธิบายการชนกันของควอนตัมด้วยภาษากวีที่งดงาม -
泰米爾語:குவாண்டம் மோதல்களை அழகான கவிதை மொழியில் விவரிக்கவும்.

雖然我不太懂其它語言,但是這回答看起來有模有樣的。我用谷歌翻譯一下生成的泰米爾語,感覺寫的還是挺有感覺的。對於精通這些語言的小夥伴,可以親自玩玩千問3。

四、最後
今天的千問3,並不是一蹴而就。它的誕生,讓我看到的是阿里16年技術積累的結果。
截至目前,千問家族衍生出的模型數量已經突破10萬款,正式超越LLaMA家族,成為全球最大的開源大模型體系!

從2009年開始自研雲計算(阿里雲),到2022年正式推出通義千問大模型體系,阿里堅持自主創新,打通了算力-演算法-應用全鏈路,逐步構建起智慧時代的核心基礎設施。

另外還有不少獨立的研究驗證了千問的基座實力:
-
李飛飛團隊的一項關於RL的訓練研究:他們以阿里通義千問 Qwen2.5-32B-Instruct 為底座,用1000條資料訓練出新模型 s1-32B,數學和編碼能力已接近 OpenAI o1 和 DeepSeek R1,且在競賽數學任務上,比 o1-preview 高出27%。 -
更早前,DeepSeek透過蒸餾出的6個推理模型中,有4個基於Qwen-32B,多個能力指標對標 OpenAI o1-mini。
這些成果的背後,正是千問打磨出的強大基座在默默支撐著整個國產AI生態的崛起。
千問3不僅是一次技術更新,更是國產科技厚積薄發的標誌。
在全球AI賽道上,我們看到了真正意義上的國產力量:以堅實的底座為基礎,生長出越來越強大的衍生模型與應用,邁向更高遠的未來。