Qwen3終於來了!全面超越DeepSeekR1,原生支援MCP

剛剛,Qwen3 開源了。

強的離譜,DeepSeek 這次真的要坐不住了。
先貼一張圖。

從這些主流的學術測試結果來看,Qwen3 全面超越了DeepSeek R1
注意我用的詞——“全面”。這不只是在一兩個單項上領先,而是在數學、推理、程式碼等核心能力上,全面超越。
尤其是程式碼能力,LiveCodeBench 和 Codeforces 兩個榜單,高於所有其它模型,包括當前最強的 Gemini2.5-Pro。
在 ArenaHard(綜合測試)上, Qwen3-235B-A22B 緊追最強閉源模型 Gemini2.5-Pro ,顯著優於 OpenAI-o1 和 Deepseek-R1 。而在 AIME’24/25(美國數學競賽)、MultiIF(多語言推理)測試基準上,Qwen3 的表現更是全面超越 DeepSeek-R1,坐穩了全球第一開源霸主的名號。

原生支援 MCP,為 Agent 時代而生

我尤其注意到,Qwen3 在專門評估模型 Agent 能力的 BFCL 評測中,全面重新整理了榜單記錄,不僅以 70.8 的分數完爆了 DeepSeek-R1(56.9),甚至大幅超越了閉源模型 Gemini2.5-Pro。

Qwen3 在 Agentic 能力方面做了大量的最佳化,包括不限於任務執行效率、響應結構和工具泛化能力等。也就是說,Qwen3 的設計理念,不再侷限於傳統的 ChatBot 問答對話視角,而是面向 Agent 化的任務型應用提供了模型層支撐。
甚至,Qwen3 還原生支援了 MCP 協議。
我們來看下官方放出的 Demo 展示:
在大模型如今“從對話走向執行”的關鍵節點,Qwen3 大幅強化了 Agent 能力,我覺得這是非常值得點讚的。
附 Qwen3 體驗傳送門(MCP 功能,也即將上線):
https://www.tongyi.com/

Qwen3 全家桶開源

需要強調的是,Qwen3 不是單個模型,而是一個全家桶,包含了 8 款不同尺寸的模型——

  • 6 款 Dense 模型: 最小引數 0.6B,依次是 1.7B、4B、8B、14B,到32B****,覆蓋了從端側到雲端的各種需求。
  • 2 款 MoE 模型:
    • Qwen3-30B-A3B: 300 億總引數,啟用引數 30 億。
    • Qwen3-235B-A22B: 2350 億引數,啟用引數 220 億。
實力最強的Qwen3-235B-A22B,也是這次釋出的旗艦模型。前面效能拉爆的就是這款。
當然,不只是旗艦版能打。其他 7 個模型在各自的量級裡,都是 SOTA 級別的存在。

關於開源,我還扒出一組資料——
阿里通義已開源 200 餘個模型,全球下載量超 3 億次,千問衍生模型數超 10 萬個,已超越美國 Llama,成為全球第一開源模型。
附 Qwen3 開源傳送門:
huggingface:
https://huggingface.co/Qwen/Qwen3-235B-A22B
魔搭社群:
https://modelscope.cn/models/Qwen/Qwen3-235B-A22B

Qwen3 新特性——混合推理

這次 Qwen3 還有一個新特性——混合推理,是國內首個支援這種機制的模型。
熟悉 Claude 的朋友都知道,Claude 3.7 Sonnet 是市場上首個“混合推理模型”,把快速響應和深入推理整合在一個模型中,使用者可以根據問題和任務靈活選擇是否要思考。
混合推理,簡單來說,就是一腦雙模,天生就會兩種工作模式:
  • 快問快答模式(非推理模式), 比如問一些簡單的問題,不需要邏輯推理,這種模式反應快、計算量小,主打一個效率,省時省力省算力。
  • 深度思考模式(推理模式),適合比較複雜,要拆解成小步驟,一步步地推演、論證的問題。
怎麼切換這兩種模式呢?
這裡阿里設計得很靈活,一種是硬開關控制, 你可以在呼叫模型的時候,直接設定一個引數 enable_thinking=True;還可以軟開關控制,在 enable_thinking=True 基礎上,透過/think 和/no_think 指令來開啟推理模式。
是不是有很多人和我一樣,有的時候著急要結果,只能看著巨長的思維鏈乾著急。這下解決了,我可以自己控制思考的最大 token 數。

只能說,這個設計太懂使用者痛點了。
把這兩種看似矛盾的能力和諧地統一在一個模型裡,看似簡單,實則一點兒不容易,否則就不用刻意分成倆模型了。
阿里自己也說了,這背後需要非常精密的訓練策略、巧妙的資料設計和複雜的損失函式排程,才能在同一模型中穩定掌握兩種截然不同的輸出分佈,最重要的是,模式切換時基本不損失效能。
這個是實打實地考驗在模型訓練方法論上積累的功力。
劃重點: 這次開源的 8 個模型,全部都支援“混合推理”機制!
除了效果之外,還有一個很值得關注的資訊。
根據官方放出的訊息,只需要 4 張英偉達的 H20 GPU,就能在本地把 235B 的 Qwen3 旗艦版 MoE 模型跑起來,直接把部署成本幹到了 DeepSeek-R1 的 35%。
H20 雖然不便宜,但相比之前動輒需要幾十上百張才能伺候的同級別巨獸,這個門檻可以說是快被按到地板上了。
除了自行部署外,也可透過阿里雲百鍊直接呼叫 API 服務。
阿里雲百鍊(Qwen3 即將上線):
https://www.aliyun.com/product/tongyi

結語

綜合來看,Qwen3 的釋出不僅是一次榜單突破,我覺得更是國產 AI 大模型從“對話”走向“執行”的一次關鍵躍遷。
無論是全面超越 DeepSeek R1 的硬核效能,還是原生支援 MCP 協議的 Agent 能力,亦或是混合推理機制和超低部署成本,Qwen3 都展現了一次恰到好處的升級迭代。
未來,隨著 Agent 時代的加速到來,Qwen3 或許將成為推動 AI 應用落地的核心引擎。
我們拭目以待。

相關文章