阿里千問3登頂全球最強開源模型，效能超越DeepSeek-R1、OpenAI-o1

阿里巴巴開源新一代通義千問模型 Qwen3，登頂全球最強開源模型。

4 月 29 日凌晨，阿里巴巴開源新一代通義千問模型 Qwen3（簡稱千問 3），引數量僅為 DeepSeek-R1 的 1/3，成本大幅下降，效能全面超越 R1、OpenAI-o1 等全球頂尖模型，登頂全球最強開源模型。千問 3 是國內首個「混合推理模型」，「快思考」與「慢思考」整合進同一個模型，對簡單需求可低算力「秒回」答案，對複雜問題可多步驟「深度思考」，大大節省算力消耗。

千問 3 採用混合專家（MoE）架構，總引數量 235B，啟用僅需 22B。千問 3 預訓練資料量達 36T，並在後訓練階段多輪強化學習，將非思考模式無縫整合到思考模型中。千問 3 在推理、指令遵循、工具呼叫、多語言能力等方面均大幅增強，即創下所有國產模型及全球開源模型的效能新高：在奧數水平的 AIME25 測評中，千問 3 斬獲 81.5 分，重新整理開源紀錄；在考察程式碼能力的 LiveCodeBench 評測中，千問 3 突破 70 分大關，表現甚至超過 Grok3；在評估模型人類偏好對齊的 ArenaHard 測評中，千問 3 以 95.6 分超越 OpenAI-o1 及 DeepSeek-R1。效能大幅提升的同時，千問 3 的部署成本還大幅下降，僅需 4 張 H20 即可部署千問 3 滿血版，視訊記憶體佔用僅為效能相近模型的三分之一。

千問 3 效能圖

千問 3 還提供了豐富的模型版本，包含 2 款 30B、235B 的 MoE 模型，以及 0.6B、1.7B、4B、8B、14B、32B 等 6 款密集模型，每款模型均斬獲同尺寸開源模型 SOTA（最佳效能）：千問 3 的 30B 引數 MoE 模型實現了 10 倍以上的模型效能槓桿提升，僅啟用 3B 就能媲美上代 Qwen2.5-32B 模型效能；千問 3 的稠密模型效能繼續突破，一半的引數量可實現同樣的高效能，如 32B 版本的千問 3 模型可跨級超越 Qwen2.5-72B 效能。

同時，所有千問 3 模型都是混合推理模型，API 可按需設定「思考預算」（即預期最大深度思考的 tokens 數量），進行不同程度的思考，靈活滿足 AI 應用和不同場景對效能和成本的多樣需求。比如，4B 模型是手機端的絕佳尺寸；8B 可在電腦和汽車端側絲滑部署應用；32B 最受企業大規模部署歡迎，有條件的開發者也可輕鬆上手。

Qwen3 開源模型家族

千問 3 為即將到來的智慧體 Agent 和大模型應用爆發提供了更好的支援。在評估模型 Agent 能力的 BFCL 評測中，千問 3 創下 70.8 的新高，超越 Gemini2.5-Pro、OpenAI-o1 等頂尖模型，將大幅降低 Agent 呼叫工具的門檻。同時，千問 3 原生支援 MCP 協議，並具備強大的工具呼叫（function calling）能力，結合封裝了工具呼叫模板和工具呼叫解析器的 Qwen-Agent 框架，將大大降低編碼複雜性，實現高效的手機及電腦 Agent 操作等任務。

據瞭解，千問 3 系列模型依舊採用寬鬆的 Apache2.0 協議開源，並首次支援 119 多種語言，全球開發者、研究機構和企業均可免費在魔搭社群、HuggingFace 等平臺下載模型並商用，也可以透過阿里雲百鍊呼叫千問 3 的 API 服務。個人使用者可立即透過通義 APP 直接體驗千問 3，夸克也即將全線接入千問 3。

據悉，阿里通義已開源 200 餘個模型，全球下載量超 3 億次，千問衍生模型數超 10 萬個，已超越美國 Llama，成為全球第一開源模型。

*頭圖來源：阿里雲

極客一問

你如何看待 Qwen3？