阿里千問3登頂全球最強開源模型,效能超越DeepSeek-R1、OpenAI-o1


阿里巴巴開源新一代通義千問模型 Qwen3,登頂全球最強開源模型。
4 月 29 日凌晨,阿里巴巴開源新一代通義千問模型 Qwen3(簡稱千問 3),引數量僅為 DeepSeek-R1 的 1/3,成本大幅下降,效能全面超越 R1、OpenAI-o1 等全球頂尖模型,登頂全球最強開源模型。千問 3 是國內首個「混合推理模型」,「快思考」與「慢思考」整合進同一個模型,對簡單需求可低算力「秒回」答案,對複雜問題可多步驟「深度思考」,大大節省算力消耗。
千問 3 採用混合專家(MoE)架構,總引數量 235B,啟用僅需 22B。千問 3 預訓練資料量達 36T,並在後訓練階段多輪強化學習,將非思考模式無縫整合到思考模型中。千問 3 在推理、指令遵循、工具呼叫、多語言能力等方面均大幅增強,即創下所有國產模型及全球開源模型的效能新高:在奧數水平的 AIME25 測評中,千問 3 斬獲 81.5 分,重新整理開源紀錄;在考察程式碼能力的 LiveCodeBench 評測中,千問 3 突破 70 分大關,表現甚至超過 Grok3;在評估模型人類偏好對齊的 ArenaHard 測評中,千問 3 以 95.6 分超越 OpenAI-o1 及 DeepSeek-R1。效能大幅提升的同時,千問 3 的部署成本還大幅下降,僅需 4 張 H20 即可部署千問 3 滿血版,視訊記憶體佔用僅為效能相近模型的三分之一。

千問 3 效能圖

千問 3 還提供了豐富的模型版本,包含 2 款 30B、235B 的 MoE 模型,以及 0.6B、1.7B、4B、8B、14B、32B 等 6 款密集模型,每款模型均斬獲同尺寸開源模型 SOTA(最佳效能):千問 3 的 30B 引數 MoE 模型實現了 10 倍以上的模型效能槓桿提升,僅啟用 3B 就能媲美上代 Qwen2.5-32B 模型效能;千問 3 的稠密模型效能繼續突破,一半的引數量可實現同樣的高效能,如 32B 版本的千問 3 模型可跨級超越 Qwen2.5-72B 效能。
同時,所有千問 3 模型都是混合推理模型,API 可按需設定「思考預算」(即預期最大深度思考的 tokens 數量),進行不同程度的思考,靈活滿足 AI 應用和不同場景對效能和成本的多樣需求。比如,4B 模型是手機端的絕佳尺寸;8B 可在電腦和汽車端側絲滑部署應用;32B 最受企業大規模部署歡迎,有條件的開發者也可輕鬆上手。

Qwen3 開源模型家族

千問 3 為即將到來的智慧體 Agent 和大模型應用爆發提供了更好的支援。在評估模型 Agent 能力的 BFCL 評測中,千問 3 創下 70.8 的新高,超越 Gemini2.5-Pro、OpenAI-o1 等頂尖模型,將大幅降低 Agent 呼叫工具的門檻。同時,千問 3 原生支援 MCP 協議,並具備強大的工具呼叫(function calling)能力,結合封裝了工具呼叫模板和工具呼叫解析器的 Qwen-Agent 框架,將大大降低編碼複雜性,實現高效的手機及電腦 Agent 操作等任務。
據瞭解,千問 3 系列模型依舊採用寬鬆的 Apache2.0 協議開源,並首次支援 119 多種語言,全球開發者、研究機構和企業均可免費在魔搭社群、HuggingFace 等平臺下載模型並商用,也可以透過阿里雲百鍊呼叫千問 3 的 API 服務。個人使用者可立即透過通義 APP 直接體驗千問 3,夸克也即將全線接入千問 3。
據悉,阿里通義已開源 200 餘個模型,全球下載量超 3 億次,千問衍生模型數超 10 萬個,已超越美國 Llama,成為全球第一開源模型。
*頭圖來源:阿里雲
極客一問
你如何看待 Qwen3

熱點影片

蘋果 2027 年,或推出紀念版 iPhone,將有兩款手機推出。
點贊關注極客公園影片號
觀看更多精彩影片

更多閱讀


相關文章