

作者 | 程茜
編輯 | 心緣
阿里通義大模型新成員Qwen3系列模型終於亮相!
智東西4月29日報道,今日凌晨4點,阿里雲正式開源Qwen3系列模型,包含2個MoE模型、6個稠密模型。釋出2小時,Qwen3模型在GitHub上的star數已超過16.9k。

其中旗艦模型Qwen3-235B-A22B,在程式設計、數學、通用能力等基準評估中的表現優於DeepSeek-R1、OpenAI o1、OpenAI o3-mini、Grok-3和Gemini-2.5-Pro等業界知名模型。

此次全新升級的Qwen3系列有以下5大關鍵特性:
8種引數大小的稠密與MoE模型:0.6B、1.7B、4B、8B、14B、32B和Qwen3-235B-A22B(2350億總引數和220億啟用引數)、Qwen3-30B-A3B(300億總引數和30億啟用引數);
引入混合思考模式:使用者可切換“思考模式、“非思考模式”,自己控制思考程度;
推理能力提升:在數學、程式碼生成和常識邏輯推理方面超越QwQ(在思考模式下)和Qwen2.5 instruct models(在非思考模式下);
支援MCP(模型上下文協議),Agent能力提升:可以在思考和非思考模式下實現大語言模型與外部資料來源和工具的整合,並完成複雜任務;
支援119種語言和方言:具備多語言理解、推理、指令跟隨和生成能力。

目前,Qwen3系列模型已在Hugging Face、ModelScope和Kaggle等平臺上開源,均遵循Apache 2.0許可證。在部署方面,其部落格提到,建議開發者使用SGLang和vLLM等框架,並推薦本地部署的開發者使用Ollama、LMStudio、MLX、llama.cpp等工具。
值得一提的是,Qwen3模型採用了不同的命名方案,後訓練模型不再使用“-Instruct”字尾,基礎模型的字尾是“-Base”。
體驗地址:
https://chat.qwen.ai/
部落格地址:
https://qwenlm.github.io/blog/qwen3/
GitHub地址:
https://github.com/QwenLM/Qwen3
Hugging Face地址:
https://huggingface.co/collections/Qwen/qwen3-67dd247413f0e2e4f653967f
01.
以小搏大!啟用引數僅1/10
實現效能反超
6個稠密模型中,0.6B~4B引數規模的模型上下文長度為32K,8B~32B引數規模的模型上下文長度為128K。

2個MoE模型的上下文長度均為128K。

小型MoE模型Qwen3-30B-A3B,在啟用引數是QwQ-32B的1/10的情況下,實現了效能反超。且引數規模更小的Qwen3-4B模型,實現了與Qwen2.5-72B-Instruct的效能相當。


其他基準測試評估結果顯示,Qwen3-1.7B/4B/8B/14B/32B-Base的效能分別與Qwen2.5-3B/7B/14B/32B/72B-Base相當。
其部落格還特別提到,在STEM、程式設計和推理等領域,Qwen3稠密模型的效能甚至優於引數規模更大的Qwen2.5系列模型。

▲Qwen3系列與Qwen2.5系列基準測試對比
02.
引入混合思考模式
支援119種語言、MCP協議
Qwen3系列模型的關鍵特性包括引入混合思維模式、支援119種語言和方言、整合MCP協議以提升Agent能力。
其中,混合思維模式指的是支援思考和非思考兩種模式。
思考模式下,模型會逐步推理,花費時間給出最終答案,這適用於需要深入思考的複雜問題;非思考模式下,模型提供快速、幾乎瞬間的響應,適用於對響應速度敏感的問題。

▲思考和非思考模式對比
這使得使用者可以根據任務需求控制模型進行的“思考”程度。例如,對於更難的問題可以使用擴充套件推理來解決,而對於較簡單的問題則可以直接回答,無需延遲。
此外,這兩種模式的整合還增強了模型實施穩定和高效思考預算控制的能力,這種設計使使用者能夠配置特定任務的預算,平衡實現成本效率和推理質量。
在多語言方面,Qwen3模型支援119種語言和方言。

此外,Qwen3系列模型在程式設計和Agent能力方面效能提升,集成了MCP協議。
03.
預訓練資料集翻番
模型兼顧逐步推理、快速響應
與Qwen2.5相比,Qwen3的預訓練資料集大小翻了兩倍。
Qwen2.5在1800億個token上進行預訓練,Qwen3基於大約3600億個token進行預訓練。
為了這一大型資料集,研發人員收集了網路資料、PDF文件資料等,然後使用Qwen2.5-VL從這些文件中提取文字,並使用Qwen2.5提高提取內容的質量。同時,為了增加數學和程式碼資料量,研發人員使用了Qwen2.5-Math和Qwen2.5-Coder來生成教科書、問答對和程式碼片段等合成數據。
預訓練過程分為三個階段:
在第一階段,模型在超過3000億個token上進行了預訓練,上下文長度為4K個token。這一階段為模型提供了基本語言技能和一般知識;在第二階段,其透過增加STEM、程式設計和推理任務等知識密集型資料的比例來改進資料集,並讓模型在額外的500億個token上進行預訓練;第三階段,研發人員使用高質量的長上下文資料將上下文長度擴充套件到32K個token,使得模型可以處理較長的輸入。
在後訓練階段,為了開發既能逐步推理又能快速響應的混合模型,研發人員採取了四階段訓練流程:思維鏈(CoT)冷啟動、基於推理的強化學習、思維模式融合、通用強化學習。

第一階段,其使用多樣化的長思維鏈資料微調模型,涵蓋各種任務和領域,如數學、程式設計、邏輯推理和STEM問題,這個過程旨在使模型具備基本的推理能力。
第二階段專注於擴大強化學習的計算資源,利用基於規則的獎勵來增強模型的探索和利用能力。
第三階段,透過在長思維鏈資料和常用指令微調資料組合上微調,將非思考能力整合到思考模型中。這些資料由第二階段增強的思考模型生成,確保推理能力和快速響應能力的無縫融合。
第四階段,其將強化學習應用於超過20個通用領域任務,包括指令遵循、格式遵循和Agent能力等任務,以進一步增強模型的一般能力和糾正不良行為。
04.
結語:Agent生態爆發前夜
最佳化模型架構和訓練方法推進智慧升級
透過擴大預訓練和強化學習的規模,可以看到Qwen3系列模型以更小的引數規模實現了更高的智慧水平,其整合的混合思考模式,使得開發者能更靈活控制模型預算。
研發人員還提到,未來其將圍繞以下幾個維度繼續提升模型能力:最佳化模型架構和訓練方法,以實現擴充套件資料規模、增加模型大小、延長上下文長度、拓寬模態的目標,並透過環境反饋推進長期推理的強化學習。
如今,AI產業正從關注模型訓練的時代過渡到一個以訓練Agent為中心的時代,未來大模型能力的實際應用價值將逐漸被放大,通義大模型系列也正以此為目標繼續推進升級。

(本文系網易新聞•網易號特色內容激勵計劃簽約賬號【智東西】原創內容,未經賬號授權,禁止隨意轉載。)
