2025 年 4 月 29 日,阿里巴巴人工智慧團隊通義千問推出最新的開源大型語言模型系列:Qwen3。根據通義千問團隊的介紹,該模型在架構、訓練資料、推理效率、多模態能力等多方面實現顯著提升,為學術研究、產業應用和開源社群注入新活力。
通義千問團隊提供的權重包括旗艦版 Qwen3-235B-A22B,該模型在程式設計、數學和通用能力等基準測試中,與 DeepSeek-R1、GPT-o1、GPT-o3-mini、Grok-3 和 Gemini-2.5-Pro 相比取得極具競爭力的優勢。
而 Qwen3 的小型 MoE 架構模型 Qwen3-30B-A3B 啟用引數量是 QwQ-32B 的 10 倍,得益於混合專家模式,即便是 Qwen3-4B 這類微型模型,其效能也可以與 Qwen2.5-72B-Instruct 相媲美。

Qwen3 在模型架構方面的優勢:
在模型架構上通義千問團隊進行深度最佳化,相較於前代產品也就是 Qwen2.5 系列,引入更加先進的 Transformer 變體設計。Qwen3 採用混合專家架構的部分思想,透過動態分配計算資源而顯著降低推理時的計算成本,同時還可以保持甚至提升模型能力。
這種設計使得 Qwen3 在處理複雜任務時能夠以更低的能耗實現更高的吞吐量,為大規模部署提供了可能。此外 Qwen3 提供多種尺寸選擇,包括小型的 3B 引數模型到超大型的 72B 引數模型,滿足開發者和企業在不同場景的使用需求,尤其是在資源受限的環境中。
Qwen3 的多模態能力全面升級:
該模型不僅在自然語言處理方面表現出色,還在多模態能力上取得突破性進展,Qwen3 增強對文字、影像、音訊和影片的統一處理能力,該模型使用統一多模態編碼技術 (Unified Multimodal Encoding),透過單一模型架構實現多模態輸入的深度融合,從而在視覺推理、語音互動、影片分析等任務中展現出卓越效能。
例如在視覺推理任務中,Qwen3 能夠精準解析複雜影像中的數學公式、表格和文字內容,並結合上下文進行邏輯推理,這種能力在教育、科研和內容創作等領域具有廣泛的應用前景。Qwen3 支援即時語音生成和影片流處理,因此在智慧客服、虛擬助手和多媒體內容生成等場景中表現出色。
Qwen3 的訓練資料多樣化和規模化:
該模型的預訓練資料集覆蓋超過 30 種語言幷包含高達數萬億 token 的多模態資料,包括但不限於文字、影像、音訊和影片等多種形式。Qwen3 在中文和英文資料方面的最佳化尤為突出,使其在多語言任務中表現出色,尤其是中英文混合場景下的語義理解和生成能力。
為了減少模型偏見,開發團隊還在資料清洗和質量控制方面投入了大量精力,透過自動化和人工稽核相結合的方式,確保訓練資料的多樣性和可靠性,以此減少模型偏見並提升模型在敏感任務中的魯棒性。
開源生態領域的繼續擴充套件:
Qwen3 基於 Apache 2.0 許可協議釋出,這意味著無論是個人還是企業都可以自由使用 Qwen3 模型並進行修改和商業化,與 Meta Llama 複雜的許可協議相比,Qwen 系列模型的寬鬆許可模式有助於人工智慧開源社群的進一步發展。
下面是 Qwen3 不同權重和對應的上下文長度:
Qwen3-0.6B:32K
Qwen3-1.7B:32K
Qwen3-4B:32K
Qwen3-8B:128K
Qwen3-14B:128K
Qwen3-32B:128K
Qwen3 系列模型在上下文處理能力方面優化了注意力機制並引入分塊預填充技術,該技術大幅度降低長序列推理的記憶體佔用,因此 Qwen3 能夠高效處理超長文件、程式碼庫分析和多輪對話等任務,為企業級應用提供強有力的支撐。
目前該模型已經在通義千問英文版 AI 平臺提供線上對話,同時開源權重模型也已經在 HuggingFace 等平臺釋出,有興趣的使用者可以下載 Qwen3 模型進行本地測試、除錯和部署。
線上對話:https://chat.qwen.ai/
模型下載:https://huggingface.co/collections/Qwen/qwen3-67dd247413f0e2e4f653967f