Qwen全面升級非思考模型,3B啟用、256K長文、效能直逼GPT-4o

henry 發自 凹非寺量子位 | 公眾號 QbitAI
Happy QwensWeek果然名不虛傳。
Qwen的基礎模型接連開源,現在全新非思考模型Qwen3-30B-A3B-Instruct-2507也閃電上線。
僅啟用3B引數,就能取得媲美Gemini 2.5-Flash(non-thinking)、GPT-4o等頂尖閉源模型的超強效能。
相較前代的非思考模型Qwen3-30B-A3B Non-Thinking,這次“小更新”使模型的通用能力方面得到了關鍵提升。
其中,模型的推理能力(AIME25)提升了183.8%,而對其能力(Arena-Hard v2)則提升了178.2%。此外,模型的長文字處理能力也由前代的128K提升至256K。
可以說,這款新模型就像Qwen團隊說的:“更輕、更強、更好用!
這麼一波操作下來,網友都覺得“太瘋狂”:哥,你慢點!

小更新、大不同

正如開頭提到的,相較於前代非思考模型,Qwen3-30B-A3B-Instruct-2507在推理能力和對齊能力方面實現了大幅躍升,長文字處理能力也從128K提升至256K。
除此之外,模型在多語言長尾知識覆蓋、主觀與開放任務的文字質量、程式碼生成、數學計算、工具使用等通用能力上也表現出全面進步,展現出更強的通用性與實用性。
作為Qwen3系列Qwen3-30B-A3B的高質量指令微調版本,其不再有<think>塊,完全以非思考模式執行。
相較於基礎模型,Qwen3-30B-A3B-Instruct-2507更注重穩態輸出與一致性,適合穩定生產環境部署。具備更強的對齊性、指令遵循能力和長文字處理能力,適合直接服務於更復雜、更真實的人機互動應用。
在網友的內部基準測試中,直觀地體現了Qwen3-30B-A3B-Instruct-2507的上述優勢:
面對從海量文件中提取支援某一主題的全部證據這一任務,Qwen3-30B-A3B-Instruct-2507不僅超越了網友此前使用過的所有模型,還有效解決了諸如對話輪次耗盡、工具呼叫失敗、資訊遺漏與誤檢等常見問題。
相比之下,其他模型往往會在處理長文字時出現大面積內容丟失,而Qwen3-30B-A3B-Instruct-2507在極端情況下也僅偶爾遺漏少量文件,展現出驚人的穩定性和精度
這一效能的背後,正是Qwen3-30B-A3B-Instruct-2507在長文字處理能力方面的核心優勢。得益於其支援256K的上下文視窗以及更穩健的長程依賴建模能力,模型能夠“讀懂並記住”龐大的輸入資訊,保持語義連貫、細節清晰。
同時,它還具備更強的推理能力與檢索呼叫策略,從而在複雜任務中實現高效、精準的資訊整合與輸出,真正體現了其在大規模文件理解和多步推理場景下的實用價值。

Qwen3家族

在最近的一週多時間裡,Qwen一口氣放出了好幾款模型:
  • 07.30:Qwen3-30B-A3B-Instruct-2507(Qwen3-30B-A3B 非思考模式的更新版本)
  • 07.25:Qwen3-235B-A22B-Thinking-2507(Qwen3-235B-A22B 思考模式的更新版本)
  • 07.22:Qwen3-Coder-480B-A35B-Instruct(Qwen3-Coder)
  • 07.21:Qwen3-235B-A22B-Instruct-2507(Qwen3-235B-A22B 非思考模式的更新版本)
在網友們驚歎阿里速度的同時,Qwen系列的命名乍一看也讓人眼花繚亂。
不過,如果你仔細觀察,就會發現Qwen的命名樸素得像一份顯示卡驅動版本號,毫無感情,只有資訊。
以今天的主角Qwen3-30B-A3B-Instruct-2507為例,這個命名錶達的是:
  • Qwen3:第三代千問模型
  • 30B:總引數量為30B(Billion=十億)
  • A3B:啟用引數為3B
  • Instruct-2507:指令微調版本,釋出時間為2025年7月。
如果我們回顧整個Qwen3(Qwen3-2504)系列,基礎模型又根據引數量和啟用引數量分為兩條主線:
  • 旗艦模型Qwen3-235B-A22B:235B總引數,22B啟用引數。
  • 較小的MoE模型Qwen3-30B-A3B:30B總引數,3B啟用引數(另有預訓練版本Qwen3-30B-A3B-Base)
針對不同的理場景和硬體資源,Qwen3系列還包含了不同大小的密集(Dense)模型(從0.6B到32B)。
此外,為應對不同的場景,Qwen3還推出了不同的量化策略版本,如FP8、Int4、AWQ、GGUF、GPTQ等。
可以說,只要能細化,Qwen3就不用你動手(顆粒度這一塊,拿捏!)
所以,與其說Qwen3是一個模型系列,不如說它是一個“模型矩陣”:規格全、命名清、版本多。
橫跨引數規模、精度格式、訓練型別幾乎所有維度,適配了從研究到應用、從大廠叢集到邊緣部署的各種需求。
一句話總結:你只管問,Qwen3已經準備好了。
參考連結:[1]https://x.com/Alibaba_Qwen/status/1950227114793586867[2]https://www.reddit.com/r/LocalLLaMA/comments/1mcg4qt/qwen330ba3b_small_update/[3]https://modelscope.cn/models/Qwen/Qwen3-30B-A3B-Instruct-2507[4]https://huggingface.co/Qwen/Qwen3-30B-A3B-Instruct-2507
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!
—  —
量子位「AI 100」產品榜單啟動招募!
快來提名你心目裡的百強產品~

🌟 點亮星標 🌟
科技前沿進展每日見

相關文章