Qwen3釋出!超DeepSeekR1登頂開源榜,還帶來了跟R1不同配方

作者summer郵箱[email protected]
在所有人都在猜測DeepSeek V4或者R2和Qwen3誰先到來時,Qwen3釋出了。
4月29日凌晨,阿里巴巴開源了新一代通義千問Qwen3系列模型,涵蓋8款不同尺寸。其中,旗艦模型Qwen3 235B採用混合專家(MoE)架構,總引數量235B(僅為DeepSeek-R1的1/3),啟用引數僅需22B,預訓練資料量達36萬億Tokens。

效能上,據官方介紹,Qwen3在多項測評中表現優異,超越DeepSeek-R1、OpenAI-o1等主流模型,成為當前效能領先的開源大語言模型。

具體來看,Qwen3在推理、指令遵循、工具呼叫、多語言能力等方面均大幅增強:在奧數水平的AIME25測評中,Qwen3斬獲81.5分,重新整理開源紀錄;在考察程式碼能力的LiveCodeBench評測中,Qwen3突破70分大關,表現甚至超過Grok3;在評估模型人類偏好對齊的ArenaHard測評中,Qwen3以95.6分超越OpenAI-o1及DeepSeek-R1。
看慣了模型榜單表現上的反覆超越,但這次的Qwen3還有些不同,比起單純的模型邊界突破,Qwen3更想突出的是以小博大的能力。而且它在和DeepSeek輪流推動開源模型進步的過程中,再次給開源社群提供了與R1不同的配方。
1
沒完全用R1的方法,但完成了對R1的超越
和R1類似的是,Qwen3也走的是“用模型訓模型”的思路。
在預訓練階段,Qwen3的效能最佳化很重要的一個來源是大量高質的合成數據。
數量上看,Qwen3的資料集相比Qwen2.5有了顯著擴充套件。Qwen2.5是在 18 萬億個 token 上進行預訓練的,而 Qwen3 使用的資料量幾乎是其兩倍,達到了約 36 萬億個 token,涵蓋了 119 種語言和方言。其中一部分來自於PDF文件提取資訊,另一部分就是Qwen2.5系列模型合成的資料。
技術報告中明確提到,“我們使用 Qwen2.5-VL 從這些文件中提取文字,並用 Qwen2.5 改進提取內容的質量。為了增加數學和程式碼資料的數量,我們利用 Qwen2.5-Math 和 Qwen2.5-Coder 這兩個數學和程式碼領域的專家模型合成數據,合成了包括教科書、問答對以及程式碼片段等多種形式的資料。”
這也意味著,在預訓練的過程中,Qwen3藉助自身的生態優勢,又構建了一個自我迭代提升的資料系統。
預訓練奠定了Qwen3的基礎能力,而在此基礎上的後訓練階段則是Qwen3最為關鍵的技術創新,它透過多階段訓練方法實現了推理能力與直接回答能力的融合。

以上圖為例,同一模型內實現了思考和非思考模式。在官方的應用介面來看,選擇哪種模式的方法看起來還是讓使用者自己選擇,不過在選擇了深度思考模式後,使用者多了一個設定思考預算的功能,讓模型根據問題難度動態分配。
在後訓練上,Qwen3用了和R1整體pipeline類似的的“回鍋肉”式迭代:微調、RL、再微調,然後再更具體的RL。

它和DeepSeek一樣用大模型蒸餾小模型,不過Qwen徹底是自己蒸餾自己了。
另一個特別值得注意的是,第二階段RL,Qwen團隊採用的是基於規則的獎勵來增強模型的探索和鑽研能力。
“第二階段的重點是大規模強化學習,利用基於規則的獎勵來增強模型的探索和鑽研能力。”官方部落格寫到。這與當前被認為是DeepSeek R1等模型成功關鍵的GRPO(基於結果獎勵的最佳化)形成鮮明對比。Qwen3沒有完全依賴GRPO這樣基於結果的獎勵機制。
緊接著,在第三階段的微調中,Qwen3採用了一份長思維鏈資料和常用的指令微調資料的組合資料上對模型進行微調,實現了將非思考模式整合到思考模型中,確保了推理和快速響應能力的無縫結合。
最後,在第四階段,Qwen3在包括指令遵循、格式遵循和 Agent 能力等在內的 20 多個通用領域的任務上應用了強化學習。
Qwen3沒有完全用R1的方法,但完成了對R1的超越。
1
模型全尺寸,但引數正在“變小”
和Qwen此前的生態路線一樣,Qwen3一口氣釋出了8款不同的模型版本,包含2款30B、235B的MoE模型,以及0.6B、1.7B、4B、8B、14B、32B等6款密集模型,每款模型均斬獲同尺寸開源模型SOTA(最佳效能)。
這次的全尺寸,果然沒有讓期待已久的社群失望,歡呼聲一片。
MLX 是專為 Apple Silicon設計的高效機器學習框架。在模型釋出前,MLX的團隊就完成了對Qwen 3的支援工作。其中0.6B和4B可以應用於手機,8B、30B、30B MOE可用於電腦……

尺寸全是一方面。更重要的是Qwen在不斷以更多、更小的尺寸,達到過去更大尺寸同樣的效能效果。在很多場景下,模型都具備了在端側執行的能力和水平。
據官方部落格顯示,Qwen3的30B引數MoE模型實現了10倍以上的模型效能槓桿提升,僅啟用3B就能媲美上代Qwen2.5-32B模型效能;Qwen3的稠密模型效能繼續突破,一半的引數量可實現同樣的高效能,如32B版本的Qwen3模型可跨級超越Qwen2.5-72B效能。

Qwen3顯然是個能讓開源界好好把玩和拆解一段時間的最熱門模型,接下來它更全面的技術報告發布後,估計會揭秘更多“獨家配方”,繼續推動開源模型的進步和創新。

點個愛心,再走


相關文章