當了這麼久“汪峰”,阿里的Qwen3終於喜提熱搜了…

當了這麼多年 AI 界的汪峰,阿里 Qwen3 這回終於上了一把熱搜。

距離 2.5 釋出才過去 7 個月,就在今天凌晨,千問又掏出來了全新的開源全家桶,包含六款 Dense( 稠密 )模型和兩款 MoE( 混合專家 )模型,能支援 119 種語言和方言。
比起 Qwen2.5 最高 72B 的引數量,千問這回的旗艦模型 Qwen3-235B-A22B 打出超級加倍,總引數量達到了龐大的 235B。

根據官方放出來的測試結果,Qwen3 在多個測試集上的表現毫不遜色國內外主流大模型,尤其是在程式碼和數學方面略勝一籌。

具體它的表現如何,我們也上手小測了一波旗艦模型 Qwen3-235B-A22B。

總的來說,使用體驗很不錯,而且在針對深度思考功能的設計上還有一些小巧思。

之前大家總嫌大模型一加深度思考就根本停不下來,想的時間太久,給的答案太細。但是不加深度思考嘛,答案的質量上又差點意思。

這回 Qwen3 把指揮棒交到使用者手裡,你讓它想到啥程度都可以,大大提高了模型的靈活性。

不過,簡單題讓它簡單想,難題還是得讓它多琢磨琢磨。我們在測試中發現,不同的思考長度對模型的表現影響還是很明顯的。

舉個栗子,為了測試它的程式碼能力,我們想讓 Qwen3 寫個小遊戲。

給出的提示詞很簡單直接,讓它寫一個網頁上的俄羅斯方塊。其他各種遊戲玩法、互動、美術相關的細節,那不是人類該操心的事,讓千問透過深度思考自己解決去。
而當思考長度設定在 1024 token 的時候,千問像個剛開始學程式碼的清澈大學生。給出的程式存在少量 bug,根本玩不起來。

但預算拉滿之後,它成了熟練的老碼農,只花幾分鐘就能搓出來一個完全體俄羅斯方塊。

接下來,我們讓中文網際網路上難度最高深莫測的邏輯測試集開始表演:
“平時燒水很麻煩,為什麼不一次性燒好多水然後凍起來,等需要的時候再拿出來呢?”
在關閉深度思考的時候,模型還會一本正經地胡說八道:

《節省時間》、《節能》、《確實方便》,說得這麼有理有據,我信了。

而一旦啟動深度思考,模型一眼看出來這就是個奇葩問題,直接對邏輯提出異議。
前段時間,OpenAI 在 o3 的官方文件中就表示,它們發現模型的推理時間越長,效果越好。

而 Qwen3 的這些個例子算是證明了,透過更長時間的深度思考,大模型確實智商猛漲。

另外,既然程式碼和邏輯都難不住它,那就再試試千問在多模態上的表現咋樣。
前一陣子 GPT-o3 的圖片推理都讓大家夥兒脊背一涼,這次大升級的 Qwen3 也會成為開盒神器嗎?

會的兄弟,會的。

有的差友可能還記得,前不久我們做了一期 o3 開盒,它靠著民宿的招牌定位到了夢想小鎮。
這回 Qwen3 更離譜,下面這張照片裡沒有一個字,你知道它是用什麼驗證猜測的嗎?
沒錯,是照片左側的一個愛心雕塑。怕大家看不出來,我特意在上面用紅框圈了一下,沒注意的差友可以再仔細找找。

這回不能說人家靠照片內建資訊作弊了,千問開盒和馬斯克的智駕一樣,純視覺。

除了以上這些傳統藝能,Qwen3 還追上了 MCP 的熱潮。雖然目前還在測試中沒有開放,但官方秀出了兩個案例。
給它一個 Github 庫,千問可以自己去瀏覽查詢網頁上的資訊,總結每個專案的 star 數,再畫出柱狀圖。
讓它分類歸納亂亂的桌面檔案也是小菜一碟。
先幫你把資料夾建立好,然後一秒合併同類項,縱享絲滑。

我只想說:這些功能什麼時候上線?自動收集資料作圖是真實存在的嗎,摸魚星人狠狠心動了!

測試看完了,有的差友可能對 Qwen3 的技術細節還有點疑惑:它到底跟之前的大模型都有啥區別?

簡單來說,之前的大模型,推理和快速回答都是分開的。比如 DeepSeek-R1 和 GPT-o3 屬於推理模型,而 DeepSeek-V3 和 GPT-4o 負責快速響應。

現在的 Qwen3-235B-A22B,則是一個“ 混合推理模型 ”,相當於 R1+V3,o3+4o。
但模型加功能可不是做個加法這麼簡單。Qwen3 具體是怎麼訓練出來這個二合一模型的呢?

官方在文件裡展示的後訓練四步走,解答了這個問題。

謎底就在 post-training 第三階段,Qwen3 把長思維鏈的資料和普通的常用指令放在一起對模型進行了微調。
這樣就可以把快速回答模式整合到深度思考模型中,確保推理和快速響應能力的無縫結合。
Qwen3 post-training 四階段

目前,這種混合大模型,國外有個閉源 Claude 3.7 Sonnet,而國內只千問一家,團隊還把它慷慨開源了!

說到這裡,有的小夥伴肯定已經在摩拳擦掌準備衝了。
但這 235B 的引數量是不是看起來有點。。。

別慌,MoE 模型有一個大大的好處就是,解答問題不用全員上陣,大部分員工都在休息,所以每次啟用的引數量並不大,只有 22B,而真正吃效能的,也只有這 22B。

也就是說,速度更快,成本更低了。官方表示,部署 Qwen3-235B-A22B 只需要 DeepSeek-R1 35% 的成本。
而 Qwen3 剛一上線也是備受關注,迅速攀升 Hugging Face 熱搜榜。
這回千問團隊同樣提供了不同規模的蒸餾模型,一共 8 款任君挑選,最小的 0.6B 模型在移動端都能跑,總有一個符合你的需求。

我們也把 0.6B 的版本的 Qwen3,迅速部署到了手機上,試用了一下,效果還挺樂的:

不過這已經是最小的模型了嘛,要求不能太高,至少好玩。
總的來說,這一次的 Qwen3 更新,又給大模型的開源圈帶來了一大波狠貨。

Qwen 在大模型開源圈兒的地位,也進一步得到了鞏固,按照阿里雲官方說法,在開源圈發育了這麼久,目前千問的衍生模型已經超 10 萬個,全球下載量超 3 了億次,甚至把之前的開源第一 Llama 系列都甩在了後頭。

甚至在某種程度上,AI 圈處處都有千問的影子。
比如,為啥叫千問 AI 圈汪峰呢?因為它每次出新品的時候,總被更狠的活兒壓下去。
Qwen2.5-Max 撞了 DeepSeek-R1, 3 月 QwQ-32B 又撞 Manus。

但其實,DeepSeek-R1 論文中的蒸餾模型案例,是透過千問和 Llama 整的;Manus 的創始人也公開表示,他們的產品也用了是在千問的基礎上微調開發的。

所以,雖然這個熱搜遲到了,但通義千問在國產大模型的發展歷程中,其實一直沒咋缺席。
最後,求求 DeepSeek 再加個速吧,R2已經等不及辣!
撰文:莫莫莫甜甜
編輯:江江 & 面線
美編:煥妍
圖片、資料來源:
莫莫實測、不咕實測 
http://qwenlm.github.io/blog/qwen3/ https://github.com/QwenLM/Qwen3
https://www.usenix.org/system/files/atc23-zhai.pdf
https://huggingface.co/ https://ollama.com/library/deepseek-r1:8b
https://arxiv.org/pdf/2501.12948
https://baijiahao.baidu.com/s?id=1826262065502821151&wfr=spider&for=pc https://openai.com/index/introducing-o3-and-o4-mini/


相關文章