新智元報道
新智元報道
編輯:編輯部 HNYZ
【新智元導讀】僅用32B,就擊敗o1-mini追平671B滿血版DeepSeek-R1!阿里深夜重磅釋出的QwQ-32B,再次讓全球開發者陷入狂歡:消費級顯示卡就能跑,還一下子幹到推理模型天花板!
凌晨,阿里重磅開源全球最頂尖AI模型——通義千問QwQ-32B推理模型。
它僅用320億引數,便與目前公認的開源最強6710億引數的滿血版DeepSeek-R1(370億被啟用)相媲美。
甚至,QwQ-32B在多項基準測試中全面超越o1-mini。
更令人興奮的是,任何人能夠直接在搭載消費級顯示卡的電腦或者Mac上體驗滿血版效能。(終於,我們的5090D派上用場了

)



左右滑動檢視
更有開發者驚呼:AI模型徹底進入全民普及階段!
如此來看,QwQ-32B簡直堪稱「推理能力天花板」與「實用性典範」的完美結合。
蘋果機器學習研究員Awni Hannun用搭載MLX架構的M4 Max筆記本去跑QwQ-32B,結果發現執行非常流暢。

如下是在8k token上的長思維過程:
已經是上上代旗艦的3090 Ti,跑起模型來也非常之快——輸出速度可達30+token/s。

目前,阿里以寬鬆的Apache2.0協議將QwQ-32B全面開源,全球開發者與企業均可免費下載、商用。


魔搭社群:
https://modelscope.cn/models/Qwen/QwQ-32B
Hugging Face:
https://huggingface.co/Qwen/QwQ-32B
當然了,所有人皆可透過通義APP免費體驗最新的千問QwQ-32B模型,開啟方式——Qwen2.5 Plus+Thinking(QwQ)。


體驗地址:
https://chat.qwen.ai/?models=Qwen2.5-Plus
開源新王誕生,32B媲美DeepSeek-R1
QwQ-32B到底有多強?我們用資料來說話——
在數學AIME 2024評測集,以及評估程式碼LiveCodeBenc基準上,QwQ-32B均與DeepSeek-R1旗鼓相當。
而且,其效能遠超o1-mini,甚至是相同尺寸基於Qwen系列蒸餾出的R1模型。
在LeCun領銜的「最難LLMs評測榜」LiveBench、谷歌等提出的指令遵循能力IFEval評測集、由UC伯克利等提出的評估準確呼叫函式或工具方面的BFCL測試中,QwQ-32B得分均超越了DeepSeek- R1。
總的來說,QwQ-32B在數學、程式設計、通用能力方面取得了領先優勢。

正是透過RL的Scaling,QwQ-32B才能實現能與DeepSeek-R1相匹敵的效能。
艾倫人工智慧研究所大佬Nathan Lambert發自內心地讚歎:「QwQ-32B是給RL純粹主義者最好的禮物。」
大佬開始仔細研讀阿里放出的官方材料,並且敲桌板表示:我們需要更多論文!

接下來,是對QwQ-32B的最新實測。
我們已經部署在電腦裡了
首先,來一段難度不低的數學題。
n個點在一個圓中,點出現在圓中的位置是隨機的,求這些點出現在同一個半圓內的機率。
QwQ-32B在經過一大長串的思考之後,給出了正確答案。

同一道題,我們也在本地部署的Q4量化模型上進行了驗證。
雖然因為沒最佳化本地環境導致輸出較慢,但QwQ-32B依然一次就做對了。

而OpenAI o3-mini-high可能覺得這道題非常簡單,只思考了幾秒,就開始作答。
最後,果不其然答錯了。

上下滑動檢視
接下來是一道微積分,看它能不能解決高等數學問題。
可以看出,不管是本地部署的還是線上的QwQ-32B,都有著邏輯嚴謹、步驟清晰的解題過程。
從明確目標到巧妙變數代換u = xe^x,再到逐步推導和結果驗證,成功將複雜積分轉化為簡單的對數形式,結果完全正確!


同樣的提示給到蒸餾版DeepSeek-R1-32B。
可以看到,它在經過了漫長的思考之後,並沒有做對。

而最有趣的,還得是OpenAI o1。
它不僅答案不對,而且兩次都只說了個思路,剩下的……你自己去解吧。

再上一道推理題。
一群人開舞會,每人頭上都戴著一頂帽子帽子只有黑白兩種,黑的至少有一頂。每個人都能看到其它人帽子的顏色,卻看不到自己的主持人。先讓大家看看別人頭上戴的是什麼帽子,然後關燈,如果有人認為自己戴的是黑帽子就打自己一個耳光。第一次關燈,沒有聲音於是再開燈,大家再看一遍,關燈時仍然鴉雀無聲。一直到第三次關燈,才有劈劈啪啪打耳光的聲音響起。問有多少人戴著黑帽子?
在思考過程中,QwQ-32B進行了邏輯嚴密的推斷。

上下滑動檢視
最終,它給出了正確答案:3人戴著黑帽子。

本地模型同樣回答正確。

而在實測過QwQ-32B的寫作能力後,我們忍不住讚歎:國內的大模型中,又出了一個思想和文筆俱佳的文科生!
此前,DeepSeek-R1仿《過秦論》的風格寫出的《過美利堅論》技驚四座,文采斐然。
現在讓QwQ-32B接受同樣的考驗。
可以看到,它首先分析了賈誼《過秦論》的特點——多用排比、對仗,氣勢磅礴,語言犀利。然後想到,自己需要考慮如何將美國的歷史事件與《過秦論》的結構對應起來。
難點就在於,要用文言文準確表達一些現代概念,還要保證論點有邏輯性、層層遞進。

一番思考之後,QwQ-32B給出的回答果然精彩,文采絲毫不輸DeepSeek-R1。

相比之下,用於技術驗證的蒸餾版DeepSeek-R1-32B,在文采上就要稍遜一籌了。

另一個DeepSeek-R1驚豔全網的「續寫紅樓夢後八十回」,我們也把同樣的題交給了QwQ-32B,讓它續寫紅樓夢的第八十一回。
它在思考過程中,考慮到自己需要延續前作細膩的描寫、複雜的人物關係和隱喻,還要回應埋下的伏筆,比如賈府的衰落、寶黛的愛情悲劇等。
甚至它還分析出,自己還要表現出原著的悲劇色彩和深刻的批判;如果要引入新角色或事件,就必須自然融入現有框架,不能突兀。
經過這番思考後,它列出了第八十一回的故事梗概,看起來很像那麼回事。

而按照這個梗概續寫的正文框架,雖然仍不及原作文筆,但已不無可取之處。

上下滑動檢視
無需叢集,筆記本都能跑
眾所周知,滿血版DeepSeek-R1非常強大,但671B引數量所帶來的龐大體積,使得它在本地部署起來十分吃力。
Hugging Face工程師Matthew Carrigan的部署過程,就是一個很好的參考。

想要在GPU上實現720GB(Q8量化)的視訊記憶體,花費可能要10萬美元以上。
當然,也可以另闢蹊徑地使用CPU進行部署,只不過生成的速度會慢很多。此時,需要24條32GB的記憶體才能裝下。

即便是Q4量化的版本DeepSeek-R1-Q4_K_M,也得需要404GB,仍然不小。
以谷歌開發者專家、UCL計算機系博士生Xihan Li的部署實操為例。
除了模型引數佔用的記憶體+視訊記憶體空間(404GB)以外,實際執行時還需額外預留一些記憶體(視訊記憶體)空間用於上下文快取(總計約500GB)。
在4×24GB顯示卡(RTX 4090)和4×96GB記憶體配置下,DeepSeek-R1-Q4_K_M的短文字生成的速度只有2-4 token/秒,長文字生成時速度會降至1-2token/秒。基本不可用。
相比之下,QwQ-32B本地部署則友好的多,消費級GPU單卡就能輕鬆部署,而且速度飛起!
比如,在Hugging Face上開源的QwQ-32B版本,以Q4量化精度為例,大小不到20GB。
不只是4-bit量化的版本,Hugging Face上還有從2位一直到8位不同的版本,最小僅需不到13GB,將本地部署的難度直接拉到最低!普通的辦公電腦都能執行得起來。
本地部署後,載入與執行也是相當的容易,十幾行程式碼就能完成模型載入、處理問題並生成答案。

Ollama也上線了Q4版本的QwQ-32B模型,安裝Ollama後只需複製ollama run qwq到終端,即可體驗,簡直沒有門檻。

Nous Research的常駐研究員N8 Programs在X上稱讚QwQ-32B真是一個令人難以置信的進步。
他展示的是前沿推理模型在LiveBench上的得分(下圖)——LiveBench是一個全面的線上評估測試,覆蓋了廣泛的領域(並且通常與實際情況相符)。
可以看到,QwQ-32B的得分介於R1和o3-mini之間,但成本卻只有它們的十分之一。

強化學習「煉丹」,小模型也能逆襲
DeepSeek爆火之後,強化學習再次回到聚光燈之下,成為提升大模型/推理模型的關鍵鑰匙。
QwQ-32B成功的核心秘訣,便在於阿里雲團隊開創性運用了大規模強化學習技術。

不過,與傳統方法不同的是,他們採用了多階段RL訓練策略。
在初始階段,基於冷啟動資料,針對數學、程式設計、通用任務上,進行了強化學習訓練。
相較於傳統的獎勵模型,團隊創新性透過校驗答案正確性(數學任務)和程式碼執行測試(程式設計任務)提供反饋,確保模型逐步「進化」。
在RL Scaling過程中,隨著訓練輪次推進,模型在數學、程式設計兩個領域的效能持續提升。
在第二階段,研究人員又針對通用能力進行了RL訓練,主要使用通用獎勵模型和一些基於規則的驗證器進行訓練。
實驗顯示,透過少量步驟的通用 RL,可以提升QwQ-32B的通用能力,最關鍵的是,其數學、程式設計效能沒有顯著下降。
QwQ-32B僅在320億引數規模下,推理能力直逼DeepSeek-R,恰恰驗證了「大規模強化學習+強大基座模型」是通往AGI的關鍵路徑。
此外,QwQ-32B不只是一個推理模型,還集成了先進的Agent相關能力。不僅在使用工具時批判性思考,還能根據環境反饋動態調整策略。
下一步,阿里還將繼續探索智慧體與強化學習的深度融合,目標直指長時推理,最終實現AGI。
開源先鋒,引領全球AI新格局
這次QwQ-32B滿血版開源,絕不是個例,而是阿里雲開源戰略中的一個環節。
在全球人工智慧浪潮席捲之下,開源早已成為推動技術創新的重要引擎。
作為國內最早開源自研大模型的「大廠」,阿里雲也是全球唯一一家積極研發先進AI模型,且全方位開源的雲計算廠商。
自2023年8月以來,通義系列累計推出了從Qwen、Qwen1.5、Qwen2到Qwen2.5數十款大模型,覆蓋5億到千億級別的引數規模,並開源了超200款模型,支援29種語言。
這一壯舉,標誌著阿里雲在業界率先實現了「全尺寸、全模態、多場景」的開源。
開源的Qwen系列憑藉卓越的效能,數次登頂國內外權威榜單,還多次衝上HuggingFace、Github熱榜,成為開發者心中的「爆款」。
2024年,僅Qwen2.5-1.5B一款模型就佔據了HuggingFace全球模型下載量的26.6%,位列第一。
才剛剛開源的QwQ-32B,就已經有眾多來自不同國家、說著不同語言的的開發者,在第一時間都直接用上了,而且好評如潮。



左右滑動檢視
我們都知道,開源的真諦在於,眾人拾柴火焰高。
目前,Qwen衍生模型數量突破10萬,遠超Llama系列,成為全球最大的生成式語言模型族群。
阿里雲的開源戰略不僅體現在技術輸出,更在於推動普惠AI的初心——讓中小企業和開發者能夠以最低成本、更快速度用上AI,加速大模型應用落地。
另外,透過魔搭ModelScope社群,阿里雲還聯合1000萬開發者,打造出中國最大的AI開源生態。
阿里雲堅信,開源是推動技術創新的關鍵。
通義千問系列的開源,不僅僅是一場技術狂歡,更是一次生態革命。從技術突破到生態賦能,他們正用實際行動詮釋了技術普惠的深刻內涵。
正如其願景所言,透過開源與合作,推動中國大模型生態的繁榮,助力全球AI技術邁向新高度。
在這條路上,通義千問無疑成為一顆耀眼的明星,照亮了AI的未來。
參考資料:
https://chat.qwen.ai/

