
作者
|Yoky
郵箱
3月6日,中國大模型領域同時發生了兩個上熱搜的AI話題:
一邊是AI Agent產品Manus,另一邊則是阿里巴巴全新開源的通義千問QwQ-32B模型。
前者引發的討論中,不少人把它稱為DeepSeek級別的“炸裂”成果,並稱“矽谷因它一夜無眠”。不過有趣的是,在國際AI社群中,真正引起廣泛討論的其實是後者。
凌晨正式釋出模型後,QwQ-32B當天即登頂HuggingFace的開源模型榜單。

這款模型以32B的相對精簡引數規模,卻實現了與目前最強開源模型DeepSeek-R1相匹敵的效能,擊敗了老對手OpenAI o1 mini。
這對於開源社群的開發者吸引力巨大。HuggingFace聯合創始人Vaibhav Srivastav幾乎成了Qwen系列的忠實粉絲,每次釋出都不缺席,成了點贊專業戶。

甚至有人開始玩起了新梗,當遇上OpenAI和QwQ 32B的分岔路口,向左還是向右?

“效能驚人,尺寸小能量大,執行快。”Reddit的討論開始還真有點“炸裂體”的味。

還有開發者開始像分享對一款現象級消費產品的評測一樣,分享呼叫它的最佳設定。

以及,那個每次必不可少的,一直以來的疑問:

所以到底怎麼發音?
1
32B引數,以小搏大,重構遊戲規則
根據官方報告,在一系列權威基準測試中,千問QwQ-32B 模型表現異常出色,幾乎完全超越了OpenAI-o1-mini,比肩最強開源推理模型DeepSeek-R1:
在測試數學能力的AIME24評測集上,以及評估程式碼能力的LiveCodeBench中,千問QwQ-32B表現與DeepSeek-R1相當,遠勝於o1-mini及相同尺寸的R1蒸餾模型;在由Meta首席科學家楊立昆領銜的“最難LLMs評測榜”LiveBench、谷歌等提出的指令遵循能力IFEval評測集、由加州大學伯克利分校等提出的評估準確呼叫函式或工具方面的BFCL測試中,千問QwQ-32B的得分均超越了DeepSeek- R1。

這些只是最基礎的能力展示。而更多的熱議來自開發者自己的需求和體驗。
最讓開發者感到興奮的是,當引數變小但效能不變時,一臺消費級顯示卡的硬體上,就能完成部署!

蘋果的ML工程師Awni Hannun也第一時間體驗了模型,他發文展示了QwQ-32B在配備MLX(專門為蘋果晶片設計的開源框架)的M4 Max晶片電腦上的執行速度很快,並公開了它的一些思考片段。

多位開發者實測證實,QwQ-32B可在MacBook M系列晶片裝置上流暢執行,其量化版本(q4_K_M)甚至在僅有16GB記憶體的裝置上實現了每秒40 token的推理速度。這一表現遠超同規模模型的部署要求,大幅降低了硬體門檻。

經過開發者測算,QwQ-32B對比DeepSeek-R1的671B引數,視訊記憶體需求從1500GB降至24GB VRAM,“小引數+強最佳化”路徑,驗證了中等規模模型突破效能瓶頸的可能性。
在效能方面,QwQ 32B延續了強化學習提高模型效能的路徑,在冷啟動基礎上,阿里通義團隊針對數學和程式設計任務、通用能力分別進行了兩輪大規模強化學習,在32B的模型尺寸上獲得了令人驚喜的推理能力提升,在一系列權威基準測試中,幾乎超越了o1 mini,比肩DeepSeek R1,尤其在數學和程式碼能力方面,遠勝於同尺寸的推理模型。

Reddit使用者為了進一步驗證QwQ的推理能力,為QwQ32B設定了一道物理原理推導任務,能夠完整演示從牛頓定律到最小作用量原理的數學推導過程,該使用者調侃的說2026應該不會為ChatGPT Pro付費了。

Anthropic的投資機構Menlo Venture的投資人,也第一時間密切關注,對比了QwQ-32B和DeepSeek R1的推理成本,發現前者僅為後者的1/10的token成本,但效果能夠達到DeepSeek-R1與o3-mini之間的效能水平。

目前,阿里已採用寬鬆的Apache2.0協議,將千問QwQ-32B模型向全球開源,所有人都可免費下載及商用。
此前企業部署頂級AI模型通常需要投入大量資金購置高階GPU叢集,並面臨複雜的分散式部署挑戰和持續的電力成本壓力,這意味著,企業不再需要構建複雜的GPU叢集和高頻寬網路來支援模型執行,能夠在更低的算力環境下部署推理模型,避免大引數模型所需要的並行通訊開銷,同時單機部署也能夠大幅降低運維門檻,使得中小企業也能負擔得起高效能AI模型的落地應用。
同時,使用者也將可透過通義APP免費體驗最新的千問QwQ-32B模型。
1
Qwen成了矽谷最愛的開源基座
除了QwQ-32B模型本身,一個圍繞著Qwen的開源生態,也在漸漸成型。
在釋出模型的過程中,Qwen的負責人林俊暘不停轉發各種主流開源工具對QwQ的快速適配,除了釋出模型本身,他似乎更著力於邀請大家透過不同的工具對QwQ-32B進行體驗和二次開發。

另一位Qwen的核心團隊成員Hui binyuan特意提到,歡迎大家在Qwen的基礎上開發更有意思的東西。

在一眾快速適配QwQ的廠商中,一個有意思的案例來源於Groq。
它在QwQ-32B釋出的第一時間即完成GroqCloud部署,實現400 token/s推理速度。得益於Groq LPU架構的確定性執行特性,與QwQ-32B的密集模型設計形成互補,並以每百萬輸入代幣 0.29 美元,每百萬輸出代幣 0.39 美元的超低價格提供服務。


這家矽谷明星的AI Infra公司,號稱要做到“最快的推理平臺”,目前已經吸引了百萬開發者,平臺已經漸漸與開源模型包括LLma、DeepSeek、Qwen模型系列深度繫結。
而且,它是一個擁有自己晶片產品的公司。Groq 創始人是谷歌專用晶片NPU 發明者之一Jonathan Ross。它創辦的Groq,設計了與GPU不同的LPU (語言處理單元),專為AI推理所設計的新型端到端處理單元系統,藉助這種自己掌握的軟硬體結合優勢,它提供的模型的部署服務總是最快的之一。
因此它的很多動作基本成為了開源的重要風向標之一,哪個模型上了Groq,意味著開發者對它的需求夠高,而它提供的極速的體驗,又會幫助這些模型讓更多人瞭解其效能。這是一個開源和語言模型上下游生態的典型正向迴圈機制。
在不到兩年的時間裡,Qwen正在成為嚮往開放開源的模型世界的開發者的首選之一。目前,海內外開源社群中Qwen的衍生模型數量已突破10萬,超越Llama系列衍生模型,通義千問Qwen穩居世界最大的生成式語言模型族群。根據Huggingface2025年2月10日最新的全球開源大模型榜單,排名前十的開源大模型全部是基於通義千問Qwen開源模型二次開發的衍生模型。
同時,越來越多的學術界知名研究機構和學者,基於Qwen系列模型展開研究。李飛飛等斯坦福大學和華盛頓大學研究人員基於阿里通義千問Qwen2.5-32B-Instruct開源模型為底座,僅使用16塊H100 GPU,透過26分鐘的監督微調,便打造出了效能卓越比肩OpenAI的o1和DeepSeek的R1等尖端推理模型的s1-32B模型。
近期,伯克利的計算實驗室在QwQ-preview的基礎上,花費了450美元建立了資料集,訓練出了o1級的自有推理模型。

據統計,從2023年至今,阿里通義團隊已開源200多款模型,包含大語言模型千問Qwen及視覺生成模型萬相Wan等兩大基模系列,開源囊括文字生成模型、視覺理解/生成模型、語音理解/生成模型、文生圖及影片模型等「全模態」,覆蓋從0.5B到110B等引數「全尺寸」,並在多個榜單中斬獲冠軍。
最近阿里巴巴連續開源了多個模型,每一個都會在海外社群引發廣泛關注,有開發者感慨並劇透到,QwQ-32B是其中一個,而它可能還不是Qwen系列此輪會發布的最強的那個。
通義的大招也許還在後面。
