我花了5分鐘，成功部署阿里QwQ-32B，秒出的感覺太爽了

2025-09-12 05:20 夕小瑤科技說

昨天刷family群家人的訊息的時候，一條“顯眼包”訊息吸引了我——

這是啥啊？點進去一看——

「群聊精華總結」

真的特別需要，尤其是對於我這種每天對接各種群各種需求訊息回不完的人——

仔細看一下這份「群聊精華總結」，從今天早上 7 點半到 11 點半 family 群裡一共有 111 條訊息，討論的熱門話題No.1 是「Qwen-32B 模型效能與推理特點」，No.2 是「Manus 模型評測和技術分析」。

Manus 昨天平地一聲雷炸的圈子裡的好多人都頭腦發熱了，官方和一些帶節奏的人估計都度過了難忘的一天。今天圈子終於開始有點回歸理性了。

其實昨天我們的文章裡《為什麼Manus火了》，就對技術實現和產品分析過，還是那句話，讓子彈飛會兒。

今天除了五位數的邀請碼一碼難求，另一邊復現 Manus 專案出的飛快，連賣 Manus 的課教程都冒出來了，真快啊（不過大家還是要謹慎一點擦亮眼睛）。

回到今天群聊的榜一大哥——QwQ 32B.

我翻了一下聊天記錄，吐槽最多的是——

推題 token 太長，動輒 2、3 萬字
一直在推理，不出東西

其實 QwQ 這個模型之前釋出過一個預覽版，只不過這次是正式版。也有可能再經過回爐重造過不得知了。

我看除了 X 上面，油管上討論也挺兇的。

總之，評價就是還是挺強的。

評價這麼高基於兩個已知事實：

效果比肩DeepSeek-R1 671B 滿血版
32B引數，比 R1 滿血版小 20 倍

這是官方的效果——

在基準測試上與 DeepSeek-R1 滿血版非常接近。

這是 AMIE（數學能力）測試結果——

QwQ-32B 排到了所有模型的第二。

可以說，看考試成績，絕對是一名優等生。雖然在官網和抱抱臉 hg 上都能體驗了，但是我看到好多反饋都在說——

卡，慢，排隊，約等於：不可用

經常一個問題思考十幾分鐘沒做出來。

那我就自己搞一個！

不是 671 玩不起，而是 32B 更有價效比！

這裡我們部署在本地電腦上，主開啟源&輕量化部署精神，所以只要有一臺電腦 + 一塊 24G 的顯示卡就行。

不敲程式碼、不買課，不買會員，5 分鐘體驗上 320 億引數的 QwQ-32B 大模型！

先說一下我的配置：

CPU: Intel 10900k
記憶體: 128G DDR4 3600MHz
顯示卡: Nvidia 3090 24G 視訊記憶體
作業系統： Windows 11

這裡我用 Ollama+Chatbox 的方案，就是因為它純純簡單。

給還沒接觸過的小夥伴科普一下（懂得自行跳過）——

Ollama 是一個專為大語言模型服務設計的開源工具，方便使用者在本地快速部署大型模型。透過簡單的安裝過程，使用者可以用一條命令即可啟動和操作這些開源的大語言模型。

重點是：一條命令。

適合新手的本地部署教程

第一步：安裝 Ollama，這一步比裝原神還簡單）

在官網上下載安裝包就行（我選 Window）。 www.ollama.com

下載好了後直接點選安裝。這個階段不要做任何修改，一路預設設定就好。

當安裝結束後先驗證一下是否裝成功。

開啟 windows 的命令列 CMD, 輸入 ollama -v，看到輸出 ollama version is 0.5.13 那就證明 OK。

第二步：拉取 QwQ-32B

直接去 Ollama 網站下載即可。

Ollama 的 QWQ 模型頁面: https://ollama.com/library/qwq

坑點預警：官網下載需要魔法，否則速度堪比蝸牛（推薦用國內映象）

提供了好幾個不同模型版本，比如 32b， 32b-fp16，

q4_K_M, q8_0, fp16 這些指的是模型精度。這裡的 q4 指的是 4bit 量化，q8 指的是 8bit 量化，fp16 就是原版模型。

因為量化都是有損的，只要把握數字越小，模型體積越小，所以模型能力會更弱這個邏輯就行。所以 q4 就是 QwQ32b 家族中，體積最小，效能有可能是最弱的那個（不排除 8bit 量化也都差不多的效果）。

我們部署就選用 32b-q4_K_M，選用它的原因很簡單，因為 3090 的 24G 視訊記憶體只能裝下這個模型。

Ollama 的模型包本質上是一個 微服務映象，類似雲端的模型即服務（MaaS），但設計為本地離線執行。

這樣，你就完全不用考慮和底層硬體、python 依賴等等這些麻煩的問題。

裡面包括模型 checkpoint、配置檔案、執行時的環境（依賴庫、推理引擎）、其他元件等等，提供了執行模型的一切，都打包好了。

這裡你可以理解成這是大模型的 APP Store，和手機裡下載應用是一樣的簡單。

區別這裡不是下載按鈕，而是在命令列 CMD 中輸入如下指令，開始下載模型。

ollama pull qwq:32b-q4_K_M

如果一切順利，就會開始正式下載模型。

請做好心理準備，下載時間會比較長。

等模型下載完成後，在 CMD 中輸入下面的指令載入模型並執行，就可以開始和 Qwen QwQ 32B 模型對話。

ollama run qwq:32b-q4_K_M

看下對話效果——

可以看到，已經成功地提問對話了。

雖然 Ollama 提供了互動頁面，但是是程式設計師風格的，雖然在我眼裡是最美的，但是追求美顏的小夥還需要下載一個頁面美工——

第三步：安裝前端互動工具 Chatbox

這種工具的選擇有很多，有 Chatbox、Cherry Studio、 Open-WebUI 等等。

我選用了 chatbox，頁面長這個樣——

其中 Open-WebUI 於 QwQ 的官網頁面最為接近，這是因為 QwQ 的官網也是拿 Open-WebUI 魔改的。(🤣)

Chatbox 的網站: https://chatboxai.app/zh

請大家自行安裝，這裡就不贅述了。

安裝完成後，需要進行如下設定：

點選設定
在上圖 2 中的位置選擇 OLLAMA API
3 的位置會自動配置好上圖中的內容。
點選 4 確定。

配置完成後，你的主介面就會和下圖一樣:

點選紅框處選擇 qwq:32b-q4_K_M 模型，就可以在箭頭處開始和屬於你的 QwQ 模型對話了。

到此，整個本地部署全部完成。

看看效果如何

上面已經問過「9.9 和 9.11 誰大」的問題，已經可以使用了。

但為了不失嚴謹性，我們將會對 QwQ-32b_q4_K_M本地模型、QwQ-32b官網模型 進行簡單對比，看看能復刻多少效果。

直接上題：

題目一: 銀行金庫裡的小偷

有一個小偷費勁力氣進入到了銀行的金庫裡。在金庫裡他找到了一百個箱子，每一個箱子裡都裝滿了金幣。不過，只有一個箱子裡裝的是真的金幣，剩下的 99 個箱子裡都是假的。真假金幣的外形和質感完全一樣，任何人都無法透過肉眼分辨出來。它們只有一個區別：真金幣每一個重量為 101 克，而假金幣的重量是 100 克。在金庫裡有一個電子秤，它可以準確地測量出任何物品的重量，精確到克。但很不幸的是，這個電子秤和銀行的報警系統相連線，只要被使用一次就會立刻失效。請問，小偷怎麼做才能只使用一次電子秤就找到裝著真金幣的箱子呢？

這是一個小學奧數難度的題，我猜這他們應該都沒問題，但沒準也會陰溝裡翻船呢，對吧 ?

先看官網 QwQ-32B的答案：

回答很準確,沒什麼可以挑剔的。

然後是上面的 QwQ-32b_q4_K_M:

這個影片沒有進行任何加速，可以看到，在傳送的一瞬間，就立馬開始輸出。

比官網爽太多了！

第一題沒有分出勝負，加大難度！！

題目二: 池塘取水

假設有一個池塘，裡面有無窮多的水。現有 2 個空水壺，容積分別為 5 升和 6 升。問題是如何只用這 2 個水壺從池塘裡取得 3 升的水。

官網 QwQ-32B的答案：

下面是 QwQ-32b_q4_K_M:

可以看到，本地版也成功的給出了兩種不同的方法。

題目三: 程式設計題

本地部署大模型用來作為程式設計助手是一個比較大的需求。對於當前大模型的能力來說，Leetcode 這類普通的面試題應該可以秒殺。

所以直接給他們上難度。

編寫一個 Python 程式，展示一個球在旋轉的六邊形內彈跳。球應受到重力和摩擦力的影響，並且必須以逼真的方式從旋轉的牆壁上彈回。

官網 QwQ-32B：

一把過。

而且對物理規律的把握非常準確。

很難讓人相信這是一個只有 32B 引數的模型。

我們再看看小弟 QwQ-32b_q4_K_M 的表現：

這次非常遺憾，沒有完全輸出答案就中斷了。

吐了 3、4 分鐘之後，就卡住了，之後也沒再輸出。

應該是視訊記憶體不足了，大模型推理的過程會慢慢吞噬視訊記憶體，到一定長度後就爆了。尤其是長文字和複雜任務推理的時候。

而且，QwQ32b 模型有一個特點就是會輸出超長的思考過程，動不動幾萬字 token，官網使用卡住了就大機率就是爆了。

上面這三道測試題，雖然不具備嚴謹的統計意義，但可以很直觀的讓大家感受到本地部署的 QwQ 32b 模型能力。

一句話總結就是，對於普通難度的問題，與官網沒有太大區別。對於某些超級難的問題，本地模型還是有些困難。

但本地部署模型的那種讓你隨時都能用，不需要排隊等待的那種爽感，可不是線上模型能夠帶給你的。

趕緊搞起來！！

相關文章

國產AI卷瘋了！Manus橫空出世，阿里開源QwQ-32B！

國產AI卷瘋了！Manus橫空出世，阿里開源QwQ-32B！

阿里千問QwQ-32B推理模型開源，比肩671B滿血DeepSeek-R1！筆記本就能跑

阿里千問QwQ-32B推理模型開源，比肩671B滿血DeepSeek-R1！筆記本就能跑

國產AI卷瘋了，QwQ-32B登頂全球最強開源模型！

國產AI卷瘋了，QwQ-32B登頂全球最強開源模型！

關於深度思考的一些深度思考：Deepseek官網深度思考模型，真的是DeepSeek-R1嗎？

關於深度思考的一些深度思考：Deepseek官網深度思考模型，真的是DeepSeek-R1嗎？

如何在本地執行DeepSeek：個人AI部署簡單指南

如何在本地執行DeepSeek：個人AI部署簡單指南

感謝DeepSeek！百度今天宣佈“大模型免費+開源”，本地部署DS的保姆級教程來了

感謝DeepSeek！百度今天宣佈“大模型免費+開源”，本地部署DS的保姆級教程來了

126K+30Kstar，2個開源工具幫你搭建免費、專屬的DeepSeek！

126K+30Kstar，2個開源工具幫你搭建免費、專屬的DeepSeek！

DeepSeek本地部署，保姆級教程，帶你打造最強AI

DeepSeek本地部署，保姆級教程，帶你打造最強AI

自己電腦搭建AI大模型詳細教程，支援通義千問、Llama3、介面呼叫等…

自己電腦搭建AI大模型詳細教程，支援通義千問、Llama3、介面呼叫等…

DeepSeek-R1671B滿血版完整本地部署教程，來了！！！

DeepSeek-R1671B滿血版完整本地部署教程，來了！！！

Copyright © 2025 | WordPress Theme by MH Themes