我花了5分鐘,成功部署阿里QwQ-32B,秒出的感覺太爽了

昨天刷family群家人的訊息的時候,一條“顯眼包”訊息吸引了我——
這是啥啊?點進去一看——
「群聊精華總結」

真的特別需要,尤其是對於我這種每天對接各種群各種需求訊息回不完的人——
仔細看一下這份「群聊精華總結」,從今天早上 7 點半到 11 點半 family 群裡一共有 111 條訊息,討論的熱門話題No.1 是「Qwen-32B 模型效能與推理特點」,No.2 是「Manus 模型評測和技術分析」。
Manus 昨天平地一聲雷炸的圈子裡的好多人都頭腦發熱了,官方和一些帶節奏的人估計都度過了難忘的一天。今天圈子終於開始有點回歸理性了。
其實昨天我們的文章裡《為什麼Manus火了》,就對技術實現和產品分析過,還是那句話,讓子彈飛會兒。
今天除了五位數的邀請碼一碼難求,另一邊復現 Manus 專案出的飛快,連賣 Manus 的課教程都冒出來了,真快啊(不過大家還是要謹慎一點擦亮眼睛)。
回到今天群聊的榜一大哥——QwQ 32B.
我翻了一下聊天記錄,吐槽最多的是——
  • 推題 token 太長,動輒 2、3 萬字
  • 一直在推理,不出東西

其實 QwQ 這個模型之前釋出過一個預覽版,只不過這次是正式版。也有可能再經過回爐重造過不得知了。
我看除了 X 上面,油管上討論也挺兇的。
總之,評價就是還是挺強的。
評價這麼高基於兩個已知事實:
  • 效果比肩DeepSeek-R1 671B 滿血版
  • 32B引數,比 R1 滿血版小 20 倍
這是官方的效果——

在基準測試上與 DeepSeek-R1 滿血版非常接近。
這是 AMIE(數學能力)測試結果——

QwQ-32B 排到了所有模型的第二。
可以說,看考試成績,絕對是一名優等生。雖然在官網和抱抱臉 hg 上都能體驗了,但是我看到好多反饋都在說——
卡,慢,排隊,約等於:不可用
經常一個問題思考十幾分鐘沒做出來。

那我就自己搞一個!
不是 671 玩不起,而是 32B 更有價效比!
這裡我們部署在本地電腦上,主開啟源&輕量化部署精神,所以只要有一臺電腦 + 一塊 24G 的顯示卡就行。
不敲程式碼、不買課,不買會員,5 分鐘體驗上 320 億引數的 QwQ-32B 大模型!
先說一下我的配置:
  • CPU:  Intel 10900k
  • 記憶體:  128G DDR4 3600MHz
  • 顯示卡: Nvidia 3090 24G 視訊記憶體
  • 作業系統: Windows 11
這裡我用 Ollama+Chatbox 的方案,就是因為它純純簡單。
給還沒接觸過的小夥伴科普一下(懂得自行跳過)——
Ollama 是一個專為大語言模型服務設計的開源工具,方便使用者在本地快速部署大型模型。透過簡單的安裝過程,使用者可以用一條命令即可啟動和操作這些開源的大語言模型
重點是:一條命令。

適合新手的本地部署教程

第一步:安裝 Ollama,這一步比裝原神還簡單)
在官網上下載安裝包就行(我選 Window)。 www.ollama.com

下載好了後直接點選安裝。 這個階段不要做任何修改,一路預設設定就好。
當安裝結束後先驗證一下是否裝成功。
開啟 windows 的命令列 CMD, 輸入 ollama -v,看到輸出 ollama version is 0.5.13 那就證明 OK。
第二步:拉取 QwQ-32B
直接去 Ollama 網站下載即可。
Ollama 的 QWQ 模型頁面: https://ollama.com/library/qwq
坑點預警:官網下載需要魔法,否則速度堪比蝸牛(推薦用國內映象)

提供了好幾個不同模型版本,比如 32b, 32b-fp16
q4_K_M, q8_0,  fp16 這些指的是模型精度。這裡的 q4 指的是 4bit 量化,q8 指的是 8bit 量化,fp16 就是原版模型。
因為量化都是有損的,只要把握數字越小,模型體積越小,所以模型能力會更弱這個邏輯就行。所以 q4 就是 QwQ32b 家族中,體積最小,效能有可能是最弱的那個(不排除 8bit 量化也都差不多的效果)。
我們部署就選用 32b-q4_K_M,選用它的原因很簡單, 因為 3090 的 24G 視訊記憶體只能裝下這個模型。
Ollama 的模型包本質上是一個 微服務映象,類似雲端的模型即服務(MaaS),但設計為本地離線執行。
這樣,你就完全不用考慮和底層硬體、python 依賴等等這些麻煩的問題。
裡面包括模型 checkpoint、配置檔案、執行時的環境(依賴庫、推理引擎)、其他元件等等,提供了執行模型的一切,都打包好了。
這裡你可以理解成這是大模型的 APP Store,和手機裡下載應用是一樣的簡單。
區別這裡不是下載按鈕,而是在命令列 CMD 中輸入如下指令,開始下載模型。
ollama pull qwq:32b-q4_K_M  
如果一切順利,就會開始正式下載模型。
請做好心理準備,下載時間會比較長。

等模型下載完成後,在 CMD 中輸入下面的指令載入模型並執行,就可以開始和 Qwen QwQ 32B 模型對話。
ollama run qwq:32b-q4_K_M  
看下對話效果——

可以看到,已經成功地提問對話了。
雖然 Ollama 提供了互動頁面,但是是程式設計師風格的,雖然在我眼裡是最美的,但是追求美顏的小夥還需要下載一個頁面美工——
第三步:安裝前端互動工具 Chatbox
這種工具的選擇有很多,有 Chatbox、Cherry Studio、 Open-WebUI 等等。
我選用了 chatbox,頁面長這個樣——

其中 Open-WebUI 於 QwQ 的官網頁面最為接近,這是因為 QwQ 的官網也是拿 Open-WebUI 魔改的。(🤣)
Chatbox 的網站: https://chatboxai.app/zh
請大家自行安裝,這裡就不贅述了。
安裝完成後,需要進行如下設定:

  1. 點選設定
  2. 在上圖 2 中的位置選擇 OLLAMA API
  3. 3 的位置會自動配置好上圖中的內容。
  4. 點選 4 確定。
配置完成後,你的主介面就會和下圖一樣:

點選紅框處選擇 qwq:32b-q4_K_M 模型,就可以在箭頭處開始和屬於你的 QwQ 模型對話了。
到此,整個本地部署全部完成。

看看效果如何

上面已經問過「9.9 和 9.11 誰大」的問題,已經可以使用了。
但為了不失嚴謹性,我們將會對 QwQ-32b_q4_K_M本地模型QwQ-32b官網模型 進行簡單對比,看看能復刻多少效果。
直接上題:

題目一:  銀行金庫裡的小偷

有一個小偷費勁力氣進入到了銀行的金庫裡。在金庫裡他找到了一百個箱子,每一個箱子裡都裝滿了金幣。不過,只有一個箱子裡裝的是真的金幣,剩下的 99 個箱子裡都是假的。真假金幣的外形和質感完全一樣,任何人都無法透過肉眼分辨出來。它們只有一個區別:真金幣每一個重量為 101 克,而假金幣的重量是 100 克。在金庫裡有一個電子秤,它可以準確地測量出任何物品的重量,精確到克。但很不幸的是,這個電子秤和銀行的報警系統相連線,只要被使用一次就會立刻失效。請問,小偷怎麼做才能只使用一次電子秤就找到裝著真金幣的箱子呢?
這是一個小學奧數難度的題,我猜這他們應該都沒問題,但沒準也會陰溝裡翻船呢,對吧 ?
先看官網 QwQ-32B的答案:
回答很準確,沒什麼可以挑剔的。
然後是上面的 QwQ-32b_q4_K_M:
這個影片沒有進行任何加速,可以看到,在傳送的一瞬間,就立馬開始輸出。
比官網爽太多了!
第一題沒有分出勝負, 加大難度!!

題目二:  池塘取水

假設有一個池塘,裡面有無窮多的水。現有 2 個空水壺,容積分別為 5 升和 6 升。問題是如何只用這 2 個水壺從池塘裡取得 3 升的水。
官網 QwQ-32B的答案:

下面是 QwQ-32b_q4_K_M:

可以看到,本地版也成功的給出了兩種不同的方法。

題目三:  程式設計題

本地部署大模型用來作為程式設計助手是一個比較大的需求。對於當前大模型的能力來說,Leetcode 這類普通的面試題應該可以秒殺。
所以直接給他們上難度。
編寫一個 Python 程式,展示一個球在旋轉的六邊形內彈跳。球應受到重力和摩擦力的影響,並且必須以逼真的方式從旋轉的牆壁上彈回。
官網 QwQ-32B:
一把過。
而且對物理規律的把握非常準確。
很難讓人相信這是一個只有 32B 引數的模型。
我們再看看小弟 QwQ-32b_q4_K_M 的表現:
這次非常遺憾,沒有完全輸出答案就中斷了。

吐了 3、4 分鐘之後,就卡住了,之後也沒再輸出。
應該是視訊記憶體不足了,大模型推理的過程會慢慢吞噬視訊記憶體,到一定長度後就爆了。尤其是長文字和複雜任務推理的時候。
而且,QwQ32b 模型有一個特點就是會輸出超長的思考過程,動不動幾萬字 token,官網使用卡住了就大機率就是爆了。
上面這三道測試題,雖然不具備嚴謹的統計意義,但可以很直觀的讓大家感受到本地部署的 QwQ 32b 模型能力。
一句話總結就是,對於普通難度的問題,與官網沒有太大區別。對於某些超級難的問題,本地模型還是有些困難。
但本地部署模型的那種讓你隨時都能用,不需要排隊等待的那種爽感,可不是線上模型能夠帶給你的。
趕緊搞起來!!


相關文章