榨乾3000元顯示卡,跑通千億級大模型的秘方來了

金磊 夢晨 發自 凹非寺量子位 | 公眾號 QbitAI
書接上回,用幾塊3000元顯示卡作為加速主力的一體機,就能跑通671B的DeepSeek
放在個把月前,你敢想象這樣的場景麼?
正在埋頭苦幹,希望有更多樣化產品交付的一體機廠商們,pick英特爾銳炫 顯示卡 + 至強® W 處理器這套組合拳,首要原因就是它的成本確實誘人——基本算是砍掉了一個數量級(下線可以控制在10萬元以內)
其次就是這套組合也很能打,上面那個場景就是它目前的“標杆式”戰績。
這兩點加起來就是“真香”定律的復現。
但別光說不練,這種極具價效比的一體機實測的體感到底如何呢?
帶著這個問題,我們直接上手親自測試了一波。
例如我們先用QwQ-32B離線狀態下問了個經典題目:
9.9和9.11哪個大?
從效果上來看,若是單人使用,一體機的速度已經達到了32 tokens/s
講真,這個速度在體感上已經是非常OK了。
而且這還不是個偶然事件,在同樣的情況下,我們再問一個問題:
一個外星人來到地球后等可能選擇以下四件事中的一件完成:1,自我毀滅;2,分裂成兩個外星人;3,分裂成三個外星人;4,什麼都不做。此後每天,每個外星人均會做一次選擇,且彼此之間相互獨立。求地球上最終沒有外星人的機率。
同樣的,我們可以看到輸出速度依舊是非常的快。
而當同時使用人數增加時,我們做了初步的計算,其每秒tokens的速度大概是這樣的:
那麼如果是地獄難度的671B DeepSeek R1,結果又會如何呢?
畢竟即便是Q4量化版本,以往承載它的一體機成本動輒就要達到200萬元。
請聽題:
一個漢字具有左右結構,左邊是木,右邊是乞。這個字是什麼?只需回答這個字即可。
如此大體量的大模型,這種10萬元級別的一體機依然可以達到10 tokens/s的速度。
雖然體感上會覺得稍慢一些,但夠用卻是真的。
而且有一說一,輸出速度夠快、時延夠低、價效比夠高,還只是這種英特爾架構一體機的優點的一隅。
在它的背後,還有易部署、易操作等特點。
那麼為何基於英特爾的一體機可以做到如此物美價廉?

價低質優的一體機,是如何煉就的?

正如我們剛才提到的,10萬級別的一體機能有如此實用質感,其關鍵就是英特爾的組合拳:
銳炫 顯示卡 + 至強® W 處理器。
首先我們來看下這張英特爾銳炫 顯示卡。
它是英特爾專門為AI和圖形處理打造的高效能顯示卡,不僅遊戲表現亮眼,在AI推理、影片處理這些專業領域也很能打。
銳炫 顯示卡採用了最新的Xe 架構,內建XMX AI加速引擎,提供強大的AI加速能力,支援Ollama和vLLM serving等多種大模型主流框架,跑大模型推理可以說是完全沒有壓力。
而且它還支援TensorFlow、PyTorch這些主流AI框架,搭配OpenVINO 工具套件還能進一步最佳化效能,讓AI任務跑得更快、更省資源。
銳炫 顯示卡還有一個特點,就是特別適合邊緣計算——
銳炫 顯示卡針對邊緣計算場景最佳化,提供低功耗(110-150瓦)和小尺寸選項,支援PCIe Gen 4介面,併為邊緣應用場景承諾五年產品供應和軟體支援。
也正像剛才展示的那樣,比如DeepSeek、Qwen這些開源模型,銳炫顯示卡能輕鬆搞定,尤其是支援多卡並聯,2卡、4卡甚至8卡都能配,效能直接起飛。
而且裝載它的一體機不僅僅能作為AI或大模型一體機來使用,有需求時還能用來執行影片分析、8K影片編解碼、3D渲染這些高負載任務,一機多用,價效比超高。
除了顯示卡之外,至強® W 處理器,這塊適用於工作站和AI一體機“效能怪獸”CPU,也是一個關鍵點。
從算力層面來看,它最高60核的配置,搭配DDR5-4800記憶體和TB級記憶體擴充套件,跑大模型、做資料處理都遊刃有餘。
它內建的AMX(高階矩陣擴充套件)技術,就算沒有獨立顯示卡,也能加速中小規模引數的大語言模型推理,價效比也是直接拉滿。
至強® W 處理器能與銳炫 顯示卡搭檔的原因還有它支援多顯示卡配置,擁有多達112條PCIe Lane,PCIe 5.0通道管夠。
在此之上,英特爾還透過統一的計算架構和最佳化工具鏈,讓銳炫 顯示卡和至強® W 處理器,發揮出了1+1>2的效果。例如:
  • IPEX-LLM
    專門為大模型最佳化,支援DeepSeek、Qwen、Llama等主流開源模型,讓CPU+GPU協同推理更高效。
  • OpenVINOTM 工具套件
    最佳化AI推理,自動分配任務給CPU或GPU,還能壓縮模型,減少記憶體佔用,提升速度。
  • oneAPI
    統一程式設計模型,開發者只需寫一次程式碼,就能同時在CPU和GPU上執行,不用再為不同硬體適配發愁。
總而言之,英特爾可以說是透過硬體協同+軟體最佳化,讓CPU和GPU不再是孤立的計算單元,而是高效配合的“黃金搭檔”。
這也就不難理解為什麼基於英特爾解決方案的一體機,能夠做到如此的價低+質優了。

實戰:如何在英特爾架構一體機上玩轉DeepSeek

看過Demo演示和一體機介紹,你可能會好奇,假如現在就有機會拿到一臺這樣的一體機,該怎麼用它把DeepSeek跑起來?
首先要配置系統環境,更新GPU驅動版本必不可少。https://dgpu-docs.intel.com/driver/client/overview.html
主要框架是英特爾IPEX-LLM版本的llama.cpp,
以Linux系統為例,IPEX-LLM llama.cpp portable tgz包
在這個框架中,推薦使用GGUF格式的模型,這裡使用unsloth開源版本來說明。
開啟終端後,輸入以下命令進入解壓縮後的資料夾:
cd /PATH/TO/EXTRACTED/FOLDER
要使用英特爾GPU加速,在執行llama.cpp之前,需要設定如下環境變數:
exportSYCL_CACHE_PERSISTENT=1
接下來,如果要執行的是671B版本DeepSeek-R1,就要請出FlashMoE來幫忙了。
DeepSeek-R1基於MoE架構,其實滿血版的啟用引數僅約37億,但還是需要完整載入整個模型,這也是對於一體機來說最大的難點。
FlashMoE是一款基於llama.cpp構建的命令列工具,專為MoE模型進行最佳化,整合了至強® W處理器內建的AMX/AVX-512技術和GPU加速庫,進一步釋放CPU與GPU的異構協作能力,能在較低的硬體成本下獲得更高的推理吞吐量與更優的效能表現。
在llama.cpp + FlashMoE組合加持下,初步的效能驗證表明,在單路至強® W處理器加2-4塊英特爾銳炫A770顯示卡配置下,本文所述方案可以獲得接近10 Token/s的效能表現,已能滿足企業級生成式AI,例如離線語音助手、文件摘要等應用場景的需求。
總的來說,這套高度整合的軟硬一體模式,既滿足了長上下文推理需求,又實現了能耗和成本的可控,為AI服務規模化落地提供了可靠且易用的基礎設施。
同時,它能更好地滿足近期使用者在DeepSeek或其他開源大模型實踐中的迫切需求,部署方式更靈活、更貼近業務環境,響應速度更快,還在資料安全和隱私保護方面具有先天優勢。
以上是針對671B版DeepSeek的部署方法簡要介紹,但實際上,蒸餾版憑藉其精簡而高效的特點,能夠更好地貼合各行業的實際業務場景和需求。
蒸餾版和滿血版的部署指南,都可在英特爾中文官網(intel.cn)搜尋「銳炫一體機」獲取
它在應對這些行業的常規任務時,不僅能夠提供足夠的處理能力和精準度,還能以更加靈活和易於部署及適配的方式融入到行業的業務流程當中。

“低成本+高效率”的路子還在繼續

隨著DeepSeek的影響力不斷擴大,大模型發展迎來了新的趨勢:走向推理普及化。
在以往,算力大多被集中投入到模型訓練中,但在未來,算力資源的分配將發生顯著轉變,更多的算力會被應用於推理環節而非訓練。

圖源:IDC&浪潮資訊
從應用場景和市場選擇來看,除了超大規模的資料中心依舊在大模型運算中扮演關鍵角色外,一體機憑藉其獨特的優勢,正成為越來越多企業的心儀之選。
而在這個趨勢之中,一體機的優勢就在於“低成本+高效率”,具體而言:
首先,一體機啟動成本低。與傳統分散式裝置組合搭建系統相比,其在硬體採購、軟體授權和初始配置等方面資金投入少,企業無需花大量前期資金構建完整運作體系,能以較低成本開啟業務或辦公流程。
同時,一體機易於維護部署。其高度整合化設計最佳化硬體相容性,減少硬體不匹配故障。日常維護中,其整體性強,便於技術人員進行故障排查和維修,提高維護效率、降低難度。
此外,一體機可常駐使用者辦公與業務環境邊緣加速操作,在靠近資料來源頭和使用場景處執行,減少資料傳輸距離和時間,降低延遲,提升業務處理速度和響應效率。
當然,一體機只是執行模型的硬體基礎,從英特爾最近的動作看來,對接和擴充套件更多接地氣的AI應用才是下一步重點:
聯合Hugging Face、Anyscale、Zilliz等AI行業合作伙伴推出的企業AI開放平臺 (OPEA) ,就是最好的證明。
如何理解OPEA?
首先,它提供了搭建大模型應用所需的零件,如提示引擎、資料處理、記憶系統、安全護欄等一起打包提供,解決生成式AI技術的工具碎片化問題。
然後,它還是一款評估和最佳化應用,能夠從效能、可信度、可擴充套件性和彈性等方面對AI應用進行 “體檢”。以電商推薦商品的AI應用為例,透過 “體檢” 可對應用進行針對性的改進,使其更實用。
所以眾多合作伙伴加入,共建這個專案也就不奇怪了。
隨著越來越多的合作伙伴加入,OPEA生態將不斷發展壯大並衍生出多樣化的發展路徑。
例如中國開放智慧計算產業聯盟(COIA)目前已匯聚近60家成員單位,專注於推動企業AI生態協同發展。該聯盟即將推出“Powered By OPEA”認證體系,旨在確保合作伙伴間OPEA生態的互聯互通。
作為業界首個企業級AI應用認證標準,該體系將成為OPEA生態的核心保障機制,為透過認證的產品授予跨平臺互操作性標識。
“Powered By OPEA”認證將促進AI產業生態的完善,加速企業AI標準化程序,並最終發展成為企業選擇生成式AI元件的重要信任基準。
“AI無處不在”的故事正持續上演。
最後,附上量子位完整實測基於英特爾解決方案一體機的影片:
671B版DeepSeek的部署方法,也可點選閱讀原文獲取。
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!
—  —
🌟 點亮星標 🌟
科技前沿進展每日見

相關文章