沒有“包袱”的火山引擎,跑贏“DeepSeek大考”

作者 | 王一鵬
DeepSeek 彷彿一個一夜之間確立的新“模型標準”,在大約兩週的時間內,完成了對國內各大 B 端、C 端平臺的整合和部署。隨之而來的問題是,部署效果參差不齊,尤其是在 B 端,服務穩定性、準確率、API Latency、推理速度等維度都有較大差異。
業內許多機構、組織都在對此進行測試。而在一項來自 CLUE 中文語言理解測試基準的、包含了各大第三方 AI 平臺的測試中,僅“完整回覆率”一項,得分高者能達到 100%,而得分低者僅有 5%,跨度極大;在“每秒輸出 Token 數量”維度,得分高者能超過 50 Token/s,而得分低者僅有不到 10 Token/s,相差 5-6 倍。
核心差異在於,各家在大模型基礎設施層面的積累是不同,以及圍繞模型的最佳化策略不同。是否採用了模型剪枝、量化或混合精度訓練,是否有足夠的伺服器資源冗餘,都會對這些測量指標造成影響。
根據多家機構的評測報告來看,火山引擎在各項測試裡總能拿下第一的位置,在速度和可用性方面更是優勢顯著。如果 DeepSeek R1 的釋出是場“春節大考”,那麼火山無疑是坐在最前排的那名“優等生”。
火山引擎是如何“備考”的
要將“滿血版” DeepSeek 部署在自家的基礎設施上,並且以較優的體驗對外提供服務,實際上是件頗有難度的事兒。
比如,V3/R1 滿血版 700G,在 FP8 計算精度下,最少需要一臺 8 卡 96G 視訊記憶體的 GPU 才能部署,一般為了效果往往兩臺起步,所以在伺服器上獨立部署的成本還是很高的。
而硬體成本是這類部署中,最容易估算,也相對最片面的數字。實際上,DeepSeek 的部署和運維成本,至少要分散在四個層面:
  1. 資源層面,保證對大資源需求的及時響應,保障資源的靈活排程,完成硬體適配並承擔維護成本。
  2. 技術層面,滿足環境配置要求,完成模型的適配和最佳化,克服軟體環境複雜度高的問題,額外自研或採購加速最佳化方案,保障對外服務的效率、穩定性與相容性。
  3. 安全層面,保障資料安全、模型安全,否則易引發不當輸出或企業糾紛。
  4. 運維層面,保障算力資源的彈性供給。
依託火山引擎 AI 雲原生整合的全棧推理加速、最佳工程實踐、高性價比資源、安全易用性及良好的端到端體驗等優勢,火山方舟提供了一個新思路:先做好模型選擇,再完成最佳資源規劃、推理部署工程最佳化,最後保障企業級服務呼叫。
模型選擇的意思是,許多業務場景不一定需要“滿血版” 的 DeepSeek ,還是要根據具體的業務場景和需求,如自然語言處理任務中的文字生成、問答系統、情感分析等,來選擇最適合的模型。
模型部署前,還要對模型效能進行評估:除了常見的準確率、召回率等指標,還需要考慮模型的泛化能力、如穩定性、相容性等因素。
最佳資源規劃是指,圍繞 DeepSeek, 做好資源的排程、監控、成本控制,而且要保證部署模式足夠靈活,比如出於彈性與安全性的考慮,可選擇雲上部署或混合部署,且保證有效統一運維。
推理部署工程最佳化,更多是考慮是否有系統性對模型映象拉取部署和推理過程的效率最佳化,例如是否有較好的 PD 分離方案、推理加速效果。
而企業級服務呼叫,則是要確保資料的傳輸、儲存和使用過程中的安全,以及考慮是否有效抵禦 DDos、提示詞等攻擊手段。同時要將 DeepSeek 服務與現有的系統進行無縫整合,要考慮適配和除錯,API 的對接、IAM 身份認證管理等。
這一思路在業內基本已是共識,應該說火山並沒做得有多“標新立異”。
但在雲計算領域,思路總是趨同的——“Talk Is Cheap”——能在多大程度上落地,才是真正的考驗。火山方舟能透過“大考”,說明其在落地層面,確實有其獨到之處。
“豐富”、“靈活”,是大模型圈兒的“一招鮮”
火山引擎的第一個優勢,在於可以提供 24G、48G、80G、96G 等多個 GPU 視訊記憶體規格的雲伺服器例項,單機最大支援 768G 視訊記憶體,支援 600B 以上引數大模型部署。同時有成熟的多機互聯叢集產品方案,跨計算節點最高可提供 3.2Tbps 高速 RDMA 互聯頻寬,透過 RDMA 網路互聯的 GPU 雲伺服器,保證支撐“滿血版” DeepSeek 的部署是沒問題。現在官方提供的 Deepseek 部署實踐,也支援社群版本的 SGlang 和 vLLM 兩種框架。
同時,火山引擎還提供高效能自研模型蒸餾框架 veTuner、強化學習框架 veRL,以及訓推一體、任務優先順序排程和故障自愈能力。
這裡的 veTuner 稱得上是火山引擎 AI 技術棧中的核心工具——深度整合火山自研算力叢集(如液冷 GPU 伺服器、vRDMA 網路),支援混合精度訓練,相容英偉達、國產算力異構資源池。而且其開源生態很強壯,與 Hugging Face、ModelScope 等平臺打通。
“靈活”,是火山引擎挑戰 B 端雲市場格局的另一個賣點。透過全棧推理加速、最佳工程實踐和高性價比的資源排程,以模型為核心的火山引擎 AI 雲原生能夠覆蓋資源利用率、資源效能、資源健康度等多個維度,提供毫秒級的監控觀測能力,比如在高效能計算叢集的 RDMA 監測指標上,提供了 17 個監測項。
相關的檢測手段也很豐富,火山引擎 AI 雲原生可以支援 GPU 單機內和高效能計算叢集的例項健康度視覺化一鍵診斷能力,在上千臺例項中,分鐘級定位叢集問題例項。
根據官方口徑的資料,火山引擎 AI 雲原生可以實現秒級發現,分鐘級自愈,單機冷遷移任務耗時<1 分鐘,同時支援混合部署方式。
迴歸企業對雲及 MaaS(Model as a Service)服務最原始的需求,豐富的算力資源,靈活的配置方式,始終是底層邏輯與採購核心。這裡沒有太多“捷徑”,有足夠的技術投入,就有足夠的商業回報。
推理最佳化,是火山引擎的“重頭戲”
無論從方舟直接呼叫 API ,向底層拆解到 MLP 機器學習平臺、到雲原生 PaaS、再到更底層 IaaS,火山引擎圍繞 AI 雲原生的概念,幾乎在每一個層級都有對應的快速部署的最佳實踐。
以模型為核心,打造 AI 雲原生基礎設施,是 2025 年火山引擎非常重要的發展概念。
比如:為了更好支撐 PD 分離計算,火山引擎從 GPU 硬體伺服器在資料中心的交付部署階段開始做最佳化,把高算力 GPU 和高視訊記憶體頻寬的 GPU 資源以合理配比做了親和性部署,首先從物理層面就降低了資料跨交換機傳輸的機率。
PD 分離是一種針對大語言模型(LLM)推理的最佳化架構,將預填充(Prefill)和解碼(Decode)兩個階段拆分到不同的計算資源上獨立執行。這是因為 Prefill 階段計算密度高,需要高算力裝置;而 Decode 階段記憶體訪問密集,需要高視訊記憶體頻寬裝置。
而親和性部署是一種資源排程策略,簡單來說,是根據偏好,將同類 Pod 部署在同一節點中,減少通訊延遲。
PD 分離,和親和性部署,二者屬於一套“技術組合拳”。
早期從工程實施的角度,業內沒有辦法將“活兒”分的這麼細,而火山引擎是國內公有云平臺上最先支援 DeepSeek PD 分離的,可見已經具備了良好的實踐能力。
火山引擎分析了不同引數量級模型的計算特性,以及其在 Prefill 和 Decode 階段對資源的消耗情況,進而總結了不同情況下,在 P(Prefill) 和 D(Decode)階段需要採用什麼型別的算力,如何制定配置比例,等等。
理論上,火山引擎的客戶只需選擇平臺預置的模型檔案、支援自研 xLLM 推理引擎的環境映象、推理算力,就可以一鍵完成 DeepSeek R1 滿血版 PD 分離叢集化部署,最高推理吞吐提升 5 倍。
當然,即便做了 PD 分離,跨資源池進行算力排程,也是不可避免的。
火山引擎自研 vRDMA 網路在這種情況下,可以起到關鍵的最佳化作用——這是國內首創的基於標準 RoCE V2 協議的 vRDMA 產品能力,對比很多私有協議,vRDMA 的相容性強,能保證無侵入式的快速支撐當前的各種 AI 框架和軟體棧。
火山圍繞大模型的 KV-Cache 最佳化也推出了相應的加速產品彈性極速快取 (EIC),有半托管和全託管兩種產品形態,透過 GDR 技術實現零複製,將推理時延降低至 1/50,同時降低 GPU 推理消耗 20%。
二者綜合下來,面對跨 GPU 資源池以及儲存資源排程,火山引擎可以提供最高達 320Gbps vRDMA 的高速互聯能力,使端到端大模型推理效能提升 100% 以上。
這提升了火山方舟 DeepSeek 在“首 Token 響應時間”維度的測試表現。
“首 Token 響應時間”主要受服務端初始化模型的計算開銷和網路傳輸影響。例如,DeepSeek 官方的首 Token 延遲高達 7.75 秒,遠高於火山引擎的 1.01 秒。
而即便不考慮 vRDMA,火山引擎的容器映象倉庫透過快取、預熱等能力,也可以將模型映象的拉取速度提升約 50%。
安全與價效比:打破“二選一”困境
針對企業級服務呼叫,火山引擎比較神奇的地方在於,把安全和價效比兩個看起來“衝突較大”的概念統一在了一起。
尤其是 DeepSeek 爆火後,接踵而來的 DDos 攻擊,令業內十分頭疼——這事兒看起來只能靠錢堆,多配置計算資源冗餘,除此之外沒有太好的辦法。
安全方面,火山引擎在流量智慧檢測與攔截、多層加密與隔離架構等方面做了許多工作。比如,透過智慧檢測和語義分析技術,火山引擎能夠有效識別並攔截惡意提示詞注入攻擊,使得資料洩露風險降低了 70%;透過引入多輪校驗和上下文一致性檢測機制,火山引擎將模型幻覺和回覆不準確的發生率降低了 90% 以上。
價效比方面,以當前主流的視訊記憶體 96G 的 8 卡 GPU 雲伺服器為例,火山的刊例價格同樣也是最低的,低於市場價大概 16%。
但實際上,火山引擎沒有理由不去追求最優價效比。這不是某種商業策略,而是長期技術投入導致衍生的價值複用。
要知道,無論是今日頭條還是抖音,其成功都是現象級的,背後是超大規模的算力儲備,放眼全球看來都十分罕見。這意味著只要在基礎架構層面保持統一,算力資源都可以分別被打通,實現靈活排程。
比如,在業務低峰期,字節跳動國內業務的空閒計算資源可極速排程給火山引擎客戶使用,可分鐘級排程 10 萬核 CPU、上千卡 GPU 的資源量 做到 GPU 資源的潮汐複用,價格最高可優惠到 80% 以上。同時具備一站式混合 / 私有化部署大模型軟硬一體方案。
無論是在軟體層面,還是硬體層面,這種級別的投入,對於火山引擎而言,都是有跡可循的。其核心無非是一句話:“以模型為核心”。
沒有包袱的火山,全速衝刺
不懂得這句話,幾乎就無法理解最近兩年來,發生在火山引擎身上的變化。
以模型為核心,實際上是對“以 GPU 為核心”概念的升級。
在 2024 冬季火山引擎 FORCE 原動力大會上,火山引擎提出了“AI 雲原生”理念,核心在於傳統雲原生架構在計算效能、資料處理效率及安全性方面逐漸顯現不足,AI 技術的快速發展需要新的基礎設施架構來支撐,因此提出了“以 GPU 為中心重構雲架構”的理念。
在技術上,AI 雲原生主要對計算架構、儲存、網路等幾大方面做出了迭代,其最大的亮點,在於完全繞開了傳統的 CPU 體系記憶體訪問路徑,允許 GPU 直接訪問遠端高速記憶體,從而簡化資料傳輸路徑,提高計算效率。
以模型為核心,則是指,除了在基礎設施層面,為 GPU 開闢捷徑,還要追求以下四點:
  • 全棧推理加速,並具有最佳工程實踐;
  • 具有高性價比的計算資源和靈活部署模式;
  • 更加安全,保障大模型應用平穩執行;
  • 易用性好,端到端體驗好。
看看去年年底,火山引擎釋出的兩個例項:彈性預約例項(ESI)和搶佔式例項(Spot),二者都是典型的算力資源排程產品,旨在滿足企業在 AI 推理場景下對彈性、成本最佳化和穩定性的需求——前者允許使用者提前預約並鎖定算力資源,後者按需競價,可以更好地節省成本。
這類例項,傳統雲計算大廠也是有的。但只有火山在單獨強調 GenAI 推理場景,而不是通用計算場景。所以,火山引擎這兩個例項,對異構算力的排程能力更好,不依賴預留券,就可保障資源可用性,確定性更好。適用於需穩定資源的線上推理、容錯性高的離線推理、成本敏感型實驗性模型部署等情景和任務。
這是一種異常果決的,圍繞生成式 AI 制定的發展策略,行動力極強,從“以 GPU 為核心”迭代至“以模型為核心”,耗時不到一個季度。
也難怪,作為雲計算賽道的“新興玩家”,火山引擎沒有任何的“歷史包袱”:其生態內業務全部誕生自資料科學,所處的行業趨勢完全向生成式 AI 靠攏,二者天然親和,互為補充,且無後顧之憂。
戰略的果決,使得火山引擎在算力投資和生態合作兩個方面都非常的活躍。
此外,火山引擎也已經早早完成了商業化驗證。根據國際資料公司 IDC 釋出的《中國智算服務市場(2023 下半年)跟蹤》報告,火山引擎 GenAI IaaS 市場份額國內第一。
這一系列利好,讓人不得不開始考慮:火山引擎 AI 雲原生“以模型為核心”的思路,會引發整個雲計算行業的跟隨嗎?固化了許久的國內雲計算市場,或許正迎來新的變化。
今日好文推薦
 會議推薦
在AI大模型重塑軟體開發的時代,我們如何把握變革?如何突破技術邊界?4月10-12日,QCon全球軟體開發大會· 北京站 邀你共赴3天沉浸式學習,跳出「技術繭房」,探索前沿科技的無限可能。
本次大會將匯聚頂尖技術專家、創新實踐者,共同探討多行業AI落地應用,分享一手實踐經驗,深度參與DeepSeek主題圓桌,洞見未來趨勢。
活動推薦
點選【閱讀原文】體驗滿血 + 聯網版 DeepSeek R1 模型及豆包最新版模型!

相關文章