為了讓DeepSeek-R1用起來更順暢,火山引擎將TPM上調到了500萬!全網首家

機器之心報道
編輯:Panda
最近,DeepSeek 很熱,是個好 AI,但不是每個人都能用上。
於是,不少大大小小的 AI 雲服務商都看到了機會,部署上線了 DeepSeek 的各個模型,並還透過各種優惠活動為自己拉使用者。相信很多讀者都參與到了這波薅羊毛中,但結果呢?很多時候,雖然免費的 Token 額度是到賬了,但呼叫 DeepSeek-R1 是否成功就完全得看運氣了。那些到賬的 Token 額度也就成了一個可見而不可用的數字。這不由得讓人感嘆:薅羊毛,還是得薅大廠的。
前些天,火山引擎也上線了 DeepSeek-R1 模型(包括滿血版和一些蒸餾版),並且還向使用者贈送了 50 萬 Token 的免費額度。用完後「續杯」的價格也不貴 —— 目前 DeepSeek-R1 滿血版還在半價優惠中!算下來,每 100 萬 Token 輸入僅需 2 元錢,100 萬 Token 輸出也只需 8 元。
並且我們完全不必擔心遇到「伺服器繁忙」的問題。作為字節跳動旗下的雲和 AI 服務平臺,火山引擎的實力已經得到了大量部署其上的服務的驗證 —— 就以 DeepSeek 的模型為例,自其登陸火山引擎以來,用量一直在持續攀升,現在已有數萬客戶穩定呼叫該模型,而火山引擎依然能夠輕鬆地保持非常穩定的服務。
這也得到了第三方評測平臺的佐證。根據 SuperCLUE 最新發布的 DeepSeek-R1 網頁端穩定性測評報告,火山引擎是唯一一個完整回覆率達到了 100% 的 DeepSeek-R1 第三方平臺,也就是說部署在該平臺上的 DeepSeek-R1 模型每一次都能給出完整回覆,不存在截斷、無響應等問題。
事實上,DeepSeek 系列模型現有的數萬客戶對火山引擎來說也只能是「灑灑水啦」。要知道,火山引擎為每位使用者設定的初始 TPM(每分鐘 Token 數)限流就已經達到了驚人的 500 萬!在之前 80 萬 TPM 的基礎上實現了近一個數量級的提升。可說是全網最高。企業和開發者完全不必擔心自己的資料或查詢量過大和流量不夠。
相較之下,其它 AI 雲服務商提供的 TPM 就遠遠不及了,比如阿里云為 DeepSeek-R1 和 DeepSeek-V3 設定了最高 120 萬的 TPM,而騰訊雲的資料也只有 60 萬 TPM,百度智慧云為自家 ERNIE 系列模型設定的初始 TPM 也都不超過 80 萬。其它更小規模的廠商就更別提了。
放眼海外, OpenAI 為使用者設定的 TPM 也非常低:免費使用者僅有 4 萬 TPM,而只有當付費等級達到 Tier 3 以上時,才有可能獲得與火山引擎提供的相當的 TPM。Claude 的流量限制也差不多,其為 Tier 1 使用者設定了 4 萬輸入 TPM 和 8000 輸出 TPM 的限制,最高的 Tier 4 也僅有 40 萬輸入 TPM 和 8 萬輸出 TPM。
此外,火山引擎還給了使用者 50 億初始離線 TPD(每日 Token 數)配額,是全網首家做到如此豪氣的 AI 雲服務商。
所以,不管是「全網最高」還是「全網首家」,火山引擎都當之無愧。
同時,在保證了超大流量和吞吐量的同時,火山引擎也做到了超低延遲。據火山引擎智慧演算法負責人吳迪介紹,即使是在數千萬 TPM 的大流量下,火山引擎依然能達到相當穩定的低延遲水平,如下圖所示。
500 萬 TPM,火山引擎的底氣是什麼?
500 萬 TPM 並不是一個小數字,換算下來,大致相當於每分鐘 3 萬多條響應,足以滿足一個具有相當規模使用者的應用的需求。火山引擎敢放開手腳,為使用者提供如此實惠,自然有著自己的底氣。
首先,自然是硬體實力。火山引擎有海量的 GPU 資源,並且吳迪表示已經將數以萬計不同型號的 GPU 算力投入了火山方舟 —— 火山引擎旗下一站式大模型服務平臺。另外,火山引擎還實現了「極致的成本效用」,可實現對 GPU 算力的靈活呼叫。
不僅如此,火山引擎的彈性伸縮(Auto Scaling)能力也值得稱道。簡單來說,彈性伸縮是指讓雲伺服器資源池可根據當前服務的需求彈性調整所配置的計算資源。火山引擎能在分鐘級的時間內完成數千臺 GPU 資源的伸縮排程,從而可以有效地支援突發的流量和業務高峰。
針對 DeepSeek 系列模型,火山引擎還透過全棧自研推理引擎進行了運算元層、系統層的深度最佳化。
運算元層,由於 DeepSeek 系列與此前公開的豆包大模型 1.5 都採用了相似的 MoE 稀疏架構,因此火山引擎針對豆包系列模型部署的大量專家最佳化都可以直接複用。在此基礎上,火山引擎還針對 DeepSeek 的尺寸進行了重新調優。比如針對 MLA(多頭隱注意力)計算,火山引擎結合精度量化,針對硬體架構進行了指令級別的調優。
而在系統層,火山引擎進行了三項深度最佳化:
  • 透過異構 PD 分離以及多機 EP + DP + TP 的混合並行推理方式,對計算效率和成本進行了極致的最佳化,同時還保障了推理延遲的穩定。
  • 透過定製化網絡卡和自主研發的網路協議,顯著最佳化多機推理 All2All 通訊耗時。
  • 結合高效的分散式儲存設施,可顯著最佳化 DeepSeek 671B 這種超大模型權重的載入速度,保證系統的擴容效率,從而達成更加高效的彈性計算系統。
方舟推理工程最佳化專家徐子林表示:「DeepSeek-R1 滿血版是一個非常龐大的模型,加上前後處理過程,總引數量可達 700B,而如果按照我們當前最極致的最佳化水平,可在 7 秒內完成模型的載入。」也就是說,當系統出現突發流量時,火山引擎可實現秒級響應,從而實現「使用者側的無感使用」。
在火山引擎使用 DeepSeek,還有更多好處
在火山引擎上使用 DeepSeek,除了流量大、速度快、延遲低,使用者還能享受到更多好處。
首先,火山引擎不僅提供了已經部署好的 DeepSeek 系列模型(可透過網頁端直接使用以及透過 API 呼叫),而且還支援其它幾種使用 DeepSeek 的模式,包括使用火山引擎的 veMLP(機器學習平臺)高效部署、使用 VKE(容器服務)靈活部署、使用火山引擎系列 GPU ECS 自定義部署。下表簡要總結了這幾種不同模式的適合場景、核心使用方式以及優勢。
下面展示了一個透過方舟 API 將 DeepSeek-R1 引入 AI 客戶端 Chatbox 的示例,請注意這裡設定了「你是一位數學老師」的系統提示詞:
此外,在安全和隱私方面 —— 吳迪稱這是火山引擎關注的「重中之重」,火山引擎也做出了承諾。火山引擎採用了先進的加密技術和嚴格的控制策略,可以保障使用者的資料安全,杜絕使用者的 prompt 和 response 被洩露和濫用的風險。簡單來說,火山引擎的安全理念可以總結為:鏈路全加密、資料高保密、環境強隔離、操作可審計。
當然,火山引擎上不只有 DeepSeek-R1,也有 DeepSeek-V3,更有位元組自家的豆包大模型家族以及 Mistral、Llama 等開源模型。這些模型在規模和功能上各有特色,有的支援音訊、影像、影片等多模態處理,還有專門針對金融、漫畫、音樂、同聲傳譯等應用場景定製的專業模型。開發者和企業可根據自身業務需求,靈活選擇最適合的模型與版本。
進一步最佳化即將到來
綜合來看,火山引擎在 DeepSeek 系列模型的部署上展現出了卓越的技術實力和市場競爭力。
憑藉海量的 GPU 資源、靈活的彈性伸縮能力以及全棧自研推理引擎的深度最佳化,火山引擎不僅實現了 500 萬 TPM 的高流量吞吐,還在低延遲、低成本的前提下為企業和開發者提供了極具吸引力的服務。相較於國內外其他 AI 雲服務商,火山引擎在 Token 計費、初始配額以及系統穩定性方面均具有明顯優勢。
與此同時,火山引擎豐富的部署模式(如 veMLP、VKE、GPU ECS 自定義部署)和全面的安全防護措施,更為使用者在大規模資料查詢和即時計算需求下,提供了堅實的技術保障。
為了讓 DeepSeek-R1 和其它 AI 模型更快、更準確地與使用者互動,火山引擎還在繼續不斷完善推理層效能,現已將 TPOT(輸出每個 Token 的時間)降低到接近 30ms。並且最佳化還將繼續,據瞭解,火山引擎還計劃將 TPOT 進一步穩定地壓低至 15ms~30ms 區間,成為國內最低延遲的大規模 DeepSeek-R1 推理服務,助力使用者獲得暢享流暢的互動體驗。
當然,使用者們心心念唸的聯網搜尋能力也即將上線火山引擎,加上字節跳動優質的內容生態。屆時我們有望看到大量豐富多樣的應用爆發。
未來,隨著技術的不斷迭代升級和市場需求的進一步釋放,火山引擎有望在 AI 雲服務領域繼續引領行業潮流,為各類創新應用賦能,為數字化轉型提供更高效、更穩定的支撐。
心動了嗎?快透過這個傳送門前往火山方舟吧:https://console.volcengine.com/ark
© THE END 
轉載請聯絡本公眾號獲得授權
投稿或尋求報道:[email protected]


相關文章