推理效能提升13倍,延時縮短超4倍丨實測焱融YRCloudFileKVCache

DeepSeek 引爆大模型在千行百業落地的背景下,儲存與計算的協同最佳化正成為企業提升 AI 推理效率、降低運營成本的關鍵。KVCache 技術透過“以存換算”的創新模式,顯著提升了推理效能,成為企業構建大模型基礎設施的必要選擇。此前,焱融科技率先推出 YRCloudFile 分散式檔案系統的 KVCache 特性,支援 PB 級快取擴充套件,大幅提高 KV 快取命中率與長上下文處理能力,為大模型推理提供更優價效比技術方案。
在本篇文章中,焱融儲存技術團隊基於公開資料集和業界公認的測試工具,基於 NVIDIA GPU 硬體平臺模擬真實的推理業務場景,進一步探索併發布 KVCache 在推理場景中的詳細效能最佳化資料。測試結果顯示,在相同規模和推理延遲 TTFT (Time-To-First-Token) 下,YRCloudFile KVCache 可支援更高併發查詢請求,為使用者提供更貼近實際使用場景的效能驗證與最佳化方案。這些資料不僅驗證了 KVCache 技術的有效性,並揭示了高效能 KVCache 給推理業務帶來的可量化的價值。
實測 YRCloudFile KVCache
在推理場景中的效能最佳化資料
為了驗證將 GPU 記憶體擴充套件至 YRCloudFile KVCache 對 token 處理效率的顯著提升效果,並充分展示焱融 AI 儲存架構的卓越效能,我們進行了多輪測試。透過針對不同 token 數量和配置的測試,深入探索該架構在實際應用中的最佳化潛力。以下測試均是基於原生 vLLM,以及 vLLM+YRCloudFile KVCache 進行的資料對比。
測試一:長上下文提問下,推理 TTFT 的對比資料。
  • 背景:輸入長上下文,對比單次提問的回答總耗時(指超過 20K 長度的 token)
  • 顯示卡:NVIDIA T4
  • 模型:Qwen/Qwen2.5-7B-Instruct-GPTQ-Int4
  • 測試方法:基於同樣的上下文,使用相同的問題,透過 QA chatbot 上進行提問模擬
  • 測試結論:在長上下文場景中,使用 YRCloudFile KVCache 可實現高達 13 倍的 TTFT 效能提升。這一顯著最佳化得益於其高效快取命中率和對大規模資料的快速處理能力,為大模型推理提供了更優的效能支援。
使用者普遍能接受的 TTFT 在 2 秒以內。基於這一背景,我們設計了測試二,以驗證系統在長上下文場景下的效能表現。
測試二:使用不同上下文長度,在 TTFT ≤ 2 秒時,相同 GPU 能支撐的併發數對比資料。
  • 背景:在相同顯示卡配置與 2 秒 TTFT 延遲約束條件下,透過對比原生 vLLM 與整合 YRCloudFile KVCache 的解決方案在不同上下文長度(–max-prompt-length 引數)下的併發支援能力,驗證儲存擴充套件對併發推理請求的提升效果。
  • 顯示卡:NVIDIA L20
  • 模型:Qwen/Qwen2.5-7B-Instruct-GPTQ-Int4
  • 測試工具:使用 evalscope 測試工具, –dataset 引數為 longalpaca,以及指定不同 –max-prompt-length 引數值,進行測試。
  • 測試結論:在相同 GPU 配置下,當 TTFT ≤ 2 秒時,YRCloudFile KVCache 可承載的併發數可提升 8 倍。這意味著,在相同數量的 GPU 配置下,系統能夠滿足更高併發請求的需求,顯著優化了推理效能和資源利用率。
測試三:在相同 GPU 配置和較高併發數下,使用不同上下文長度的 TTFT 效能對比資料
  • 背景:在相同顯示卡配置下,透過設定不同的上下文長度(–max-prompt-length 引數),在併發數為 30 情況下,使用原生 vLLM,以及 vLLM+YRCloudFile KVCache 進行的資料對比。
  • 顯示卡:NVIDIA L20
  • 模型:Qwen/Qwen2.5-7B-Instruct-GPTQ-Int4
  • 測試工具:evalscope,–dataset 使用longalpaca,指定不同–max-prompt-length,併發為 30 的情況下,進行測試。
  • 測試結論:在較高併發數下,對於不同的上下文長度,YRCloudFile KVCache  所提供的 TTFT 延遲可縮小 4 倍以上;這表明 YRCloudFile KVCache 在高併發場景下,能夠有效最佳化推理效能,顯著減少延遲,提升使用者體驗。
本次測試透過多維度驗證表明,YRCloudFile KVCache 在長上下文處理與高併發場景中展現出顯著效能優勢:在 TTFT≤2 秒的嚴苛約束下,其支援的併發數提升達 8 倍,且在高併發負載中延遲可降低 4 倍以上。這一成果不僅印證了 “儲存 – 計算協同最佳化” 對 AI 推理效率的核心價值,更揭示了透過分散式儲存架構擴充套件視訊記憶體資源的技術路徑,能夠有效突破傳統 GPU 算力瓶頸,實現資源利用率的指數級提升。
當前,隨著 DeepSeek 等大模型在千行百業的規模化落地,企業對推理效率與成本最佳化的需求愈發迫切。YRCloudFile KVCache 透過 PB 級快取擴充套件能力,將儲存資源轉化為計算效能增益,為行業提供了兼顧高效能與低成本的實踐範例。這種以儲存架構創新驅動算力釋放的模式,或將成為企業構建下一代 AI 基礎設施的關鍵突破點,加速大模型從技術突破到商業閉環的演進程序。
如果您感興趣 ❤️
歡迎聯絡我們深入交流

相關文章