浪潮資訊元腦R1推理伺服器已完成對開源框架SGLang最新版本的深度適配,成功實現在單機高效能執行DeepSeek R1 671B模型時可最大支援超過1000路的使用者併發訪問。

DeepSeek R1引數量達到6710億,採用了MLA注意力機制和共享專家、路由專家共同組成的混合專家(MoE)架構,其創新的模型架構也帶來了在推理服務上的效能挑戰。浪潮資訊團隊從AI伺服器和推理框架入手開展了協同最佳化工作。
元腦R1推理伺服器NF5688G7原生搭載FP8計算引擎,針對DeepSeek R1 671B模型部署速度快且無精度損失,1128GB HBM3e高速視訊記憶體滿足671B模型 FP8精度下不低於800GB視訊記憶體容量的需求,單機支援全量模型推理情況下,仍保留充足的KV快取空間。視訊記憶體頻寬高達4.8TB/s,完美契合DeepSeek R1模型"短輸入長輸出、視訊記憶體頻寬敏感"的技術特徵,在推理解碼階段可實現極致加速。在通訊方面,GPU P2P頻寬達900GB/s,保障單機部署張量並行最佳通訊效能。
SGLang是新興的開源推理框架專案,其得到活躍的社群支援,並在工業界獲得了廣泛應用。SGlang的核心特性包括:快速的後端執行時、靈活的前端語言、廣泛的模型支援等。尤其值得關注的是,SGLang針對MLA注意力機制開展了針對性的工程最佳化,並在框架上對MoE架構的推理做了最佳化設計。SGLang也是最早適配DeepSeek v3和R1的優選推理框架之一。
目前,元腦R1推理伺服器 NF5688G7已完成SGLang最新版本 0.4.3的適配最佳化工作。透過硬體調優、運算元最佳化、混合並行、多token預測等多方面的工程實踐,在元腦R1推理伺服器 NF5688G7上執行DeepSeek 671B R1模型,成功實現了單使用者解碼最高33 tokens/s及最大使用者併發超1000的優異效能表現。

∆ Figure 1: 單路併發效能測試日誌
根據TPOT換算使用者解碼效能為33.3 tokens/s
DeepSeek R1 671B是一個稀疏度較高的MoE架構模型,具有模型引數量大、計算量小的特點。和Dense模型相比,在滿足KV cache的視訊記憶體佔用的前提下,可以支援更高的併發訪問需求。實測資料表明,基於單臺NF5688G7,在使用DeepSeek R1進行帶思維鏈深度思考的短輸入長輸出的問答場景下,使用100/1000作為輸入輸出長度,實測在單個使用者併發時的解碼效能為33.3tokens/s;在16個使用者併發時,每個使用者有約20 tokens/s的解碼效能;在64個使用者併發時,每個使用者有約10.4 tokens/s的解碼效能。而在使用1024個使用者併發訪問的極限測試時,單臺NF5688G7實現了3975.76 tokens/s的吞吐效能,可以滿足超高併發場景下多使用者使用需求。

∆ Figure 2: 1024路併發效能測試日誌
測試使用了1000/1000的輸入輸出長度,實現了3975.76 tokens/s的總裝置吞吐
浪潮資訊團隊正與業內團隊密切合作,在計算架構、運算元調優、並行策略、框架適配、排程管理等多個方面持續發力,旨在為使用者帶來高效能、高效穩定、價效比高的DeepSeek大模型部署服務方案,助力大模型快速落地應用。
浪潮資訊是全球領先的IT基礎設施產品、方案和服務提供商,透過發展新一代以系統為核心的計算架構,打造開放、多元、綠色的元腦智算產品和方案。浪潮資訊致力於AI計算平臺、資源平臺和演算法平臺的研發創新,並透過元腦生態攜手領先夥伴,加速人工智慧的創新和應用落地。
👉點選閱讀原文或複製以下連結,申請試用元腦R1推理伺服器
https://abmkt.ieisystem.com/zhu-ce-biao-dan
