機器之心釋出
機器之心編輯部
2025 年開年,DeepSeek R1 和 V3 重磅釋出,其超強的語言建模與推理能力,引爆了全球 AI 社群。與此同時,一個隱藏在超大規模模型身後的技術命題浮出水面:如何讓千億引數超大規模 AI 模型真正達到商業級推理速度?這一問題的答案,隱藏在推理引擎 SGLang 的程式碼倉庫中。該專案由 LMSYS Org 發起,並受到 xAI、NVIDIA、AMD 等巨頭的青睞,正在透過多項關鍵技術突破,重新定義 LLM 推理的效率邊界。

從 DeepSeek 模型釋出當天便實現最佳適配,到長期穩居 SOTA 效能榜首,SGLang 的進化軌跡揭示了一個開源專案的硬核生存法則:用工程創新,攻克開發者最棘手的效能瓶頸。
透過領先的 Multi-head Latent Attention Optimzation、Data Parallelism Router、Eagle Speculative Decoding 等等技術方案,SGLang 長期保持開源模型頂尖的推理速度和吞吐量。
但是,SGLang 的征程絕不止步於此。當 Agent 的工程師們用其部署智慧體時,當開發者在 NVIDIA Triton 核心中融入其最佳化策略時,當全世界的研究者高強度使用 DeepSeek 本地部署時,這個專案的真正價值正在顯現:它不僅是長期領先的推理引擎,更是開源社群集體智慧的結晶。本文將從核心技術突破、系統級最佳化到開發者生態,解碼 SGLang 獨到的進化之路。
一、DeepSeek 模型持續最佳化,架構適配的工程實踐

image credit: DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model
自從 DeepSeek V2 釋出以來,SGLang 團隊針對 DeepSeek 系列模型的 MLA(Multi-head Latent Attention)架構進行了深度最佳化。這些技術覆蓋了資料並行注意力(Data Parallelism Attention)、多節點張量並行(Multi Node Tensor Parallelism)以及塊級 FP8 量化(Block-wise FP8),從而在解碼計算、視訊記憶體管理和多節點協同等多個環節實現了突破性提升。
對於 Multi-head Latent Attention(MLA)的最佳化,團隊透過使用權重吸收重新排列計算步驟,在保證模型表達能力的前提下,平衡了計算與記憶體訪問負載,降低了解碼過程中的冗餘計算,降低了 MLA 在 Decode 過程中的計算量。在此基礎上,針對 MLA 解碼核僅保留一個 KV 頭的設計,SGLang 團隊開發了 Triton 解碼核最佳化方案。該方案透過在同一計算塊內同時處理多個 query 頭,顯著減少了對 KV Cache 的記憶體訪問需求,從而加速瞭解碼流程。此外,團隊結合 W8A8 FP8、KV Cache FP8 量化技術,並開發了 FP8 批次矩陣乘法(BMM)運算元,實現了 MLA 高效的 FP8 推理。值得一提的是,MLA 與 Mixture-of-Experts(MoE)模組均已相容 CUDA Graph 和 Torch.compile,能夠進一步降低小批次推理時的延遲。經過這些綜合最佳化,DeepSeek 系列模型在輸出吞吐率方面較上一版本實現了最高達 7 倍的加速效果。
面對高併發和大批次資料的實際應用需求,團隊進一步在 MLA 注意力機制中引入了資料並行注意力技術。該方案透過將不同型別的 batch(包括 prefill、decode、extend 以及 idle 狀態)分別分配給各個資料並行工作單元,使得各單元能夠獨立處理各自任務。待任務完成後,在 Mixture-of-Experts(MoE)層前後再進行必要的同步操作,從而顯著降低了 KV Cache 的重複儲存負擔,優化了記憶體使用,並支援更大批次請求的高效處理。該最佳化專為高 QPS(Queries Per Second)場景設計,使用者在使用 DeepSeek 系列模型時可透過命令引數 –enable-dp-attention 一鍵啟用這一功能。
在單節點記憶體受限的情況下,SGLang 團隊還推出了多節點張量並行技術。該方案允許將超大規模模型(如 DeepSeek V3)跨多個 GPU 或節點進行引數分割槽部署,有效突破單節點記憶體瓶頸。使用者可以根據實際資源情況,在叢集環境中靈活配置多節點張量並行,確保模型在高負載場景下依然能保持高效推理和資源利用率。
為了在推理過程中進一步平衡數值精度與計算效率,團隊還開發了塊級 FP8 量化方案。在啟用值量化方面,採用 E4M3 格式,並透過對每個 token 內 128 通道子向量進行線上 casting,實現動態縮放,從而確保量化後啟用值的數值穩定性;而在權重量化上,則以 128×128 塊為基本單元進行處理,使得量化過程更為精細,有效捕捉權重分佈特性。這一方案已在 DeepSeek V3 模型中預設啟用,為模型在高效推理的同時保持較高精度提供了有力保障。
在如此極致的最佳化之下,SGLang 團隊實現了從解碼計算到記憶體管理、從單節點最佳化到跨節點協同的全方位提升。這些技術創新使得 SGLang 在 DeepSeek 模型在保持高精度的基礎上,其輸出吞吐率最高可達 7 倍提升,並在高併發和大規模部署場景中展現出卓越的效能和靈活性。更多詳細技術資訊及使用案例,請參閱官方 Blog 與相關技術簡報。
二、Zero-Overhead Batch Scheduler:排程器的效能革命
在傳統推理引擎中,儘管大模型的推理主要依賴 GPU 運算,但 CPU 仍需承擔批排程、記憶體分配、字首匹配等大量工作。未經充分最佳化的推理系統往往會將多達一半的時間耗費在這些 CPU 開銷上,嚴重影響整體效能。SGLang 一直以高效的批排程器著稱,而在 0.4 版本中,團隊進一步突破,實現了近乎零開銷的批排程器。
這一技術的核心在於將 CPU 排程與 GPU 計算重疊執行。具體來說,排程器提前一批執行,在 GPU 執行當前任務的同時,便同步準備好下一批所需的所有元資料。這樣一來,GPU 始終處於忙碌狀態,無需等待 CPU 的排程結果,成功隱藏了諸如匹配 radix cache 等較為昂貴的操作的開銷。透過 Nsight profiling 工具的測試顯示,在連續五個解碼批次中,GPU 全程保持高負載,未出現任何空閒時段(注:該測試基於 Triton attention 後端,FlashInfer 後端將在後續版本中進一步最佳化)。
藉助這一最佳化,SGLang v0.4 能夠充分挖掘 GPU 的計算潛力,在 batch size 顯著的情況下,實現了相較於上一版本的明顯提升。尤其在小模型和大規模張量並行場景下,這一最佳化效果尤為明顯。該近零開銷批排程技術已預設啟用,使用者無需額外配置,即可享受效能上的顯著提升。
三、多模態支援:視覺與語言的協同加速
在多模態應用場景中,SGLang 持續與國內外頂尖的多模態技術團隊深度合作,將先進的視覺與語言處理能力無縫整合到 SGLang 中。現有方案使得系統能夠同時應對單影像、多影像以及影片任務,實現了在三大計算機視覺場景中的先進效能,為後續多模態應用奠定了堅實基礎。
在實現上,SGLang 支援透過 OpenAI 相容的視覺 API 提供服務。該介面能夠處理純文字輸入,還可以接受交錯文字、影像和影片的混合輸入,滿足複雜應用場景下多模態資料的協同處理需求。使用者無需額外開發,即可透過統一的 API 呼叫體驗多模態推理的便捷與高效。
官方提供的 benchmark 結果顯示,在 VideoDetailDescriptions 和 LLaVA-in-the-wild 資料集上,整合後的多模態模型在保證推理準確性的同時,相較於 HuggingFace/transformers 的原始實現,效能最高可提升 4.5 倍。這一加速效果得益於 SGLang Runtime 的高效排程和輕量化設計,使得系統在處理多型別資料時始終能夠保持較高的吞吐率。
目前為止,SGLang 已經在多模態支援方面展示了卓越的相容性和擴充套件能力,後續還將邀請更多開發者重構相關程式碼並且進行更多模型乃至最新的 cosmos 世界模型和 -o 流式模型的支援。透過互動式的文字、影像和影片輸入,SGLang 不僅大幅提升了多模態任務的處理效率,同時也為實際應用場景下的複雜資料協同計算提供了有力的技術保障。更多詳細的使用方法和效能資料,請參考官方技術文件及 benchmark 報告。
四、X-Grammar:結構化生成的正規化重構
在約束解碼領域,SGLang 利用了 XGrammar 系統在結構化生成方面更是實現了全新的正規化重構,顯著突破了傳統約束解碼的效能瓶頸。
在上下文擴充套件方面,XGrammar 針對每條語法規則增加了額外的上下文資訊檢測,從而有效減少了與上下文依賴相關的 token 數量。這一改進使系統在處理複雜語法時能夠更早識別並利用規則隱含的語義資訊,從而降低了解碼過程中不必要的狀態切換開銷。
為了高效管理多條擴充套件路徑產生的執行狀態,XGrammar 採用了基於樹結構的資料組織方式,構建了持久化執行棧。該設計不僅能夠高效地管理多個執行棧,還可以在面對拆分與合併操作時保持資料結構的穩定性和高效性,確保整個解碼流程始終流暢執行。
在下推自動機結構最佳化方面,XGrammar 借鑑了編譯器設計中的內聯最佳化和等價狀態合併技術,對自動機中的節點進行精簡。透過減少不必要的狀態節點,系統能夠更迅速地完成語法規則的匹配與轉換,從而顯著提升瞭解碼效率。
此外,為充分發揮多核 CPU 的計算能力,XGrammar 對語法編譯過程進行了並行化處理。語法規則的編譯任務被分配到多個 CPU 核心上同時執行,不僅大幅縮短了編譯時間,也為後續多工解析提供了堅實的基礎。
綜合上述各項最佳化措施,XGrammar 技術的整合,使 SGLang 在 JSON 解碼等約束解碼任務上實現了 10 倍的加速效果。在處理複雜結構化資料和工具呼叫場景時,XGrammar 不僅大幅降低了解碼延遲,還為大規模線上服務提供了可靠的效能保障。
有關 XGrammar 的進一步介紹,SGLang 團隊已在官方部落格中進行了深入探討,相關技術文件可供參考。
五、Cache-Aware Load Balancer:智慧路由的架構突破

在 SGLang v0.4 中,引入了獨出心裁的全新 Cache-Aware Load Balancer,為大模型推理系統提供了智慧路由的架構突破,全部以 Rust 編寫,相比於 Python 大幅減少 Service Overhead。該負載均衡器採用基於字元級字首匹配的路由演算法,透過合併後的 Radix Tree 實現無需 Tokenization 的匹配。系統能夠根據各工作節點的字首 KV 快取命中率進行動態評估,並自動選擇快取命中率較高的節點來處理請求。與傳統的輪詢排程方式相比,此方案在實際測試中展示了最高可達將近兩倍的吞吐量提升,以及將近四倍的快取命中率改進。隨著工作節點數量的增加,這種優勢更為明顯,充分體現了負載均衡策略在多節點分散式部署中的擴充套件性。
為了有效管理快取資源,SGLang 的負載均衡器內部引入了懶更新的 LRU 淘汰策略,對近似 Radix Tree 中訪問頻率較低的葉子節點進行定期清理,從而防止記憶體過度膨脹並保持樹結構的高效性。此舉不僅優化了記憶體使用,還為整個推理系統帶來了更穩定的快取效能。在分散式部署場景下,系統透過 HTTP 介面實現了秒級動態擴縮容,允許在叢集中快速增減工作節點。得益於這一智慧路由設計,SGLang 在多節點叢集中的吞吐效能呈現出近線性的擴充套件趨勢,為大規模線上服務提供了堅實的效能和可靠性保障。
六、開發者工具鏈
在可用性和易用性方面,SGLang 提供了與 OpenAI API 相容的介面層,支援 Chat、Completions、Embeddings 等常見功能,開發者僅需替換端點即可快速無縫遷移。對於更靈活的部署方式,離線引擎模式(Offline Engine)允許單指令碼同時驅動多節點推理,無需獨立服務化,從而大幅簡化了運維成本。
為了讓開發者能夠深入瞭解模型狀態並進行精細調優,SGLang 內建了 Prometheus 監控整合,即時追蹤吞吐量(Throughput)、延遲(Latency)和視訊記憶體使用(GPU Memory Pressure)等核心指標;多 LoRA 動態載入(Dynamic LoRA Switching)則讓同一服務可在視訊記憶體複用率高達 90% 的情況下,熱切換多個不同的 LoRA 介面卡(Low-Rank Adaptation);而約束解碼(Constrained Decoding)提供了 JSON、GBNF 等格式的強制校驗能力,將生成錯誤率降至極低水平,滿足生產場景對輸出格式的一致性要求。
七、社群與未來規劃
目前,SGLang 在全球範圍內已經匯聚了 30 餘位核心貢獻者。在接下來的 2025 H1 階段中,團隊將致力於完善實戰場景下的 PD 分離、Speculative Decoding 的長文字最佳化、推動多級快取(GPU/CPU/Disk)策略落地,並繼續強化並行策略以適配千億級 MoE 模型。除開本身推理效果的最佳化,SGLang 團隊也將致力推理引擎的廣泛落地,繼續支援 RAG、multi-Agent、Reasoning、RLHF 等等領域的 AI 落地。最後,SGLang 也將在運算元覆蓋率與效能上持續最佳化,支援更多的更廣泛的硬體,力爭為開源社群提供更加先進的一站式大模型推理方案。
八、新的一年,與社群共赴星辰大海

開源一週年,SGLang 的成長軌跡印證了一個技術真理:頂尖的工程實踐,永遠誕生於開發者社群的協作共振。從首個支援 Prefix Cache 的推理框架,到斬獲 11K Star、月均 10 萬下載量的開源明星;從 xAI、NVIDIA、AMD 等巨頭的深度整合,到為 DeepSeek 模型的最佳開源推理引擎 ——SGLang 的每一次技術突破,都源於社群開發者的真實需求與共創智慧。
在 SGLang 的程式碼倉庫中,200+ 社群貢獻不僅帶來了 Multi-head Latent Attention、Block-wise FP8 等核心創新,更催生了開發者工具鏈的全面進化:支援多模態的視覺語言模型、熱切換 LoRA 的視訊記憶體複用、JSON 結構化生成的極速校驗…… 這些能力背後,是三十餘位核心貢獻者與數百開發者的技術接力。正如 LMSYS Org 組織秉持的核心理念,技術生態的繁榮,從不是單打獨鬥的奇蹟。當我們看到 SGLang 在 DeepSeek-R1 上實現狂飆式吞吐,在 128k 長文字中達到超低延遲,這不僅是框架的勝利,更是開源社群 “百花齊放” 的明證 —— 從 LinkedIn 的分散式部署實踐,到 NVIDIA 的 Triton 核心最佳化,再到普通開發者提交的數百個效能調優 PR,每個參與者都在為大模型落地這一終極目標添磚加瓦。
一枝獨秀不是春,百花齊放春滿園。SGLang 的開源故事,正在詮釋一個屬於開發者的黃金時代:在這裡,工程師的每一行程式碼都可能影響數百萬使用者的體驗,研究者的每個創意都有機會重塑技術邊界。SGLang 團隊也誠邀每一位感興趣的朋友加入社群,參與 Slack 與 Github 上的技術討論,在全球 Meetup 中分享實戰洞察 —— 因為下一個改變行業的最佳化方案,或許就誕生於你的一次 git commit。
-
GitHub 倉庫: https://github.com/sgl-project/sglang
-
Slack 社群:slack.sglang.ai
-
DeepSeek 最佳化指南: https://docs.sglang.ai/references/deepseek.html
立刻體驗最新版本的 SGLang,讓大模型推理再上新臺階!
© THE END
轉載請聯絡本公眾號獲得授權
投稿或尋求報道:[email protected]