MLNLP社群是國內外知名的機器學習與自然語言處理社群，受眾覆蓋國內外NLP碩博生、高校老師以及企業研究人員。

社群的願景是促進國內外自然語言處理，機器學習學術界、產業界和廣大愛好者之間的交流和進步，特別是初學者同學們的進步。

來源 | RUC AI Box

作者｜高延子鵬‍‍

機構｜中國人民大學

研究方向｜大語言模型

本文旨在梳理大語言模型高效解碼的相關研究進展，從模型壓縮、KV 快取最佳化、投機解碼、推理引擎與排程策略、模型架構五個方面呈現近期相關工作，以期為未來研究提供參考。

01 模型壓縮

1.1 70% Size, 100% Accuracy: Lossless LLM Compression for Efficient GPU Inference via Dynamic-Length Float

http://arxiv.org/abs/2504.11651

本文提出了一種名為 Dynamic-Length Float (DFloat11) 的無失真壓縮框架，旨在高效部署大型語言模型（LLMs）。DFloat11 透過熵編碼技術，根據權重頻率分配動態長度編碼，將模型大小減少 30%，同時保持與原始模型完全相同的輸出結果。該框架針對 BFloat16 權重表示的低熵特性，開發了定製的 GPU 核心以實現快速線上解壓縮，包括將查詢表分解為緊湊版本以適應 GPU SRAM、採用兩階段核心協調執行緒讀寫位置以及在 Transformer 塊級別進行解壓縮以降低延遲。實驗表明，DFloat11 在多種模型（如 Llama-3.1、Qwen-2.5 和 Gemma-3）上實現了約 30% 的模型大小縮減，並在固定 GPU 記憶體預算下，相比未壓縮模型，顯著提升了吞吐量和上下文長度，甚至能夠在單節點上無損推理 810GB 的 Llama-3.1-405B 模型。

1.2 KurTail: Kurtosis-Based LLM Quantization

https://arxiv.org/abs/2503.01483

本文提出了一種名為 KurTail 的新型後訓練量化（PTQ）方案，旨在解決大型語言模型（LLM）量化中的離群值問題，特別是在4位量化等極端情況下。KurTail 透過基於 Kurtosis 的旋轉方法最佳化啟用的尾部特性，有效緩解離群值的影響，支援對權重、啟用和 KV 快取進行4位量化。採用逐層最佳化策略確保記憶體效率。實驗結果顯示，KurTail 相較於 QuaRot 在 MMLU 準確率提升13.3%，Wiki 困惑度降低15.5%；相較於 SpinQuant，MMLU 提升2.6%，困惑度降低2.9%，同時降低訓練成本。該方法在保持高效量化的同時顯著提升模型效能，為 LLM 量化提供了新的解決方案。

1.3 Quantitative Evaluation of Multi-bitwidth Quantization for DeepSeek Language Models

https://arxiv.org/abs/2505.02390

本文對 DeepSeek 模型的量化效能進行了量化分析，重點關注 DeepSeek-R1 和 DeepSeek-V3 在多位元量化下的表現。研究發現，4 位量化（Q4K_M）在效能和記憶體佔用之間取得了較好的平衡，能夠在標準的 8-GPU 機器上實現單機部署，且效能與 FP8 相比幾乎沒有下降。此外，文章提出了一種動態 3 位量化方法（DQ3K_M），其效能優於傳統的 3 位量化方法，並且在大多數任務中與 4 位量化相當。DQ3K_M 支援 NVIDIA H100/A100 和華為 910B 的單機部署，模型大小為 281GB，適合在資源受限的裝置上執行。

1.4 Resource-Efficient Language Models: Quantization for Fast and Accessible Inference

https://arxiv.org/abs/2505.08620v1

本文綜述了後訓練量化（PTQ）技術在最佳化大型語言模型（LLM）推理效率方面的應用。文章詳細介紹了量化方案、粒度選擇及其權衡，並探討了量化在減少模型資源消耗和提高硬體可訪問性方面的潛力。研究指出，LLM的複雜性主要源於Transformer架構，尤其是其自注意力機制。文章回顧了多種PTQ方法，包括ZeroQuant、LLM.int8()、GPTQ、AWQ、SmoothQuant和HQQ等，並討論了它們在不同硬體和任務上的適用性。最後，文章強調了未來研究方向，包括自動化校準、無資料的異常值處理和針對特定任務的量化評估。

1.5 Týr-the-Pruner: Unlocking Accurate 50% Structural Pruning for LLMs via Global Sparsity Distribution Optimization

https://arxiv.org/abs/2503.09657

本文提出了一種名為Týr-the-Pruner的全域性結構化剪枝框架，旨在提升大型語言模型（LLM）的硬體無關推理效率，同時保持效能。傳統區域性剪枝方法因忽略全域性拓撲而效果有限，全域性剪枝雖具潛力但資源消耗大，且現有方法因均勻排序結構重要性而無法實現端到端最佳化。Týr-the-Pruner透過構建超網路，結合高效區域性剪枝和期望誤差累積方法，最佳化全域性稀疏度分佈，在50%稀疏度目標下實現準確剪枝。實驗表明，該框架在效能與效率間取得平衡，顯著優於現有方法，為LLM的輕量化部署提供了新思路。

1.6 Efficient Shapley Value-based Non-Uniform Pruning of Large Language Models

https://arxiv.org/abs/2505.01731v2

本文提出了一種基於 Shapley 值的非均勻剪枝方法（SV-NUP），用於最佳化大型語言模型（LLM）的剪枝過程。傳統剪枝方法通常採用均勻稀疏策略，忽略了不同 Transformer 層對模型效能的不同貢獻，導致剪枝效果欠佳。SV-NUP 透過量化每一層的貢獻，為不同層分配定製化的剪枝預算，優先保留關鍵引數。為了提高效率，本文還設計了一種基於滑動視窗的 Shapley 值近似方法（SWSV），顯著降低了計算開銷。實驗表明，SV-NUP 在多種 LLM 上均顯著提升了剪枝模型的效能，特別是在 LLaMA-7B 和 LLaMA-13B 上，與 SparseGPT 相比，困惑度（PPL）分別降低了 18.01% 和 19.55%。

1.7 Semantic Retention and Extreme Compression in LLMs

https://arxiv.org/abs/2505.07289

本文探討了大規模語言模型（LLM）的語義保留與極致壓縮之間的平衡，研究了剪枝和量化聯合壓縮的潛力。作者提出了理論壓縮率（TCr）和語義保留壓縮率（SrCr）兩個新指標，用於量化模型壓縮與語義保留的權衡。透過實驗發現，聯合壓縮（如25%剪枝與4位量化）相比單獨量化在相同理論壓縮率下平均效能提升20%。研究還分析了半結構化剪枝模式的潛力，為硬體高效部署提供了新方向。

1.8 From Large to Super-Tiny: End-to-End Optimization for Cost-Efficient LLMs

https://arxiv.org/abs/2504.13471

本文提出了一種從大型語言模型（LLM）到超小型模型的端到端最佳化部署流程，旨在解決LLM在實際應用中的成本與效能困境。該流程包括三個階段：原型設計、知識轉移和模型壓縮。首先，透過將複雜任務轉化為基於LLM的函式呼叫流程，構建高效能原型系統；其次，利用拒絕微調、強化學習和知識蒸餾等技術將知識遷移到0.5B引數的學生模型中；最後，透過量化和剪枝將模型進一步壓縮至0.4B引數，實現超低延遲和成本。實驗結果表明，該方法在保持較高準確率的同時，顯著降低了模型規模和推理成本，具有廣泛的應用前景。

1.9 TinyR1-32B-Preview: Boosting Accuracy with Branch-Merge Distillation

https://arxiv.org/abs/2503.04872v1

本文提出了一種名為 Branch-Merge 的蒸餾方法，用於在壓縮大型語言模型（LLM）的同時提升其效能。該方法包含兩個階段：分支階段（Branch Phase）和合並階段（Merge Phase）。在分支階段，透過領域特定的監督微調（SFT），將大型教師模型（如 DeepSeek-R1）的知識選擇性地蒸餾到多個專業學生模型中；在合併階段，這些學生模型被合併，以實現跨領域知識轉移並提高泛化能力。實驗結果表明，生成的 TinyR1-32B-Preview 模型在多個基準測試中顯著優於其前身 DeepSeek-R1-Distill-Qwen-32B，特別是在數學（+5.5 分）、程式設計（+4.4 分）和科學（+2.9 分）領域，同時在 AIME 2024 上接近 DeepSeek-R1 的效能。該方法為建立更小、高效能的 LLM 提供了一種可擴充套件的解決方案，顯著降低了計算成本和時間。

02 KV Cache 最佳化

2.1 WeightedKV: Attention Scores Weighted Key-Value Cache Merging for Large Language Models

https://arxiv.org/abs/2503.01330

本文提出了一種名為 WeightedKV 的新型無失真壓縮方法，用於最佳化大型語言模型（LLMs）的鍵值（KV）快取。在自迴歸生成過程中，KV 快取會隨著序列長度增加而線性增長，導致記憶體佔用過高。傳統方法透過驅逐不重要的 KV 對來限制快取大小，但可能會丟失關鍵資訊。WeightedKV 透過保留重要 token 的鍵，並將不重要 token 的值透過凸組合加權平均注意力分數合併到相鄰 token 中，既減少了記憶體佔用，又保留了上下文完整性。實驗表明，該方法在長文字生成任務中表現優於現有基線方法，顯著降低了困惑度，尤其在較小快取預算下效果顯著。

2.2 KeepKV: Eliminating Output Perturbation in KV Cache Compression for Efficient LLMs Inference

https://arxiv.org/abs/2504.09936

本文提出了一種名為 KeepKV 的新型鍵值（KV）快取壓縮方法，用於高效推理大型語言模型（LLMs）。傳統方法透過驅逐不重要的 KV 快取條目或合併 KV 對來減少記憶體佔用，但會導致資訊丟失、輸出擾動和生成質量下降。KeepKV 引入了“選舉投票”機制，記錄合併歷史並動態調整注意力分數，並透過零推理擾動合併（ZIP-Merging）方法保持注意力一致性，補償合併導致的注意力損失。實驗表明，KeepKV 在多種任務和模型上顯著降低了記憶體使用，提升了推理吞吐量，並在極低的快取預算下保持了接近全快取的生成質量。

2.3 Cocktail: Chunk-Adaptive Mixed-Precision Quantization for Long-Context LLM Inference

https://arxiv.org/pdf/2503.23294

本文提出了一種名為 Cocktail 的新型塊自適應混合精度量化方法，用於最佳化長文字上下文的大型語言模型（LLMs）推理中的鍵值（KV）快取。Cocktail 包含兩個模組：塊級量化搜尋和塊級 KV 快取計算。塊級量化搜尋基於查詢與上下文塊之間的相似性分數快速確定 KV 快取塊的最佳位寬配置，以保持模型精度；塊級 KV 快取計算透過重新排列 KV 快取塊以避免混合精度量化帶來的硬體效率低下問題。實驗表明，Cocktail 在多種模型和資料集上優於現有的 KV 快取量化方法，顯著降低了 GPU 記憶體使用和推理延遲，同時保持了較高的模型精度。

2.4 X-EcoMLA: Upcycling Pre-Trained Attention into MLA for Efficient and Extreme KV Compression

https://arxiv.org/abs/2503.11132

本文提出了一種名為 X-EcoMLA 的方法，用於將預訓練的 Transformer 模型中的多頭注意力（MHA）高效地轉換為多頭潛在注意力（MLA），從而實現高效的鍵值（KV）快取壓縮。X-EcoMLA 透過輕量級的後訓練適應，利用奇異值分解（SVD）初始化和知識蒸餾技術，將預訓練模型的知識遷移到 MLA 模型中，顯著減少了 KV 快取的記憶體佔用，同時保持了模型效能。實驗表明，使用 8B 教師模型時，X-EcoMLA 能夠將 Llama3.2-1B 模型的 KV 快取壓縮 6.4 倍，同時在多個基準任務上保持 100% 的平均分數，僅需 3.6B 訓練 token 和約 70 GPU 小時。

2.5 Rethinking Key-Value Cache Compression Techniques for Large Language Model Serving

https://arxiv.org/abs/2503.24000

本文重新審視了大型語言模型（LLM）服務中的鍵值（KV）快取壓縮技術，從實際應用角度出發，對現有方法進行了全面調研和實驗分析。研究發現，儘管KV快取壓縮可以減少記憶體消耗，但現有實現（如FlashAttention和PagedAttention）在生產級LLM服務中的吞吐量表現欠佳，且壓縮可能導致輸出長度增加，從而延長端到端延遲。此外，透過分析單個樣本的準確性，揭示了KV快取壓縮在處理特定LLM任務時的內在侷限性。基於這些發現，本文提供了工具，包括吞吐量分析工具、長度預測器和負樣本基準資料集，以促進KV快取壓縮技術在生產環境中的實際部署。

2.6 Oaken: Fast and Efficient LLM Serving with Online-Offline Hybrid KV Cache Quantization

https://arxiv.org/abs/2503.18599v2

本文提出了Oaken，一種針對大規模語言模型（LLM）推理服務的加速解決方案。Oaken透過演算法與硬體的協同設計，實現了高效的鍵值（KV）快取量化技術，有效緩解了LLM推理中記憶體頻寬和容量的瓶頸。它採用線上線下混合量化方法，透過離線設定異常值閾值和線上動態量化，結合定製的量化/反量化引擎和記憶體管理單元，顯著提高了推理吞吐量，同時僅引入極小的精度損失。實驗表明，Oaken在256的批次大小下，相比NVIDIA A100 GPU可實現高達1.58倍的吞吐量提升。

2.7 SQuat: Subspace-orthogonal KV Cache Quantization

https://arxiv.org/abs/2503.24358

本文提出了一種名為 SQuat（Subspace-orthogonal KV Cache Quantization）的鍵值（KV）快取量化方法，旨在最佳化大規模語言模型（LLM）推理過程中的記憶體使用和推理速度。SQuat 透過構建一個由查詢張量（query tensors）張成的子空間來捕捉與任務相關的關鍵資訊，並在量化鍵張量（key tensors）時，確保量化誤差與該子空間正交，從而最小化量化對注意力機制輸出的影響。該方法無需對模型進行微調，也不依賴額外的校準資料集。實驗表明，SQuat 在多個 LLM 上顯著降低了記憶體峰值用量（2.17× ∼ 2.82×），提高了吞吐量（2.45× ∼ 3.60×），並且在基準測試中表現優於現有的 KV 快取量化演算法。

2.8 LLMs Know What to Drop: Self-Attention Guided KV Cache Eviction for Efficient Long-Context Inference

https://arxiv.org/abs/2503.08879v1

本文提出了 Self-Attention Guided Eviction（SAGE-KV），一種針對長文字推理場景下的大規模語言模型（LLM）的高效鍵值（KV）快取淘汰方法。SAGE-KV 透過分析注意力分數的稀疏性，發現 LLM 在預填充階段後能夠自然地聚焦於關鍵資訊。基於此，該方法在預填充後僅透過一次 top-k 選擇，即可在 token 和 head 層面上壓縮 KV 快取，從而在減少快取的同時保留關鍵資訊，實現高效的推理。實驗表明，SAGE-KV 在 LongBench 基準測試和多個長文字 LLM 上，與全注意力機制相比保持了相當的精度，同時顯著提高了記憶體效率，相比靜態快取選擇方法 StreamLLM 和動態快取選擇方法 Quest，分別實現了約 4 倍和 2 倍的記憶體效率提升。

2.9 MILLION: Mastering Long-Context LLM Inference Via Outlier-Immunized KV Product Quantization

http://arxiv.org/abs/2504.03661

本文提出了 MILLION，一種針對長文字推理場景下的大規模語言模型（LLM）的量化框架，旨在透過最佳化鍵值（KV）快取的量化來提高推理速度和記憶體管理效率。MILLION 首先對 KV 快取分佈進行深入分析，揭示了傳統量化方案的侷限性。接著，它引入了一種基於乘積量化的非均勻量化演算法，能夠高效壓縮資料並保留精度。此外，MILLION 還開發了一個高效能的 GPU 推理框架，透過稀疏計算和非同步量化顯著提升了推理速度。實驗結果表明，MILLION 在 4 位量化時幾乎不損失困惑度和精度，並在 32K 上下文長度下實現了 2.09 倍的端到端效能提升。

03 投機解碼

3.1 EAGLE-3: Scaling up Inference Acceleration of Large Language Models via Training-Time Test

https://arxiv.org/abs/2503.01840

本文提出EAGLE-3，一種透過訓練時測試（Training-Time Test）技術加速大型語言模型推理的新方法。針對傳統EAGLE因特徵預測限制在資料規模擴充套件時效能提升有限的問題，EAGLE-3放棄特徵預測，採用直接token預測，並透過多層特徵融合替換單一頂層特徵依賴，顯著提升效能。實驗涵蓋聊天和推理模型，在五項任務中評估，結果顯示EAGLE-3加速比高達6.5倍，較EAGLE-2提升約1.4倍，在SGLang框架下吞吐量提高1.38倍（批次大小64）。該方法充分利用資料規模擴充套件優勢，為高效推理提供新路徑。

3.2 SD²: Self-Distilled Sparse Drafters

https://arxiv.org/abs/2504.08838

本文介紹了一種名為Self-Distilled Sparse Drafters（SD2）的新方法，旨在透過自資料蒸餾和細粒度權重稀疏化技術，生成高效且與目標模型高度對齊的草稿模型，以加速大型語言模型（LLMs）的推理過程。SD2透過提高草稿標記接受率並顯著減少乘累加操作（MACs），在通用輔助生成（UAG）場景下表現出色，即使草稿和目標模型來自不同模型家族，也能有效提升LLMs的推理效率，同時保持與目標模型的一致性。

3.3 SpecEE: Accelerating Large Language Model Inference with Speculative Early Exiting

https://arxiv.org/abs/2504.08850

本文提出了一種名為SpecEE的新型加速框架，用於提升大型語言模型（LLM）的推理效率。SpecEE透過利用推測模型減少早期退出預測器的搜尋空間，有效降低硬體計算和記憶體訪問需求。它在演算法層面設計了基於推測的輕量級預測器，系統層面採用兩級啟發式預測器排程引擎，對映層面提出上下文感知的合併對映策略。實驗表明，SpecEE在雲和PC場景下分別實現了2.25倍和2.43倍的速度提升，同時保持了與原模型相當的準確性，顯著推動了加速與準確性的帕累託前沿。

3.4 SpecOffload: Unlocking GPU Capacity for LLM Inference

https://arxiv.org/abs/2505.10259v1

本文提出了一種名為SpecOffload的新型推理引擎，旨在提升資源受限裝置上大型語言模型（LLM）的推理效率。SpecOffload透過將推測性解碼嵌入到模型解除安裝過程中，充分利用GPU的閒置時間和低效記憶體，顯著提高了GPU核心利用率和推理吞吐量。該方法透過精心設計的交織批處理流水線、自適應張量放置策略和引數規劃器，優化了計算和記憶體資源的分配。實驗表明，SpecOffload在不同環境下對Mixtral等模型的推理吞吐量提升顯著，平均達到2.54倍，有效解決了現有解除安裝框架中的GPU資源利用不足問題。

3.5 PARD: Accelerating LLM Inference with Low-Cost PARallel Draft Model Adaptation

https://arxiv.org/abs/2504.18583

本文提出了 PARD（PARallel Draft），一種用於加速大型語言模型（LLM）推理的新型推測解碼方法。PARD 透過將自迴歸（AR）草稿模型轉換為並行草稿模型，能夠在單次前向傳播中預測多個未來標記，顯著提高了推理效率。此外，PARD 引入了條件丟棄標記方法，將訓練效率提升了 3 倍。實驗表明，PARD 在最佳化後的推理框架上將 LLaMA3.1-8B 的推理速度提升了 4.08 倍，達到每秒 311.5 個標記。

3.6 Speculative Decoding for Multi-Sample Reasoning

https://arxiv.org/abs/2503.05330

本文提出了一種針對多樣本推理場景（如自洽性和Best-of-N取樣）的新型推測性解碼方法。該方法透過動態分析並行推理路徑中的結構模式，利用機率聚合機制識別與解碼分佈一致的共識標記序列，生成高質量的草稿標記，無需輔助模型或外部資料庫。實驗表明，該方法在數學推理基準測試中顯著提高了草稿接受率，降低了草稿標記構建的延遲，為高效多樣本推理提供了新的正規化。

3.7 Automatic Task Detection and Heterogeneous LLM Speculative Decoding

https://arxiv.org/abs/2505.08600

本文提出了一種針對下游任務最佳化的推測性解碼方法TaskSpec。該方法透過自動任務分割槽和分配，將下游任務劃分為多個子任務，並將這些子任務分配給一組異構的草稿模型。每個草稿模型透過特定任務的資料與目標模型對齊，從而提高推理結果的一致性。此外，TaskSpec引入了一個輕量級線上提示分類器，動態地將提示路由到合適的草稿模型。實驗表明，TaskSpec在提高草稿模型接受率的同時，顯著提升了LLM推理的速度，最高可達2.64倍加速。

3.8 SPIN: Accelerating Large Language Model Inference with Heterogeneous Speculative Models

https://arxiv.org/abs/2503.15921

本文介紹了一種名為SPIN的高效大語言模型（LLM）推理服務系統，基於異構推測模型的推測解碼技術。SPIN透過使用多個不同規模的推測模型（SSM），並結合學習演算法動態選擇最適合每個推理請求的SSM，顯著提高了推測解碼的效能。此外，SPIN提出了一種請求分解方法以減少批次處理中的冗餘填充，並透過流水線化推測和驗證階段進一步加速推理過程。實驗結果表明，SPIN相比現有方法在推理吞吐量上提升了約2.28倍，有效解決了現有技術在處理複雜請求時的效能瓶頸。

3.9 Accelerating LLM Inference with Lossless Speculative Decoding Algorithms for Heterogeneous Vocabularies

https://arxiv.org/abs/2502.05202v1

本文提出了一種加速大型語言模型（LLM）推理的新型無損推測解碼（Speculative Decoding, SD）演算法，專注於解決異構詞彙表（即起草模型和目標模型詞彙表不同）的問題。傳統SD方法要求起草模型和目標模型共享相同詞彙表，限制了可用起草模型的選擇。本文提出的三種新方法（包括String-Level Exact Match, SLEM；Token-Level Intersection, TLI；String-Level Rejection Sampling, SLRS）均無需額外訓練或修改即可直接應用於現成模型，並在總結、程式設計和長文字任務中顯著提升了推理速度，相關實現已整合至Hugging Face Transformers庫中。

3.10 PipeSpec: Breaking Stage Dependencies in Hierarchical LLM Decoding

https://arxiv.org/abs/2505.01572

本文介紹了一種名為PipeSpec的框架，用於加速大型語言模型（LLM）的解碼過程。PipeSpec透過將多個不同規模的模型以層次化流水線的方式排列，打破了傳統解碼中階段之間的嚴格依賴關係，實現了非同步執行和輕量級協調。該框架透過樂觀執行機制，假設下游模型會接受上游生成的候選標記，從而提高吞吐量。實驗結果表明，PipeSpec在文字摘要和程式碼生成任務中，使用LLaMA 2和3模型時，能夠實現高達2.54倍的速度提升，且隨著流水線深度的增加，效率進一步提高。

3.11 Speculative Thinking: Enhancing Small-Model Reasoning with Large Model Guidance at Inference Time

http://arxiv.org/abs/2504.12329

本文提出了一種名為“Speculative Thinking”的訓練無關框架，旨在透過大模型在推理階段對小模型進行推理指導，從而提升小模型的推理能力。該方法與基於標記級別的推測解碼不同，它基於兩個觀察：一是推理支援性標記（如“wait”）常出現在結構分隔符後，可作為反思或繼續的訊號；二是大模型在控制反思行為方面表現更強，能減少不必要的回溯並提升推理質量。透過將反思步驟委託給更強大的模型，該方法顯著提高了小模型的推理準確率，並縮短了輸出長度。例如，在32B模型的輔助下，1.5B模型在MATH500基準測試中的準確率從83.2%提高到89.4%，輸出長度減少了15.7%。

3.12 SplitReason: Learning To Offload Reasoning

http://arxiv.org/abs/2504.16379

本文提出了一種名為SplitReason的模型，旨在透過將複雜的推理任務分解，將最具挑戰性的部分解除安裝到更強大的模型，同時讓較小的模型負責大部分生成任務。研究者透過對OpenR1-Math-220k資料集中的18k推理軌跡進行標註，並結合監督微調和強化學習微調，訓練1.5B引數的推理模型識別並觸發解除安裝。該方法在AIME24推理任務中顯著提升了準確率，同時僅解除安裝少量生成標記，提高了推理效率。

04 推理引擎與排程策略

4.1 A Survey on Inference Engines for Large Language Models: Perspectives on Optimization and Efficiency

https://arxiv.org/abs/2505.01658

本文對大語言模型（LLM）的推理引擎進行了全面綜述，分析了25種開源和商業推理引擎的最佳化方法和硬體適應策略。研究重點包括推理引擎的易用性、部署便捷性、通用性支援、可擴充套件性以及對吞吐量和延遲的最佳化能力。文章還探討了未來發展方向，如多模態LLM支援、替代Transformer架構、更長上下文視窗、複雜邏輯推理最佳化、應用特定設計、安全性增強、裝置端推理支援以及異構硬體加速等，為設計和運營下一代推理基礎設施提供了實踐基礎。

4.2 Injecting Adrenaline into LLM Serving: Boosting Resource Utilization and Throughput via Attention Disaggregation

https://arxiv.org/abs/2503.20552

本文提出了一種名為Adrenaline的注意力計算分離與解除安裝機制，旨在解決大型語言模型（LLM）服務系統中預填充（prefill）和解碼（decoding）階段分離導致的GPU資源利用率低下的問題。Adrenaline透過將解碼階段的部分注意力計算解除安裝到預填充例項，提高了預填充例項的記憶體容量和頻寬利用率，並增加了解碼例項的計算利用率。該機制透過低延遲解碼同步、資源高效的預填充共置和負載感知的解除安裝排程等關鍵技術，實現了高效的注意力解除安裝。實驗結果表明，Adrenaline在真實工作負載下相比現有系統顯著提高了資源利用率和推理吞吐量。

4.3 Improving the Serving Performance of Multi-LoRA Large Language Models via Efficient LoRA and KV Cache Management

https://arxiv.org/abs/2505.03756

本文提出了FASTLIBRA，一種針對多LoRA（Low-Rank Adapter）大語言模型（LLM）推理的高效快取管理系統。FASTLIBRA透過維護LoRA介面卡和KV快取之間的使用依賴關係，並在高頻寬記憶體（HBM）中統一管理快取，顯著提高了多LoRA模型的推理效能。該系統包含一個依賴感知的快取管理器和一個性能驅動的快取交換器，能夠動態調整LoRA和KV快取的快取策略，減少首次響應時間（TTFT）和每次輸出時間（TPOT）。實驗表明，FASTLIBRA相比現有系統平均降低了63.4%的TTFT和40.1%的TPOT，同時提高了35.2%的峰值吞吐量。

4.4 Optimizing LLM Inference Throughput via Memory-aware and SLA-constrained Dynamic Batching

https://arxiv.org/abs/2503.05248

本文提出了一種動態批處理方法，用於最佳化大語言模型（LLM）推理的吞吐量，同時考慮記憶體限制和服務級別協議（SLA）約束。傳統靜態批處理方法在處理動態工作負載時存在侷限性，而本文的方法透過即時監控記憶體使用情況並根據SLA調整批處理大小，有效提高了計算效率和資源利用率。實驗結果表明，該方法在不同LLM配置下可將吞吐量提高8%至28%，並在SLA約束下將系統容量提升22%。該方法與現有的推理基礎設施完全相容，為LLM部署提供了高效的最佳化方案。

4.5 Throughput-Optimal Scheduling Algorithms for LLM Inference and AI Agents

https://arxiv.org/abs/2504.07347

本文透過排隊論的視角研究大語言模型（LLM）推理系統的吞吐量最佳化問題，填補了排隊論與LLM系統研究之間的空白。文章提出了一類“工作保護型”（work-conserving）排程演算法，證明其能夠在滿足服務級別協議（SLA）約束的條件下實現LLM推理系統的最大吞吐量。實驗表明，Orca和Sarathi-Serve等系統採用的排程策略是吞吐量最優的，而FastTransformer和原始vLLM則存在不穩定性。此外，文章還擴充套件分析了AI代理工作負載場景下的排程策略，並揭示了在多代理LLM系統中實現最優吞吐量的挑戰。研究結果為LLM推理系統的排程演算法設計提供了理論基礎和實踐指導。

4.6 SeaLLM: Service-Aware and Latency-Optimized Resource Sharing for Large Language Model Inference

https://arxiv.org/abs/2504.15720

本文提出了 SeaLLM，一個針對大語言模型（LLM）推理的服務感知且低延遲最佳化的資源共享系統。SeaLLM 透過以下方式提升多 LLM 共享的整體效能：（1）利用 LLM 服務特性設計低延遲排程演算法；（2）提出放置演算法確定 LLM 服務的放置計劃和自適應替換演算法決定替換間隔；（3）採用統一的鍵值快取高效共享 GPU 記憶體。實驗表明，SeaLLM 在歸一化延遲、尾延遲和 SLO 達成率上相比現有解決方案分別提升了高達 13.60 倍、18.69 倍和 3.64 倍。

05 模型架構

5.1 Faster MoE LLM Inference for Extremely Large Models

https://arxiv.org/abs/2505.03531

本文探討了稀疏專家混合（MoE）大語言模型（LLM）在超大規模模型中的推理最佳化問題。針對細粒度MoE模型（如DeepSeek）逐漸興起但研究較少的現狀，文章分析了其在不同服務負載下的效率動態，重點研究減少啟用專家數量對MoE效率與效能的權衡影響。研究表明，減少啟用專家在特定場景下可顯著提升效率，同時效能損失較小。文章提出了針對細粒度MoE架構的最佳化策略，為部署超大規模模型提供了重要見解。儘管MoE模型部署面臨更大挑戰，但其最佳化潛力巨大，為未來高效推理提供了新方向。

5.2 The Sparse Frontier: Sparse Attention Trade-offs in Transformer LLMs

http://arxiv.org/abs/2504.17768

本文探討了稀疏注意力機制在Transformer大語言模型（LLM）中的應用及其效率與準確性的權衡。研究透過在不同模型規模、序列長度和稀疏性水平下對多種長序列任務進行實驗，發現對於非常長的序列，較大的稀疏模型比小的密集模型更具優勢。在解碼階段，稀疏性水平可以在統計上保證準確性，而在預填充階段則更難實現。此外，稀疏注意力並非萬能解決方案，適度稀疏在某些任務中可能導致顯著效能下降。文章還引入了針對稀疏注意力的新型擴充套件規律，證明了其在實驗範圍之外的適用性。

5.3 Nemotron-H: A Family of Accurate and Efficient Hybrid Mamba-Transformer Models

http://arxiv.org/abs/2504.03624

本文介紹了Nemotron-H，這是一個由NVIDIA開發的8B和56B/47B混合Mamba-Transformer模型家族，旨在降低推理成本的同時保持高精度。研究團隊透過將Transformer架構中的大部分自注意力層替換為Mamba層，實現了推理時的常量計算和記憶體需求。Nemotron-H模型在推理速度上比同類開源Transformer模型快3倍，且精度相當或更高。此外，透過MiniPuzzle技術對56B模型進行壓縮，生成的47B基礎模型在保持精度的同時進一步提升了20%的推理速度。

5.4 M1: Towards Scalable Test-Time Compute with Mamba Reasoning Models

http://arxiv.org/abs/2504.10449

本文提出了一種基於Mamba架構的新型混合線性RNN推理模型M1，旨在解決大型語言模型（LLM）在長鏈推理中因Transformer架構的二次計算複雜度和線性記憶體需求所致的上下文長度擴充套件限制。M1透過從現有推理模型的蒸餾過程和強化學習（RL）訓練進行最佳化，實現了記憶體高效的推理。實驗結果顯示，M1在AIME和MATH基準測試中不僅超越了之前的線性RNN模型，還在同等規模下與最先進的Deepseek R1蒸餾推理模型效能相當。透過吞吐量加速和自一致性投票，M1在固定生成時間預算下展現了更高的準確性，為擴充套件測試時生成（如長鏈推理或自一致性）提供了一種更有效的方法。

技術交流群邀請函

△長按新增小助手

掃描二維碼新增小助手微信

請備註：姓名-學校/公司-研究方向

（如：小張-哈工大-對話系統）

即可申請加入自然語言處理/Pytorch等技術交流群

關於我們

MLNLP 社群是由國內外機器學習與自然語言處理學者聯合構建的民間學術社群，目前已經發展為國內外知名的機器學習與自然語言處理社群，旨在促進機器學習，自然語言處理學術界、產業界和廣大愛好者之間的進步。

社群可以為相關從業者的深造、就業及研究等方面提供開放交流平臺。歡迎大家關注和加入我們。