打破自迴歸模型的“速度枷鎖”！NYU、賓大等釋出「推測解碼技術」最新綜述

近期，隨著大型自迴歸模型在自然語言處理、影像生成和語音合成等領域的廣泛應用，即時性和效率問題逐漸成為制約其發展的關鍵瓶頸。

在這一背景下，如何在保持高質量輸出的同時，顯著提升模型的推理速度，以滿足即時應用的需求，成為了一個亟待解決的挑戰。傳統的最佳化方法，如剪枝和量化，往往會在加速模型的同時犧牲輸出質量，因此需要探索一種既能提升速度又能保持質量的高效解碼策略。

這一挑戰催生了生成-精煉框架（Generation-Refinement Frameworks）的快速發展，其中最具代表性的技術是 Speculative Decoding（SD）。

SD 透過引入草稿模型並行生成 Token，並利用目標模型進行驗證，打破了傳統自迴歸模型的序列依賴性，顯著降低了推理延遲，同時保持了高質量的輸出。這種技術讓自迴歸模型在即時應用中變得更加高效和靈活，不再被“速度枷鎖”所束縛。

為了全面總結 Speculative Decoding 及相關技術的發展歷程，並及時跟進最新的研究進展，紐約大學、賓夕法尼亞大學、富蘭克林·馬歇爾學院等機構的研究者們釋出了一篇深度綜述論文《Speculative Decoding and Beyond: An In-Depth Survey of Techniques》。

全文 8 頁，涵蓋了近 120 篇最新文獻，系統性地分析了生成-精煉框架的演算法創新和系統級實現，並探討了其在文字、影像、語音等多模態領域的應用。

論文地址：

https://arxiv.org/abs/2502.19732

現代語言模型的加速之道：打破順序依賴

在當今人工智慧領域，語言模型（LLMs）的發展日新月異。從 Llama 系列到 GPT 系列，這些強大的模型都基於一種名為 “Transformer” 的架構，由多層解碼器模組堆疊而成。每一層解碼器都包含兩個核心元件：自注意力（Self-Attention，SA）模組和前饋網路（Feed-Forward Network，FFN）。

在模型執行時，輸入資料首先透過權重矩陣計算出查詢（Query）、鍵（Key）和值（Value）向量，隨後透過矩陣運算和歸一化處理，生成加權求和的結果，並透過殘差連線傳遞給前饋網路，最終輸出結果。

然而，當我們試圖將這些模型應用於實際場景時，問題逐漸浮現。

推理過程分為兩個階段：預填充（prefill）和解碼（decoding）。預填充階段可以並行處理輸入序列，但解碼階段卻成了瓶頸。模型必須按順序逐個預測每個 Token，依賴於當前和之前的 Token 資訊。隨著序列長度的增加，這種順序依賴導致的記憶體訪問延遲愈發顯著，嚴重影響了模型的響應速度。

為了解決這一難題，研究者們提出了多種方法。傳統的思路是透過模型壓縮、知識蒸餾和架構最佳化來降低計算成本，但這些方法大多隻是在計算層面做文章，未能從根本上解決順序依賴的問題。

直到“推測式解碼”（Speculative Decoding，SD）的出現，才真正打破了這一僵局。

推測式解碼是一種創新的兩階段處理方法。它引入了一個小型、快速的草稿模型，先並行生成多個 Token，然後透過目標模型進行驗證。草稿模型負責快速生成 Token，擺脫了逐個生成的限制；而目標模型則透過接受或拒絕預測結果來確保輸出質量。

推測式解碼是打破自迴歸模型順序依賴的一種成功嘗試。事實上它屬於一個更廣泛的生成-精煉方法框架。論文在接下來的章節深入探討這些方法的分類，如下圖所示，分析它們如何在並行生成和輸出質量之間權衡，為語言模型的高效應用開闢新的道路。

打破順序依賴：生成與精煉框架的系統分類

在探索如何打破大型語言模型順序依賴的過程中，論文提出了一個統一的分類體系，系統地分析了各種方法。這一分類體系基於生成和精煉策略，將相關方法劃分為兩大核心階段：序列生成和序列精煉，如下圖所示。

這種分類不僅涵蓋了傳統的推測式解碼（Speculative Decoding, SD）方法，還納入了更多新興技術，這些技術在並行生成和輸出質量之間進行了不同的權衡。

在序列生成階段，目標是透過不同的策略更高效地生成草稿 Token，而不是依賴於傳統自迴歸解碼中單一的大模型。這些策略從簡單的隨機 Token 取樣（結合迭代解碼使用）到更復雜的檢索式生成和草稿模型預測不等。每種生成方法在計算成本和預測質量之間都有不同的權衡。

隨後進入序列精煉階段，這一階段決定了如何處理生成的候選 Token。具體來說，可以選擇直接接受這些候選 Token（可能會犧牲一些質量），在單次驗證中檢查部分 Token，或者透過多次迭代逐步最佳化草稿 Token，直至結果收斂。

這種分類可以清晰地看到不同方法在並行生成和輸出質量之間的平衡策略，不僅有助於更好地理解現有技術，還能為未來的研究提供方向，推動語言模型在效率和質量上的雙重提升。

序列生成方法：加速語言模型的新思路

在探索如何高效生成語言模型輸出的過程中，研究者們提出了多種創新方法。這些方法的核心目標是透過不同的策略快速生成草稿 Token，從而打破傳統自迴歸解碼的順序依賴瓶頸。以下是對這些序列生成方法的詳細介紹：

A. 預定義填充 Token

最簡單的方法是使用隨機初始化或預定義的 Token（例如 PAD）。這種方法雖然計算成本極低，但由於缺乏對上下文的適應性，通常需要後續的精煉迭代來最佳化結果。

B. 基於檢索的方法

基於檢索的方法透過利用語言模型輸出與參考文件之間的重疊來加速推理，同時保持生成結果的一致性。

例如，LLMA 首次提出了這種思路，透過並行驗證 Token 來加速推理。REST 方法則透過從資料儲存中檢索精確的字尾匹配來生成草稿 Token，並構建字首樹（Trie），其中節點權重反映了 Token 序列的頻率。Speculative RAG 則透過微調的專家語言模型生成完整的答案草稿，並透過聚類檢索到的文件生成多樣化的草稿，使用自一致性評分和自反思評分代替逐詞驗證，從而提高生成效率。

C. 基於 N-gram 的方法

一些方法利用 N-gram 模式高效生成 Token。例如，ANPD 用自適應 N-gram 系統取代傳統草稿模型，根據上下文動態更新預測結果。LOOKAHEAD 透過收集和利用前一次迭代中的 N-gram 作為草稿 Token 進行驗證。N-Grammys 進一步發展了這一思路，建立了一個專門的基於 N-gram 的預測系統，無需單獨的草稿模型即可執行。

D. 自迴歸生成

大多數序列生成方法採用自迴歸草稿生成，即透過較小的模型生成草稿 Token，然後由較大的目標模型進行驗證。這種草稿生成正規化衍生出多種技術，這些技術在草稿模型與目標模型的互動方式上有所不同。

1）獨立草稿生成器

獨立草稿生成器是指較小的模型逐個生成 Token，而較大的目標模型隨後並行驗證這些草稿 Token。例如，SpecDec 首次提出了這種方法，透過為掩碼位置設計獨立的注意力查詢來生成草稿。SpecDec++ 透過在草稿模型上訓練一個預測頭來估計目標模型接受 Token 的機率，從而動態決定何時停止生成並觸發驗證。

最近的研究集中在動態適應和置信度監控上，例如 BiLD 在草稿置信度低於閾值時觸發目標模型驗證，而 ON-THE-FLY 根據預測準確性動態調整視窗大小。

2）依賴草稿生成器

獨立草稿生成器的主要缺點是：1）生成草稿 Token 的計算量是固定的，這意味著對於許多“簡單”的 Token 來說，計算資源被過度分配；2）目標模型無法複用草稿生成過程中的特徵，從而增加了計算量。為解決這些問題，自推測解碼方法透過依賴目標模型的子集（層跳過）或擴充套件（依賴頭）來生成草稿 Token。

a）層跳過

Draft&Verify、SWIFT 和 Draft-on-the-Fly 透過在草稿生成過程中選擇性跳過一些中間層，快速生成草稿 Token，然後使用完整的語言模型進行驗證。

為了提高草稿的準確性，這些方法還設計了基於貝葉斯最佳化的中間層選擇演算法。LayerSkip 透過早期退出機制動態輸出不同深度的目標模型 Token，而 Kangaroo 則透過淺層子網路生成草稿，並使用輕量級介面卡模組彌合與完整模型的效能差距。

b）依賴頭

依賴頭方法透過在目標模型的隱藏狀態上新增輕量級前饋預測頭，直接生成後續 Token，無需再次透過整個目標模型。例如，EAGLE 使用訓練好的頭，從目標模型的隱藏狀態中生成後續草稿 Token。Hydra 則為每個草稿 Token 位置使用多個解碼器。

最近的改進集中在提高並行 Token 生成和注意力機制上，例如 Falcon 引入了半自迴歸框架，結合 LSTM 層和放鬆的因果掩碼自注意力，每個前向傳播生成多個 Token。

E. 多 Token 預測

多 Token 預測方法透過在模型上新增多個解碼頭，同時預測多個未來 Token。

例如，Medusa 提出了一種引數高效的方案，在預訓練語言模型上微調輕量級解碼頭，每個頭專門預測序列中特定的未來位置。Amphista 使用雙向自注意力機制，同時考慮過去和未來的預測，而 CTC Drafting 則採用連線時序分類（CTC）和空白 Token 來最佳化生成過程。

系統級最佳化和應用擴充套件

為了將 Speculative Decoding 技術應用於不同的計算環境，研究者們還提出了多種系統級最佳化策略。這些策略包括：

1）並行化：透過同時執行草稿模型和目標模型，實現 Token 生成和驗證的並行化。例如，CS Drafting 和 PaSS 等方法透過最佳化草稿模型和目標模型的互動，顯著提高了推理速度；

2）分散式計算：針對邊緣裝置等資源受限的環境，研究者們設計瞭如 SpecExec 和 EdgeLLM 等方法，透過在多個裝置上分配計算任務，實現高效的模型推理；

3）硬體加速：透過利用 GPU、PIM 等硬體資源，研究者們開發瞭如 SpecPIM 和 MagicDec 等方法，進一步提高了 Speculative Decoding 的效率。

SD 的跨領域應用

除了文字生成領域，Speculative Decoding 技術還被應用於影像生成、語音合成和多模態模型中。例如，在影像生成中，透過減少生成視覺 Token 所需的推理步驟，顯著提高了自迴歸影像生成的效率。在語音合成中，VADUSA 等方法利用 Speculative Decoding 加速了自迴歸文字到語音系統的推理過程。