ICLR2025|SOTA效能！OSTQuant：基於正交與縮放變換的大模型量化方法

宣傳一下我們被 ICLR 2025 錄用的工作 OSTQuant。OSTQuant 在 LLMs 不同的量化配置中（weight-only、weight-activation 和 weight-activation-kvcache）都展示了優越的效能。例如，W4A16 達到 99.5%+ 的精度保持率，在更激進的 W4A4KV4 中保持了原始效能的 96%，為 LLMs 的高效部署提供了新的技術路徑。

論文標題：

OstQuant: Refining Large Language Model Quantization with Orthogonal and Scaling Transformations for Better Distribution Fitting

論文連結：

https://arxiv.org/abs/2501.13987

論文單位：

後摩智慧、南京大學、東南大學

序言

近年來，大規模語言模型（Large Language Models, LLMs）在自然語言處理領域取得了革命性進展。以 GPT 系列、LLaMA 等為代表的模型，透過千億級引數的複雜結構展現出強大的語義理解和生成能力。

然而，大量的記憶體和計算需求使 LLMs 面臨重大的部署挑戰，推理時的計算延遲和能耗更使其難以在資源受限的邊緣裝置或即時系統中應用。在此背景下，後訓練量化（Post-Training QuantizatPion, PTQ）技術已成為一種廣泛採用關鍵解決方案。

PTQ 透過將模型引數從 32 位浮點數壓縮至更低位寬，可在保持模型效能的同時顯著降低儲存需求和計算複雜度。但傳統量化方法面臨兩個根本性挑戰：

1. 分佈不匹配：LLM 的權重與啟用值通常具有非對稱、重尾分佈特徵以及通道間方差差異，這些特性會擴大量化範圍，導致大部分資料的可用量化位元降低，進而影響模型效能。

2. 校準資料限制：PTQ 通常依賴少量校準資料（如 1,000 個樣本）最佳化量化引數，傳統損失函式（如交叉熵）容易在小樣本下過擬合，損害模型的零樣本泛化能力。

現有研究主要透過線性變換方法改善資料分佈，例如 SmoothQuant 透過通道間方差遷移平衡權重與啟用的量化難度，Quarot 採用旋轉矩陣抑制異常值。

然而這些方法存在明顯侷限：一方面，其變換策略依賴啟發式設計，缺乏對量化空間利用效率的系統性評估；另一方面，現有方法多聚焦區域性最佳化，未能在全域性量化空間維度實現分佈對齊。

這些問題導致現有量化方法在低位元場景（如 W4A4KV4）下效能損失顯著，嚴重製約了 LLMs 低位元推理的實用化程序。

本文提出 OSTQuant（Orthogonal and Scaling Transformation-based Quantization）框架，透過三個核心創新突破上述瓶頸：

1. 建立量化空間利用率（Quantization Space Utilization Rate, QSUR）作為評估可量化性的有效指標，為量化方法設計提供理論指導；

2. 設計多個正交-縮放等效變換對，在保持模型功能等價性的同時最佳化全域性資料分佈來提高 QSUR 和量化效能；

3. 引入 KL-Top 損失函式，從模型中捕獲更豐富的語義資訊，同時減輕標籤噪聲的影響。

實驗表明，OSTQuant 在 weight-only、weight-activation 和 weight-activation-kvcache 量化模式中都展示了優越的效能。在 W4A16 量化時，該方法實現了超過 99.5% 的精度保持率，而在更激進的 W4A4KV4 設定中，它至少保持了模型原始效能的 96%，為 LLMs 的高效部署提供了新的技術路徑。

本文方法

3.1 量化空間利用率（QSUR）

儘管使用線性變換來減輕量化損失的 PTQ 取得了重大進展，但這些方法缺乏評估量化難度或不同轉換有效性的量化指標。

我們引入了一種新的指標，量化空間利用率（QSUR），它定量化描述了權重或啟用分佈對可用的量化空間的有效利用程度。QSUR 為現有方法的優勢和侷限性提供了關鍵見解，併為開發更有效的方法奠定了基礎，如 OSTQuant。量化空間利用率（QSUR）的核心目標是透過數學方法量化資料分佈與量化空間的適配程度。其定義公式為：

其中：

：資料分佈佔據的超體積，由協方差矩陣決定；
：量化超立方體體積，由資料各維度的最大值與最小值定義。

關鍵推導步驟

1. 協方差矩陣分解：對於資料分佈，透過特徵值分解（為正交矩陣，），資料分佈體積可表示為：

其中，為卡方分佈的臨界值，為置信水平（通常取 0.99）。

2. 量化超立方體體積計算：量化範圍由資料沿主軸的極值點決定，即：

由此可得：

3.簡化後的 QSUR 表示式：忽略均值的影響後，QSUR 簡化為：

這表明 QSUR 與特徵值的均衡性正相關。當所有特徵值相等（即資料呈球型分佈）時，QSUR 達到最大值。

最優變換矩陣的數學構造

可進一步證明，當正交矩陣滿足：（其中為任意標量）時，QSUR 達到理論最大值：

3.2 正交-縮放等效變換

OSTQuant 的核心是透過正交變換（Orthogonal Transformation）與縮放變換（Scaling Transformation）的聯合最佳化，實現權值和啟用值分佈的全域性調整，以此來提高量化效能。

由正交變換和縮放變換組成的可學習等效變換對錶示如下：

其中，正交矩陣滿足，負責旋轉資料的主軸方向，對角縮放矩陣動態調整各通道尺度。這種設計從幾何視角重構資料分佈——透過旋轉消除方向上的分佈偏斜，再透過縮放均衡各維度的數值範圍，最終使資料在量化空間中呈現均勻填充的球型分佈。

等效變換對具有諸多優勢，和均為可學習引數，對角矩陣求逆計算簡單，能實現高效前向傳遞，正交矩陣可使用支援在 Stiefel 流形上最佳化的基於梯度的最佳化器（如 RiemannAdam）進行最佳化，從而充分利用一階梯度資訊進行端到端學習。

在忽略量化影響時，前向過程在數學上與原始模型等價，保證了啟用和權重的一致性，同時降低過擬合風險；最佳化後，和均可直接合併到現有權重中，部署時不引入額外計算開銷和引數，確保推理高效。

OSTQuant透過權重異常值最小化初始化（Weight Outlier Minimization Initialization, WOMI）進一步提升初始量化效果。

該方法基於權重協方差矩陣的特徵分解，結合哈達瑪矩陣的均勻分佈特性，生成初始正交變換矩陣，有效減少權重通道間的方差差異。如圖所示，WOMI 相比隨機哈達瑪變換，能將權重量化的相對 L1 誤差降低近 50%。

此外，OSTQuant 還同時進行塊間學習和塊內學習。在塊間學習中，正交變換透過全域性矩陣作用於嵌入層與所有殘差路徑並引入兩個對角縮放矩陣和來平滑通道差異，這些變換可融入相應權重矩陣，有效學習分佈變化對模型精度的影響，減輕量化誤差。

在塊內學習中，在每個 transformer 塊的多頭自注意力層引入兩個等價變換對，對 Value projection（）和 Out projection（）進行跨層變換，為每個注意力頭學習旋轉變換和縮放變換，針對不同注意力頭獨立最佳化，適配其獨特的分佈模式，以提高 Value cache 和 Out projection 的 QSUR。

在 Rotary Positional Encoding（ROPE）操作後，輸出 Query 和 Key 可自然進行等價縮放變換（），還對 Query 和 Key 的應用額外的 Hadamard 變換，進一步提升 Key Cache 的量化效率。對於 FFN 模組，上下投影層（Up/Down Projection）的啟用函式（如 SiLU）透過尺度因子與調整，其數學形式為：

3.3 KL-TOP 損失函式

雖然 LLM 通常在大量資料集上進行訓練，但 OSTQuant 最佳化使用小得多的校準資料集進行。在這種有限的資料環境中，直接應用原始交叉熵（CE）損失可能會導致模型過度擬合。

使用 KL 散度最佳化可以在量化前後對齊預測分佈，以減少過擬合風險。但大語言模型詞彙量往往數以萬計，全精度模型的預測結果呈嚴重長尾分佈，直接應用 KL 散度進行最佳化，損失可能被低機率的無資訊類別主導，為訓練過程引入噪聲。

OSTQuant 提出 KL-Top 損失函式。該損失僅計算預測機率最高的前個類別的 KL 散度，避免低機率噪聲對梯度更新的干擾。具體而言，對於全精度模型與量化模型的輸出分佈和，首先透過篩選保留主要語義資訊，再計算加權 KL 損失：

實驗表明，當時，KL-Top 損失在保留模型零樣本能力的同時，顯著緩解了過擬合現象。

評估結果

4.1 量化精度對比

在 LLaMA 系列模型的廣泛測試中，OSTQuant 全面超越現有方法：

W4A16KV16：OSTQuant 超越了先前方法，在 zero-shot 任務中保持了至少 99.5% 的浮點（FP）精度。與 GPTQ 和 AWQ 等其他純權重量化方法相比，OSTQuant 進一步縮小了與 FP 模型的差距。在最具挑戰性的 LLaMA-3-8B 模型中，OSTQuant 在 zero-shot 評估中僅實現了 0.29 點的效能下降。
W4A4KV4：在極具挑戰性的 4-4-4 設定中，我們的方法也保留了顯著的效能增益。

4.2 推理效率與記憶體節省

OSTQuant 在 NVIDIA 3090 GPU 和 A6000 GPU 上的實測結果顯示：

推理加速：LLaMA-30B 的預填充（Prefill）階段速度提升 3.4 倍，解碼（Decoding）吞吐量達 30.49 tokens/sec。
記憶體壓縮：LLaMA-3-70B 全 4bit 量化後視訊記憶體佔用僅 38.41GB，可在單卡 A6000 上流暢執行。

4.3 訓練效率優勢

相比基於塊重建的方法（如 OmniQuant），OSTQuant 憑藉少量可學習引數（僅正交與縮放矩陣），將 7B 模型的最佳化時間從 1.6 小時縮短至 0.3 小時，加速比達 5.3 倍。

結論

在本文中，我們介紹了 OSTQuant，這是一種全新的後訓練量化方法，旨在提高大語言模型（LLMs）的效率。OSTQuant 的核心是量化空間利用率（QSUR），這是我們提出的一種新指標，透過測量資料在量化空間內的空間利用率，有效評估變換後資料的可量化性。

QSUR 輔以數學推導，為在整個量化空間中最佳化單個數據分佈提供了理論指導。基於這一見解，OSTQuant 採用了由正交變換和縮放變換組成的可學習等價變換對，來最佳化權重和啟用的分佈。

此外，我們引入了 KL-Top 損失函式，即使在通常用於後訓練量化（PTQ）的有限校準資料情況下，該函式也能在最佳化過程中減少噪聲，同時保留更豐富的語義資訊。

在各種大語言模型和基準測試上進行的大量實驗表明，OSTQuant 優於現有的量化方法。這些結果凸顯了在量化空間中最佳化資料分佈的有效性，也強調了 OSTQuant 在推進大語言模型量化方面的潛力，使得這些模型在資源受限的環境中部署時更高效、更實用。

演算法：社招、校招、實習生招聘

聯絡方式和地點

[email protected] 13813371526（微信同號）

️北京/南京/上海

研究方向（Mentor提供論文指導）

• 大模型及多模態演算法研究（LLM、MLLM、VLLM 等）

• 模型加速最佳化研究（PTQ、QAT、混合精度量化、模型壓縮等）

• 軟硬體協同設計（AI 模型加速、運算元硬體化、指令集開發等）

開發方向（Mentor提供工程指導）

• AI 工具鏈開發（模型解析、圖最佳化等）

• AI 運算元設計和開發（如投影變換、超越函式、LayerNorm、Grid-sample 等）

• 模型部署最佳化（效能最佳化、Benchmark 驗證等）

部分研究成果

• Pushing the Limits of BFP on Narrow Precision LLM Inference. AAAI-2025

• MambaQuant: QUANTIZING THE MAMBA FAMILY WITH VARIANCE ALIGNED ROTATION METHODS. ICLR-2025

• OSTQuant: REFINING LARGE LANGUAGE MODEL QUANTIZATION WITH ORTHOGONAL AND SCALING TRANSFORMATIONS FOR BETTER DISTRIBUTION FITTING. ICLR-2025

• A 22nm 64kb Lightning-like Hybrid Computing-in-Memory Macro with Compressor-based Adder-tree and Analog-storage Quantizer for Transformer and CNNs. ISSCC 2024

• MIM4DD: Mutual Information Maximization for Dataset Distillation, NeuIPS 2023.

• RPTQ: Reorder-based Post-training Quantization for Large Language Models. arXiv preprint 2023.

• Post-training Quantization on Diffusion Models. CVPR 2023

• PD-Quant: Post-Training Quantization based on Prediction Difference Metric. CVPR 2023.

• Latency-aware Spatial-wise Dynamic Networks, NeurIPS 2022.

• Flatfish: a Reinforcement Learning Approach for Application-Aware Address Mapping. IEEE Transactions on Computer-Aided Design of Integrated Circuits and Systems (TCAD), 2022.

• PTQ4ViT: Post-Training Quantization Framework for Vision Transformers. European Conference on Computer Vision (ECCV), 2022.

• 3DPEE: 3D Point Positional Encoding for Multi-Camera 3D Object Detection Transformers. ICCV 2023.

• Stabilized activation scale estimation for precise Post-Training Quantization. Neurocomputing 2023.

更多閱讀