
宣傳一下我們被 ICLR 2025 錄用的工作 OSTQuant。OSTQuant 在 LLMs 不同的量化配置中(weight-only、weight-activation 和 weight-activation-kvcache)都展示了優越的效能。例如,W4A16 達到 99.5%+ 的精度保持率,在更激進的 W4A4KV4 中保持了原始效能的 96%,為 LLMs 的高效部署提供了新的技術路徑。

論文標題:
OstQuant: Refining Large Language Model Quantization with Orthogonal and Scaling Transformations for Better Distribution Fitting
論文連結:
https://arxiv.org/abs/2501.13987
論文單位:
後摩智慧、南京大學、東南大學

序言
近年來,大規模語言模型(Large Language Models, LLMs)在自然語言處理領域取得了革命性進展。以 GPT 系列、LLaMA 等為代表的模型,透過千億級引數的複雜結構展現出強大的語義理解和生成能力。
然而,大量的記憶體和計算需求使 LLMs 面臨重大的部署挑戰,推理時的計算延遲和能耗更使其難以在資源受限的邊緣裝置或即時系統中應用。在此背景下,後訓練量化(Post-Training QuantizatPion, PTQ)技術已成為一種廣泛採用關鍵解決方案。
PTQ 透過將模型引數從 32 位浮點數壓縮至更低位寬,可在保持模型效能的同時顯著降低儲存需求和計算複雜度。但傳統量化方法面臨兩個根本性挑戰:
1. 分佈不匹配:LLM 的權重與啟用值通常具有非對稱、重尾分佈特徵以及通道間方差差異,這些特性會擴大量化範圍,導致大部分資料的可用量化位元降低,進而影響模型效能。
2. 校準資料限制:PTQ 通常依賴少量校準資料(如 1,000 個樣本)最佳化量化引數,傳統損失函式(如交叉熵)容易在小樣本下過擬合,損害模型的零樣本泛化能力。
現有研究主要透過線性變換方法改善資料分佈,例如 SmoothQuant 透過通道間方差遷移平衡權重與啟用的量化難度,Quarot 採用旋轉矩陣抑制異常值。
然而這些方法存在明顯侷限:一方面,其變換策略依賴啟發式設計,缺乏對量化空間利用效率的系統性評估;另一方面,現有方法多聚焦區域性最佳化,未能在全域性量化空間維度實現分佈對齊。
這些問題導致現有量化方法在低位元場景(如 W4A4KV4)下效能損失顯著,嚴重製約了 LLMs 低位元推理的實用化程序。
本文提出 OSTQuant(Orthogonal and Scaling Transformation-based Quantization)框架,透過三個核心創新突破上述瓶頸:
1. 建立量化空間利用率(Quantization Space Utilization Rate, QSUR)作為評估可量化性的有效指標,為量化方法設計提供理論指導;
2. 設計多個正交-縮放等效變換對,在保持模型功能等價性的同時最佳化全域性資料分佈來提高 QSUR 和量化效能;
3. 引入 KL-Top 損失函式,從模型中捕獲更豐富的語義資訊,同時減輕標籤噪聲的影響。
實驗表明,OSTQuant 在 weight-only、weight-activation 和 weight-activation-kvcache 量化模式中都展示了優越的效能。在 W4A16 量化時,該方法實現了超過 99.5% 的精度保持率,而在更激進的 W4A4KV4 設定中,它至少保持了模型原始效能的 96%,為 LLMs 的高效部署提供了新的技術路徑。

▲ 用不同的方法對一批二維資料 X~N (µ,Σ) 進行變換。特徵值 λ1 和 λ2 表示特徵值分解後沿主軸分佈的擴充套件。(a)表示原始分佈,(b)、(c)和(d)分別說明了基於 Smooth-base、Rotate-base 和我們基於 OST 的方法對 QSUR 的影響。橢圓內的量化點數量越高,表示分佈的量化空間利用率越大。

相關工作
2.1 LLM 後訓練量化
後訓練量化(PTQ)因其高效性已成為 LLMs 最佳化的主流技術,現有方法主要分為僅權重量化和權重 – 啟用量化兩類。
僅權重量化:這類方法旨在降低記憶體使用,透過特定策略最佳化權重量化。GPTQ 運用基於 Hessian 的誤差補償技術,透過最小化量化誤差來實現高壓縮率;AWQ 和 OWQ 則著重解決啟用異常值對權重量化的影響,以此提升量化效能;QuIP 和 QuIP #藉助隨機 Hadamard 矩陣進行非相干處理,並對權重應用向量量化,在低精度量化下仍能取得較好效果。
權重 – 啟用量化:此方法旨在透過同時量化權重和啟用(包括 KV Cache)來加速 LLM 推理。然而,啟用量化面臨著異常值主導量化範圍的問題,導致大多數值的有效位元數減少,進而產生顯著誤差。
ZeroQuant 提出了一種對硬體友好的細粒度量化方案;SmoothQuant 透過數學變換將量化難度從啟用轉移到權重;OmniQuant 進一步透過訓練量化引數和變換系數來提升效能;I-LLM 利用全平滑塊重建和全整數運算元實現了僅整數的量化和推理。
最近,QuaRot 藉助隨機旋轉矩陣實現了 4 位元的權重和啟用量化,SpinQuant 則透過學習旋轉矩陣對 4 位元量化進行最佳化 。
2.2 黎曼最佳化
在最佳化旋轉矩陣時,需遵循正交歸一性約束,這等價於在 Stiefel 流形(包含所有正交矩陣)上進行黎曼最佳化。
Cayley SGD 依賴 Cayley 變換的迭代逼近,僅透過矩陣乘法就能有效最佳化任意損失函式下的旋轉矩陣;RAOM 將 ADAM、ADAGRAD 和 AMSGRAD 等最佳化方法拓展到黎曼最佳化領域;Geoopt 支援基本的黎曼隨機梯度下降(SGD)和自適應最佳化演算法,便於與模型無縫整合進行全面最佳化。
這些技術為處理旋轉矩陣的特殊性質提供了有效手段,在大語言模型量化研究中發揮著重要作用。

本文方法
3.1 量化空間利用率(QSUR)
儘管使用線性變換來減輕量化損失的 PTQ 取得了重大進展,但這些方法缺乏評估量化難度或不同轉換有效性的量化指標。
我們引入了一種新的指標,量化空間利用率(QSUR),它定量化描述了權重或啟用分佈對可用的量化空間的有效利用程度。QSUR 為現有方法的優勢和侷限性提供了關鍵見解,併為開發更有效的方法奠定了基礎,如 OSTQuant。量化空間利用率(QSUR)的核心目標是透過數學方法量化資料分佈與量化空間的適配程度。其定義公式為:
-
:資料分佈佔據的超體積,由協方差矩陣 決定; -
:量化超立方體體積,由資料各維度的最大值與最小值定義。
關鍵推導步驟
1. 協方差矩陣分解:對於資料分佈 ,透過特徵值分解 (為正交矩陣,),資料分佈體積可表示為:

其中, 為卡方分佈的臨界值, 為置信水平(通常取 0.99)。
2. 量化超立方體體積計算:量化範圍由資料沿主軸的極值點決定,即:

由此可得:

3.簡化後的 QSUR 表示式:忽略均值 的影響後,QSUR 簡化為:

這表明 QSUR 與特徵值的均衡性正相關。當所有特徵值相等(即資料呈球型分佈)時,QSUR 達到最大值。
最優變換矩陣的數學構造

▲ QSUR 與模型量化精度呈正相關
3.2 正交-縮放等效變換
OSTQuant 的核心是透過正交變換(Orthogonal Transformation)與縮放變換(Scaling Transformation)的聯合最佳化,實現權值和啟用值分佈的全域性調整,以此來提高量化效能。

由正交變換和縮放變換組成的可學習等效變換對錶示如下:

其中,正交矩陣 滿足 ,負責旋轉資料的主軸方向,對角縮放矩陣 動態調整各通道尺度。這種設計從幾何視角重構資料分佈——透過旋轉消除方向上的分佈偏斜,再透過縮放均衡各維度的數值範圍,最終使資料在量化空間中呈現均勻填充的球型分佈。
等效變換對具有諸多優勢, 和 均為可學習引數,對角矩陣求逆計算簡單,能實現高效前向傳遞,正交矩陣可使用支援在 Stiefel 流形上最佳化的基於梯度的最佳化器(如 RiemannAdam)進行最佳化,從而充分利用一階梯度資訊進行端到端學習。
在忽略量化影響時,前向過程在數學上與原始模型等價,保證了啟用和權重的一致性,同時降低過擬合風險;最佳化後, 和 均可直接合併到現有權重中,部署時不引入額外計算開銷和引數,確保推理高效。
OSTQuant透過權重異常值最小化初始化(Weight Outlier Minimization Initialization, WOMI)進一步提升初始量化效果。
該方法基於權重協方差矩陣的特徵分解,結合哈達瑪矩陣的均勻分佈特性,生成初始正交變換矩陣,有效減少權重通道間的方差差異。如圖所示,WOMI 相比隨機哈達瑪變換,能將權重量化的相對 L1 誤差降低近 50%。

此外,OSTQuant 還同時進行塊間學習和塊內學習。在塊間學習中,正交變換透過全域性矩陣 作用於嵌入層與所有殘差路徑並引入兩個對角縮放矩陣 和 來平滑通道差異,這些變換可融入相應權重矩陣,有效學習分佈變化對模型精度的影響,減輕量化誤差。
在塊內學習中,在每個 transformer 塊的多頭自注意力層引入兩個等價變換對,對 Value projection()和 Out projection()進行跨層變換,為每個注意力頭學習旋轉變換 和縮放變換 ,針對不同注意力頭獨立最佳化,適配其獨特的分佈模式,以提高 Value cache 和 Out projection 的 QSUR。
在 Rotary Positional Encoding(ROPE)操作後,輸出 Query 和 Key 可自然進行等價縮放變換(),還對 Query 和 Key 的應用額外的 Hadamard 變換 ,進一步提升 Key Cache 的量化效率。對於 FFN 模組,上下投影層(Up/Down Projection)的啟用函式(如 SiLU)透過尺度因子 與 調整,其數學形式為:

3.3 KL-TOP 損失函式
雖然 LLM 通常在大量資料集上進行訓練,但 OSTQuant 最佳化使用小得多的校準資料集進行。在這種有限的資料環境中,直接應用原始交叉熵(CE)損失可能會導致模型過度擬合。
使用 KL 散度最佳化可以在量化前後對齊預測分佈,以減少過擬合風險。但大語言模型詞彙量往往數以萬計,全精度模型的預測結果呈嚴重長尾分佈,直接應用 KL 散度進行最佳化,損失可能被低機率的無資訊類別主導,為訓練過程引入噪聲。
OSTQuant 提出 KL-Top 損失函式。該損失僅計算預測機率最高的前 個類別的 KL 散度,避免低機率噪聲對梯度更新的干擾。具體而言,對於全精度模型與量化模型的輸出分佈 和 ,首先透過 篩選保留主要語義資訊,再計算加權 KL 損失:

實驗表明,當 時,KL-Top 損失在保留模型零樣本能力的同時,顯著緩解了過擬合現象。

評估結果
4.1 量化精度對比
在 LLaMA 系列模型的廣泛測試中,OSTQuant 全面超越現有方法:
-
W4A16KV16:OSTQuant 超越了先前方法,在 zero-shot 任務中保持了至少 99.5% 的浮點(FP)精度。與 GPTQ 和 AWQ 等其他純權重量化方法相比,OSTQuant 進一步縮小了與 FP 模型的差距。在最具挑戰性的 LLaMA-3-8B 模型中,OSTQuant 在 zero-shot 評估中僅實現了 0.29 點的效能下降。
-
W4A4KV4:在極具挑戰性的 4-4-4 設定中,我們的方法也保留了顯著的效能增益。

4.2 推理效率與記憶體節省
OSTQuant 在 NVIDIA 3090 GPU 和 A6000 GPU 上的實測結果顯示:
-
推理加速:LLaMA-30B 的預填充(Prefill)階段速度提升 3.4 倍,解碼(Decoding)吞吐量達 30.49 tokens/sec。
-
記憶體壓縮:LLaMA-3-70B 全 4bit 量化後視訊記憶體佔用僅 38.41GB,可在單卡 A6000 上流暢執行。

▲ NVIDIA 3090 GPU 測試結果

▲ A6000 GPU 測試結果
4.3 訓練效率優勢
相比基於塊重建的方法(如 OmniQuant),OSTQuant 憑藉少量可學習引數(僅正交與縮放矩陣),將 7B 模型的最佳化時間從 1.6 小時縮短至 0.3 小時,加速比達 5.3 倍。


結論
在本文中,我們介紹了 OSTQuant,這是一種全新的後訓練量化方法,旨在提高大語言模型(LLMs)的效率。OSTQuant 的核心是量化空間利用率(QSUR),這是我們提出的一種新指標,透過測量資料在量化空間內的空間利用率,有效評估變換後資料的可量化性。
QSUR 輔以數學推導,為在整個量化空間中最佳化單個數據分佈提供了理論指導。基於這一見解,OSTQuant 採用了由正交變換和縮放變換組成的可學習等價變換對,來最佳化權重和啟用的分佈。
此外,我們引入了 KL-Top 損失函式,即使在通常用於後訓練量化(PTQ)的有限校準資料情況下,該函式也能在最佳化過程中減少噪聲,同時保留更豐富的語義資訊。
在各種大語言模型和基準測試上進行的大量實驗表明,OSTQuant 優於現有的量化方法。這些結果凸顯了在量化空間中最佳化資料分佈的有效性,也強調了 OSTQuant 在推進大語言模型量化方面的潛力,使得這些模型在資源受限的環境中部署時更高效、更實用。
演算法:社招、校招、實習生招聘
聯絡方式和地點
[email protected] 13813371526(微信同號)
️北京/南京/上海
研究方向(Mentor提供論文指導)
• 大模型及多模態演算法研究(LLM、MLLM、VLLM 等)
• 模型加速最佳化研究(PTQ、QAT、混合精度量化、模型壓縮等)
• 軟硬體協同設計(AI 模型加速、運算元硬體化、指令集開發等)
開發方向(Mentor提供工程指導)
• AI 工具鏈開發(模型解析、圖最佳化等)
• AI 運算元設計和開發(如投影變換、超越函式、LayerNorm、Grid-sample 等)
• 模型部署最佳化(效能最佳化、Benchmark 驗證等)
部分研究成果
• Pushing the Limits of BFP on Narrow Precision LLM Inference. AAAI-2025
• MambaQuant: QUANTIZING THE MAMBA FAMILY WITH VARIANCE ALIGNED ROTATION METHODS. ICLR-2025
• OSTQuant: REFINING LARGE LANGUAGE MODEL QUANTIZATION WITH ORTHOGONAL AND SCALING TRANSFORMATIONS FOR BETTER DISTRIBUTION FITTING. ICLR-2025
• A 22nm 64kb Lightning-like Hybrid Computing-in-Memory Macro with Compressor-based Adder-tree and Analog-storage Quantizer for Transformer and CNNs. ISSCC 2024
• MIM4DD: Mutual Information Maximization for Dataset Distillation, NeuIPS 2023.
• RPTQ: Reorder-based Post-training Quantization for Large Language Models. arXiv preprint 2023.
• Post-training Quantization on Diffusion Models. CVPR 2023
• PD-Quant: Post-Training Quantization based on Prediction Difference Metric. CVPR 2023.
• Latency-aware Spatial-wise Dynamic Networks, NeurIPS 2022.
• Flatfish: a Reinforcement Learning Approach for Application-Aware Address Mapping. IEEE Transactions on Computer-Aided Design of Integrated Circuits and Systems (TCAD), 2022.
• PTQ4ViT: Post-Training Quantization Framework for Vision Transformers. European Conference on Computer Vision (ECCV), 2022.
• 3DPEE: 3D Point Positional Encoding for Multi-Camera 3D Object Detection Transformers. ICCV 2023.
• Stabilized activation scale estimation for precise Post-Training Quantization. Neurocomputing 2023.
更多閱讀

#投 稿 通 道#
讓你的文字被更多人看到
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝 稿件基本要求:
• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標註
• 稿件建議以 markdown 格式撰寫,文中配圖以附件形式傳送,要求圖片清晰,無版權問題
• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬 投稿通道:
• 投稿郵箱:[email protected]
• 來稿請備註即時聯絡方式(微信),以便我們在稿件選用的第一時間聯絡作者
• 您也可以直接新增小編微信(pwbot02)快速投稿,備註:姓名-投稿

△長按新增PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜尋「PaperWeekly」
點選「關注」訂閱我們的專欄吧
·
·
·
