AAAI2025|中山大學提出AIQViT：面向視覺Transformer的結構感知後訓練量化方法

©PaperWeekly 原創 · 作者 | 姜潤青

單位 | 中山大學博士生

研究方向 | 模型壓縮與加速

訓練後量化（PTQ）已成為降低 Vision Transformers（ViTs）儲存和計算成本的重要方法之一。現有方法主要聚焦量化器的設計來處理 ViTs 中的啟用值，然而這些方法低估了權重量化帶來的資訊損失，導致效能退化，特別是在低位元量化情況下。

此外，這些方法大多采用對數變換來量化 ViTs 中的 Softmax 層啟用，然而對數變換優先考慮零附近資訊量較小的值，引入了額外的冗餘，限制了方法的量化效率。

為了解決這些問題，本文提出了一種針對 ViTs 的 PTQ 方法，稱為 AIQViT。首先，我們設計了一種架構感知的低秩補償機制，引入了可學習的低秩權重來補償權重量化引起的效能下降；其次，我們設計了一個動態聚焦量化器來適應 Softmax 層啟用的不平衡分佈，該量化器動態選擇最有價值的區間以獲得更高的量化解析度。

我們在五個視覺任務（包括影像分類、目標檢測、例項分割、點雲分類和點雲元件分割）上對所提方法的有效性進行了驗證。論文資訊如下：

論文題目：

AIQViT: Architecture-Informed Post-Training Quantization for Vision Transformers

收錄會議：

AAAI 2025

論文連結：

https://arxiv.org/abs/2502.04628

準備知識（Preliminaries）

ViT

ViT 主要由嵌入層和一些堆疊的 ViT 網路塊組成，有助於捕捉隱藏在不同影像塊中的長距離關係，在一個網路塊中，其執行機制如下：

其中 MHSA 代表多頭注意力機制，MLP 代表多層感知機網路。

量化器

均勻量化器得益於其良好的硬體相容性，從而被廣泛使用，其定義為：

其中表示輸入浮點數，表示量化後的整數，代表量化尺度，表示量化原點。

低秩自適應

低秩自適應（Low-Rank Adaptation, LoRA）是一種在大語言模型引數高效微調領域廣泛使用的技術，其可以表示為：

其中 B 和 A 為兩個低秩矩陣，在微調過程中只需要對 B 和 A 進行更新，其具有引數量小、訓練成本低的特點。

方法（Method）

結構感知低秩補償機制

與 CNN 不同，ViT 由大量全連線（FC）層組成，這需要大量的計算和儲存資源。然而，由於 ViT 的架構更為複雜，直接對這些層進行權重量化可能會導致關鍵資訊的丟失，從而導致量化模型泛化能力下降。

為了解決這個問題，為 FC 層引入了一些可學習的權重來補償資訊丟失。這些可學習的權重具有低秩的特點，有效地降低了最佳化成本，同時防止了可能由有限資料引起的過擬合。低秩補償過程可以定義為：

其中，我們保持在訓練時不被更新，而以以下方式更新 B 和 A：

其中，表示在第 t 次迭代時用以第 l 個網路塊訓練的資料。鑑於低秩權重在訓練時可被更新，從而鼓勵量化模型學習與量化相容的引數空間，並且顯著減輕了權重量化引起的重建誤差，而不會產生大量最佳化開銷。

此外，在訓練過程中，我們發現低秩矩陣的秩 r 對最終量化效果有著顯著的影響，收到神經網路結構搜尋的啟發，我們設計了一種自動搜尋得到 r 的方式。具體來說，首先給定候選低秩 r 的集合，對於全連線層，前向傳播的過程定義為：

其中是可學習的引數，代表著每個候選結構的重要性，表示drop-path操作。同時，我們把矯正資料集劃分成和，並定義最佳化過程如下：

上述最佳化問題可以使用近似結構梯度進行求解，完成求解後，最優的秩可被確定為。上述過程如圖 1 所示。

▲ 圖1. 結構感知低秩補償機制示意圖

動態注意力量化器

如圖 2（a）所示，Softmax 層後的啟用分佈呈現出及其不平衡的分佈，從而對量化造成了挑戰。

之前的工作多是採用基於 log2 的變換，即首先對啟用進行變換然後對變換後的值進行量化，這種方法存在著如下侷限性：靠近 0 的值往往具有較大的量化解析度，但靠近 0 的值往往包含有更多的背景噪聲，這影響了量化的效率；此外，log2 量化器為每一層保持固定的間隔，這可能不是最佳解決方案。

基於上述分析，我們設計了一種動態注意力量化器（DFQ）動態地選擇最有價值的量化區間，併為該量化區間賦予更高的量化解析度，其具體形式為：

其中為可學習的量化區間。透過動態選擇和，DFQ 將關注最有價值的區間，並相應地優先賦予更多位元。對於區間以外的值，DFQ 直接對其截斷，對於區間內的值，DFQ 採用通用的均勻量化器，這不僅提升了量化效率，還避免了複雜的對數運算，降低了量化的運算開銷。

▲ 圖2. (a) DeiT-T中第一個MHSA模組Softmax啟用後的直方圖；(b) log2量化器（藍色）和DFQ（橙色）；(c) 在ImageNet上使用W3/A3量化的結果。

最佳化策略

受課程式學習啟發，在最佳化目標引數時，本文使用一種“先易後難”的最佳化策略，在第 t 次迭代時，訓練資料為：

其中 λ(t) 控制在第 t 次迭代時選取樣本的比例，在本文中，我們採取一種線性方式：

其中表示初始樣本選擇比例，T 表示總的迭代次數。因此，量化模型傾向於在早期訓練階段學習高置信度區域，減輕異常值的負面影響，併為穩定最佳化準備更有利的引數空間。

實驗（Experiment）

對比實驗

本文在五個視覺任務上進行了實驗，分別是影像分類、目標檢測、例項分割、點雲分類、點雲元件分割。實驗結果如表 1-4 所示。

實驗結果顯示，與先進的訓練後量化方法相比，本文提出的 AIQViT 取得了更加優越的效能，即使在低位元量化的情形下，所提出方法依舊可以保持較好的效能。

▲ 表1. ImageNet資料集量化實驗結果

▲ 表2. COCO資料集量化實驗結果

▲ 表3. ModelNet40資料集量化實驗結果

▲ 表4. ShapeNetPart資料集量化實驗結果

消融實驗

關鍵元件有效性分析

為了驗證 AIQViT 中關鍵元件的有效性，我們使用 DeiT-T 對 ImageNet 資料集進行消融研究。為了方便起見，架構知情的低秩補償、動態聚焦量化器和課程學習策略分別縮寫為 AILoC、DFQ 和 CL。

定量實驗結果詳見表 5。當不適用 DFQ 時，Softmax 後啟用將採用統一量化器。結果表明，當使用所有變體時，AIQViT 獲得了最佳結果。

具體而言，與 vanilla（排除所有變體）相比，AILoC 分別將 W3/A3、W4/A4 和 W6/A6 量化的測試準確率提高了 15.31%、10.80% 和 7.61%，證實了 AILoC 中使用的低秩補償機制的有效性。此外，當 DFQ 不存在時，AIQViT 的準確率下降了 11.93%，這表明 DFQ 在處理低位情況方面具有優勢。