AAAI2025|中山大學提出AIQViT:面向視覺Transformer的結構感知後訓練量化方法

©PaperWeekly 原創 · 作者 | 姜潤青
單位 | 中山大學博士生
研究方向 | 模型壓縮與加速
訓練後量化(PTQ)已成為降低 Vision Transformers(ViTs)儲存和計算成本的重要方法之一。現有方法主要聚焦量化器的設計來處理 ViTs 中的啟用值,然而這些方法低估了權重量化帶來的資訊損失,導致效能退化,特別是在低位元量化情況下。
此外,這些方法大多采用對數變換來量化 ViTs 中的 Softmax 層啟用,然而對數變換優先考慮零附近資訊量較小的值,引入了額外的冗餘,限制了方法的量化效率。 
為了解決這些問題,本文提出了一種針對 ViTs 的 PTQ 方法,稱為 AIQViT。首先,我們設計了一種架構感知的低秩補償機制,引入了可學習的低秩權重來補償權重量化引起的效能下降;其次,我們設計了一個動態聚焦量化器來適應 Softmax 層啟用的不平衡分佈,該量化器動態選擇最有價值的區間以獲得更高的量化解析度。 
我們在五個視覺任務(包括影像分類、目標檢測、例項分割、點雲分類和點雲元件分割)上對所提方法的有效性進行了驗證。論文資訊如下:
論文題目:
AIQViT: Architecture-Informed Post-Training Quantization for Vision Transformers
收錄會議:
AAAI 2025
論文連結:
https://arxiv.org/abs/2502.04628
準備知識(Preliminaries)
ViT
ViT 主要由嵌入層和一些堆疊的 ViT 網路塊組成,有助於捕捉隱藏在不同影像塊中的長距離關係,在一個網路塊中,其執行機制如下:
其中 MHSA 代表多頭注意力機制,MLP 代表多層感知機網路。
量化器
均勻量化器得益於其良好的硬體相容性,從而被廣泛使用,其定義為:
其中 表示輸入浮點數, 表示量化後的整數, 代表量化尺度, 表示量化原點。
低秩自適應
低秩自適應(Low-Rank Adaptation, LoRA)是一種在大語言模型引數高效微調領域廣泛使用的技術,其可以表示為:
其中 B 和 A 為兩個低秩矩陣,在微調過程中只需要對 B 和 A 進行更新,其具有引數量小、訓練成本低的特點。

方法(Method)
結構感知低秩補償機制

與 CNN 不同,ViT 由大量全連線(FC)層組成,這需要大量的計算和儲存資源。然而,由於 ViT 的架構更為複雜,直接對這些層進行權重量化可能會導致關鍵資訊的丟失,從而導致量化模型泛化能力下降。
為了解決這個問題,為 FC 層引入了一些可學習的權重來補償資訊丟失。這些可學習的權重具有低秩的特點,有效地降低了最佳化成本,同時防止了可能由有限資料引起的過擬合。低秩補償過程可以定義為:

其中,我們保持 在訓練時不被更新,而以以下方式更新 B 和 A:
其中,表示在第 t 次迭代時用以第 l 個網路塊訓練的資料。鑑於低秩權重在訓練時可被更新,從而鼓勵量化模型學習與量化相容的引數空間,並且顯著減輕了權重量化引起的重建誤差,而不會產生大量最佳化開銷。
此外,在訓練過程中,我們發現低秩矩陣的秩 r 對最終量化效果有著顯著的影響,收到神經網路結構搜尋的啟發,我們設計了一種自動搜尋得到 r 的方式。具體來說,首先給定候選低秩 r 的集合,對於全連線層,前向傳播的過程定義為:
可學習的引數, 代表著每個候選結構的重要性,表示drop-path操作。同時,我們把矯正資料集 劃分成 和 ,並定義最佳化過程如下:
上述最佳化問題可以使用近似結構梯度進行求解,完成求解後,最優的秩可被確定為 。上述過程如圖 1 所示。
▲ 圖1. 結構感知低秩補償機制示意圖
動態注意力量化器
如圖 2(a)所示,Softmax 層後的啟用分佈呈現出及其不平衡的分佈,從而對量化造成了挑戰。
之前的工作多是採用基於 log2 的變換,即首先對啟用進行變換然後對變換後的值進行量化,這種方法存在著如下侷限性:靠近 0 的值往往具有較大的量化解析度,但靠近 0 的值往往包含有更多的背景噪聲,這影響了量化的效率;此外,log2 量化器為每一層保持固定的間隔,這可能不是最佳解決方案。
基於上述分析,我們設計了一種動態注意力量化器(DFQ)動態地選擇最有價值的量化區間,併為該量化區間賦予更高的量化解析度,其具體形式為:
其中為可學習的量化區間。透過動態選擇,DFQ 將關注最有價值的區間,並相應地優先賦予更多位元。對於區間以外的值,DFQ 直接對其截斷,對於區間內的值,DFQ 採用通用的均勻量化器,這不僅提升了量化效率,還避免了複雜的對數運算,降低了量化的運算開銷。
▲ 圖2. (a) DeiT-T中第一個MHSA模組Softmax啟用後的直方圖;(b) log2量化器(藍色)和DFQ(橙色);(c) 在ImageNet上使用W3/A3量化的結果。
最佳化策略
受課程式學習啟發,在最佳化目標引數時,本文使用一種“先易後難”的最佳化策略,在第 t 次迭代時,訓練資料為:
其中 λ(t) 控制在第 t 次迭代時選取樣本的比例,在本文中,我們採取一種線性方式:
其中表示初始樣本選擇比例,T 表示總的迭代次數。因此,量化模型傾向於在早期訓練階段學習高置信度區域,減輕異常值的負面影響,併為穩定最佳化準備更有利的引數空間。

實驗(Experiment)
對比實驗

本文在五個視覺任務上進行了實驗,分別是影像分類、目標檢測、例項分割、點雲分類、點雲元件分割。實驗結果如表 1-4 所示。
實驗結果顯示,與先進的訓練後量化方法相比,本文提出的 AIQViT 取得了更加優越的效能,即使在低位元量化的情形下,所提出方法依舊可以保持較好的效能。

▲ 表1. ImageNet資料集量化實驗結果

▲ 表2. COCO資料集量化實驗結果

▲ 表3. ModelNet40資料集量化實驗結果

▲ 表4. ShapeNetPart資料集量化實驗結果

消融實驗
關鍵元件有效性分析
為了驗證 AIQViT 中關鍵元件的有效性,我們使用 DeiT-T 對 ImageNet 資料集進行消融研究。為了方便起見,架構知情的低秩補償、動態聚焦量化器和課程學習策略分別縮寫為 AILoC、DFQ 和 CL。
定量實驗結果詳見表 5。當不適用 DFQ 時,Softmax 後啟用將採用統一量化器。結果表明,當使用所有變體時,AIQViT 獲得了最佳結果。
具體而言,與 vanilla(排除所有變體)相比,AILoC 分別將 W3/A3、W4/A4 和 W6/A6 量化的測試準確率提高了 15.31%、10.80% 和 7.61%,證實了 AILoC 中使用的低秩補償機制的有效性。此外,當 DFQ 不存在時,AIQViT 的準確率下降了 11.93%,這表明 DFQ 在處理低位情況方面具有優勢。

▲ 表5. 關鍵元件消融結果

此外,為了驗證結構搜尋的有效性,我們在 ImageNet 上進行了相關實驗,實驗結果如表 6 所示。從表 6 可以看出,具有自動搜尋的 AIQViT 始終比具有固定 r AIQiT 表現更好。這主要是由於可微架構搜尋,它為網路量化帶來了更合適的架構。

▲ 表6. 不同秩 r 對模型的影響

對於 DeiT-S,在 W4/A4 和 W6/A6 量化的情況下,r=20 的模型比 r=100 的模型高出 1.0% 和 0.3%,這表明直接增加 r 並不能保證更好的效能。
結論
本文提出了一種為 ViTs 設計的訓練後量化方法 AIQViT。AIQViT 採用了一種結構感知低秩補償機制,該機制分別使用網路架構搜尋和課程式學習策略進行秩計算和穩定最佳化。
此外,提出了一種簡單而有效的 DFQ 來解決 Softmax 後啟用的不平衡分佈,避免了效率較低的對數運算,從而進一步提高了量化效率。在五個視覺任務的實驗表明,所提方法取得了比已有方法更優異的效能,同時取得了更好的泛化性。
更多閱讀
#投 稿 通 道#
 讓你的文字被更多人看到 
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。 
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析科研心得競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝 稿件基本要求:
• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標註 
• 稿件建議以 markdown 格式撰寫,文中配圖以附件形式傳送,要求圖片清晰,無版權問題
• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬 投稿通道:
• 投稿郵箱:[email protected] 
• 來稿請備註即時聯絡方式(微信),以便我們在稿件選用的第一時間聯絡作者
• 您也可以直接新增小編微信(pwbot02)快速投稿,備註:姓名-投稿
△長按新增PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜尋「PaperWeekly」
點選「關注」訂閱我們的專欄吧
·
·
·

相關文章