ICML2024|量化大模型退化嚴重？ETH北航位元組推出LoRA新正規化

©作者 |QHT

來源 | 量子位

大模型應用開卷，連一向保守的蘋果，都已釋放出發展端側大模型的訊號。

問題是，大語言模型（LLM）卓越的表現取決於“力大磚飛”，如何在資源有限的環境中部署大模型並保障效能，仍然頗具挑戰。

以對大模型進行量化+LoRA的路線為例，有研究表明，現有方法會導致量化的LLM嚴重退化，甚至無法從LoRA微調中受益。

為了解決這一問題，來自蘇黎世聯邦理工學院、北京航空航天大學和字節跳動的研究人員，最新提出了一種資訊引導的量化後LLM微調新演算法IR-QLoRA。論文已入選ICML 2024 Oral論文。

論文標題：

Accurate LoRA-Finetuning Quantization of LLMs via Information Retention

論文連結：

hhttps://arxiv.org/pdf/2402.05445

程式碼連結：

https://github.com/htqin/IR-QLoRA

論文介紹，IR-QLoRA能有效改善量化導致的大模型效能退化。在LLaMA和LLaMA 2系列中，用該方法微調的2位模型，相比於16位模型僅有0.9%的精度差異。

該方法的核心思想，是透過資訊保留來使LoRA微調量化的大語言模型實現精度提升。

包含從統一資訊角度衍生的兩種技術：資訊校準量化和資訊彈性連線。

資訊校準量化

LLM的量化權重被期望反映原始對應方所攜帶的資訊，但位元寬度的減小嚴重限制了表示能力。從資訊的角度來看，量化LLM和原始LLM的權重之間的相關性表示為互資訊。

在LLM量化後，由於位元寬度的顯著減小導致表示能力的降低，量化權重的熵遠小於原始權重的熵。因此，優先考慮低位元權重內的資訊恢復對於增強量化LLM至關重要。

首先從數學上定義資訊校準的最佳化目標。校準過程可以看為向量化器引入一個校準常數以最大化資訊，量化過程可以表述如下：

由於原始權重是固定的，公式 (1) 中的最佳化目標可以表示為：

由於直接求解公式 (3) 中的目標非常耗時，作者提出了一種分塊校準量化器資訊的兩步策略：

第一步是初始化校準常數。基於神經網路權重正態分佈的常見假設，將每個權重量化塊的常數初始化為中值。由於正態分佈中靠近對稱軸的區域的機率密度較高，因此該初始化旨在更大程度地利用量化器的間隔。應用位置相關中值來初始化 , 以減輕異常值的影響。

第二步是最佳化校準常數、量化尺度、雙量化尺度。使用資訊熵作為度量，並進行基於搜尋的最佳化以獲得。透過將線性劃分為個候選來建立的搜尋空間，其中是標準差，是係數。使用每個候選校準權重後，量化校準的權重並計算資訊熵。獲得的量化尺度與基線一致。透過得到量化尺度，然後二次量化為和。

對於最佳化後的校準常數，執行類似於尺度的雙量化以節省記憶體，資訊校準量化的量化過程可以總結為：

資訊彈性連線

除了基線中的量化LLM之外，由低秩矩陣組成的LoRA也阻礙了資訊的恢復，為了增強LoRA的表示能力，幫助恢復量化LLM的資訊，同時保持其輕量級性質，作者引入了有效的資訊彈性連線。該方法構建了一個強大的低秩介面卡，有助於利用從量化的LLM單元匯出的資訊。

具體來說，首先根據輸入和中間維度的最大公約數對原始特徵進行分組和平均，並將其新增到由矩陣計算的輸出中。增加彈性連線的 LoRA 的第一個子單元可以表示為：

LoRA 的後一個矩陣將低秩中間表示變換為輸入維度，因此其伴隨的無引數變換使用重複串聯來增加維度。後一個子單元的計算過程可以表示為：

與 LLM 和 LoRA 單元中的矩陣乘法相比，無引數變換是一種多樣化的變換形式，進一步增強了量化 LLM 的資訊表示。

實驗驗證

作者廣泛評估了IR-QLoRA的準確性和效率。選擇LLaMA和LLaMA 2系列模型，在Alpaca和Flanv2資料集上構建引數高效的微調，使用MMLU和CommonsenseQA基準進行評估微調後量化模型的效果。

準確率

以下兩張表格分別展示了在Alpaca和Flanv2資料集上微調的MMLU基準的5-shot精度結果。綜合結果表明，在各種規模的LLaMA模型中，IR-QLoRA優於所有比較量化方法。

與基線方法QLoRA相比，IR-QLoRA在相同的微調管道下在MMLU基準上實現了精度的顯著提高。

此外，在LLaMA 2上的準確性比較，證明了IR-QLoRA跨LLM系列的泛化效能。

下表中的結果表明，IR-QLoRA不僅平均實現了至少2.7%的效能改進，而且在幾乎每個單獨的指標上都表現出了優勢。這些結果表明IR-QLoRA在不同的LLM系列中表現出很強的泛化性。

與MMLU基準上的現象類似，在CommonsenseQA基準上，與SOTA方法相比，IR-QLoRA始終保持了LLaMA-7B的最佳平均準確率，而且還顯著提高了大多數子項的有效性。

超低位寬

除了4位元以外，作者還評估了超低位寬下的IR-QLoRA建議。

具體來說，作者採用了QLoRA和LoftQ的量化方法，按照百分位量化方法構建了NF2和NF3量化。

下表顯示，隨著量化位寬的減小，基線QLoRA的效能急劇下降，以至於其在2位情況下的效能與隨機相差無幾。

相比之下，IR-QLoRA表現出更優越的效能，在Flan v2資料集上微調2位模型時，與16位模型相比僅有0.9%的精度差異。

效率

IR-QLoRA的資訊校準量化和資訊彈性連線並沒有帶來額外的儲存和訓練開銷。

如上所示，資訊校準量化增加的引數僅相當於量化的縮放因子，而且採用了雙重量化以進一步減少儲存。因此其帶來的額外儲存空間很小，在4位LLaMA-7B上僅增加了 2.04%。

校準常數的最佳化過程也只增加了微不足道的訓練時間（例如，LLaMA-7B為 0.46%，LLaMA-13B為 0.31%）。此外，增加的時間僅用於訓練過程中的初始最佳化，並不會導致推理時間的增加。資訊彈性連線也只在每層引入了2個額外引數，在整個模型中可以忽略不計。

結論

總的來說，基於統計的資訊校準量化可確保LLM的量化引數準確保留原始資訊；以及基於微調的資訊彈性連線可以使LoRA利用不同資訊進行彈性表示轉換。

廣泛的實驗證明，IRQLoRA在LLaMA和LLaMA 2系列中實現了令人信服的精度提升，即使是2-4位寬，耗時也僅增加了0.45%。

IR-QLoRA具有顯著的多功能性，可與各種量化框架無縫整合，並且大大提高了LLM的LoRA-finetuning量化精度，有助於在資源受限的情況下進行實際部署。

更多閱讀

#投稿通道#

讓你的文字被更多人看到

如何才能讓更多的優質內容以更短路徑到達讀者群體，縮短讀者尋找優質內容的成本呢？答案就是：你不認識的人。

總有一些你不認識的人，知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑，促使不同背景、不同方向的學者和學術靈感相互碰撞，迸發出更多的可能性。

PaperWeekly 鼓勵高校實驗室或個人，在我們的平臺上分享各類優質內容，可以是最新論文解讀，也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個，讓知識真正流動起來。

📝 稿件基本要求：

• 文章確係個人原創作品，未曾在公開渠道發表，如為其他平臺已發表或待發表的文章，請明確標註

• 稿件建議以 markdown 格式撰寫，文中配圖以附件形式傳送，要求圖片清晰，無版權問題

• PaperWeekly 尊重原作者署名權，並將為每篇被採納的原創首發稿件，提供業內具有競爭力稿酬，具體依據文章閱讀量和文章質量階梯制結算

📬 投稿通道：

• 投稿郵箱：[email protected]

• 來稿請備註即時聯絡方式（微信），以便我們在稿件選用的第一時間聯絡作者

• 您也可以直接新增小編微信（pwbot02）快速投稿，備註：姓名-投稿

△長按新增PaperWeekly小編

🔍

現在，在「知乎」也能找到我們了

進入知乎首頁搜尋「PaperWeekly」

點選「關注」訂閱我們的專欄吧

dignews.cc

ICML2024|量化大模型退化嚴重？ETH北航位元組推出LoRA新正規化

相關文章

SIGIR2025AgentIR研討會徵稿：探索Agent驅動的資訊檢索新邊界

北京/上海/杭州內推|字節跳動國際電商智慧對話團隊招聘大模型演算法實習生

Agent太火！看這一篇綜述，知識就不會學雜了丨華東師大&東華大學出品

微調碾壓RAG？大模型意圖識別工程化實踐

IR的新命題：當PPM開始用AI生成

顛覆傳統資訊搜尋，效果是之前SOTA的三倍？UIUC韓家煒、孫冀萌團隊開源DeepRetrieval，讓模型端到端地學會搜尋！

報告下載|讓投資者關係升至新高度：資料制勝、“C位”出道

美國國家物聯網安全標準和指南框架即將更新，以反映最新技術與物聯網融合

重燃熱情，VC/PE“忙不停”

申請美國綠卡，轉換類別後可以沿用之前的PD優先日期嗎？