ICML2024|量化大模型退化嚴重?ETH北航位元組推出LoRA新正規化

©作者 |QHT
來源 | 量子位
大模型應用開卷,連一向保守的蘋果,都已釋放出發展端側大模型的訊號。
問題是,大語言模型(LLM)卓越的表現取決於“力大磚飛”,如何在資源有限的環境中部署大模型並保障效能,仍然頗具挑戰。
以對大模型進行量化+LoRA的路線為例,有研究表明,現有方法會導致量化的LLM嚴重退化,甚至無法從LoRA微調中受益。
為了解決這一問題,來自蘇黎世聯邦理工學院、北京航空航天大學和字節跳動的研究人員,最新提出了一種資訊引導的量化後LLM微調新演算法IR-QLoRA。論文已入選ICML 2024 Oral論文。
論文標題:
Accurate LoRA-Finetuning Quantization of LLMs via Information Retention
論文連結:
hhttps://arxiv.org/pdf/2402.05445
程式碼連結:
https://github.com/htqin/IR-QLoRA
論文介紹,IR-QLoRA能有效改善量化導致的大模型效能退化。在LLaMA和LLaMA 2系列中,用該方法微調的2位模型,相比於16位模型僅有0.9%的精度差異。

該方法的核心思想,是透過資訊保留來使LoRA微調量化的大語言模型實現精度提升。
包含從統一資訊角度衍生的兩種技術:資訊校準量化和資訊彈性連線。
資訊校準量化
LLM的量化權重被期望反映原始對應方所攜帶的資訊,但位元寬度的減小嚴重限制了表示能力。從資訊的角度來看,量化LLM和原始LLM的權重之間的相關性表示為互資訊。
在LLM量化後,由於位元寬度的顯著減小導致表示能力的降低,量化權重的熵遠小於原始權重的熵。因此,優先考慮低位元權重內的資訊恢復對於增強量化LLM至關重要。
首先從數學上定義資訊校準的最佳化目標。校準過程可以看為向量化器引入一個校準常數 以最大化資訊,量化過程可以表述如下:
由於原始權重 是固定的,公式 (1) 中的最佳化目標可以表示為:
由於直接求解公式 (3) 中的目標非常耗時,作者提出了一種分塊校準量化器資訊的兩步策略:
第一步是初始化校準常數 。基於神經網路權重正態分佈的常見假設,將每個權重量化塊的常數初始化為中值 。由於正態分佈中靠近對稱軸的區域的機率密度較高,因此該初始化旨在更大程度地利用量化器的間隔。應用位置相關中值來初始化 , 以減輕異常值的影響。
第二步是最佳化校準常數 、量化尺度 、雙量化尺度 。使用資訊熵作為度量,並進行基於搜尋的最佳化以獲得 。透過將 線性劃分為 個候選來建立 的搜尋空間,其中 是標準差, 是係數。使用每個候選 校準權重後,量化校準的權重並計算資訊熵。獲得的量化尺度與基線一致。透過 得到量化尺度 ,然後二次量化為 和 。
對於最佳化後的校準常數 ,執行類似於尺度的雙量化以節省記憶體,資訊校準量化的量化過程可以總結為:
資訊彈性連線
除了基線中的量化LLM之外,由低秩矩陣組成的LoRA也阻礙了資訊的恢復,為了增強LoRA的表示能力,幫助恢復量化LLM的資訊,同時保持其輕量級性質,作者引入了有效的資訊彈性連線。該方法構建了一個強大的低秩介面卡,有助於利用從量化的LLM單元匯出的資訊。
具體來說,首先根據輸入和中間維度的最大公約數對原始特徵進行分組和平均,並將其新增到由 矩陣計算的輸出中。增加彈性連線的 LoRA 的第一個子單元 可以表示為:
LoRA 的後一個矩陣將低秩中間表示變換為輸入維度,因此其伴隨的無引數變換使用重複串聯來增加維度。後一個子單元 的計算過程可以表示為:
與 LLM 和 LoRA 單元中的矩陣乘法相比,無引數變換是一種多樣化的變換形式,進一步增強了量化 LLM 的資訊表示。
實驗驗證
作者廣泛評估了IR-QLoRA的準確性和效率。選擇LLaMA和LLaMA 2系列模型,在Alpaca和Flanv2資料集上構建引數高效的微調,使用MMLU和CommonsenseQA基準進行評估微調後量化模型的效果。
準確率
以下兩張表格分別展示了在Alpaca和Flanv2資料集上微調的MMLU基準的5-shot精度結果。綜合結果表明,在各種規模的LLaMA模型中,IR-QLoRA優於所有比較量化方法。
與基線方法QLoRA相比,IR-QLoRA在相同的微調管道下在MMLU基準上實現了精度的顯著提高。

此外,在LLaMA 2上的準確性比較,證明了IR-QLoRA跨LLM系列的泛化效能。
下表中的結果表明,IR-QLoRA不僅平均實現了至少2.7%的效能改進,而且在幾乎每個單獨的指標上都表現出了優勢。這些結果表明IR-QLoRA在不同的LLM系列中表現出很強的泛化性。
與MMLU基準上的現象類似,在CommonsenseQA基準上,與SOTA方法相比,IR-QLoRA始終保持了LLaMA-7B的最佳平均準確率,而且還顯著提高了大多數子項的有效性。
超低位寬
除了4位元以外,作者還評估了超低位寬下的IR-QLoRA建議。
具體來說,作者採用了QLoRA和LoftQ的量化方法,按照百分位量化方法構建了NF2和NF3量化。
下表顯示,隨著量化位寬的減小,基線QLoRA的效能急劇下降,以至於其在2位情況下的效能與隨機相差無幾。
相比之下,IR-QLoRA表現出更優越的效能,在Flan v2資料集上微調2位模型時,與16位模型相比僅有0.9%的精度差異。
效率
IR-QLoRA的資訊校準量化和資訊彈性連線並沒有帶來額外的儲存和訓練開銷。
如上所示,資訊校準量化增加的引數僅相當於量化的縮放因子,而且採用了雙重量化以進一步減少儲存。因此其帶來的額外儲存空間很小,在4位LLaMA-7B上僅增加了 2.04%。
校準常數的最佳化過程也只增加了微不足道的訓練時間(例如,LLaMA-7B為 0.46%,LLaMA-13B為 0.31%)。此外,增加的時間僅用於訓練過程中的初始最佳化,並不會導致推理時間的增加。資訊彈性連線也只在每層引入了2個額外引數,在整個模型中可以忽略不計。
結論
總的來說,基於統計的資訊校準量化可確保LLM的量化引數準確保留原始資訊;以及基於微調的資訊彈性連線可以使LoRA利用不同資訊進行彈性表示轉換。
廣泛的實驗證明,IRQLoRA在LLaMA和LLaMA 2系列中實現了令人信服的精度提升,即使是2-4位寬,耗時也僅增加了0.45%。
IR-QLoRA具有顯著的多功能性,可與各種量化框架無縫整合,並且大大提高了LLM的LoRA-finetuning量化精度,有助於在資源受限的情況下進行實際部署。
更多閱讀
#投 稿 通 道#
 讓你的文字被更多人看到 
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。 
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析科研心得競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝 稿件基本要求:
• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標註 
• 稿件建議以 markdown 格式撰寫,文中配圖以附件形式傳送,要求圖片清晰,無版權問題
• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬 投稿通道:
• 投稿郵箱:[email protected] 
• 來稿請備註即時聯絡方式(微信),以便我們在稿件選用的第一時間聯絡作者
• 您也可以直接新增小編微信(pwbot02)快速投稿,備註:姓名-投稿
△長按新增PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜尋「PaperWeekly」
點選「關注」訂閱我們的專欄吧
·
·
·
·

相關文章