ACL2024|SMU、NUS提出引數高效微調增強劑,顯著提升大語言模型效能

©PaperWeekly 原創 · 作者 | Zhihao Wen
單位 | 新加坡管理大學、新加坡國立大學
研究方向 | 大語言模型的引數高效微調
論文標題:
SIBO: A Simple Booster for Parameter-Efficient Fine-Tuning
論文地址:
https://arxiv.org/pdf/2402.11896
程式碼連結:
https://github.com/Jaygagaga/SIBO

簡介

基於 Transformer 架構的大型語言模型的深度(例如,BERT-large 有 24 層,LLaMA-7B 有 32 層,LLaMA 65B 有 80 層)導致了過平滑(Over-smoothing)問題,影響效能和可擴充套件性,而全模型微調需要大量資源。為解決這些問題,引數高效微調技術 PEFT(如 Adapter 和 LoRA)被提出,但沒有解決過平滑。
本文由來自新加坡管理大學和新加坡國立大學的作者提出了 SIBO,一種簡單增強引數高效微調(PEFT)的方法,用於改進大型語言模型。SIBO 透過在 PEFT 模組的輸入中注入初始殘差,減少了 Transformer 模型中的過平滑問題。實驗表明,SIBO 在多種基準測試上顯著提升了 Adapter 和 LoRA 等 PEFT 技術的效能。

前言

在講我們的方法之前, 先介紹兩種流行的 PEFT 技術:介面卡和基於重引數化的方法。介面卡分為並行和序列,本文關注經典序列介面卡 (Adapter),它透過下投影和上投影操作新增學習模組。基於重引數化的方法,如 LoRA,使用低秩策略修改網路權重,減少引數數量而不影響效能。
方法
3.1 Over-smoothing in PEFT
源於圖神經網路的術語過平滑(Over-smoothing)指的是由於在連續的聚合層中重複使用相同的鄰接矩陣,導致節點表示的同質性增加,從而導致效能下降。
雖然前人已經提出了幾種策略來緩解過度平滑,但它們並不是為 PEFT 技術設計的,因此在大型語言模型中不太實用。特別是,我們還透過定量分析觀察到在廣泛採用的 PEFT 技術(包括 Adapters 和 LoRA)中,尤其是在深層中,也存在過度平滑現象。
在我們的分析中,透過評估同一語句中 token 之間的相似性,即 token 間餘弦相似性,可以檢測到過度平滑現象。給定一個包含 個 toke n的句子,表示為 ,其 token 間餘弦相似性計算如下:
其中 是歐幾里得範數。如下圖 1 和圖 2 所示,在 Adapter 和 LoRA 中,隨著骨幹語言模型層深的增加,token 間相似性的一致增加被觀察到。因此,經過 PEFT 技術適配的預訓練語言模型中也存在過度平滑問題。因此,有必要設計一個通用框架來緩解 PEFT 方法的過度平滑,同時保持其效率。
▲ Over-smoothing in PEFT. The results are the
averaged token-wise similarity of sentences in the test
sets of the corpora in the GLUE benchmark (Wang et al.,
2018), with BERT-large as the backbone.
▲ Over-smoothing in PEFT. The results are the averaged token-wise similarity of sentences in the test sets of MAWPS (Koncel-Kedziorski et al.,2016) and SVAMP (Patel et al., 2021), with LLaMA-13B as the backbone.

3.2 Initial residual integration

為了實現 PEFT(引數高效微調)的通用即插即用增強,我們從 PEFT 模組的輸入開始,在預訓練模型的每一層的輸入中注入一個初始殘差。
令作為預訓練模型輸入的初始 token 表示為 。從 整合一個初始殘差可以保證每個 token 的最終表示至少保留輸入層資訊的 部分。在涉及多個層時,這裡的 是一個關鍵因素。
實際上,我們將 視為一個超引數,並將其設定為一個合理的值,例如 0.2,確保最終的 token 表示包含輸入 token 特徵的實質部分,從而減少整個層的過度平滑現象。接下來,我們說明我們提出的 SIBO 框架如何應用於兩種最流行的 PEFT 技術:Adapter 和 LoRA。
▲ Proposed framework SIBO, applying to two
popular PEFT methods: (a) Adapter, and (b) LoRA.
Adapter-SIBO
在 Adapter 中實現初始殘差注入是直觀的。如上圖(a)所示,SIBO 在每個 Transformer 層的 Adapter 入口處(即從前一層輸出並輸入 Adapter 的隱藏狀態)將初始 token 表示 新增到隱藏狀態 中。該過程透過以下基本的向量加法操作執行。
其中 是用於控制初始殘差強度的超引數。
LoRA-SIBO
在每個 Transformer 層的每個 LoRA 模組中,其更新的輸入 僅為前一層的隱藏狀態 ,由低秩矩陣近似表示。在 LoRA-SIBO 中,如上圖(b)所示, 我們對 的輸入進行了修改,使其成為 和 的組合,如下式所示,
實驗
▲ 不同 PEFT 方法在算術推理任務中 LLMs 的表現,使用 GPT-3.5 的零樣本 CoT 作為參考點。∗ 表示結果來自先前工作,我們採用了完全相同的實驗設定和評估。改進是相對於沒有 SIBO 的對應方法計算的。
▲ GPT-J(6B)在常識推理任務中使用不同 PEFT 方法的表現。∗ 表示結果來自先前的工作,其中採用了完全相同的實驗設定和評估。
▲ BERT-large 在 GLUE 基準測試中使用不同 PEFT 方法的表現。∗ 表示結果來自先前的工作,其中採用了完全相同的實驗設定和評估。我們報告了三次不同執行中表現的平均值(及標準差)。
結語
本文提出了 SIBO,一種簡單增強引數高效微調(PEFT)的方法,用於改進大型語言模型。SIBO 透過在 PEFT 模組的輸入中注入初始殘差,減少了 Transformer 模型中的過平滑(Over-smoothing)問題,從而提高下游任務的效能。實驗表明,SIBO 在多種基準測試上顯著提升了 Adapter 和 LoRA 等 PEFT 技術的效能。
更多閱讀
#投 稿 通 道#
 讓你的文字被更多人看到 
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。 
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析科研心得競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝 稿件基本要求:
• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標註 
• 稿件建議以 markdown 格式撰寫,文中配圖以附件形式傳送,要求圖片清晰,無版權問題
• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬 投稿通道:
• 投稿郵箱:[email protected] 
• 來稿請備註即時聯絡方式(微信),以便我們在稿件選用的第一時間聯絡作者
• 您也可以直接新增小編微信(pwbot02)快速投稿,備註:姓名-投稿
△長按新增PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜尋「PaperWeekly」
點選「關注」訂閱我們的專欄吧
·
·
·

相關文章