ACL2024|SMU、NUS提出引數高效微調增強劑，顯著提升大語言模型效能

©PaperWeekly 原創 · 作者 | Zhihao Wen

單位 | 新加坡管理大學、新加坡國立大學

研究方向 | 大語言模型的引數高效微調

論文標題：

SIBO: A Simple Booster for Parameter-Efficient Fine-Tuning

論文地址：

https://arxiv.org/pdf/2402.11896

程式碼連結：

https://github.com/Jaygagaga/SIBO

簡介

基於 Transformer 架構的大型語言模型的深度（例如，BERT-large 有 24 層，LLaMA-7B 有 32 層，LLaMA 65B 有 80 層）導致了過平滑（Over-smoothing）問題，影響效能和可擴充套件性，而全模型微調需要大量資源。為解決這些問題，引數高效微調技術 PEFT（如 Adapter 和 LoRA）被提出，但沒有解決過平滑。

本文由來自新加坡管理大學和新加坡國立大學的作者提出了 SIBO，一種簡單增強引數高效微調（PEFT）的方法，用於改進大型語言模型。SIBO 透過在 PEFT 模組的輸入中注入初始殘差，減少了 Transformer 模型中的過平滑問題。實驗表明，SIBO 在多種基準測試上顯著提升了 Adapter 和 LoRA 等 PEFT 技術的效能。

前言

在講我們的方法之前，先介紹兩種流行的 PEFT 技術：介面卡和基於重引數化的方法。介面卡分為並行和序列，本文關注經典序列介面卡（Adapter），它透過下投影和上投影操作新增學習模組。基於重引數化的方法，如 LoRA，使用低秩策略修改網路權重，減少引數數量而不影響效能。

方法

3.1 Over-smoothing in PEFT

源於圖神經網路的術語過平滑（Over-smoothing）指的是由於在連續的聚合層中重複使用相同的鄰接矩陣，導致節點表示的同質性增加，從而導致效能下降。

雖然前人已經提出了幾種策略來緩解過度平滑，但它們並不是為 PEFT 技術設計的，因此在大型語言模型中不太實用。特別是，我們還透過定量分析觀察到在廣泛採用的 PEFT 技術（包括 Adapters 和 LoRA）中，尤其是在深層中，也存在過度平滑現象。

在我們的分析中，透過評估同一語句中 token 之間的相似性，即 token 間餘弦相似性，可以檢測到過度平滑現象。給定一個包含個 toke n的句子，表示為，其 token 間餘弦相似性計算如下：

其中是歐幾里得範數。如下圖 1 和圖 2 所示，在 Adapter 和 LoRA 中，隨著骨幹語言模型層深的增加，token 間相似性的一致增加被觀察到。因此，經過 PEFT 技術適配的預訓練語言模型中也存在過度平滑問題。因此，有必要設計一個通用框架來緩解 PEFT 方法的過度平滑，同時保持其效率。

▲ Over-smoothing in PEFT. The results are the
averaged token-wise similarity of sentences in the test
sets of the corpora in the GLUE benchmark (Wang et al.,
2018), with BERT-large as the backbone.

▲ Over-smoothing in PEFT. The results are the averaged token-wise similarity of sentences in the test sets of MAWPS (Koncel-Kedziorski et al.,2016) and SVAMP (Patel et al., 2021), with LLaMA-13B as the backbone.

3.2 Initial residual integration

為了實現 PEFT（引數高效微調）的通用即插即用增強，我們從 PEFT 模組的輸入開始，在預訓練模型的每一層的輸入中注入一個初始殘差。

令作為預訓練模型輸入的初始 token 表示為。從整合一個初始殘差可以保證每個 token 的最終表示至少保留輸入層資訊的部分。在涉及多個層時，這裡的是一個關鍵因素。

實際上，我們將視為一個超引數，並將其設定為一個合理的值，例如 0.2，確保最終的 token 表示包含輸入 token 特徵的實質部分，從而減少整個層的過度平滑現象。接下來，我們說明我們提出的 SIBO 框架如何應用於兩種最流行的 PEFT 技術：Adapter 和 LoRA。

▲ Proposed framework SIBO, applying to two
popular PEFT methods: (a) Adapter, and (b) LoRA.

Adapter-SIBO

在 Adapter 中實現初始殘差注入是直觀的。如上圖（a）所示，SIBO 在每個 Transformer 層的 Adapter 入口處（即從前一層輸出並輸入 Adapter 的隱藏狀態）將初始 token 表示新增到隱藏狀態中。該過程透過以下基本的向量加法操作執行。

其中是用於控制初始殘差強度的超引數。

LoRA-SIBO

在每個 Transformer 層的每個 LoRA 模組中，其更新的輸入僅為前一層的隱藏狀態，由低秩矩陣近似表示。在 LoRA-SIBO 中，如上圖（b）所示，我們對的輸入進行了修改，使其成為和的組合，如下式所示，

實驗

▲ 不同 PEFT 方法在算術推理任務中 LLMs 的表現，使用 GPT-3.5 的零樣本 CoT 作為參考點。∗ 表示結果來自先前工作，我們採用了完全相同的實驗設定和評估。改進是相對於沒有 SIBO 的對應方法計算的。

▲ GPT-J（6B）在常識推理任務中使用不同 PEFT 方法的表現。∗ 表示結果來自先前的工作，其中採用了完全相同的實驗設定和評估。

▲ BERT-large 在 GLUE 基準測試中使用不同 PEFT 方法的表現。∗ 表示結果來自先前的工作，其中採用了完全相同的實驗設定和評估。我們報告了三次不同執行中表現的平均值（及標準差）。

結語

本文提出了 SIBO，一種簡單增強引數高效微調（PEFT）的方法，用於改進大型語言模型。SIBO 透過在 PEFT 模組的輸入中注入初始殘差，減少了 Transformer 模型中的過平滑（Over-smoothing）問題，從而提高下游任務的效能。實驗表明，SIBO 在多種基準測試上顯著提升了 Adapter 和 LoRA 等 PEFT 技術的效能。

更多閱讀