ACL2025|推理不靠堆引數！CRFT打破CoT瓶頸，0.016％引數撬動18.2％效能

期刊/會議：

ACL 2025

論文地址：

https://arxiv.org/abs/2507.10085

作者機構：

阿里雲智慧-飛天實驗室

論文關鍵詞：

LLM reasoning，Chain-of-Thought，Parameter-Efficient Fine-Tuning

簡要概述：分析定位在思維鏈推理中的關鍵表徵（對最終輸出產生顯著影響的表徵），並對這些關鍵表徵進行干預，以提高結果的準確率。

引言

ReFT（https://arxiv.org/abs/2404.03592）是近期提出的一種 PEFT 方法，因其僅透過編輯表徵空間即可顯著提高參數效率而備受關注。

直接將 ReFT 方法應用於複雜的推理任務會導致效能不佳。因為該方法會修改每層開頭和結尾固定位置的表徵，而這些固定位置的表徵對輸出的影響是不確定的。我們觀察到在複雜的推理任務中通常存在關鍵表徵，對這些關鍵表徵進行微調可以顯著提升推理效能。

▲ 圖1 ：在第一層（輸入標記）中修改關鍵表徵的示例。

如圖 1 所示，對第一層的關鍵表徵（token“a” 對應的表徵）干預後，對輸出產生了影響，這使得回答變為正確。

研究意義

我們提出了關鍵表徵微調（CRFT），這是一種透過資訊流分析來識別和最佳化關鍵表徵的方法。CRFT 在監督學習框架下執行，在凍結基礎模型的同時，動態最佳化低秩線性子空間中的關鍵表徵。我們在八個數學和常識推理的基準和兩個模型系列（LLaMA 和 Mistral）中驗證了 CRFT 的有效性。

值得注意的是，我們的方法在 GSM8K 資料集上分別比 LLaMA-2-7B 和 ReFT 的準確率提高了 18.2% 和 3.8%，而學習的引數量僅為模型引數量的 0.016%，顯著低於其他 PEFT 方法。

此外，CRFT 還能有效適應 few-shot 場景。其中，one-shot 的準確率提高了 16.4%。我們的工作凸顯了表徵級最佳化在 CoT 推理中尚未開發的潛力，為傳統 PEFT 方法提供了一種輕量級但功能強大的替代方案。

CRFT

CRFT 包括定位關鍵表徵以及干預關鍵表徵這兩個元件。

3.1 定位關鍵表徵

一個表徵是否為關鍵表徵並不能由其自身決定，而是由其與其他表徵的關係決定。因此，我們利用資訊流並以注意力分數和顯著性分數作為指標。

如圖 2 所示，我們使用網格來視覺化表徵間的資訊互動，其中單元格表示表徵和表徵之間的資訊互動。單元格的值由注意力分數或顯著性分數表示，顏色越深表示資訊互動越豐富。

關鍵表徵可以分為兩類：1）整合來自前一層的重要資訊；2）調控後一層的表徵。

具體而言，對於前者，我們關注那些從自身接收資訊流的表徵，這表明其已經積累了有效資訊。對於後者，我們關注那些將資訊傳播給多個其他表徵的表徵，這表明其資訊互動豐富。

因此，我們設計了兩種策略來過濾關鍵表徵：分別是 self-referential filtering 和 multi-referential filtering。

▲ 圖2 ：self-referential filtering 和 multi-referential filtering 的圖示。我們用紅色框突出圖（a）中的對角線單元格和圖（b）中的列平均值超過閾值的部分，並對相應的表徵（關鍵表徵）用紅線標記。

3.1.1 Self-Referential Filtering

如果來自表徵的資訊在後續層主要流回自身，則意味著表徵包含重要資訊或已有效積累了重要資訊。因此，我們使用作為評估這種保留的關鍵指標。

如果較大，則將較小，因為一行中的值已透過 softmax 函式進行歸一化。我們以閾值為衡量標準，大於閾值則表明來自表徵的資訊流主要流向自身。

為了量化資訊互動，我們採用注意力分數和顯著性分數作為指標，從而分別提出兩種不同的方法：Self-Referential Attention Filtering（SAF）和 Self-Referential Saliency Filtering（SSF）。

3.1.2 Multi-Referential Filtering

如果表徵的資訊對多個其他表徵（包括生成的表徵）產生顯著影響，則表徵至關重要。

具體而言，我們計算第列單元格的平均值作為關鍵指標，以表示表徵對其他表徵的影響。如果的平均值較大，則表徵對其他表徵具有顯著影響，併發揮關鍵作用。我們使用閾值來篩選關鍵表徵。

其中表示輸出表徵的數量。同樣地，我們使用注意力分數和顯著性分數來量化表徵對錶徵的影響，這分別稱為 Multi-Referential Attention Filtering（MAF）和 Multi-Referential Saliency Filtering（MSF）。

3.2 干預關鍵表徵

▲ 圖3：最佳化關鍵表徵的流程。橙色表示需要學習的引數，藍色表示凍結的引數。

一旦確定了關鍵表徵，就可以對其進行最佳化以確保其對推理任務的影響能夠準確對齊。

然而，這種關鍵表徵的最佳化方向仍然不確定，並且可能不是唯一的。因此，我們設定了一個可學習的向量，該向量在訓練過程中學習以自適應地糾正關鍵表徵。

我們將最佳化向量限制在一個低秩線性子空間中，該子空間採用一個具有正交行的投影矩陣，其中表示干預子空間的維數。我們透過線性層來學習投影源。

因此，我們修改的行所跨越維子空間內的表徵，採用從匯出的值。

整體最佳化機制為：

實驗結果

▲ 表1. GSM8K 資料集上的 PEFT 方法與 CRFT（基於 LLaMA-2-7B)的定量比較。

表 1 總結了 CRFT 與其他 PEFT 方法在 GSM8k 和 LLaMA-2-7B 資料集上的比較結果。

對於每種策略，我們報告了兩個準確度值：第一個值透過過濾上一層中已識別為關鍵表徵來選擇關鍵表徵；而第二個值則僅在當前層內進行過濾來識別關鍵表徵。

鑑於最優策略可能因具體情況而異，我們建議採用自參考過濾和多參考過濾相結合的方法。由於這兩種策略的評分系統無法直接比較，因此我們採用過濾集的並集。

為了確保公平比較，我們保持和 ReFT 相同的干預數量，這可能會導致一些非常重要的表徵被遺漏。因此，組合方法在某些情況下可能會略微降低效能。

調整閾值和可以解決這個問題：降低會增加干預措施以提高效能，而提高則會減少干預措施以提高效率。

▲ 表2. 使用三個基礎模型（LLaMA-2-7B、LLaMA-3-8B 和 Mistral-7B）在數學和常識推理資料集的定量比較。

此外，CRFT 在數學和常識場景下在不同模型上均展現出更佳的效能，如表 2 所示（其中，我們使用 ReFT 的官方公開程式碼來報告效能，因為它僅報告了 LLaMA-1 上的結果。

並且，根據 ReFT 的實驗結論，我們採用了最佳干預引數 p7+s7，分別表示對前七個表徵和後七個表徵的干預）。

▲ 表3. CRFT 在 GSM8K 資料集上擴充套件到小樣本學習的結果（使用 Llama-2-7B 和 SAF 策略)。

CRFT 可以輕鬆擴充套件到少樣本學習。直觀地講，demonstrations 不應該直接影響輸出；它們通常用於獲得更高層次的語義理解，進而影響輸出。

然而，question 中的表徵（例如數字）確實可以直接影響結果。因此，我們在表 3 中展示了一些實驗，以檢驗是否應該獨立學習 demonstrations 和 question。第一個值表明 demonstrations 和 question 是相互依存的，即關鍵表徵的更新向量只有一個。

相反，第二個值表明 demonstrations 和 question 是獨立的，即更新向量是不同的。這些結果證明了區分關鍵表徵的更新向量的必要性。由於記憶體限制，我們只進行了單樣本和雙樣本的實驗。

結論與展望

我們提出了一種新穎的思路鏈推理方法 CRFT，專注於關鍵表徵對模型輸出的影響。CRFT 首先透過分析注意力分數和顯著性分數的資訊流來識別關鍵表徵，然後透過低秩子空間內的監督微調對其進行最佳化。

我們在各種模型和資料集上進行的全面實驗驗證了該方法的有效性和效率。這為思路鏈推理任務，尤其是長思路鏈推理任務，提供了新的視角。

此外，CRFT 表現出足夠的靈活性，可以輕鬆適應小樣本學習場景，這凸顯了其在增強模型推理能力方面的潛力。

更多閱讀

#投稿通道#

讓你的文字被更多人看到

如何才能讓更多的優質內容以更短路徑到達讀者群體，縮短讀者尋找優質內容的成本呢？答案就是：你不認識的人。

總有一些你不認識的人，知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑，促使不同背景、不同方向的學者和學術靈感相互碰撞，迸發出更多的可能性。

PaperWeekly 鼓勵高校實驗室或個人，在我們的平臺上分享各類優質內容，可以是最新論文解讀，也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個，讓知識真正流動起來。

📝 稿件基本要求：

• 文章確係個人原創作品，未曾在公開渠道發表，如為其他平臺已發表或待發表的文章，請明確標註

• 稿件建議以 markdown 格式撰寫，文中配圖以附件形式傳送，要求圖片清晰，無版權問題

• PaperWeekly 尊重原作者署名權，並將為每篇被採納的原創首發稿件，提供業內具有競爭力稿酬，具體依據文章閱讀量和文章質量階梯制結算

📬 投稿通道：

• 投稿郵箱：[email protected]

• 來稿請備註即時聯絡方式（微信），以便我們在稿件選用的第一時間聯絡作者

• 您也可以直接新增小編微信（pwbot02）快速投稿，備註：姓名-投稿

△長按新增PaperWeekly小編

🔍

現在，在「知乎」也能找到我們了

進入知乎首頁搜尋「PaperWeekly」

點選「關注」訂閱我們的專欄吧

dignews.cc

ACL2025|推理不靠堆引數！CRFT打破CoT瓶頸，0.016％引數撬動18.2％效能

相關文章

WWW2025|資料洪流→資料精煉：北理工等提出高效文字行人檢索新正規化

達摩院開源VideoLLaMA3：僅7B大小，影片理解拿下SOTA|線上可玩

ICML2025｜重新整理無監督異常檢測上限！CostFilter-AD：首個即插即用的代價濾波用於異常檢測正規化

頂會爆發！“LSTM+卡爾曼濾波”成論文新賽道

首次，用自然語言解釋圖神經網路|ACL2025

平臺演算法：機會與道德考慮（一）

LeCun力薦！進化演算法淘汰77％低質資料：RIP方法讓模型效能狂飆60％

精選Data崗位丨Amazon、CapitalOne公司持續熱招！

CVPR滿分論文|英偉達開源雙目深度估計大模型FoundationStereo

內推機會｜Amazon（US）正在招聘2024DS實習生