編輯:陳萍
該研究對 LLM 常見的失敗模式貪婪性、頻率偏差和知 – 行差距,進行了深入研究。
大語言模型(LLMs)的成功激發了人們對各種智慧體的興趣。將 LLM 用於智慧體的一個關鍵假設是,LLMs 利用常識和思維鏈(Chain-of-Thought, CoT)進行推理,從而智慧體可以有效地探索並高效地解決複雜領域的問題。
然而,LLM 智慧體存在次優探索和知 – 行差距(knowing-doing gap)的問題,即無法有效地將模型中的知識轉化為行動。
本文,來自谷歌 DeepMind 的研究者系統地研究了為什麼 LLM 在決策場景中表現次優的原因。特別是,本文深入研究了三種常見的失敗模式:貪婪性、頻率偏差和知 – 行差距。
在此基礎上,本文提出透過強化學習對自動生成的 CoT 推理過程進行微調,以緩解這些不足。實驗表明 RL 微調能有效提升 LLMs 的決策能力 —— 既增強了智慧體探索性行為,又縮小了知 – 行差距。

-
論文標題: LLMs are Greedy Agents: Effects of RL Fine-tuning on Decision-Making Abilities
-
論文地址:https://www.alphaxiv.org/abs/2504.16078
方法介紹
本文系統性地分析了中小規模 LLMs 存在的三種典型缺陷:貪婪性策略、頻率偏差以及知行差距。分析表明,由於 LLMs 過早陷入貪婪動作選擇策略,導致動作覆蓋率停滯(最高達 55% 未探索),最終效能持續低於最優水平。
具體而言,本文發現小規模 LLMs(2B)傾向於機械複製上下文中的高頻動作(無視其獎勵差異),這種現象被定義為頻率偏差。
相比之下,大規模 LLMs(27B)雖能顯著減弱頻率偏差,但依舊維持貪婪行為。
同樣值得注意的是,本文透過量化知 – 行差距發現:LLMs 雖能正確理解任務要求,卻因執著於貪婪動作而無法有效執行所知方案。
為克服這些缺陷,本文提出在自動生成思維鏈(CoT)推理的基礎上進行強化學習微調方法(RLFT)。
RLFT 方法依賴於從環境互動中獲得的獎勵,對自生成的 CoT 原理進行微調。在 RLFT 過程中,模型會學習迭代地最佳化其推理過程,從而傾向於選擇能夠帶來更高獎勵的 CoT 模式和動作(參見圖 1)。本文方法更專注於決策場景。

上下文表示:在步驟 t 時,輸入 Token 包括輸入指令

,輸出指令

和最近的互動歷史

。歷史表示包含最近 C 個狀態、動作和獎勵的軌跡

。
微調目標:本文使用 Schulman 等人引入的裁剪目標進行微調,並對參考策略

進行額外的 KL 約束:

實驗結果
比較模型:實驗比較了 Gemma2 模型的三種尺寸大小:2B、9B 和 27B 。
環境:多臂老虎機(MAB,Multi-Armed Bandit)以及井字棋遊戲。

為什麼 LLM 在決策方面表現不佳?
先前的研究發現,LLM 智慧體在互動環境中表現欠佳,且探索不足。因此,本文首先研究模型表現欠佳的原因,並確定了三種常見的故障模式:(1) 貪婪,(2) 頻率偏差,以及 (3) 知 – 行差距。發現三種故障模式在各個模型尺寸上均持續存在。
貪婪是第一個也是最普遍的故障模式,其特徵是 LLM 過度偏向於迄今為止看到的一小部分操作中表現最佳的操作。為了說明這種故障模式,本文展示了 Gemma2 2B/9B/27B 在啟用和停用 CoT 的情況下,在 64 個 MAB(包含 10 個和 20 個分支)上,並且在 50 個互動步驟中實現的平均操作覆蓋率(見圖 3 a 和 b)。

結果顯示模型過早地採用貪婪策略,導致動作覆蓋率在 10 步之後停滯不前。增加分支數量會使貪婪更加明顯,最大的模型僅覆蓋了所有動作的 45%。因此,儘管這些模型比隨機智慧體有顯著改進(參見圖 3c),但與 UCB ( Upper-confidence Bound )相比,遺憾值仍然很高。
本文探索的下一個常見故障模式是頻率偏差,其特點是模型重複選擇上下文中出現頻率最高的動作,即使該動作的獎勵很低。
結果顯示,Gemma2 2B 嚴重受到重複動作的影響,隨著重複次數的增加,熵值不斷降低(見圖 4a)。相反,27B 模型擺脫了頻率偏差(見圖 4c)。事實上,對於 2B 來說,頻率偏差隨著重複次數的增加而不斷增加。雖然 27B 擺脫了頻率偏差,但它嚴重受到貪婪的影響。

知 – 行差距。智慧體清楚地知道如何解決任務,所有推理中有 87% 是正確的(見圖 5)。然而,即使對於正確計算的推理,模型也經常會選擇貪婪動作(58%)而不是最優動作(21%)。這種差異凸顯了 LLM 在瞭解演算法的情況下采取行動不一的缺陷。

RL 微調的有效性
接下來,本文研究 RLFT 對累積遺憾的影響(相對於最優策略),以及它是否能緩解這些故障模式。
結果顯示 RLFT 降低了遺憾值。在各種環境中,LLM 的表現明顯優於隨機基線,並且 RLFT 降低了 2B 和 9B 的遺憾值。

此外,RLFT 可緩解貪婪性,透過 RLFT,智慧體學會了探索,從而緩解了貪婪性。

© THE END
轉載請聯絡本公眾號獲得授權
投稿或尋求報道:[email protected]