谷歌發現LLM是GreedyAgent,提出用RL調教出理性決策

MLNLP社群是國內外知名的機器學習與自然語言處理社群,受眾覆蓋國內外NLP碩博生、高校老師以及企業研究人員。
社群的願景是促進國內外自然語言處理,機器學習學術界、產業界和廣大愛好者之間的交流和進步,特別是初學者同學們的進步。
來源 | 深度學習自然語言處理
大模型的“決策短板”從何而來?
大語言模型(如ChatGPT、Gemma2)在文字生成、程式碼編寫等領域大放異彩,但當它們被用作“智慧體”做決策時,卻常犯低階錯誤:比如玩井字棋勝率只有15%(不如隨機玩家),或在老虎機任務中反覆選擇同一個低收益選項。

論文:LLMs are Greedy Agents: Effects of RL Fine-tuning on Decision-Making Abilities連結:https://arxiv.org/pdf/2504.16078
這篇論文揭開了背後的三大“性格缺陷”:貪婪性頻率偏差知行差距,並透過強化學習微調(RLFT)結合思維鏈(CoT),讓LLM的決策能力實現質的飛躍。

三大失敗模式

貪婪性:LLM的“路徑依賴”

就像人類炒股時過早拋售潛力股,LLM會迅速鎖定早期高收益動作(如老虎機的某個拉桿),後續不再探索其他選項。實驗顯示:
  • 在10個選項的任務中,LLM平均只探索65%的動作
  • 20個選項時,覆蓋率暴跌至45%

頻率偏差:迷信“高頻動作”

小規模模型(如2B引數)尤其明顯:如果某個動作在歷史記錄中出現次數多(比如連續按“藍色按鈕”10次),即使它收益低,LLM仍會盲目選擇。

知行差距:懂道理卻做不到

LLM能正確推演最優策略(如計算UCB值),但行動時卻選擇次優選項。例如:
  • 87%的思維鏈推理正確
  • 但正確推理中,64%的實際動作與推理結果矛盾

破解之道:強化學習微調+思維鏈

論文提出“決策日記訓練法”:
  1. 讓LLM寫思維鏈:生成包含推理過程的文字(例如:“按鈕A的UCB值=收益均值+探索獎勵√(ln(t)/使用次數)”)
  2. 用環境反饋獎勵微調:透過強化學習(PPO演算法)獎勵高收益決策,懲罰無效動作

實驗驗證

多臂老虎機:從“菜鳥”到“高手”

  • 經過RLFT微調的2B小模型,動作覆蓋率提升12%
  • 累計後悔值(與最優策略的差距)顯著降低

井字棋對戰:逆襲之路

  • 對抗隨機玩家:勝率從15%→75%
  • 對抗MCTS演算法:從幾乎全敗到平局

思維鏈的重要性

去掉思維鏈後,模型表現倒退至微調前水平,證明CoT是“有效思考”的關鍵。

進階:讓LLM學會“主動思考”

論文嘗試了多種增強探索的方法:
  • 經典RL技巧:ε-貪婪策略(10%機率隨機探索)
  • LLM專屬最佳化
    • 自我糾錯:生成多輪推理並投票選擇最佳動作
    • 上下文隨機化:打亂動作標籤破除語義偏見
實驗結果:結合探索獎勵(+1獎勵未嘗試動作)效果最佳,覆蓋率提升至70%。

技術交流群邀請函

△長按新增小助手
掃描二維碼新增小助手微信
請備註:姓名-學校/公司-研究方向
(如:小張-哈工大-對話系統)
即可申請加入自然語言處理/Pytorch等技術交流群

關於我們

MLNLP 社群是由國內外機器學習與自然語言處理學者聯合構建的民間學術社群,目前已經發展為國內外知名的機器學習與自然語言處理社群,旨在促進機器學習,自然語言處理學術界、產業界和廣大愛好者之間的進步。
社群可以為相關從業者的深造、就業及研究等方面提供開放交流平臺。歡迎大家關注和加入我們。


相關文章