
來源 | 深度學習自然語言處理
論文:Agentic Reasoning: Reasoning LLMs with Tools for the Deep Research連結:https://arxiv.org/pdf/2502.04644專案:https://github.com/theworldofagents/Agentic-Reasoning
LLM與助手們的協作流程
效能對比表
案例流程圖
思維導圖在狼人殺中的神操作:第一輪vs第二輪推理
這是一篇讓 LLM 從“單打獨鬥”進化成“團隊作戰”的神奇論文!現在的LLM雖然能寫詩、編程式碼,但遇到需要深度推理的問題時,常常像極了熬夜趕論文的我們——腦子一片漿糊,只會瘋狂撓頭。這篇論文給LLM配了三個“外掛小秘書”:
-
網癮少年搜尋助手:隨時幫LLM上網衝浪查資料; -
碼農程式碼助手:替LLM寫程式碼跑程式,省得它自己debug到崩潰; -
思維導圖管家:把推理過程整理成知識圖譜,防止LLM“邏輯迷路”。
從此,LLM的推理能力直接開掛,博士級難題也能輕鬆拿捏!

方法
整個框架就像給LLM配了一個“復仇者聯盟”:
-
搜尋助手:LLM一發出🔍訊號,立馬谷歌學術+維基百科狂搜,還自帶總結功能,只餵給LLM最相關的“知識零食”; -
程式碼助手:LLM喊一聲💻,它就秒寫Python程式碼並執行,結果用大白話返回,避免LLM被程式碼語法逼瘋; -
思維導圖管家:把推理過程畫成超酷的知識圖譜,還能自動分模組、做摘要,堪比AI版“思維導圖APP”。

最萌的是,LLM推理時會主動“舉手提問”🙋!比如需要資料就插個🔍標記,需要計算就塞個💻符號,活像課堂上憋不住問題的小學生~
實驗
為了驗證這波操作有多強,作者們搞了一堆硬核測試
博士級考試暴擊
用GPQA資料集(物理/化學/生物博士級選擇題)狂虐模型,結果:
-
Agentic Reasoning在物理題拿下88.1%正確率,化學58.3%,生物79.6%,直接把其他模型按在地上摩擦!

醫學診斷實戰
讓模型處理“計算最佳氧氣濃度”的醫療決策,它居然能:
-
召喚程式碼助手算FiO₂; -
派搜尋助手查PEEP值; -
綜合結果給出治療方案——AI醫生執照指日可待!

狼人殺智商碾壓
最搞笑的是,作者讓模型玩狼人殺!透過思維導圖記錄玩家發言的邏輯關係,最終勝率72%,吊打人類老玩家。


人類專家慘遭KO
在GPQA擴充套件集上,模型在物理(75.2%)、化學(53.1%)、生物(72.8%)全面超越人類專家,物理學家們看完直呼“AI搶飯碗啦!”

人類vs模型戰績表
結論
這篇論文的核心就一句話:“三個臭皮匠,頂個諸葛亮”!給LLM配上一群專業小助手,讓它從“死記硬背”進化成“邏輯狂魔”。實驗結果證明,這套框架不僅能搞定博士級考題,還能玩轉狼人殺、寫深度報告,甚至讓人類專家瑟瑟發抖~
未來,這個思路還能用來訓練更聰明的LLM——想象一下,AI帶著搜尋+程式碼+思維導圖全家桶,直接變身科研超人!
技術交流群邀請函
△長按新增小助手
掃描二維碼新增小助手微信
請備註:姓名-學校/公司-研究方向
(如:小張-哈工大-對話系統)
即可申請加入自然語言處理/Pytorch等技術交流群
關於我們
MLNLP 社群是由國內外機器學習與自然語言處理學者聯合構建的民間學術社群,目前已經發展為國內外知名的機器學習與自然語言處理社群,旨在促進機器學習,自然語言處理學術界、產業界和廣大愛好者之間的進步。
社群可以為相關從業者的深造、就業及研究等方面提供開放交流平臺。歡迎大家關注和加入我們。

掃描二維碼新增小助手微信
關於我們
