
來源 | 專知

論文連結:https://arxiv.org/pdf/2504.01990
大型語言模型(LLMs)的出現引發了人工智慧領域的深刻變革,推動了具備複雜推理能力、強大感知能力和多樣化行為能力的高階智慧體的發展。這些智慧體正日益成為推動人工智慧研究與實際應用的核心力量,其設計、評估與持續最佳化也帶來了複雜且多維的挑戰。
本綜述提供了一個全面的視角,將智慧體置於一種模組化、類腦啟發式的架構之中,融合了認知科學、神經科學與計算研究的核心原理。我們的討論分為四個相互關聯的部分:
第一部分,我們探討智慧體的模組化基礎,系統性地將其認知、感知與執行模組對映到人腦的功能結構上,並詳細解析諸如記憶、世界建模、獎勵處理以及類情感系統等關鍵組成部分。
第二部分,我們聚焦於智慧體的自我增強與適應性進化機制,研究其如何透過自動最佳化正規化實現能力的自主提升、對動態環境的適應與持續學習,涵蓋新興的AutoML技術與LLM驅動的最佳化策略。
第三部分,我們考察協作式與進化式多智慧體系統,探索由智慧體間的互動、合作與社會結構所湧現出的集體智慧,並指出其中與人類社會行為的諸多相似之處。
第四部分,我們討論構建安全、可靠與有益的人工智慧系統的緊迫性,強調內在與外在安全威脅、倫理對齊、系統魯棒性以及實際可行的風險緩解策略,從而實現可信賴的現實部署。
透過融合模組化AI架構與多學科的研究洞見,本綜述明確了關鍵的研究空白、挑戰與機遇,旨在激發技術創新,推動技術進步與社會福祉的有機結合。
專案的 GitHub 連結為:
https://github.com/FoundationAgents/awesome-foundation-agents。
大型語言模型(LLMs)在自然語言與多模態理解、推理與生成等方面展現出前所未有的能力,徹底革新了人工智慧(AI)領域。這些模型在大規模資料集上進行訓練,展現出諸如推理、上下文學習、甚至初步規劃等湧現能力。儘管它們在實現智慧機器方面邁出了重要的一步,但尚未完全具備一個“智慧體”所需的全部能力。
自人工智慧誕生以來,研究人員便一直追求構建真正“智慧”的系統,這種系統應能夠學習、規劃、推理、感知、交流、行動、記憶,並具備各種類似人類的能力與靈活性。這類系統即為“智慧體”(intelligent agents),它們應當能夠兼顧短期與長期思維,執行復雜任務,並與人類及其他智慧體進行互動。雖然LLMs是實現智慧體的重要基礎,但我們仍未完全抵達終點。
本書稿對當前基於LLM的智慧體研究現狀進行了系統性的綜述。過去已有大量關於智慧體或LLMs的研究論文與專著,但鮮有文獻能夠全面覆蓋二者的結合。雖然LLMs可為智慧體提供諸多關鍵能力,但它們僅是構建更高階功能的基礎。例如,LLMs雖然能輔助生成如旅行計劃之類的方案,但尚無法為複雜的專業任務生成完整的規劃,也無法在不產生幻覺的前提下維持長期記憶。此外,它們在自主執行現實世界任務方面的能力依然有限。
我們可以將LLMs視為“引擎”,而智慧體則是基於這些引擎構建的“汽車”、“船隻”或“飛機”。在這個引擎與載具的類比中,我們自然地思考:當前的LLM技術到底能為智慧體提供多少能力?又有哪些功能尚無法實現?除了LLMs之外,還需要哪些技術才能構建一個真正能夠在物理世界中自主行動與互動的智慧體?全面整合LLM的智慧體還面臨哪些挑戰?為了構建能夠有效與人類協作、溝通的智慧體,還需要哪些進一步的發展?有哪些是LLM智慧體領域的“低垂果實”?當全面智慧的LLM智慧體出現後,它們將對社會產生哪些影響?我們應如何為這一未來做好準備?
這些問題不僅涉及當前對LLMs與智慧體的工程實踐擴充套件,也揭示了未來潛在的研究方向。為深入探討這些問題,我們邀請了來自人工智慧前沿領域的研究者,涵蓋LLM開發、智慧體設計等多個方向。
本書共分為四個部分。第一部分闡述了單個智慧體的能力需求,並將其與人類在感知與行動方面的能力進行比較。第二部分探討了智慧體的進化能力,以及這種能力對智慧工具(如工作流管理系統)的潛在影響。第三部分聚焦於“智慧體社會”,強調其協作與集體行動的潛力。第四部分則討論了倫理與社會層面的議題,包括智慧體的安全性與責任問題。
本書面向研究人員、學生、政策制定者與行業實踐者,同時也歡迎對人工智慧、LLMs與智慧體感興趣的非專業讀者。無論是本科生、研究生,還是科研與產業界的從業人員,都可以從本書中獲得啟發。本書不僅希望解答讀者關於AI與智慧體的現有疑問,更旨在激發他們提出新的問題。最終,我們希望有更多人能夠加入這一充滿潛力的研究領域,共同探索未來的智慧系統。

人工智慧(AI)自誕生以來,始終受到人類渴望創造具有人類智慧、適應性與目標導向行為之實體的驅動。這種迷戀的根源可追溯至古代神話與早期工程奇蹟,體現了人類賦予人工造物以智慧與自主意識的持久夢想。例如克里特島上的青銅巨人塔洛斯(Talos)的故事中,這位由神明打造的巨型自動人巡邏海岸、抵禦入侵者,象徵著人類希望賦予人工造物以類人意圖與行動能力的願望。
類似地,文藝復興時期的機械發明也試圖將這種神話願景具體化。列奧納多·達·芬奇設計的仿人機器人,旨在模仿人類的動作與結構,是將幻想轉化為可操作人工物的早期嘗試之一。這些原始的想象與原型體現了將想象力與技術相融合的深層追求,也為後來的機器智慧研究奠定了基礎,最終在艾倫·圖靈1950年提出的著名問題“機器能思考嗎?”中達到高潮。
為回應這一問題,圖靈提出了“圖靈測試”作為評估機器是否能透過對話展現類人智慧的框架,從而將AI研究的焦點從純粹計算轉向更廣義的智慧概念。幾十年來,AI逐步從依賴預設邏輯的符號系統,演化為能夠從資料中學習並適應新情境的機器學習模型。隨著大型語言模型(LLMs)的興起,這一演進邁入全新階段,LLMs展現了在人類語言理解、推理與生成方面的驚人能力。
這一系列進展的核心在於“智慧體”(agent)的概念——一個不僅能處理資訊,還能感知環境、做出決策並自主行動的系統。起初,智慧體僅是理論概念,而如今,它已成為現代AI的基石,推動了從對話助手到具身機器人等多個領域的發展,使AI系統能夠更好地應對動態的現實世界環境。
1.1 智慧體的興起與發展
“智慧體”這一概念是現代人工智慧的重要支柱,代表一種能夠感知環境、做出決策並採取行動以實現特定目標的系統。儘管這一理念在20世紀中葉才在AI領域被正式定義,但其思想源頭早已體現在關於自主性與智慧互動的早期探索中。
[3] 提出的一項廣為引用的定義指出:智慧體是“任何可透過感測器感知環境並透過執行器作用於環境的實體”。這一定義強調了智慧體的雙重特性——既是觀察者也是行動者,能夠動態適應環境,而非僅依賴靜態規則。這一視角也體現了AI的發展方向從單純“計算”系統向“互動”系統的轉變。
智慧體的發展史幾乎伴隨著AI本身的演進。早期的符號系統(如Newell與Simon提出的一般問題求解器 General Problem Solver [4])試圖透過邏輯推理步驟模擬人類的問題解決過程,但這些系統受限於結構化環境與預定義規則的約束。為克服這些限制,智慧體範式應運而生,其核心在於自主性、適應性與對現實世界的互動能力。
Rodney Brooks 在1980年代提出的“子層架構”(subsumption architecture)是這一正規化轉變的重要例項,該架構支援基於行為驅動的即時響應機器人,與早期依賴詳盡模型的系統不同,這類智慧體不再需要窮盡的環境建模,展現出更強的靈活性與可擴充套件性。
如今,智慧體作為一種通用框架已廣泛應用於AI各個子領域。在機器人學中,它們支援自主導航與操作;在軟體系統中,它們構成多智慧體系統的基礎,用於模擬與協調任務 [6]。透過將感知、推理與行動整合為統一結構,智慧體範式持續地連線理論AI與實際應用之間的橋樑,推動了我們對智慧系統在動態複雜環境中執行方式的理解與實踐發展。

大型語言模型(LLMs)的出現重新定義了智慧體的能力,徹底改變了它們在人工智慧中的角色,併為其應用開闢了新的前景。曾經僅限於執行狹義任務或遵循僵化規則框架的智慧體,如今藉助諸如 OpenAI 的 ChatGPT [7]、DeepSeek AI 的 DeepSeek [8]、Anthropic 的 Claude [9]、阿里巴巴的 Qwen [10] 以及 Meta 的 LLaMA [11] 等模型的強大泛化能力、推理能力與適應性,已演變為能動態響應的智慧系統。
這些基於 LLM 的智慧體不再是靜態的資訊處理器,而是能夠理解自然語言、跨複雜領域推理、並以高度流暢的方式適應新情境的動態實體。它們已經轉變為主動型協作者,能夠處理多步驟任務,甚至以類似人類問題解決方式與環境進行互動。
LLM 時代的一個關鍵進展,是語言理解與可執行能力的無縫整合。現代LLMs配備函式呼叫 API,使得智慧體能夠識別何時需要呼叫外部工具或系統,推理其用途,並執行精確動作以達成具體目標。例如,一個由 ChatGPT 驅動的智慧體可以自主查詢資料庫、提取相關資訊,並在理解任務上下文的前提下輸出可行建議。抽象推理與具體執行的有機結合,使智慧體得以在認知理解與現實行動之間架起橋樑。
此外,LLMs 在少樣本學習(few-shot)與零樣本學習(zero-shot)方面的泛化能力極大提升了智慧體的適應性,使其無需大量特定任務訓練即可處理多樣化任務——從資料分析與內容創作,到即時協作式問題解決。正因其強適應性與語言流暢性,這些基於LLM的智慧體愈發成為人機互動中的智慧中介,精準融合人類意圖與機器執行,在日益複雜的工作流中展現出巨大潛力。
1.2 人腦與人工智慧體的類比
大型語言模型迅速融入智慧體架構,推動人工智慧飛速發展,也凸顯出AI系統與人類認知之間的根本差異。如表 1.1 所示,在“硬體”基礎、意識狀態、學習方式、創造力與能效等維度上,基於LLM的智慧體與人類認知存在顯著不同。然而,這種比較僅提供了一個高層次的概覽,遠非對人類智慧的全面刻畫,同時也未能窮盡AI智慧體所具備的全部特性。
人類智慧運行於生物硬體——大腦之上,其能效極高,能夠以極低的代謝成本實現終身學習、推理與適應性決策。而當前AI系統則依賴高計算資源,在執行類似認知任務時能源消耗顯著更高。這一效能差異突顯了“能效”作為未來AI研究的重要突破口。
在意識與情感體驗方面,LLM智慧體缺乏真正的主觀狀態與自我意識,這是人類認知不可或缺的一部分。雖然複製人類意識在AI中可能既非必要也非理想目標,但理解情感與主觀體驗在推理、動機、倫理判斷與社會互動中的核心作用,有助於引導AI研究朝著更具對齊性、可信性與社會價值的方向發展。
人類的學習過程是持續性的、互動性的,並強烈受社會、文化與經驗因素影響。而LLM智慧體的訓練方式主要為離線的大規模批次訓練,其持續適應能力有限。儘管諸如指令微調(instruction tuning)與人類反饋強化學習(RLHF)[12] 等方法有所改善,當前的LLM智慧體仍未達到人類那樣的靈活性。終身學習、個性化適應與互動式微調等方向被認為是實現更高類人適應性的關鍵研究路徑。
人類的創造力源於個體經驗、情感洞察與跨領域聯想的複雜交織;而LLM的“創造”更多表現為對已有資料的統計重組——即所謂的“統計式創造力”,在深度、原創性與情感共鳴方面仍有差距。這一差異提示我們,可透過引入更豐富的上下文理解、模擬情感狀態與經驗基礎,來推動更深層次的AI創造力發展。
從時間尺度來看,人類大腦經過數百萬年的自然選擇與環境適應才形成了今日的高效、靈活與創造力,而AI智慧體的技術發展不過80年,自最初的計算機模型起步至今。這種人類認知與AI系統的並行比較極具價值,不僅揭示了它們之間的類比與根本差異,也為未來AI智慧體技術的發展提供了有益的指導。
最終,從人類智慧中汲取靈感,將有望進一步提升AI能力,造福醫療、教育、可持續發展等多個關鍵領域,為人類社會帶來廣泛的積極影響。




技術交流群邀請函
△長按新增小助手
掃描二維碼新增小助手微信
請備註:姓名-學校/公司-研究方向
(如:小張-哈工大-對話系統)
即可申請加入自然語言處理/Pytorch等技術交流群
關於我們
MLNLP 社群是由國內外機器學習與自然語言處理學者聯合構建的民間學術社群,目前已經發展為國內外知名的機器學習與自然語言處理社群,旨在促進機器學習,自然語言處理學術界、產業界和廣大愛好者之間的進步。
社群可以為相關從業者的深造、就業及研究等方面提供開放交流平臺。歡迎大家關注和加入我們。

掃描二維碼新增小助手微信
關於我們
