
近日,來自北大、通研院、北師大、北信科等單位的研究者針對社會科學問題——Diplomacy 外交遊戲提出了一個新的 AI 智慧體模型 Richelieu,且戰勝了所有已有方法。Richelileu 模型能夠不依賴於人類玩家資料,而自動不斷自我進化。

圖|專案主要研究人員(從左到右):孔祥宇、管振宇、鍾方威(來源:課題組)
首先,該團隊基於大語言模型設計了社會推理與子目標規劃模組。社會推理可以讓智慧體更好刻畫其他智慧體所思所想及外交關係,為後續的決策和協商提供基礎。將長期目標分解為多步小目標,就像是將複雜的拼圖拆分成小塊,一塊一塊地拼湊出完整的畫面,使得智慧體可以根據複雜環境變化動態調整策略。
其次,該團隊引入了記憶增強模組,可持續儲存歷史互動記錄,並對其進行歸納總結,減少冗餘,類似於 RAG(檢索、增強、生成),為大語言模型決策提供有效的上下文參考資訊。這就像是給模型配備了一個智慧的“記事本”,幫助它更好地記住和利用關鍵資訊,是能力提升的關鍵引擎。
最後,該團隊引入多智慧體博弈機制,透過多個具有這種推理決策架構智慧體間互動玩遊戲,可自主產生豐富的遊戲經驗,這些經驗可儲存到記憶增強模組,將進一步促進模型能力的提升,湧現了多種複雜的互動行為。

圖|以近現代歐洲為背景的外交遊戲示例(來源:課題組)
這種基於多智慧體博弈的自我提升機制對構建通用的社會智慧體有著一定啟發作用,特別是在智慧體間關係複雜的互動場景下。一個直接的應用是可以對一些類似外交的場景進行推演模擬,輔助人類專家進行決策。還有一個有趣的應用前景是將該模型用於貿易談判領域,特別是大型公司的採購部門,使用智慧體可以自主與供應商進行談判並決定採購哪些商品,以降低成本並實現公司的長期戰略目標,同時避免可能的欺詐行為。即使只是作為一個輔助的 AI 助手,也能極大減輕相關工作人員的繁重工作,幫助公司作出更好的決策。

圖|外交智慧體的發展歷程(來源:課題組)
據瞭解,AI 智慧體(Agent)已經在 AlphaGo、StarCraft、DOTA 等遊戲上戰勝人類,但對於解決更復雜的多智慧體互動與博弈問題仍不能完全勝任。
雖然近年來大模型使得 AI 模型能力進一步提高,然而一旦涉及複雜(如同時需智慧體進行對話和決策)、長期目標的策略規劃問題,大模型智慧體囿於推理能力所限尚不能很好解決。
其中一個典型的任務即為外交(Diplomacy),每個玩家控制一個現代歐洲強國,透過與他國結盟達成攻城略地的目標。
基於此,本次研究團隊探索了基於大語言模型的端對端智慧體模型如何解決類似這種的複雜多智慧體任務。
相關論文以《Richelieu:基於 LLM 的自我進化 AI 外交智慧體》(Richelieu: Self-Evolving LLM-Based Agents for AI Diplomacy) 為題發表在人工智慧領域頂會 NeurIPS 2024。
圖|相關論文(來源:NeurIPS 2024)
在 Diplomacy 任務中,玩家需要與對手談判達成合作實現其戰略目標(如共同奪取他國土地),但談判中允許任一玩家欺騙對手,這就要求智慧體模型能夠甄別對方意圖,避免被欺騙陷入“背刺”的不利境地,這無疑增加了任務的複雜度。
雖然已有模型如 Cicero 為解決外交任務提供了一種可行的方法,但需要收集大量專業人類玩家資料進行模仿學習才能達到接近人類玩家的水平。
因此,本次研究希望能夠在不依賴於人類專家資料的情況下,讓智慧體在互動中自我提升,自主完成該任務。
該團隊透過實驗發現,直接使用現有大模型(如 GPT-4 系列)無法達到面向長期目標的推理決策能力,難以直接用於解決上述任務,但透過引入基於多智慧體自我對弈機制和合理的推理、記憶和反思機制可以使之成為可能。

圖|Richelieu 模型框架(來源:課題組)
具體而言,研究團隊基於大模型構建了一套能夠根據歷史經驗自我提升的智慧體架構,包括了社會推理、記憶、對話協商和任務規劃等模組。任務規劃模組透過給出決策目標,使之能夠對長短期目標進行分解和規劃。
在這種智慧體架構的基礎之上,只需要透過自我對抗就能以低成本方式大量生成互動資料,藉此讓智慧體對這些記憶中的經歷進行反思總結,從而使得智慧體不依賴於難以獲得的人類專家資料的情況下實現自我提升,最終在表現上超過了 Cicero。
研究中,研究團隊將記憶與智慧體反思機制結合,以從資料中提煉出有用資訊,實現智慧體不斷進化迭代,以期最終達到能夠對抗現有最好模型的水平。
因為實驗主要以歐洲國家之間的外交進行,因此研究團隊用現代外交之父、著名的法國宰相、紅衣主教黎塞留(Richelieu)來命名所提出的模型。
實驗結果表明,透過上述結構化設計,能夠幫助現有不同的大語言模型智慧體提升在外交(Diplomacy)上的複雜決策能力,並湧現了“合縱連橫”的策略,獲得高勝率。
據瞭解,研究團隊在為模型取名的過程中曾經提出了很多方案,由於已有的方法已經用了古羅馬外交家西塞羅的名字,因此他們認為,具備更強大能力的模型也需要一個更成熟、在世界外交史上地位更重要的名字。
於是,研究團隊想到了中國戰國時期的縱橫家蘇秦和張儀以及德國的鐵血首相俾斯麥等,但準確地體現模型的外交才能和長期規劃能力,以及考慮其到全世界的知名度,對於現代外交體系的貢獻等。最終,他們選擇了法國的紅衣主教黎塞留(Richelieu)。

圖|Richelieu 協商推理機制示意圖(來源:課題組)
只要讀過大仲馬的名篇《三個火槍手》或者稍微熟悉歐洲近代史和世界外交史的朋友一定不會對這個名字陌生,正是黎塞留提出的很多外交原則成為了現代國際法的基石,他的靈活外交手段則領導原本並不是最強的法國(特別是與法國強大的對手哈布斯堡王朝相比)奠定了近代在歐洲大陸的主導地位,並催生了現代國際外交條約體系的開端《威斯特伐利亞條約》的最終簽訂。

圖|Richelieu 模型可以有效進行長期的規劃,以及甄別談判中可能存在的欺騙行為的例子(來源:課題組)
而在未來,研究團隊將嘗試將 Richelieu 拓展到更多的多智慧體談判決策任務上,以及在社會科學中尋找更多的挑戰性場景檢驗模型的效能,同時不斷最佳化模型的推理架構,特別是從自己的對手身上學習的能力。
其希望構建通用的社會智慧體,透過智慧體間的模擬模擬,為社會科學的研究提供切實有用的啟發或參考價值,甚至改變現有的社會科學研究正規化。
鍾方威補充稱,社會人工智慧(Artificial Social Intelligence)是一個很有前景但目前尚未充分得到關注的領域,也存在很多挑戰。但智慧體學習與人類社會演化不是孤立的,人類也是在社會中不斷進化成長到今天的智慧水平,這是一個有意義的研究領域,希望得到更多的關注和參與。
目前該研究已被四篇領域綜述 [4-7] 收錄。其中,美國斯坦福大學、英偉達、美國卡內基梅隆大學、英國牛津大學等 30 個單位聯合撰寫的關於大模型與政治科學的綜述文章中多次提及本工作,並對本文工作給予了積極點評。
參考資料:
1.Paquette, Philip, et al. "No-press diplomacy: Modeling multi-agent gameplay." NeurIPS (2019).
2.Kramár, János, et al. "Negotiation and honesty in artificial intelligence methods for the board game of Diplomacy." Nature Communications 13.1 (2022): 7214.
3.Meta Fundamental AI Research Diplomacy Team (FAIR)†, et al. "Human-level play in the game of Diplomacy by combining language models with strategic reasoning." Science 378.6624 (2022)
4.Li, Lincan, et al. "Political-llm: Large language models in political science." arXiv preprint arXiv:2412.06864 (2024).
5.Zhang, Yadong, et al. "Llm as a mastermind: A survey of strategic reasoning with large language models." arXiv preprint arXiv:2404.01230 (2024).
6.Xu, Fengli, et al. "Towards Large Reasoning Models: A Survey of Reinforced Reasoning with Large Language Models." arXiv preprint arXiv:2501.09686 (2025).
7.Yan, Bingyu, et al. "Beyond Self-Talk: A Communication-Centric Survey of LLM-Based Multi-Agent Systems." arXiv preprint arXiv:2502.14321 (2025).
運營/排版:何晨龍



