金融場景中的多智慧體應用探索

嘉賓 | 陳鴻 螞蟻集團專家
編輯 | 李忠良  
在金融科技的浪潮中,多智慧體技術正成為推動行業創新的關鍵。面對海量資訊和複雜決策,如何利用這一技術最佳化金融決策呢?在 AICon 全球人工智慧開發與應用大會(北京站)上,InfoQ 榮幸地邀請到了螞蟻集團資深演算法專家陳鴻先生。在他的精彩演講中,陳鴻深入介紹了螞蟻集團在大模型技術領域的最新進展,並針對金融行業所面臨的資訊爆炸、知識複雜性以及決策難度等挑戰,提出了創新的解決方案。  
他特別強調了基於 AgentUniverse 框架的 PEER 模式(Plan-Execute-Express-Review),這一模式有望有效提升金融決策的精準度和效率。本文是對陳鴻先生演講內容的精心整理,旨在為讀者帶來前沿的大模型洞察,並啟發思考如何將這些技術應用於金融行業的實際問題解決中。
另外,即將於 8 月 18-19 日舉辦的 AICon 上海站同樣設定了「大模型 + 行業創新應用」專題分享,我們將精選具有代表性和規模的典型案例,展示大模型技術在不同領域中的實際應用與成效。目前是 8 折購票最後優惠期,感興趣的同學可以訪問文末「閱讀原文」連結瞭解詳情。  
在大模型技術日新月異發展的時代,技術觀點也得日拱一卒,苟日新日日新,不存在穩定的金科玉律。與其私藏一時一刻的技術思考,不如分享以求碰撞和啟發。故此我把為這次 AICon 準備的 PPT 材料釋出出來,並補上解讀,從「線上生成」轉成「離線生成」,沒有時間限制,或可以更系統一點。
從大模型到多智慧體
智慧體、多智慧體都是當下的技術熱點,但作為一個技術人應該理解,所有的技術都有自己所針對的問題、及其能力邊界,並不存在普適的、放諸業務場景皆 work 的技術方案。我們在這裡嘗試區分,從大模型到智慧體再到多智慧體這幾個 AI 熱點概念背後的關鍵差異和適用範圍。
先從語言模型說起,一個經過足夠語料充分預訓練的基模型(base model),就是一個壓縮了海量知識的知識容器,但這些知識關在數百億到千億的引數黑盒中難以使用。OpenAI 在 2020 推出 GPT3 的時候,因為它生成內容的不可靠和不可控,引發了當時媒體對 AI 的嘲笑和質疑,而不是現在的追捧。
2022 年底 ChatGPT 破圈逆轉了大眾對大語言模型的看法,基模型在完成對齊(SFT + RLHF/ DPO)之後,就成為一個助手模型(Chat model),它可以被看作一個以自然語言為輸入輸出介面的 AI machine,它不僅掌握語言且對齊了人的偏好,於是可以流利的和人交流;並因為能輸出語言,而可以透過語言操控其他工具;我們還發現這些對齊過的模型具備一定的簡單推理能力,雖然問題複雜的時候,就容易失敗。整體上,這一批 Chat Model 已經開始讓人產生了它具備一定程度智慧的錯覺,當然實際上,大模型只是一個無狀態的 query-answer machine,某種意義上等價為一個哲學家約翰塞爾(John Searle)提出的中文屋子(chinese room)(不知道的話建議搜尋並讀一下這個有趣的思想實驗),LLM 是無狀態的,比如你在和大模型聊過五分鐘後和它再聊,與隔上五天再和它聊,它對待你不會有任何差別。在本質上,LLM 和其他神經網路模型一樣是個無狀態的函式,目前 LLM 的一切狀態性處理,都依賴外部的 Prompt 機制。LLM 能和人進行多輪對談,需要外部系統對整個對話 session 的狀態保持(並回傳到 prompt 裡)。
從大模型到智慧體,關鍵的區別就是從無狀態的模型變成了有狀態的狀態機。智慧體要接入(Grounding)環境,完成任務,就必然涉及工作流(workflow),就需要有保持任務狀態的能力,無狀態的模型無法持續跟進一個任務的工作程序。我們在下一頁 PPT 會展開討論這一點,我們會看到智慧體的感知、行動、記憶、規劃,也都需要基於一系列離散的被定義的狀態來進行,或者說,一個智慧體能在其中規劃並活動的外部環境需要被加工為離散化概念,發散來說,人類也是這樣,光譜是連續的,但人類能喊出名字的只有赤橙黃綠青藍紫,聲音的頻譜是連續的,但人類的知覺把音訊加工為一系列離散的母音 / 子音 / 字 / 詞,是這些離散的 token 而不是連續的音高構成了語言的基礎。可以發現,人類智慧從感覺到知覺也是一個從連續到離散的狀態化加工過程。要讓大模型接入真實世界解決真實任務的時候,我們就需要把大模型進一步封裝為某種智慧體。
我們說成為狀態機是 Agent 規劃和完成任務的關鍵,但專業任務往往是多環節多分支的,在每個環節和分支上,專業化分工會有更高效的 ROI。這就產生了從智慧體發展到多智慧體的必要性,而在不同環節的職能崗位上,不同的智慧體如何透過合理的協同模式組織在一起,這是屬於多智慧體的核心技術問題,多智慧體作為一個團隊,需要比直接大模型端到端或單一智慧體從頭單打獨鬥更魯棒,而不能因為組織的複雜性讓整體變得更脆弱。後面我們也會有專門一頁 PPT 討論多智慧體的協同模式。
最後我們看 PPT 的下面部分,我們把金融場景裡的任務粗分為兩類,一類是可以由大模型端到端直接生成結果的,端到端可以類比為人類的系統 1 或快思考模式,包括「問答、摘要、給出建議」這些任務。這容易理解,我們說話的時候,不需要也沒有辦法去一個一個字往外說,我們真正思考的單位是一個個念頭或者想法,是這些想法構成推理和思考的基礎單元(building-block),這也就是所謂的系統 2 或慢思考,也是當前大模型難以很好處理的推理問題,但我們可以基於 Agent 的 workflow 與自省來應對。在金融場景裡,許多專業任務需要一定程度的分析、歸因、決策,這些都更適合透過智慧體或多智慧體來實現。後面我們也會有一頁進一步展開對金融任務的分析。
這頁我們討論基於大模型的智慧體。
智慧體(Agent)不是一個新概念,它的歷史比大模型更久,1995 年出版的經典著作 《Artificial Intelligence:A modern approach》 第一版就以 Agent 為中心展開(附帶一提,這本書最新是 2020 年的第 4 版,依然不改初衷以 Agent 為總領全書的總綱,現在如果出第 5 版,肯定就會討論 Large Language Agent 了)。感知器 Sensor、行動器 Effector,規劃器 Planner,Memory, 這些 Agent 的核心元件或能力在 95-2000 年那時就成體系的提出來了。
如前所述,對以端到端完成任務為目標的智慧體而言,沒有狀態,不成方圓。我們能發現感知、規劃、行動、記憶這些智慧體的核心能力事實上都依賴對特定狀態的定義和識別。例如,感知能力,依賴對智慧體所在環境狀態的定義和識別;規劃能力,依賴對任務不同狀態的定義和識別;行動能力,依賴行動選項狀態的定義和識別;記憶能力,則依賴對行為結果狀態的定義和識別。智慧體正是透過對這些狀態的識別,和外部環境有效對接,管理和完成任務。這是一套強調落地的合理設計,但涉及狀態的識別或狀態間的遷移,只能依賴規則或上一代機器學習演算法,由於泛化能力不足,智慧體在實際任務中就不免會製造各種 bug。例如掃地機器人是個典型的具身 + 自治 Agent,但大家只要家裡有過掃地機器人的,應該能想起各種掃地機器人因為 corner case(literally!)鬧的笑話。
在大模型橫空出世之後,加上 AutoGPT,LangChain 等框架的出現,充分發揮了大模型控制工具的能力,讓許多人看見了用大模型作為智慧體核心引擎的優勢,更重要的是,LLM 取代機械的規則,能更魯棒更泛化的識別任務(以及環境)狀態,在理想情況下,當前 LLM-based Agent 能基於自然語言的任務描述持續展開任務,泛化地確認任務完成進度,並視情況動態規劃再採取行動,這是一個美好設計,但當然未經調整的通用大模型還是很難無痛順利完成任務,因為一個專業任務不可避免地涉及大量過程性知識,如何感知、如何執行、如何規劃背後都依賴各種專業 KnowHow,所謂 Know-How,就是一件事如何完成,是所謂過程性知識。這些專業的 Knowhow,或過程性知識往往是不成文的,大家交接工作的時候,最麻煩的就是這些沒有寫在文件裡的經驗。要讓智慧體順利完成任務,就需要形式化那些不成文的專家 Know-how,提供將之引入智慧體的合理機制。
從單 Agent 到多 Agent 協同,這是源自 ROI 的壓力,專業任務往往是多環節多分支的,在每個環節和分支上,經濟規律決定了專業分工會有更高效的 ROI。這就產生了從智慧體發展到多智慧體的必要,而在不同環節的職能崗位上,不同的智慧體如何透過合理的協同模式組織在一起,這是屬於多智慧體的核心技術問題。
人類自己就是依靠分工協同而成為了地球的頂級掠食者,人沒有依靠牙齒爪子、力量速度等等單一個體的能力,人是靠組成一個社會之後形成的集體能力,這超越了任何超級個體的能力。集體力量大這件事在 AI 上也不會例外,當然,成功的社會化並不容易,歷史不止一次的證明,引入有效社會化機制(組織形態)的力量和價值(以及錯誤的組織形態的破壞性)。不同的組織形態(協同模式)適配著不同的任務。
回到多智慧體上,不同型別的專業任務也一樣需要我們為之設計不同的協同模式。第一類:任務可以逐層分解的適合上下級協同的模式(這個模式非常常見,後面我們開源的 Agent 框架核心貢獻就是提供了這個模式的一個核心抽象:PEER,Plan-Execute-Express-Review,此處不再贅述),第二類:那些存在解法但難以拆解為固定步驟的更適合師生傳授式協同(例如數學證明需要的是思路點撥或樣題舉例, 從費馬大定理到行程問題都不適合分工規劃再解決)。第三類:那些開放性的複雜問題無從規劃,則更適合交給某種競爭 – 評價的機制讓不同智慧體併發搜尋可能解法。
金融場景中的多智慧體
回到金融場景,我們把金融場景的特殊性總結成三點:資訊密集、知識密集、決策密集
關於資訊密集,我們都知道一方面金融業務強依賴高頻更新的資訊(更新密集),導致嚴謹的時效性處理必不可少,另一方面,這些資訊中大量屬於相關但無因果關係的噪聲資訊(噪聲密集),需要有效遮蔽噪聲才能做出正確決策。
知識密集:我們能看見金融市場中,圍繞各種資產,有各種不同的理論和分析,但金融中的知識,不僅高密度,還是彼此高度對立的。我們會發現許多互相沖突的觀點,某種意義上,這些衝突構成了市場交易的基礎,買賣雙方必然對資產價格有截然不同的預期,所以才有一買一賣,雙方意見一致則不會形成交易,某種意義上,這就是為什麼需要金融市場。市場是一種透過交易形成共識的機制。於是,金融領域中的觀點必然衝突(知識衝突),這對大模型構成有趣的挑戰,面對金融領域的多篇觀點時,LLM 不能強行捏合成一個統一觀點,既需要明確共識,也需要暴露分歧。
在金融領域,比知識衝突更需要 LLM 關注的是知識的邊界,不存在無遠弗屆永遠生效的知識,大的說,牛頓三定律在接近光速時失效,小的說,許多金融邏輯都有對宏觀經濟形勢的潛在要求(知識邊界),大模型在理解和處理這些邏輯的時候,需要理解這些知識的邊界,否則就會鬧出笑話。最後是決策密集,金融領域的決策(decision-making)有相對於其他決策任務的非常強的特徵。一個是不確定性,金融決策面對的是開放環境,其他市場主體的參與和博弈帶來了無窮變數,金融決策從頭到尾都需要和不確定性資訊共舞。另一方面,金融決策是高度不對稱的,我們熟知搜尋推薦解決的是海量資訊中只有個別有效的資訊不對稱問題,但在金融決策中有類似的不對稱現象,往往在大量決策中只有個別決策處於關鍵位置,帶來關鍵收益(或避免風險)。如何定位這些關鍵決策點是金融所要處理的決策不對稱性問題
資訊、知識、決策的問題對大模型而言都有標準解法,例如用 RAG 提供資訊更新,引入圖譜來規範知識,再包括強化推理能力的 CoT 方案。但面對金融特性,這些標準方案的效果不及預期。RAG 容易,但 RAG 多篇混入的噪聲資訊不容易處理。圖譜有效,但圖譜難以處理衝突和有邊界的知識(有邊界的知識不是 Knowledge Graph 中簡單的二元關係,需要 N 元關係來刻畫),CoT 也難以處理決策的不確定性和不對稱性。
所以我們需要考慮金融場景的定製方案。此處我們把資訊、知識和決策三類任務總結成兩個對齊方向:一個是嚴謹性、一個是專業性。後面會有兩個獨立頁來各自展開,所以這裡我們簡單過一下,能看見我們其實是期望透過大模型和多智慧體兩層各司其職,大模型負責壓入必要的知識和能力,多智慧體裝載相關過程性 Knowhow 來保障金融的嚴謹和專業。
大模型具有幻覺的內在缺陷已經是一個老生常談,不過有內在缺陷並不意味著 基於大模型的智慧體應用不可能按嚴謹的標準完成任務。畢竟人也一樣有類似的問題,人類也早已熟知透過系統的方式保障嚴謹標準的達成。
幻覺是兩種生成式智慧(人和 AI)共同具有的特徵,它恰恰來源於對空缺的預測和生成,有一系列認知神經科學的實驗說明,當一些人類患者的和視覺相關的腦組織被切除或破壞,他們本應消失的視野(盲區)裡會被大腦自動填補出生動的幻覺形象(愛麗絲綜合症),更日常的例子相信每個普通人也都體驗過,當我們被人問及一些位於我們知識邊界之外的問題,大腦會快速腦補出一些如假包換的「幻覺」來填充知識的空洞。我們在這裡列了知識引用、知識邊界、知識衝突來說明容易引發大模型幻覺出現的場景,當然也不限於此。
具有內在缺陷,不代表系統不能安全工作。人自己就是例子。人類本身就會有注意力的問題、預判力的問題,但我們在大多數情況下還是信任我們的司機能把我們安全的送到目的地。我們培訓司機的駕照考試,某種意義就是一個對齊過程:讓普通人向老司機一步步對齊。科目一 / 科目二 / 科目三分別就是知識注入的預訓練 / 持續訓練、SFT 階段,以及最後的強化學習階段(邊上坐一個老司機評價你是否 OK)。但汽車如果危險僅僅有一個安全駕駛的司機也不行,汽車也需要遵循安全規範預防各種情況並做好各種最壞情況下的安全措施,最終如果我們有一個安全的司機和一輛安全的汽車,我們期待交通系統整體也是安全的,例如必要的訊號燈、車道、交通警察等等。
把這個 metaphor 映射回 LLM 應用,LLM 需要面向嚴謹性對齊(基於各種細分任務且接受老司機檢驗,就像駕照培訓需要分解到轉彎倒車入庫等等具體任務),LLM 外的智慧體則需要準備好更多面向嚴謹的輔助性措施(類似於汽車之於司機),最終才是 AI 應用所在的整體系統可以做的一些規範性工作。個人意見是嚴謹性任務還是應該聚焦在模型和智慧體這兩層,系統級別的圍欄有效且必要,但如果模型和智慧體毫無改善,不免出現大量尷尬的拒答。
專業是相對於通識而言。我們在討論專業性的時候,需要意識到,專業本身就是分工的產物,無分工,不專業。一個個專業職能和擅長這些職能的專家的產生,本身是人類社會面向經濟效率的最佳化結果。只有協同分工才是針對多工難問題的高 ROI 方案,那麼自然的問題,AGI 不需要面向任務最佳化,用一個超強的 AGI (或當前可得的最強大模型)去處理所有問題是否才是 LLM 時代的合理解法呢?濫用最強模型當然不合理,各家大模型廠商也提供不同尺寸的模型供應用方選擇,應用方更有責任面向專業任務,將基座向特定專家對齊(向普通人偏好對齊的通用基座容易 underqualified 或 overqualified )。在面對複雜困難任務的時候,透過多智慧體團隊協作,ROI 更容易勝過 超級基座單打獨鬥。
其次,在專業領域,知識容易速成(彌補),但專業能力則提升困難。這個點,LLM 和人也高度一致。當新知識新技術出現,我們可以透過網路或翻查 Manuel 快速彌補自己的一些知識漏洞,但如果能力有缺,不經過親手實踐和踩坑獲取一手經驗教訓,難以有所進步。對大模型也是如此,知識缺乏,可以 RAG,可以 KG,但如果模型的一些專業能力不足,計算 / 推理 / 行情歸因,都不是簡單能解決的問題。
於是最終的結論也很明顯。專業性建設的核心就是對一個系統中不同專業職能的差異化能力的定義和實現。起步階段我們可以從優秀基座透過人設套取資料,但面向專家的對齊工作逃不掉,最終需要差異化精調的不同能力,這些能力建議聚合在一個基座中,但還是由不同 Agent 差異化使用。
多智慧體框架 AgentUniverse
關於我們已經開源的多 Agent 框架 AgentUniverse,各位可以透過《從孤立到協作,大模型多智慧體協同使複雜任務迎刃而解(點選即可檢視)一文做深入瞭解,Github 上也有相關的專案介紹和程式碼:AgentUniverse 專案地址:
  • https://github.com/alipay/agentUnivers
  • https://gitee.com/AgentUniverse/AgentUniverse
歡迎開發者們加入社群體驗、共建。
投研支小助其底層是基於 agentUniverse 的 PEER 框架,基於這個 PEER 框架我們又融入大量投研專家經驗,構建了一個投研 Copilot。PEER 模式是 agentUniverse 當前版本最具特色的多智慧體協作模式元件,該模式包含計劃 (Planning)、執行 (Executing)、表達 (Expressing)、評價 (Reviewing) 四個不同職責的智慧體。
計劃者拆解任務(例如把 query 分解為一系列子 query),執行者完成任務(例如檢索),表達者彙總表達,評價者最終把關,OK 則輸出,不 OK 則重複 workflow,PEER 這個計劃 – 執行 – 表達 – 評價的迴圈構成了層級式分工協同的抽象,值得指出,雖然 PEER 雖然看起來像 Rag Fusion(而且它確實勝任 Rag Fusion 工作),但它不止於此,它本質上是分工這件事的一個合理抽象。抽象有其價值,抽象讓分工這個最佳化方式可以遞迴使用,不斷深入。例如 PEER 可以在計劃環節也引入一層 PEER 透過分工去得到足夠好的拆解,或者在評價環節再引入 PEER 的分工來做細粒度的精細評價。抽象讓 PEER 的分工可以這樣不斷遞迴深入直到 Know-how 的盡頭。
在圖裡右側的專家框架是當前我們對投研領域專家經驗的形式化落地,我們針對 9 類典型的定性分析場景,給出了 30 個不同的細分專家框架。體現了之前所說的專家 Know-how 的引入,在一系列消融實驗中我們確認了這些專家框架的價值,不同機構可以透過定製這些專家框架讓投研支小助呈現出完全不同的解讀思路,這比用 SFT 強行 tuning 基座模型合理且便捷。
投研支小助目前在螞蟻內部在報告解讀、市場分析、政策解讀、宏觀分析等多個場景中是助力金融專家提升生產力的典型應用,實測資料表明,其每日可輔助一名投研分析師高質量地完成超過 100+ 篇研報、財報和金融資訊的專業解讀,完成 50+ 金融事件的推理歸因分析。
實際案例
這是財報解讀的例子,Query 是:“結合英偉達 2024 財年 Q4 財報分析人工智慧行業後續走向”,可以看見在策劃環節,智慧體展開了一系列分析師關注的典型維度,規劃智慧體遵循了分析師的解讀框架,透過一個巢狀的 PEER 過程產出了這一系列新的問題。
每天的行情資訊是高度套路化的,解讀行情也有自己的套路,難點在於能否在套路化的解讀中展現足夠的洞察,保持觀點資料的嚴謹則是基礎要求。
政策,尤其是財政政策和貨幣政策,對經濟有著深遠的影響,也對使用者的投資策略牽一髮而動全身。使用者可以向支小助提問相關政策對市場帶來的影響,支小助得益於專家分析框架,能像個老手一樣對比政策前後的變化去分析政策影響。
宏觀分析是指對整個經濟體的廣泛性分析,包括但不限於經濟增長、通貨膨脹、就業狀況、財政政策、貨幣政策、國際貿易和匯率變動等。支小助透過 PEER 正規化,對宏觀經濟等相關複雜問題也能生成完整報告,勝任基礎的宏觀工作。
最後,做一個簡單的預告,我們團隊的同學很快會針對 AgentUniverse 框架核心的 PEER(Plan- Execute- Express – Review) 框架產出論文,敬請期待。
 嘉賓簡介
陳鴻(花名:五噫),螞蟻集團資深演算法專家。螞蟻集團財富保險事業群智慧服務演算法總監,北京大學計算機系,豆瓣第 21 號員工,19 年加入螞蟻,在螞蟻數字金融線周遊列國,歷經財富、網商、花唄、借唄、芝麻、平臺和服務,曾主持智人自動資料核對、金融行為序列、網格化運營、使用者進階路徑決策、流量運籌、支小寶 2.0、金融大模型等技術專案。
活動推薦
AICon 全球人工智慧開發與應用大會將於 8 月 18 日至 19 日在上海舉辦,匯聚頂尖企業專家,深入端側AI、大模型訓練、安全實踐、RAG應用、多模態創新等前沿話題。現在大會已開始正式報名,6 月 30 日前可以享受 8 折優惠,單張門票節省 960 元(原價 4800 元),詳情可聯絡票務經理 13269078023 諮詢。
內容推薦
大模型正在推動歷史性技術革命,知識觸手可及。2024年6月14日至15日,ArchSummit全球架構師峰會在深圳成功舉辦,我們精選了峰會中聚焦AI大模型技術應用的相關PPT,內容涵蓋了華為雲AI原生應用引擎的架構與實踐、微眾銀行大模型研發實踐以及B站容量管理實踐等。關注「AI前線」,回覆關鍵詞「大模型落地」免費獲取PPT資料。
你也「在看」嗎?👇

相關文章