社交直男逆襲!通義AMPO煉成“多面腦回路”智慧體,自適應推理秒切4種人格

AI 智慧體終於學會"靈活變通,察言觀色"了!從直覺派到謀略家,讓 GPT-4o 甘拜下風的社交高手是如何煉成的?
最近,通義實驗室的最新研究工作讓 AI 智慧體掌握了人類高深的社交藝術:四種思考模式的動態切換!就像人類能在不同場合靈活應變一樣,這個 AI 能精準把握對話氛圍,隨時調整思考深度:
✨閒聊時,它能一秒變身"直覺派",輕鬆應對
💡分析對方意圖時,秒切"觀察者"模式,洞察人心
📊複雜談判中,立馬進入"戰略家"思維,運籌帷幄
🎯關鍵決策時刻,化身"推演大師",步步為營
這標誌著 AI 終於擺脫了"社交直男"的尷尬,朝著真正的"社交達人"邁進了一大步!那麼問題來了:你覺得未來的 AI 會不會比人類更懂社交?
論文標題:
Adaptive Thinking via Mode Policy Optimization for Social Language Agents
論文連結:
https://arxiv.org/abs/2505.02156
程式碼連結:
https://github.com/MozerWang/AMPO
文章研究動機
▲ 圖1. 與現有工作對比:(a)現有不具備思考推理的社交智慧體;(b)作者提出的具有自適應思考能力的社交智慧體。
1. 現有大語言模型 (LLMs) 在處理靜態問題(如數學、程式設計等)時表現出色,但在處理複雜的、動態演變的社會場景(如利益衝突、商業談判等)時仍存在明顯不足。這些社交場景具有不確定性高、需要長期規劃等特點。 
2. 當前研究社交智慧的方法主要有兩種路線:(1)端到端的目標導向訓練;(2)外部規劃器的整合。但這些方法主要關注"快思考"正規化,缺乏足夠的思考過程。研究表明,在實際的社會互動中,人類通常會進行適當的思考過程,而不是僅依賴直覺反應
因此,目前的"快思考"正規化並不足以滿足有意義社會互動的認知需求。雖然在數學、程式設計等靜態推理問題上已經開始使用長鏈思考 (Long-CoT),但是 test-time scaling 還沒有在社交智慧領域得到探索。 
3. 現有的大型推理模型 (LRMs) 在處理社會場景時存在侷限性:它們傾向於無論輸入複雜度如何都進行窮盡式推理,這種方式不僅會導致不必要的 token 使用,過度思考可能反而會降低效能。 
因此,為社會智慧體設計一種能夠根據社會環境動態調整的推理機制,使其能夠更好地應對複雜多變的社會場景是急需解決的研究問題
文章貢獻
作者提出了自適應模式學習框架(AML):這是首個針對社會智慧體的有效自適應長鏈思考(Long-CoT)推理方法,透過預定義的思考模式和定製的強化學習演算法實現,使社會智慧體能夠根據具體情境選擇合適的思考方式。
開發了自適應模式策略最佳化(AMPO)演算法:充分考慮了思考模式層面和樣本層面的資訊,透過動態切換思考模式來應對情境變化,在保證效果的同時也確保了 token 使用的效率,使社會智慧體具備了自適應思考的能力。 
透過大量實驗驗證了方法的有效性:相比 GPT-4o,效能提升了最多 15.6%;與 GRPO 相比,token 使用減少了 32.8%,效能提升了 7.0%,證實了該方法在效果和效率上的顯著優勢。作者也分析模型自適應行為,並人工評估模型的輸出,進一步驗證方法效果。
方法設計
▲ 圖2:自適應模型學習(AML) framework示意圖,由三步組成:(1)基於層級認知控制理論設計的思考模式;(2)模式行為克隆;(3)自適應模式策略最佳化演算法(AMPO),共同考慮模式層面和樣本層面的優勢。
如圖 2 所示,AML 框架由三部分組成:(1)受層級認知控制理論啟發,作者精心設計了四種階梯思考模式;(2)模式行為克隆,確保模型能夠準確遵循作者設計的思考模式;(3)自適應模式策略最佳化演算法(AMPO),透過強化學習增強自適應思考模式切換和推理。
3.1 思考模式設計
層次認知控制理論 (Hierarchical Cognitive Control Theory, HCCT) 提供了一個理解人類認知行為的理論框架。該理論認為,認知控制透過四個不同的層級運作,在不同程度上管理目標和行動。
受 HCCT 啟發,作者針對不同的對話場景提出了四個層次的思考模式,如圖 5 所示,涵蓋了從直覺反應到逐漸深入的思考的各個階段。針對每種思考模式,作者設計了符合語言學原則的具體且合適的動作:
▲ 圖3:四種層級思考模式
模式1 直覺反應 是最基本的模式,其特點是基於習得聯想和基本語言模式的直覺反應。它不包含任何思考行為,只有最終答案。
模式2 意圖分析 是基本的互動模式,側重於理解當前意圖並做出恰當的回應。 僅要求維持基本的互動流程,無需複雜的策略考量。它包含一系列思考行為:意圖、風格和回應。意圖旨在分析對方的意圖。風格確保社交主體說話風格的一致性。回應提供初步答案。
模式3 策略適應 是一種策略性思考模式,要求說話者不僅要理解當前情境,還要綜合考慮歷史資訊、目標和當前形勢評估,從而制定相應的策略。這使得說話者能夠更好地適應特定的社會情境。
與  相比, 增加了三個思考動作:歷史、目標、評估和策略。歷史旨在分析歷史以更好地理解情境。目標明確了智慧體的目標。評估分析了目標一致性、回合關鍵性和各方之間的改進潛力。策略使智慧體能夠針對當前的社會情境提出合適的策略。
模式4 前瞻演繹 是一種高階策略模擬模式,要求說話者構思多種策略,並透過模擬評估其效果,從而做出最佳決策。 在  的基礎上進一步引入了演繹和整合。策略模式鼓勵提出多種策略,然後透過演繹操作模擬這些策略的執行。整合操作則將演繹的結果彙總起來,形成初步答案。 有助於模擬各種情境,以促進更深入的思考,從而有效地應對更復雜的社會環境。
3.2 模式行為克隆
為了增強模型遵循四種思考模式的能力,作者首先採用行為克隆對模型進行微調,作為後續強化學習的基礎。給定構造好的專家資料 ,訓練目標為:
3.3 自適應模式策略最佳化演算法(AMPO)
3.3.1 優勢估計
GRPO 是訓練長思考鏈推理模型的關鍵強化學習演算法,它不需要額外的價值函式,而是使用平均獎勵作為計算優勢的基準:
在該優勢計算公式中,GRPO 將每個樣本獨立處理,忽略了不同樣本在思考模式方面的內在聯絡。這種設計存在一個關鍵的侷限性:由於缺乏模式級資訊的建模和利用,LLM 無法感知和區分不同的模式,例如直接響應與逐步推理
因此,該模型傾向於根據固定的偏好選擇推理行為,而不是根據特定場景動態調整其思考模式。後續的實驗也表明,無論任務複雜度如何,GRPO 通常都會使模型收斂到最複雜的推理。
為此,作者提出了自適應模式策略最佳化 (AMPO) 演算法,該演算法在其優勢估計中同時融合了模式級和樣本級資訊,以促進自適應思考學習,使 LLM 能夠在模式級識別適合當前場景的思考模式,並在樣本級最佳化給定模式中的特定思考內容。AMPO 的目標形式化定義為:
其中, 和  分別表示模式級和樣本級的優勢。, 是超引數,  表示新舊策略模型的機率比率, 表示 KL 散度計算。模式層級和樣本層級的優勢計算如下:
其中, 表示思考模式總數, 表示rollout樣本總數, 表示rollout組中第  個樣本 的獎勵值,。作者將兩個關鍵維度視為模式級資訊:平均獎勵  和平均輸出 token 長度 
其中  表示第  個思考模式  的 rollout 樣本集合, 和  分別表示第  個樣本的獎勵值和 token 長度從舊策略  中取樣得到的一組輸出。
模式級優勢的引入使得 LLM 能夠在不同場景下自適應地選擇合適的思考模式,這種自適應性體現在推理長度和任務效能之間的動態權衡,並在兩個關鍵條件下發揮作用。
當不同模式的效能相當時,LLM透過選擇具有最少 token 長度  的模式來優先考慮效率;當不同模式的效能存在差異時,LLM 透過平均獎勵  來識別最優方法。該機制確保 LLM 在保持效率的同時,根據情境需求動態調整其推理方法。
3.3.2 獎勵函式設計
文章提出的獎勵函式由三部分組成:答案獎勵 、格式獎勵  和答案長度獎勵 。獎勵  的計算方式如下:
答案獎勵:答案獎勵評估的是當前回覆在多大程度上促進了目標的完成。作者利用強 LLM 評估器 ,用於評估每次互動中目標的完成進度。該評估器會在  範圍內分配一個分數,其中 0 表示沒有進展,10 表示完全達成目標。
對於每個答案 ,獎勵是根據答案前後目標完成分數的差值  計算的。為了確保訓練的穩定性,作者設計了一個邊界感知的縮放函式,該函式會根據當前分數與邊界的距離動態調整差值的大小,同時透過線性變換將縮放後的差值對映到  區間:
其中  是邊界感知縮放函式。 是原始差異, 是在回合  做出回應之前的目標完成分數, 是反應  之後的分數。
格式獎勵:為了確保模型遵循思考模式,作者引入了格式獎勵,用於懲罰那些偏離思考模式的行為。具體來說,思考和答案必須在標籤範圍內。每個標籤和動作必須恰好出現一次,並保持正確的順序。透過這些約束,可以確保模型嚴格遵循預先設計的思考模式。
作者採用二元方法實現格式合規性獎勵,僅懲罰那些不符合格式的行為。如果不符合格式,則 ;否則, 將不參與獎勵計算。
答案長度獎勵:為了控制答案的長度,作者引入了長度懲罰機制。在早期的獎勵設計中,作者觀察到 LLM 生成的答案冗長,卻並未帶來實際的策略改進。此外,過多的答案會導致多輪互動中歷史記錄的積累,從而顯著增加計算成本。
為此,作者開發了一個平滑的長度懲罰函式,用於規範化實際答案長度與目標答案長度之間的偏差:
其中  表示答案  的實際長度  與目標長度  之間的差異(以 token 為單位); 是控制懲罰敏感度的比例因子。 會懲罰偏離目標長度的答案,偏差越大,懲罰越大。
實驗結果
▲ 圖4:主實驗結果
▲ 圖5:AMPO 與 GRPO 在不同 LLM backbone上的訓練動態和評估結果比較。
AML 框架對社交智慧體是有效的嗎?如圖 5 所示,在 AML 框架下,無論使用 GRPO 還是 AMPO,LLM 都表現出色,達到了 SOTA 水平。
對於 Llama 模型,AMPO 在 SOTOPIA-Hard 的 GOAL 測試中甚至比 GPT-4o 提高了 15.6%(6.97 → 8.06)。這驗證了作者的 AML 框架將長 CoT 推理應用於社交智慧的有效性,代表了該領域的首次突破。
此外,BC 也表現出令人欣喜的結果,它僅透過監督微調就超越了大多數基線,證明了作者四種思考模式的有效性。與其他主流的長思考鏈推理模型相比,作者取得顯著的效能優勢,只是因為設計與社會認知相一致的思考模式,確保模型生成適當的推理軌跡。
▲ 圖6:不同推理模型的平均token使用對比
AMPO 是否比 GRPO 取得更好的自適應思考效果?如圖 5,6 所示,AMPO 的響應長度顯著短於 GRPO,同時在 SOTOPIA 和 SOTOPIA-Hard 上均取得了優異的效能。
具體而言,對於 Llama Backbone,AMPO 的推理標記 (581) 僅為 GRPO (865) 的 67.2%,但在 SOTOPIA-Hard 上,其效能比 GRPO 285 提高了 7.0% (3.44  3.68)。
如圖 5 所示,AMPO 展現出對動態情境的感知能力,並能夠自適應地在各種思考模式之間切換,而非僅僅適應最複雜的模式。在訓練過程中,GRPO 傾向於收斂到單一思考模式,表現為  的急劇增加以及其他模式最終收斂到零;而 AMPO 則自適應地探索各種思考模式,有效地減少了輸出 token 長度並取得了卓越的效能。
▲ 圖7:思考模式效果分析
思考模式是如何產生作用的? 為了進一步檢驗作者思考模式設計的有效性,作者進行了一系列變體實驗,如圖 7 所示。
1. 四種混合思考模式的有效性。可以觀察到:
  • 作者的四種混合思考模式透過 GRPO 帶來了顯著的效能提升,例如,在困難場景中,由於透過顯式模式設計提供了更清晰的思考指導,相對提升了 8.0% (3.16  3.41)。
  • AMPO 在困難場景中進一步將目標和整體效能分別提升了5.5% (7.44  7.85)和3.8% (3.41  3.54)。
  • 值得注意的是,與無模式思考和作者設計的基於 GRPO 的思考模式相比,基於 AMPO 的思考模式的 token 使用率分別下降了 25.3% 和 28.5%,但其效能達到了 SOTA。這是因為 AMPO 賦予了 LLM 在動態情境中自適應思考的能力,使其能夠兼顧有效性和效率地選擇合適的思考模式。
2. 單一思考模式的影響。此外,作者透過僅使用單一模式進行最佳化來展示每種思考模式的效果。可以看到:
  • 隨著思考模式的深化(從  到 ),任務效能和 token 使用率均逐漸提升,並且在具有挑戰性的場景(例如 SOTOPIA-Hard)中,任務的效能提升更為顯著,這表明更深層次的思考有利於解決更困難的社會情境。
  • 雖然具有更大思考深度的  在單一思考模式的設定中取得了最好的任務表現,但是與四種思考模式的 AMPO 相比,在 token 利用率上仍然存在明顯差距,這也證明了自適應思考的有效性和必要性。
▲ 圖8:左圖:模式分佈。右圖:根據目標完成狀態將情境分為四種:雙方均未實現目標 (N-N)、我方實現而對方未實現 (Y-N)、我方未實現而對方實現 (N-Y) 以及雙方均實現目標 (Y-Y)。
AMPO 是否具有自適應性?為了探究 AMPO 的適應性行為,作者從不同輪次和不同情境兩個維度對思考模式的分佈進行了詳細的分析,如圖 8 所示。
1) 模式分佈分析。思考模式的演化呈現出明顯的規律,複雜模式在互動過程中逐漸減少,而簡單模式則逐漸增加。最複雜的模式  在最初的 1-4 輪次中表現出明顯的前端負載,佔比高達 53%,隨著互動的進行,其頻率大幅下降。
相反,較簡單的  和  表現出明顯的後端負載, 的 50% 出現在第 14-20 輪次,而  則在第 9-20 輪次的中後期保持較高的頻率。
雖然  在整個互動過程中呈現出更為一致的分佈,但它呈現出逐漸下降的趨勢,從最初五輪的 31% 下降到最後五輪的 21%。
這種動態模式與不斷變化的互動情境相吻合:複雜模式在關鍵的早期回合中佔據主導地位,此時目標尚未實現,需要複雜的處理;而簡單模式則在後期回合中佔據主導地位,此時目標已基本實現,只需要進行基本的溝通。
2) 情境分佈分析較簡單的  和  主要出現在雙方目標均能達成的簡單情境(Y-Y)中。相反,更復雜的思考模式  和 ,尤其是 ,則在雙方均未達成目標的複雜情境(N-N)中最為常見。
圖9:人工評估結果
人工評估和案例分析:為了解決基於 LLM 的評估可能引入的偏見問題,並檢查是否存在獎勵駭客攻擊,作者進行了嚴格的人工評估。從 SOTOPIA 和 SOTOPIA-Hard 中隨機抽取了 100 段對話,並指示三位註釋者將 AMPO 生成的響應與其他強大的基線(包括 GRPO、BC 和 DSI)進行成對比較。
作者在 SOTOPIA 中選擇了三個關鍵維度:目標完成度 (GOAL)、關係 (REL) 以及財務和物質收益 (FIN),並以 AVG 計算它們的平均率。如圖 9 所示,AMPO 在所有評估視角中的表現均優於基線。
此外,作者嚴格的驗證流程證實,AMPO 的表現完全源於正常的互動,沒有獎勵駭客現象。作者還開展了案例研究,以揭示AMPO在將長科特推理轉化為有效的目標導向型社互動動方面的卓越能力。
與定量研究結果一致,作者觀察到 AMPO 透過加強人際關係和互惠互利的結果,在推進對話目標方面表現出了更強的能力,創造了雙贏的局面,並體現了卓越的策略應用。
總結
本文介紹了自適應模式學習 (AML) 框架,該框架首次有效地實現了自適應長認知控制推理 (Long-CoT) 在社交智慧任務中的應用。受分層認知控制理論和語言學原理啟發,建立了四種分層思考模式。這些模式涵蓋了從直覺反應到深度思考的一系列認知過程。
為了增強情境感知的模式切換和推理能力,作者引入了自適應模式策略最佳化 (AMPO) 演算法,該演算法將模式級和樣本級資訊整合到優勢估計中。作者開展了大量實驗,以證明 AML 和 AMPO 的有效性和獨特優勢。
此外,作者驗證了思考模式設計的有效性,並對 AMPO 的自適應行為進行了詳細分析。為了進一步驗證工作效果,作者採用了嚴格的人工評估來進一步驗證框架的有效性。
更多閱讀
#投 稿 通 道#
 讓你的文字被更多人看到 
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。 
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析科研心得競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝 稿件基本要求:
• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標註 
• 稿件建議以 markdown 格式撰寫,文中配圖以附件形式傳送,要求圖片清晰,無版權問題
• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬 投稿通道:
• 投稿郵箱:[email protected] 
• 來稿請備註即時聯絡方式(微信),以便我們在稿件選用的第一時間聯絡作者
• 您也可以直接新增小編微信(pwbot02)快速投稿,備註:姓名-投稿
△長按新增PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜尋「PaperWeekly」
點選「關注」訂閱我們的專欄吧
·


相關文章