WWW2025|西電、NUS提出多模態共情回覆生成任務,推動多模態情感計算發展

共情回覆生成(ERG)旨在生成具有情感共鳴的回覆,但現有研究侷限於單一文字模態,未能充分利用多模態情感表達。
為此,西安電子科技大學與新加坡國立大學以及南洋理工大學團隊聯合提出多模態共情回覆生成(MERG)任務,引入文字、語音和麵部視覺資訊,並構建大規模基準資料集 AvaMERG,涵蓋真實語音與動態頭像影片。
為了實現端到端 MERG,作者基於多模態大語言模型(MLLM)設計了 Empatheia 系統,整合多模態編碼器、語音與虛擬化身生成器,並進一步引入共情鏈式推理機制與共情增強微調策略,提升情感理解、多模態一致性及生成質量。
該研究為多模態共情對話奠定基礎,推動多模態情感計算發展。目前該工作已被 WWW 2025 錄用。
論文標題:
Towards Multimodal Empathetic Response Generation: A Rich Text-Speech-Vision Avatar-based Benchmark
論文連結:
https://arxiv.org/abs/2502.04976
專案連結:
https://AvaMERG.github.io/
動機介紹
近年來,大型語言模型(LLMs)的發展使機器智慧水平達到了前所未有的高度,推動了通用人工智慧(AGI)的進步。
然而,真正的 AGI 不僅需要具備與人類相當的認知能力,還應擁有情感理解和共情能力,以更自然地與人類互動。在人機互動中,機器需要能夠感知和理解使用者的情感與意圖,從而做出更具情感共鳴的回應。
這一需求催生了共情回覆生成(Empathetic Response Generation, ERG)任務,使機器能夠生成富有情感和同理心的回覆,以支援情感驅動的對話。
近年來,ERG 研究取得了顯著進展,並已在心理諮詢、陪伴機器人等領域得到應用。然而,現有的 ERG 研究大多侷限於單一文字模態,未能充分利用人類自然表達情感的 多模態特性。
事實上,文字僅能承載部分情感資訊,而視覺和語音模態往往能更全面、細膩地傳達情緒。例如,面部表情和肢體動作可揭示微妙的情緒變化,語音的語調、音高等特徵也能傳遞豐富的情感訊號。
然而,目前的文字 ERG 任務僅能提供文字回覆,缺乏人類交流中固有的情感溫度和共鳴。同時,從使用者角度來看,許多應用場景(如心理諮詢、陪伴機器人、虛擬助手等)更傾向於透過語音或動態面部影片直接表達情緒,而非侷限於文字輸入。
因此,當前 ERG 研究尚未涉及基於虛擬化身的多模態共情回覆生成(Multimodal Empathetic Response Generation, MERG),這限制了情感計算在實際場景中的應用潛力。
為填補這一研究空白,作者提出 AvaMERG,一個基於虛擬化身的 MERG 基準資料集,擴充套件了現有文字 ERG 資料,新增了真實人聲語音和動態說話頭像影片,並涵蓋不同年齡、性別、音色、語調和外貌,以模擬多樣化的共情對話場景。
基於 AvaMERG,作者設計了Empatheia,一個端到端多模態大語言模型(Multimodal LLM),整合多模態編碼器、語音與虛擬化身生成器,並引入共情鏈式推理(Chain-of-Empathetic Inference)、內容一致性學習(Content Consistency Learning)和風格對齊機制(Style-aware Alignment and Consistency Learning),確保文字、語音、影片在內容、情感和風格上的一致性。
實驗結果表明,Empatheia 在文字和多模態共情回覆任務上均優於現有基線模型,推動了 MERG 研究的發展,為未來多模態情感計算奠定了堅實基礎。
任務定義
基於虛擬化身的多模態共情回覆生成(MERG)是一個全新的任務,旨在擴充套件傳統的文字共情回覆生成(ERG),引入多模態輸入(包括文字、語音和麵部視覺資訊),並生成結構化的共情回覆和相應的多模態輸出。
MERG 不僅能夠從多模態輸入中生成情感豐富的文本回復,還能根據情感內容生成同步的語音和動態虛擬化身影片,以實現更為自然和真實的情感交流。正如圖 1 所示,MERG 不僅能夠根據輸入的文字生成適當的共情回應,還能確保語音和虛擬化身的情感與文字內容一致,準確傳達使用者的情感需求。
▲ 圖1 基於虛擬化身的多模態共情回覆生成(MERG)片段,包含豐富的多模態訊號:文字(對話)、音訊(語音音訊)和視覺(動態說話頭像)。
據集構建
作者透過增強現有的 ERG 資料集Empathetic Dialogue(ED)來構建 Ava-MERG 資料集,其中包含文字共情回覆與對應情感類別。作者透過加入對話中兩位參與者的身份資訊來豐富資料,包括年齡、性別和語氣,以便 MERG 模型能夠學習正確的虛擬化身配置,適用於語音和影片。
由於 GPT-4 在上下文理解方面表現出色,且被廣泛應用於資料生成,作者也採用 GPT-4 進行標註。作者定義了四個年齡段(兒童、青年、中年、老年)、二元性別(男性、女性)和三種語音語調(強調、溫和、柔和)。
作者透過 GPT-4 為 ED 中的每句對話確定上述標籤。由於原始 ED 資料存在嚴重的不平衡問題,例如大多數對話發生在年輕人或中年人之間。作者進一步使用 GPT-4 生成兒童和老年人之間的 ERG 對話,同時檢測每段對話的主題,最終構成了 Ava-MERG 資料集的文字部分。
對於對話的多模態部分,作者採用了人工錄製和系統合成兩種方式得到內容和情感準確的多模態對話。其中虛擬化身涵蓋了不同的年齡、性別和語音特徵,幷包括不同種族(如亞洲人、白人、非洲人、拉美人、印度人)。
為了確保資料集質量,作者招募了一組經過良好訓練的標註員,使用三人交叉檢查評估每個對話的內容準確性和情感準確性,要求每個標註員檢查:1)語音和影片內容是否與文字中的內容匹配;2)語音和影片風格(包括年齡、性別、語氣、情感)是否一致。只有在所有三名標註員都同意的情況下,該例項才會被接受。這就形成了最終的Ava-MERG資料集。
Empatheia 模型架構
如圖 2 所示,作者為 MERG 任務設計了 Empatheia 系統。整體而言,Empatheia 由三個主要模組組成:多模態編碼層、基於 LLM 的核心推理層和多模態生成層。
4.1 多模態編碼器
為了感知多模態對話輸入,作者採用了 HuBERT 和 CLIP ViT-L/14@336px 作為語音編碼器和虛擬化身影片編碼器。本質上,同步文字、語音和動態面部影片的潛在表示應傳達一致的語義,這意味著理想情況下,它們的嵌入應該是對齊的。因此,作者透過投影將語音和虛擬化身編碼器的表示對齊到LLM的語言語義空間。
▲ 圖2 用於 MERG 的 Empatheia 多模態大模型架構
4.2 核心 LLM 推理器
(1)LLM Backbone
LLM 作為系統的“大腦”,負責理解多模態訊號、推理出合適的共情回覆,併為多模態生成模組傳送訊號。鑑於 Vicuna 被廣泛作為 MLLM 的基線,並展現了出色的效能,作者選擇它作為主幹 LLM。
在對輸入的多模態對話進行編碼後,LLM 被微調以輸出以下表示:1)文字 token、2)語音訊號 token、3)影片訊號 token。語音和影片訊號標記包含豐富的情感和風格特徵,這些都將用於控制後續模組的生成。
(2)Chain-of-Empathy 推理
共情是一種複雜的人類高階能力,其本質難以被完全詮釋,個體作為傾聽者在回應前往往會經歷多步的思考過程。受思維鏈(CoT)的啟發,作者設計了共情鏈(CoE)推理機制,逐步引導 LLM 進行漸進式地進行思考,透過層層遞進的方式更精準、更可解釋地推匯出最終的共情回應。
4.3 多模態生成器
多模態生成器骨幹網。在接收到來自 LLM 的訊號特徵後,骨幹語音生成器和動態頭像生成器將分別生成非文字內容。為了確保高質量的多模態生成,作者採用了當前最先進的 StyleTTS2 和 DreamTalk。需要注意的是,這些生成器在整合到系統之前已經經過良好的訓練。
然而,直接生成語音和動態虛擬化身往往會導致內容和風格的一致性問題。因此,生成過程需要保證兩個方面的一致性:
1)內容一致性,語音與動態頭像影片應同步,且二者應與文本回復進一步對齊;
2)風格一致性,文字、語音和視覺中的風格,包括情感和個人特徵(如年齡、性別、語調、外貌)應保持一致。為了實現自然且準確的 MERG,保持跨模態的一致內容和風格至關重要。
▲ 圖3 內容同步器和風格解構器模組
為此,如圖 3 所示,作者設計了兩個模組:內容同步器和風格解耦器。其中,內容同步器(CS)旨在確保語音和視覺生成器接收到正確的回覆內容資訊。
如圖 3(a)所示,該模組本質上是一個基於 Transformer 的變分自編碼器。它主要由兩個 Transformer 塊組成,CS 將文字特徵編碼為潛在表示,解碼器再從中重建語音內容表徵和視覺內容表徵。
語音模組和視覺模組中的風格特徵(包括情感和身份特徵)可能會有細微的差異。因此,風格解耦器(SD)模組旨在從 LLM 輸出的語音和視覺訊號中解耦風格特徵,分別為兩個模組提供相應的風格特徵。
如圖 3(b)所示,與內容同步器(CS)模組類似,風格解耦器也使用 Transformer 模組來解耦語音和影片中的情感與身份特徵表示。接下來,作者融合語音/影片的情感表徵和身份表徵,得到最終的語音/影片風格特徵
共情增強的訓練策略
有了上述共情模型架構,作者透過一系列訓練策略賦予它有效的 MERG 能力。如圖 4 所示,主要包括共情鏈推理學習、內容一致性學習、風格校準和一致性學習和全域性 MERG 微調 4 個訓練步驟。
▲ 圖4 共情增強的訓練策略
(a)共情鏈推理學習
在第一階段,為了教會 Empatheia 如何執行共情鏈式推理(CoE),作者進行監督微調訓練。在這次訓練中,作者基於 Ava-MERG 訓練資料的一個子集標註了一組 CoE 標籤。然後,如圖 4(a)所示,此訓練僅更新用於文字生成的核心 LLM 部分,採用 Lora 技術進行最佳化。
(b)內容一致性學習
第二階段的訓練目的是鼓勵內容同步器(CS)模組輸出的內容訊號引導多模態生成器生成內容一致的語音和影片。這需要對兩邊的內容表示進行對齊。
因此,如圖 4(b)所示,作者最小化語音生成器中文字編碼器的編碼輸出與 CS 模組輸出的音訊內容表徵之間的歐幾里得距離,以及動態頭像生成器中音訊編碼器和 CS 模組輸出的影片內容表徵之間的距離。在這個階段,作者保持 LLM 不更新,以防止其遺忘共情回覆的能力。
(c)風格校準和一致性學習
在第三階段,一方面的目標是對齊風格特徵,確保多模態生成器準確地解讀由 SD 提供的風格訊號。如圖 4(c)所示,作者最小化語音生成器中風格編碼器的風格特徵和 SD 輸出的語音風格表徵之間的歐幾里得距離,以及動態頭像生成器中風格特徵和 SD 輸出的影片風格特徵之間的距離,從而實現風格一致性學習。
另一方面,為了進一步確保跨模態的風格一致性,作者使用情感和身份標籤約束 SD 模組解耦純粹的情感和個人特徵表示。
(d)全域性 MERG 微調
前面的訓練步驟有效地將 MERG 任務分解為不同能力的子過程。為了提高 MERG 的整體效能,必須進行全面的端到端微調。在這個階段,作者將所有之前的訓練過程整合在一起,並聯合微調 LLM、CS 和 SD 模組。
透過聯合最佳化這些元件,模型能夠更有效地利用跨模態互動,最終形成一個更加穩健和一致的多模態生成系統,以更好地完成 MERG 任務。
實驗分析
6.1 主實驗結果
首先,作者在表 1 中比較了不同方法在 ERG 任務上的表現,結果發現 Empatheia 模型表現最佳。當移除語音和動態說話頭像資訊時,效能出現下降(儘管仍然優於基線),這表明多模態資訊有助於更好的共情理解。此外,移除 CoE 策略對回覆文字的影響最大,反映了 CoE 策略的重要性。
接下來,作者在多模態內容生成中評估了 MERG 的效能,並分別在表 2 和表 3 中展示了語音生成和影片生成的結果。顯而易見,Empatheia 模型在所有指標上始終優於管道系統。
作者還分析了模型的消融實驗結果。首先,當使用不同的 LLM 作為主幹時,發現 Vicuna 相較於 ChatGLM3 和 Flan-T5 獲得了更好的效能,因此後續的評估基於 Vicuna。然後,當單獨移除 CS 和 SD 模組時,結果出現退化,表明這兩個模組的重要性。最後,作者評估了不同學習策略的影響,發現每種策略都會導致不同程度的效能下降,從而驗證了它們的有效性。
▲ 表1 AvaMERG 資料集共情回覆生成測試結果
▲ 表2 AvaMERG 資料集音訊生成測試結果
由於情感是高階的人類資訊,自動評估指標可能不足以全面評估共情能力。因此,作者在表 3 和表 4 中展示了 ERG 和 MERG 任務的人工評估結果。
結果表明,Empatheia 系統顯著優於基線方法,且與自動評估一致,驗證了多模態資訊對共情理解和生成的提升作用。CoE 機制、CS 和 SD 模組,以及精細化的訓練策略,對系統性能具有持續的正向影響,證明了它們的重要性和有效性。
▲ 表3 AvaMERG 資料集共情回覆生成人工測試結果
▲ 表4 AvaMERG 資料集多模態一致性測試結果
6.2 分析和討論
圖 5 進一步的分析實驗顯示:Empatheia對悲傷情感最敏感,男性識別優於女性(可能與訓練資料性別分佈相關),兒童情感識別較弱(因表情動態性強或表達模式差異)。
▲ 圖5 不同情感類別、年齡和性別下的結果
圖 6 的 t-SNE 視覺化驗證 SD 模組有效分離情感與個體特徵:多模態情感表示中不同情緒類別分離度顯著提升,同類別樣本聚集緊密,同時成功解耦虛擬化身非情感特徵。
▲ 圖6 情感和身份特徵的 T-SNE 視覺化
6.3 案例展示
文章展示了兩個案例研究,突出 Empatheia 在多模態共情生成中的優勢。第一個案例中,Empatheia 能夠準確理解使用者的情感並生成具有一致情感表達的回覆,而 Pipeline 模型缺乏共情和情感同步機制。
第二個案例中,Empatheia 準確識別了使用者的真實情感,並且處理了虛擬形象一致性問題,而 Pipeline 則出現了錯誤的情感判斷和虛擬形象匹配錯誤。這些案例展示了 Empatheia 在多模態情感理解和生成中的強大能力。
▲ 圖7 兩個測試案例展示
總結和展望
本文全面探討了多模態共情回覆生成(MERG),為多模態情感分析和共情互動領域的未來發展奠定了基礎。根據實踐經驗,以下是幾個未來研究的有前景方向。
  • 探索更高效的 MLLMs 和訓練方法
未來工作可以探索不同大語言模型(MLLMs)在生成共情回覆時的表現,特別是它們在處理多模態輸入時的優缺點。儘管我們目前使用了最先進的語音和虛擬形象生成器,但其效能仍有限。因此,提高多模態生成質量以及探索更高效的訓練方法(如遷移學習、少樣本學習或自監督學習)將是重要方向。
  • 開發多維度評估方法
目前,MERG 的多模態生成評估主要依賴人工評估,存在較大不確定性。未來研究應建立多維度的評估方法,結合自動化評估與人工評估,分析生成回覆的語義一致性、情感傳達準確性以及多模態輸入的協同效應。
  • 增強模型的上下文理解
未來研究可聚焦於提升模型對對話上下文的理解,尤其是在長對話中保留和利用歷史資訊。考慮引入更復雜的記憶機制或上下文注意力機制來增強上下文意識。
  • 探索跨文化的共情表達
未來工作可以研究如何在不同文化背景下有效生成共情回覆,分析文化差異對情感表達和交流風格的影響,並基於這些研究調整模型,以更好地適應不同文化背景的使用者。
  • 提高資料集的多樣性和質量
未來的研究可以集中在收集和構建更大規模、更具多樣性的多模態資料集,以涵蓋更廣泛的情感表達和對話場景,從而進一步提高模型在多樣化情感互動場景中的泛化能力和魯棒性。
更多閱讀
#投 稿 通 道#
 讓你的文字被更多人看到 
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。 
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析科研心得競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝 稿件基本要求:
• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標註 
• 稿件建議以 markdown 格式撰寫,文中配圖以附件形式傳送,要求圖片清晰,無版權問題
• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬 投稿通道:
• 投稿郵箱:[email protected] 
• 來稿請備註即時聯絡方式(微信),以便我們在稿件選用的第一時間聯絡作者
• 您也可以直接新增小編微信(pwbot02)快速投稿,備註:姓名-投稿
△長按新增PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜尋「PaperWeekly」
點選「關注」訂閱我們的專欄吧
·
·
·

相關文章