
“情智兼備”是新一代人工智慧的重要發展方向,是邁向通用人工智慧的關鍵一步。在人機互動場景中,具備情智的數字人與機器人需要精準解譯多模態互動資訊,深度挖掘人類內在情感狀態,從而實現更具真實感與自然性的人機對話。然而,面對多模態情感資料語義的高度複雜性,如何有效建模跨模態關聯關係仍是領域內亟待突破的核心挑戰。
針對這一技術瓶頸,快手可靈團隊與南開大學在「多模態情感理解」領域完成了開創性研究,成功定位了現有多模態大模型在情感線索捕捉中的關鍵短板。研究團隊從多模態注意力機制的維度切入,提出了新的模組化雙工注意力正規化,並基於此構建了一個涵蓋感知、認知與情感能力的多模態模型‘摩達(MODA)’。該模型在通用對話、知識問答、表格處理、視覺感知、認知分析和情感理解等六大類任務的 21 個基準測試中均實現了顯著效能提升。此外,基於新的注意力機制,‘摩達’在角色剖析與規劃演繹等人機互動場景中表現出色。目前,該研究成果已被 ICML 2025 收錄,並獲選焦點論文(Spotlight,Top 2.6%)。

-
論文標題:MODA: MOdular Duplex Attention for Multimodal Perception, Cognition, and Emotion Understanding
-
論文地址:https://arxiv.org/abs/2507.04635
-
專案主頁:https://zzcheng.top/MODA/
-
模型地址:https://huggingface.co/KwaiVGI/MODA
-
程式碼地址:https://github.com/KwaiVGI/MODA
利用多種線索預測人類的情感狀態,賦予了多模態大模型更強的擬人能力 [1]。現有的主流多模態大模型具有通用可泛化的注意力架構,然而以語言為中心進行預訓練機制導致其存在模態偏置,難以關注到細粒度的情感線索。基準測試表明,現有方法在需要細粒度認知和情感理解的高階任務中表現不佳,甚至低於隨機猜測水平 [2]。例如,在二分類諷刺檢測任務中,三個最先進的多模態方法僅能達到 50:50 的識別準確率。
這一現象的根源在於對主導模態的過度關注,從而忽視了輔助模態中蘊含的細粒度線索。我們深入探究其內在原因,重點分析了用於混合多模態線索的注意力機制。如圖 1(a) 和 (b) 所示,現有模型難以捕捉細粒度細節(例如角色的眼神、對話中的關鍵詞),最終導致情感理解的錯誤。其核心的問題是多模態大模型多個注意力層之間的注意力不一致(圖 1(c) 中跨模態的注意力差異高達 63%),即多模態注意力失調現象。具體表現為:一方面,多模態大模型的注意力分數偏向於文字模態;另一方面,注意力的逐層衰減,進一步加劇了模態間的差異。最終,不同模態之間的注意力分數差異最高可達 10 倍。

圖 1: 多模態注意力失調製約模型能力
為解決這一問題,本研究從多模態注意力機制的視角出發,指出了現有多模態大模型的關鍵卡點,並深入分析了其失效 / 失能的核心成因。基於上述觀察,我們提出一種模組化的雙工注意力正規化,並據此構建了一個新一代多模態模型‘摩達’。該模型專為感知(Perception)、認知(Cognition)、情感(Emotion)等多層次任務設計,顯著提升了模型在細粒度理解、複雜規劃和互動任務上的能力。
注意力機制透過計算多模態詞元間的相似性和掩碼來控制詞元間的互動。為了研究多模態注意力失調問題,我們在四類細粒度理解問題上進行實驗分析。
如圖 2(a) 所示,實驗結果顯示視覺內容所分配的注意力明顯低於文字模態。這一現象符合預期,因為基於自迴歸模型微調而來的多模態大模型,通常在處理細粒度視覺感知時面臨固有挑戰。此類模型的架構設計最初主要針對文字任務最佳化,因此在在擴充套件到多模態場景時,視覺特徵受關注的程度不足。這種模態間不平衡突顯了當前架構中的關鍵侷限性:模型在文字處理方面的能力並未平滑地轉化為同等水平的視覺處理能力。
進一步揭示,在圖 2(b) 和 (c) 中,模型跨越 32 個層級間表現出顯著的跨模態注意力偏差。較高層與較低層的注意力分佈存在明顯不一致。具體而言,較低層通常過度關注跨模態互動,因此犧牲了有效捕捉模態內特徵的能力。這種錯位導致了多模態整合效果欠佳。原因在於,當模型從低層次向高層次特徵抽象過渡時,跨模態的注意力得分隨著層次加深而降低,致使視覺模態的資訊在一定程度上被稀釋了。
以此為基礎,引出多模態注意力失調問題。給定層中的視覺詞元和文字詞元,多模態注意力透過以下兩部分建立連結(即,自模態→,→和跨模態→,→),其中連結通常透過成對詞元的相似性和加權求和來實現。然而,由於詞元之間的模態差距,連結的強度會減弱,連結值→和→會隨著深度呈指數衰減α∝γ,γ≠ 1。這種失配會逐層傳播,導致跨模態互動中的累積誤差隨著層數增長而增加:=γϵ ,這裡ϵ表示第層的對齊誤差。這一發現現象與前人理論研究[3]的見解相吻合,其中純注意力機制會經歷秩崩塌(rank collapse),而這正是加劇注意力分佈不平衡的關鍵因素。

圖 2: 預實驗證明了多模態注意力失調的存在
為克服多模態注意力失調的問題,我們提出對來自多個模態的詞元進行對齊的新方案,即模組化雙工注意力。該正規化的核心設計是將多模態注意力劃分為兩個部分:模態對齊部分和詞元焦點修正部分。如圖 3 所示,以影像與上下文(如對話的背景和歷史訊息)提示作為輸入。藉助模組化雙工注意力,得以矯正大模型中由於模態偏置而導致的錯誤多模態特徵流。透過雙工注意力對齊和模組化注意力掩碼以“對齊後修正”的方式修正存在缺陷的注意力分數。

圖 3: ‘摩達’網路架構
為了減少模態不一致性,一個直觀的解決方案是將多模態特徵進行對齊。受到擴散模型中視覺 – 語言嵌入空間對映最新進展的啟發 [4],我們提出了基於 Gram 矩陣的嵌入空間基向量進行跨模態語義遷移。具體來說,根據詞元表徵計算 Gram 矩陣,從中提取每個模態空間的基向量,壓縮每個模態的語義,並作為其他模態的轉移。因此,雙工注意力對齊包括 V-Aligner 和 T-Aligner,分別負責視覺和語言模態。
對於第模態,空間基是根據歸一化的Gram矩陣給出的,其中是詞元和之間的內積:

其中是第個模態詞元的鍵狀態,是屬於模態的詞元數量。透過包括由 Gram矩陣定義的空間基向量,可以有效捕捉詞元之間的關係,從而構建出一個既有豐富資訊又能保持資料內在結構的特徵表示。
作為後續工作,歸一化的Gram矩陣充當跨模態詞元轉移函式,使得來自其他模態𝑚的詞元能夠高效地轉換到模態,作為一個核化對映函式。對齊後的詞元計算如下:

其中表示來自其他模態的值。對映後的詞元與原始詞元進一步融合,以增強所有模態之間的詞元相似性。
注意力掩碼控制詞元在變換器層之間的流動,併為多模態大模型引入位置偏差。為了更好地適應多模態詞元序列的需求,為每個模態分配一個調節後的注意力掩碼,分為和,負責模態內和模態間注意力:

為了緩解塌陷的注意力矩陣並防止它在詞元上過度平滑,提出一種模組化注意力掩碼,它選擇將不必要的注意力值儲存在這些偽注意力分數中。對於每一行(即第個詞元的所有注意力分數),它可以注意到的序列長度固定為。因此,每行中將有個偽注意力分數,用於過度注意力分配。將注意力分數轉化為:

其中γ是衰減率超引數。
除了絕對位置先驗資訊外,進一步引入模態位置以強制模型修正詞元在模型層間的流動。引入歸一化的 Gram 矩陣作為指標,找出哪些部分應該攜帶模態位置先驗資訊。這種分離允許更精確地控制同一模態中的詞元如何相互作用,以及它們如何與來自其他模態的詞元互動。
具體來說,利用視覺和文字模態的Gram矩陣作為基向量,這裡,為視覺和文字模態的歸一化Gram矩陣。

進一步利用多個模態的特徵捕捉各個注意力頭的特徵。這裡,為注意力頭的特徵維度。

然後,將各個注意力頭的基向量進行上取樣,對齊基向量與注意力圖的尺寸到,然後將上取樣後的基向量與跨模態注意力掩碼Ocross相加,得到最終的跨模態注意力掩碼。對於視覺模態注意力掩碼,用視覺基向量進行對映與下采樣,得到尺寸為的視覺模態掩碼。相似的,得到尺寸為的文字模態掩碼,最終與自模態注意力掩碼Oself相加,得到最終的自模態注意力掩碼。
實驗結果表明,透過引入模組化雙工注意力正規化,模態偏置引起的注意力失調問題得到了有效緩解,在基於此正規化構建的 80 億與 340 億引數量級多模態模型成功實現了效能顯著提升。該正規化專為多模態大模型網路架構設計,能夠無縫替換原有注意力模組,並有效促進多模態資訊的深度融合。
①緩解多模態注意力失調: MODA 有效緩解了跨模態間的注意力差異問題。如圖 4 所示,該正規化將模型各層的跨模態注意力差異率由原本的 56% 與 62% 顯著降低至 50% 與 41%。

圖 4: 模組化雙工注意力機制在緩解多模態注意力失調問題上的效果
②效能提升:
-
內容感知能力:如表 1 所示,MODA 在包含通用對話、知識問答、表格 OCR、視覺感知四大類任務(共計 16 個數據集)的內容感知方面展現出明顯優勢。
-
認知與情感理解能力: 如表 2 所示,MODA 在認知分析和情感理解兩大類任務(共計 5 個數據集)上的效能也得到顯著提升。

表 1:‘摩達’在通用對話、知識問答、表格 OCR、視覺感知 4 大類任務上的表現

表 2:‘摩達’在認知分析與情感理解 2 類任務上的表現
③多功能性:MODA 具備內容感知、角色認知與情感理解的綜合能力(圖 4 提供視覺化樣例)在對話場景中,MODA 精準識別使用者意圖與情感傾向,並基於角色配置檔案自動適配符合場景規範的響應策略。

圖 4:‘摩達’在內容感知、角色認識與情感理解三個方面視覺化樣例
④人機對話應用:MODA 在人機對話場景中展現出強大潛力(應用示例見圖 6)。模型可即時解析使用者的微表情、語調及文化背景特徵,構建多維人物畫像,並深度理解角色動機與情感脈絡以自動規劃對話策略。例如在心理諮詢中識別矛盾情緒並引導傾訴,或在虛擬偶像互動中動態調整角色臺詞風格。這種能力突破了傳統規則式應答的侷限,使 AI 能夠像人類導演般"預判劇情走向",在金融客服、沉浸式娛樂等領域實現有溫度的人格化服務。

圖 6: ‘摩達’在人機對話場景中的應用示例
MODA 已成功應用於快手可靈資料感知專案,重點透過細粒度情感感知顯著增強了資料分析能力。在情感識別與推理任務中,MODA 展現出卓越的效能,有效提升了分析的精度和應用效果,尤其是在情感變化檢測和個性化推薦任務中提升感知精度,有力支撐了可靈影片生成產品的效能。

圖 7: ‘摩達’在可靈資料細粒度感知專案中的應用示例
點選【閱讀原文】即可跳轉模型地址。
參考文獻:
[1]Sicheng Zhao, Guoli Jia, Jufeng Yang, Guiguang Ding, Kurt Keutzer. Emotion recognition from multiple modalities: Fundamentals and methodologies. IEEE Signal Processing Magazine, 38(6): 59-73, 2021.
[2]Zhiwei Liu, Kailai Yang, Qianqian Xie, Tianlin Zhang, Sophia Ananiadou. EmoLLMs: A series of emotional large language models and annotation tools for comprehensive affective analysis. KDD, 2024.
[3]Yihe Dong, Jean-Baptiste Cordonnier, Andreas Loukas. Attention is not all you need: Pure attention loses rank doubly exponentially with depth. ICML, 2021.
[4]Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser, Björn Ommer. High-resolution image synthesis with latent diffusion models. CVPR, 2022.
首屆 AICon 全球人工智慧開發與應用大會(深圳站)將於 8 月 22-23 日正式舉行!本次大會以 “探索 AI 應用邊界” 為主題,聚焦 Agent、多模態、AI 產品設計等熱門方向,圍繞企業如何透過大模型降低成本、提升經營效率的實際應用案例,邀請來自頭部企業、大廠以及明星創業公司的專家,帶來一線的大模型實踐經驗和前沿洞察。一起探索 AI 應用的更多可能,發掘 AI 驅動業務增長的新路徑!

今日薦文

你也「在看」嗎?👇