阿里開源全模態模型!能識別喜怒哀樂,還給出詳細推理過程

DeepSeek專案同款強化學習方法,阿里通義用來突破全模態情緒識別。
作者 |  程茜
編輯 |  心緣
智東西3月12日報道,昨日,阿里通義實驗室開源R1-Omni模型——業界首個將具有可驗證獎勵的強化學習(RLVR)應用於全能多模態大語言模型

研究人員利用RLVR對開源Omni模型HumanOmni-0.5B進行最佳化,在推理能力、情感識別準確性和泛化能力三個關鍵方面顯著提高了其效能。

R1-Omni能夠更清楚地理解視覺和聽覺資訊如何促進情緒識別,能夠明確展示哪些模態資訊對特定情緒的判斷起到了關鍵作用。與SFT(傳統監督微調)相比,RLVR顯著提高了情緒識別任務的效能,在同分布測試集(DFEW和MAFW)上,R1-Omni相較於原始基線模型平均提升超過35%,相較於SFT模型在UAR上的提升超10%。

‌RLVR是DeepSeek專案中的一種強化學習方法,其核心思想是利用驗證函式直接評估輸出,無需依賴單獨的獎勵模型‌‌。此前,RLVR研究多聚焦於影像、文字等多模態任務重,尚未涉足更復雜的全模態場景。

阿里通義團隊選擇開源Omni模型HumanOmni-0.5B作為基礎模型,目前已經開源了基本模型HumanOmni-0.5B、冷啟動模型EMER-SFT、直接在MAFW和DFEW訓練集上微調的模型MAFW-DFEW-SFT,以及最終模型R1-Omni

論文:https://arxiv.org/abs/2503.05379
Github:https://github.com/HumanMLLM/R1-Omni
模型:https://www.modelscope.cn/models/iic/R1-Omni-0.5B
4月1-2日,智東西聯合主辦的2025中國生成式AI大會(北京站)將舉行。20+位嘉賓/企業已確認,將圍繞DeepSeek、大模型與推理模型、具身智慧、AI智慧體與GenAI應用帶來分享和討論。更多嘉賓陸續揭曉。歡迎報名~
01.
充分理解音影片
給出模態資訊與特定情緒對應關係
R1-Omni的一大亮點在於其透明性(推理能力)透過RLVR方法,模型可以充分理解音訊資訊和影片資訊並判斷人物的情緒,論文中給出了下面兩個示例:
指令:作為情緒識別專家,在整個影片中角色傳達的哪種情感對你來說最明顯?將思考過程輸出到<think></think>中,將最終的情感輸出到<answer></answer>中。
HumanOmni-0.5B:恐懼

EMER-SFT:<think>在影片中,一名身穿棕色夾克的男子站在一幅充滿活力的壁畫前,他的臉上明顯流露出憤怒的跡象。他皺起的眉毛和張開的嘴巴表達了他的不滿。從他的表情和發聲特徵可以推斷出他正在經歷情緒動盪。音訊內容提到了“恐懼”和“降低聲音”,暗示他正面臨緊急情況或在情緒緊張的時刻表現出強烈的情緒。總體而言,分析表明該男子正在經歷一種深深的害怕和焦慮感。</think>

MAFW-DFEW-SFT:生氣

R1-Omni:<think>在影片中,一個穿著棕色夾克的男人站在一幅充滿活力的壁畫前。他棕色夾克下面穿著一件粉紅色的襯衫,頭髮又黑又卷。他的面部表情複雜,睜大眼睛,微微張開嘴巴,眉毛上揚,眉頭緊皺,透露出驚訝和憤怒。語音識別技術表明,他的聲音中包含“你”、“降低你的聲音”、“freaking out”等詞,表明情緒強烈和激動。總體而言,他表現出困惑、憤怒和興奮的情緒狀態。</think>

指令:作為情緒識別專家,在整個影片中角色傳達的哪種情感對你來說最明顯?將思考過程輸出到<think></think>中,將最終的情感輸出到<answer></answer>中。

HumanOmni-0.5B:快樂

EMER-SFT:<think>在影片中,我們看到一名女性在室內環境中,似乎是個人空間或自習室。她戴著紅色頭帶,白色上衣外面套著米色西裝外套,頭髮整齊地紮在後面。她的面部表情流露出些許困惑和驚訝,彷彿遇到了什麼意想不到的事情。隨著時間的推移,她的情緒似乎平靜了下來,但具體原因並沒有解釋。在音訊中,“but”和“it was”之間有一段長時間的沉默,表明了猶豫和不確定。在文字中,副標題寫道:“但這很有趣。這句話可能表達了這個人的困惑和驚訝。根據女子略帶困惑和驚訝表情的影片線索,以及她整體的外表和麵部表情呈現出輕微的困惑和驚訝,我們可以推斷出這句話可能帶有猶豫或不定的語氣。此外,描述“but”和“it was”之間長時間沉默的音訊線索也表明了一些猶豫和不確定性。因此,這句話表達了女人對某事的興趣和好奇,而also則表現出一定程度的猶豫和不確定。</think>

MAFW-DFEW-SFT:快樂

R1-Omni:<think>在影片的開場場景中,我們看到一個女人微微閉著眼睛,嘴巴慢慢張開,彷彿她正在預示。她的面部表情看起來有些喜悅,這可能表明她在那一刻正在經歷一些愉快或有趣的情況。在音訊中,句子之間沒有停頓,它們連續流動,語氣輕盈歡快。結合文字內容,可以感覺到角色處於非常快樂和積極的情緒狀態。在文字中,副標題寫道:“這很有趣。這句話可能表達了女人對某事或某人的滿意和好奇。根據影片線索中女子所表現出的笑聲和喜悅的表情,以及音訊線索中對連續流淌、輕盈歡快的語氣的描述,我們可以推斷出這句話表達了女子對某事的興趣和好奇。這句話中的喜悅與幸福和積極的整體表現是一致的。</think>

02.
推理、情感識別、泛化能力提升
相較原始基線模型平均提升超35%
研究人員利用RLVR對Omni模型進行最佳化後,模型在推理能力、情感識別準確性和泛化能力三個關鍵方面提高了效能。

首先,最初的HumanOmni-0.5B和MAFW-DFEW-SFT模型表現出有限的推理能力。EMER-SFT的推理過程連貫性相對較差,容易產生幻覺。例如,在MAFW和DFEW資料集上進行測試時,R1-Omni透過提供更連貫、更準確和可解釋的推理過程,始終優於這些基線。

其次,為了定量評估R1-Omni的理解能力,研究人員將其效能與主要由電影剪輯組成的MAFW和DFEW資料集上的其他模型進行了比較。用於評估的指標是未加權平均召回率(UAR)和加權平均召回率(WAR),它們衡量模型對不同類別的情緒進行準確分類的能力。

在此設定中,模型沒有提供預定義的情感類別,而是直接從輸入資料生成情感標籤。

實驗結果顯示,在同分布測試集(DFEW和MAFW)上,R1-Omni相較於原始基線模型平均提升超過35%,相較於SFT模型在UAR上的提升高達10%以上。在不同分佈測試集(RAVDESS)上,R1-Omni在WAR和UAR均提升超過13%。

更直觀的比較如下:

最後是R1-Omni的泛化能力,研究人員在RAVDESS資料集上進行實驗,該資料集用作分佈外(OOD)測試集,RAVDESS資料集的特點是專業演員以中性的北美口音說出詞彙匹配的陳述。資料分佈的這種顯著差異使RAVDESS成為評估模型泛化到看不見場景的能力的理想基準。

03.
冷啟動+RLVR訓練階段
提升模型情緒識別準確度

模型訓練包括兩個階段。

第一個是冷啟動階段,為了保證RLVR階段訓練的平穩性,該團隊使用一個組合資料集進行微調,使其初步掌握多模態情感識別任務中的推理能力。該組合資料集是由580條影片資料組成的組合資料集,其中包括來自Explainable Multimodal Emotion Reasoning(EMER)資料集的232條樣本,以及來自HumanOmni資料集的348條樣本。

這一階段確保了模型在進入RLVR階段前已具備一定基礎能力,從而提升後續訓練的效率與穩定性。

冷啟動階段使用的EMER資料的具體格式如下所示。

第二個是RLVR階段,實現推理與泛化能力雙重提升,這一訓練過程旨在最佳化HumanOmni-0.5B使用包括影片和音訊資料的多模態輸入進行情緒識別任務。

基於冷啟動階段初始化的模型,透過RLVR的方式訓練,同時利用影片和音訊的多模態資料最佳化情感識別任務。該階段透過強化學習與可驗證獎勵機制,進一步最佳化模型的推理能力和泛化效能。

RLVR的第一個關鍵元件是策略模型(policy model),該模型處理由影片幀和相應音訊流組成的多模態輸入資料,並生成一組候選響應。每個響應都附帶詳細的推理,展示了模型如何整合視覺和聽覺資訊從而得出預測的詳細過程。

第二個關鍵元件是獎勵函式,策略模型生成的這些候選響應使用可驗證的獎勵函式(reward function)進行評估。RLVR訓練框架中用到的獎勵函式受DeepSeek-R1的啟發,將獎勵分成了兩個部分,精確率獎勵(accuracy reward)和格式獎勵(format reward),這兩部分共同形成最終的獎勵R:

準確值獎勵的計算方式如下:

透過聯合兩部分獎勵,該獎勵函式不僅鼓勵模型生成正確的預測,同時保證輸出是結構化的,並且和其預設格式一致。

實驗表明,RLVR不僅讓音訊和影片資訊的作用更加透明,還顯著提升了模型在情緒識別任務中的關鍵指標。

04.
仍有侷限,字幕識別不準
幻覺、語調線索利用率低

R1-Omni仍存在一些需要進一步研究的侷限性,論文中提到了三個具有代表性的示例:

第一個例子中,儘管模型產生了正確的情緒預測,但其字幕識別並不準確,解決這一限制需要整合更強大的字幕處理技術,例如對專業資料集進行微調或整合高階自然語言理解模型。

第二個示例演示了一個常見的問題幻覺,模型生成的推理輸出不基於影片的實際內容。例如,“畫外音揭示了她中立的最初反應,隨著時間的推移逐漸變成輕微的興奮和憤怒”這句話與影片的實際情緒軌跡不一致。這種捏造的推理導致模型錯誤地將情緒預測為驚喜。

第三個示例強調了該模型充分利用音訊線索(如語氣和語調)的能力有限,而音訊線索對於準確的情緒識別至關重要。儘管模型能夠透過整合音訊和影片資訊來推理情緒,但在某些情況下,音訊特徵的使用似乎不如使用視覺線索徹底或有效。在這個特定例項中,角色的聲音傳遞提供了強烈的情感訊號,但該模型未能將這些細微差別充分納入其推理過程。

05.
結語:RLVR加速多模態任務研究
RLVR方法的出現,為多模態任務提供了全新的最佳化思路,無論是幾何推理、視覺計數,還是經典影像分類和物體檢測任務,RLVR都展現出了顯著優於傳統監督微調(SFT)的效果。
基於當下研究的侷限,研究人員在論文中提到了未來幾個研究方向:

1、加強基礎模型的能力。雖然RLVR顯著增強了基礎模型的推理和泛化能力,但基礎模型的固有效能仍然是整體成功的關鍵決定因素。

2、減輕推理輸出中的幻覺。由於多模態資料固有的挑戰,例如影片和音訊令牌中的因果關係比文字Token弱,以及缺乏對推理內容的明確監督,在模型的推理過程中可能會出現幻覺。開發檢測和減輕幻覺的機制對於提高模型的可靠性和可用性至關重要。

3、提高音訊線索的利用率。例如音調和語調等的利用率不足代表了當前模型的侷限性,未來的工作應側重於提高模型有效提取和整合音訊特徵的能力。

4、提高推理深度和情商。目前的推理過程往往有些機械化,主要關注直接可觀察的特徵,如視覺線索和音訊訊號。而人類的情感識別通常涉及更深層次的心理學洞察力,例如瞭解個人的動機、意圖或內部狀態。透過引導模型探索推理的更細微的方面,例如推斷心理活動或情緒驅動因素,可以提升其情商並增強其捕捉複雜情緒動態的能力。

(本文系網易新聞•網易號特色內容激勵計劃簽約賬號【智東西】原創內容,未經賬號授權,禁止隨意轉載。)


相關文章