阿里開源R1-Omni，DeepSeek同款RLVR首度結合全模態情感識別，網友：可解釋性+多模態學習=下一代AI

2025-08-07 14:31 量子位

西風發自凹非寺

量子位 | 公眾號 QbitAI

首次將DeepSeek同款RLVR應用於全模態LLM，含影片的那種！

眼睛一閉一睜，阿里通義實驗室薄列峰團隊又開卷了，哦是開源，R1-Omni來了。

同樣在杭州，這是在搞什麼「開源雙feng」（狗頭保命）？

他們都做了啥？

DeepSeek-R1帶火了RLVR（可驗證獎勵強化學習），之前已有團隊將RLVR應用於影像-文字多模態LLM，證明其在幾何推理和視覺計數等任務上表現優異。

然鵝，尚未探索將其與包含音訊、動態視覺內容的全模態LLM結合。

薄列峰團隊首次將RLVR與全模態LLM結合，聚焦的是視覺和音訊模態都提供關鍵作用的情感識別任務。

團隊實驗發現，模型在三個關鍵方面有顯著提升：

RLVR的引入不僅提高了模型在分佈內資料上的整體效能，而且在分佈外資料集上也展現出了更強的魯棒性。

更重要的是，提升後的推理能力使得能夠清晰分析在情感識別過程中不同模態所起的作用。

R1-Omni在X上也吸引了不少網友關注：

非常有趣的論文，我立刻就能預見到它在市場營銷和廣告領域進行情感傾向分析的潛力。

還有網友表示可解釋性+多模態學習就是下一代AI的方向。

一起具體來看R1-Omni。

R1-Omni長啥樣？

在研究方法上，論文首先介紹了DeepSeek同款RLVR和GRPO。

RLVR是一種新的訓練正規化，其核心思想是利用驗證函式直接評估輸出，無需像傳統的人類反饋強化學習（RLHF）那樣依賴根據人類偏好訓練的單獨獎勵模型。

給定輸入問題q，策略模型π_θ生成響應o，接著使用可驗證獎勵函式R(q,o)對其進行評估，其最佳化目標為最大化驗證獎勵減去基於KL散度正則化項的結果。

RLVR在簡化了獎勵機制的同時，確保了其與任務內在的正確性標準保持一致。

GRPO是一種全新的強化學習方法，它與PPO等傳統方法有所不同，PPO依賴於一個評論家模型來評估候選策略的效能，而GRPO直接比較生成的響應組，避免了使用額外的評論家模型，簡化了訓練過程。

利用歸一化評分機制，GRPO鼓勵模型在組內優先選擇獎勵值更高的響應，增強了模型有效區分高質量和低質量輸出的能力。

遵循DeepSeek-R1中提出的方法，團隊將GRPO與RLVR相結合。

R1-Omni模型構建方面，團隊採用了一種受DeepSeek-R1訓練方法啟發的冷啟動策略。

在包含232個可解釋多模態（視覺和音訊）情感推理資料集（EMER）樣本和348個手動標註的HumanOmni資料集樣本的組合資料集上對HumanOmni-0.5B（一個專為人為場景理解設計的開源全模態模型）進行微調，使模型具備初步推理能力，瞭解視覺和音訊線索是如何對情感識別產生作用的。

之後，透過RLVR訓練最佳化模型，獎勵函式由準確率獎勵和格式獎勵組成，準確性獎勵評估預測情感與真實情感的匹配度，格式獎勵確保模型輸出符合指定的HTML標籤格式。

模型輸出預期包含兩部分：一個推理過程，封裝在"<think></think>"標籤內，解釋模型如何整合視覺和音訊線索得出預測；一個最終情感標籤，封裝在"<answer></answer>"標籤內，表示預測的情感。

推理/理解/泛化三方面提升

實驗評估中，研究者將R1-Omni與三個基線模型進行比較：原始的HumanOmni-0.5B、在EMER資料集上進行監督微調的模型EMER-SFT、直接在MAFW和DFEW訓練集上基於HumanOmni-0.5B進行監督微調的模型MAFW-DFEW-SFT。

評估指標包括無加權平均召回率（UAR）和加權平均召回率（WAR），這些指標衡量模型在不同情感類別中準確分類情感的能力。

重要的是，所有評估都在開放詞彙情感測試（OV-emotion）協議下進行。在這種設定中，模型不提供預定義的情感類別，而是直接從輸入資料中生成情感標籤，這增加了評估的挑戰性和實際應用價值。

實驗結果表明，R1-Omni在三個關鍵方面優於三個對比模型：推理能力增強、理解能力提高、泛化能力更強。

研究者展示了一系列視覺化示例，比較R1-Omni與其它三個模型的輸出，R1-Omni提供了更連貫、準確和可解釋的推理過程。

相比之下原始HumanOmni-0.5B和MAFW-DFEW-SFT模型表現出有限的推理能力，而EMER-SFT雖具備一定推理能力但推理過程連貫性較差且容易產生幻覺。

在MAFW和DFEW資料集上，R1-Omni在UAR和WAR指標上均優於其它模型。

例如在DFEW資料集上，R1-Omni實現了65.83%的UAR和56.27%的WAR，明顯優於MAFW-DFEW-SFT的60.23%UAR和44.39%WAR。

為了評估模型的泛化能力，研究者在RAVDESS資料集上進行了實驗，該資料集作為分佈外（OOD）測試集。

與主要由電影片段組成的MAFW和DFEW資料集不同，RAVDESS資料集特點是專業演員以中性北美口音發表詞彙匹配的陳述，這種資料分佈的顯著差異使RAVDESS成為評估模型泛化到未見場景能力的理想基準。

R1-Omni在RAVDESS資料集上相較於MAFW-DFEW-SFT模型有顯著提升，實現了43.00%的UAR和44.69%的 WAR。

目前，基礎模型HumanOmni-0.5B、冷啟動模型EMER-SFT，還有MAFW-DFEW-SFT以及最終模型R1-Omni已全部開源。

參考連結：
[1]https://arxiv.org/abs/2503.05379
[2]https://github.com/HumanMLLM/R1-Omni

— 完 —

評選報名｜2025年值得關注的AIGC企業&產品

下一個AI“國產之光”將會是誰？

本次評選結果將於4月中國AIGC產業峰會上公佈，歡迎參與！

一鍵關注 👇 點亮星標

科技前沿進展每日見

一鍵三連「點贊」「轉發」「小心心」

歡迎在評論區留下你的想法！

相關文章

阿里開源全模態模型！能識別喜怒哀樂，還給出詳細推理過程

阿里開源全模態模型！能識別喜怒哀樂，還給出詳細推理過程

字節跳動AI大將駱怡航加盟生數科技，出任CEO；蔡崇信：AI開源開放將讓中小企業受益丨AIGC日報

字節跳動AI大將駱怡航加盟生數科技，出任CEO；蔡崇信：AI開源開放將讓中小企業受益丨AIGC日報

Rule-based強化學習≠古早邏輯規則！萬字拆解o1多模態推理最新進展

Rule-based強化學習≠古早邏輯規則！萬字拆解o1多模態推理最新進展

海底撈對4109單全額退錢並補償顧客10倍現金；Manus等候使用人數達200萬；楊銘宇黃燜雞發致歉信；沃爾瑪被約談丨邦早報

海底撈對4109單全額退錢並補償顧客10倍現金；Manus等候使用人數達200萬；楊銘宇黃燜雞發致歉信；沃爾瑪被約談丨邦早報

大模型RL不止數學程式碼！7B獎勵模型搞定醫學法律經濟全學科，不用思維鏈也能做題

大模型RL不止數學程式碼！7B獎勵模型搞定醫學法律經濟全學科，不用思維鏈也能做題

海底撈為消費者提供10倍現金補償；楊銘宇黃燜雞被曝剩菜回收再賣；聯想發文稱反對996；董明珠回應格力造車進展：不做家用車….

海底撈為消費者提供10倍現金補償；楊銘宇黃燜雞被曝剩菜回收再賣；聯想發文稱反對996；董明珠回應格力造車進展：不做家用車….

闖紅燈、壓線變道…特斯拉FSD入華“水土不服”，訊息稱正與百度合作解決；機器人能騎腳踏車了，“稚暉君”新款機器人亮相丨AI週報

闖紅燈、壓線變道…特斯拉FSD入華“水土不服”，訊息稱正與百度合作解決；機器人能騎腳踏車了，“稚暉君”新款機器人亮相丨AI週報

大模型角逐：DeepSeek、通義千問、Google、OpenAI迎來模型更新

大模型角逐：DeepSeek、通義千問、Google、OpenAI迎來模型更新

最強的全模態理解端模型開源，這個輕巧的小模型不僅多基準登頂，推理速度最高還能領先300％

最強的全模態理解端模型開源，這個輕巧的小模型不僅多基準登頂，推理速度最高還能領先300％

大模型通才來了！百川智慧全模態模型亮相，實力碾壓GPT-4omini

大模型通才來了！百川智慧全模態模型亮相，實力碾壓GPT-4omini

Copyright © 2025 | WordPress Theme by MH Themes