
以 DeepSeek-R1 為代表的強化學習正規化,近期在語言模型領域掀起了一次“推理革命”。
而這一次,輪到影片了。
最近,港中文聯合清華團隊正式釋出了首個將 “R1 正規化”系統性落地到影片推理領域的模型——Video-R1。
不僅將強化學習演算法從 GRPO 升級為更懂“時間”的 T-GRPO,還首次打通了影像+影片的混合訓練路徑,搭建了兩個高質量資料集,真正讓模型在影片中學會了“深度思考”。
更炸裂的是:在李飛飛團隊提出的 VSI-Bench 這一權威影片空間推理測試中,Video-R1(僅 7B 引數)竟然幹掉了GPT-4o!
目前,研究團隊已經將全部程式碼、模型權重、資料集一併開源,影片推理的 “R1 時刻”,真的來了。

論文連結:
https://arxiv.org/abs/2503.21776
專案地址:
https://github.com/tulerfeng/Video-R1
推特知名博主 AK 也在第一時間推薦了這篇論文:


影片推理為什麼這麼難?
研究團隊指出,在多模態大模型中,若直接使用傳統 GRPO 演算法做強化學習,會面臨兩個致命問題:
1. 沒有時間感,推理全靠“猜”
原始 GRPO 不具備時間建模能力,模型很容易“走捷徑”——看一幀就匆匆回答,完全忽略前後畫面的因果關係。
最終學到的是一種投機式的淺層策略,泛化能力極差。下面這張圖展示的就是典型的“誤判式推理”。

2. 訓練資料太“淺”,推理根本練不起來
目前大多數開源影片資料集,任務多以識別、分類為主,缺乏真正考驗邏輯推理的內容。
這也讓模型壓根沒機會鍛鍊深層次的“思考能力”。


Video-R1 怎麼做的?
為了解決上述兩個挑戰,研究團隊提出了 Video-R1,主要包含如下內容:
T-GRPO 訓練演算法:首先,研究團隊將 GRPO 演算法加入時序建模,拓展為 T-GRPO 演算法。簡單來說,這個演算法就是要“逼”模型認真看完影片、考慮時序。
方法也不復雜:它把影片幀以亂序輸入,再跟原本順序輸入做對比,只有模型在順序那組得到正確答案的比例更大,才能得到一個設定的時序獎勵。
透過這一套對比獎勵機制,能夠讓模型在推理時明白:原來影片不是一堆圖堆在一起,而是“前因後果”的線索串聯。

資料集精心構建:為了解決高質量的影片推理訓練資料稀缺的問題,研究團隊策略性地引入了高質量的影像推理資料,用於增強影片推理能力
他們精心構建了兩個資料集:一個是Video-R1-COT-165k,用來做 SFT 冷啟動;另一個是 Video-R1-260k,用於強化學習訓練。
影像資料在訓練中並非配角,反而成了通用推理能力的重要地基;而精心篩選的影片樣本,則補上了模型對時序邏輯與動態變化的理解能力。
這種“影像+影片”的混合訓練機制,不只是解決了資料稀缺的問題,更關鍵的是——讓模型學會了從靜態影像中學推理、再遷移到動態影片中用推理,真正打通了多模態認知的任督二脈。

影片推理的“aha moment”
在 Video-R1 中,一個有趣的現象是,模型也出現了自我反思式的推理行為,通常被稱為“頓悟時刻(aha moments)”。
例如下面兩個例子,第一個詢問影片中哪個動作會損失系統能,第二個則是希望根據影片遊覽房屋的內容,得出從書櫃走到浴缸的路徑。
這兩個問題都不是看一眼就能答的,而是需要真正理解影片時序並進行推理,Video-R1 都做到了精準推理,邏輯閉環,成功答對。



實驗結果

從實驗結果中,可以發現:
Video-R1 的卓越效能:在大多數評測基準上,Video-R1 的表現顯著優於以往模型,尤其是在等影片推理的 benchmark上。值得注意的是,在 VSI-Bench 這一專注於影片空間推理的評測中,Video-R1-7B 達到了 35.8% 的最新準確率,超越了閉源模型 GPT-4o。
RL 相對於 SFT 的優越性:SFT 模型 Qwen2.5-VL-7B-SFT 在多個評測中未能持續帶來效能提升,可能是由於過擬合或在未知場景下泛化能力有限。而 Video-R1 在所有評測中都實現了顯著提升,特別是在推理任務中效果尤為明顯。這表明了強化學習強大的泛化能力。
更多幀帶來更強推理:當輸入幀數從 16 增加到 32 時,幾乎所有評測任務的表現都有所提升。這表明更長的上下文和更豐富的時序資訊對模型推理能力具有積極影響。開發能夠推理更長影片內容的模型,是未來研究中一個有前景且必要的方向。

在消融實驗中,也可以看到,去除了影像訓練資料或是去除了時序建模後,模型的表現都下降了,這說明了提出的方法的有效性。

上圖展示了 Video-R1 在強化學習過程中的訓練動態。
準確率獎勵和時序獎勵整體呈上升趨勢,表明模型在強化學習過程中不斷提升其生成正確答案的能力,並且在訓練中也逐步採用了更多基於時間的推理策略。
而對於輸出長度,在強化學習訓練初期,模型的輸出長度先是下降,隨後逐步上升,最終穩定在一個固定範圍內。這可能是由於訓練初期模型會先拋棄 SFT 中學習到的次優推理策略,再逐步收斂到一種更優的推理模式。

寫在最後
Video-R1 證明了:強化學習不只是語言模型的專屬,在影片領域同樣能激發模型的深度推理潛力。
更關鍵的是,它是全開源的。
影片 AI 的“推理紀元”,正在從這一刻開啟。
更多細節,請參考論文原文。
更多閱讀

#投 稿 通 道#
讓你的文字被更多人看到
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝 稿件基本要求:
• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標註
• 稿件建議以 markdown 格式撰寫,文中配圖以附件形式傳送,要求圖片清晰,無版權問題
• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬 投稿通道:
• 投稿郵箱:[email protected]
• 來稿請備註即時聯絡方式(微信),以便我們在稿件選用的第一時間聯絡作者
• 您也可以直接新增小編微信(pwbot02)快速投稿,備註:姓名-投稿

△長按新增PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜尋「PaperWeekly」
點選「關注」訂閱我們的專欄吧
·
