影片推理R1時刻,7B模型反超GPT-4o!港中文清華推出首個Video-R1


新智元報道  

編輯:LRST 好睏
【新智元導讀】港中文和清華團隊推出Video-R1模型,首次將強化學習的R1正規化應用於影片推理領域。透過升級的T-GRPO演算法和混合影像影片資料集,Video-R1在影片空間推理測試中超越了GPT-4o,展現了強大的推理能力,並且全部程式碼和資料集均已開源。
語言模型的推理剛火完,影片AI也開始「卷」起來了。
這次出手的是港中文+清華組合,直接把強化學習裡的R1玩法搬到了影片領域,整出了全球首個影片版R1模型:Video-R1
別看它只有7B引數,但它在李飛飛提出的VSI-Bench基準中,竟然超越了GPT-4o!
這波不是簡單微調。它背後換上了全新的時間感知演算法T-GRPO,再配上影像+影片混合訓練、兩套高質量資料集,硬是把AI的影片推理能力拉滿,讓模型不止能「看」,更開始「思考」。
而且,全套模型、程式碼、資料集——已經開源了!
影片大模型的「推理時刻」,已經開始。
論文連結:https://arxiv.org/abs/2503.21776
專案地址:https://github.com/tulerfeng/Video-R1
知名博主AK也連發2條推特,推薦這篇論文:

為什麼影片大模型總是「不聰明」?
影片模型看起來「懂點東西」,其實大多都只是表面功夫。真正讓它們「動腦子」的地方,反而是它們最弱的短板。
研究團隊指出,如果還按照傳統GRPO的套路來訓練AI看影片,會踩兩個坑:
一個是沒時間概念,模型完全不知道影片事件的前後邏輯,常常「看圖說話」——看到一幀畫面就急著給出答案。這種套路最多就是蒙對幾次,沒法形成真正的因果推理,泛化性差。例如下圖所示。
另一個問題更棘手:訓練資料太淺。很多現有影片資料集壓根就不適合教模型「思考」,清一色的識別題,幾乎沒多少需要推理才能解的任務。模型怎麼練都只是在死記硬背,根本沒機會練大腦。
所以,影片大模型「不聰明」,真不是沒潛力,而是沒人教對方法。

一套獎勵機制,把影片推理訓會了
研究團隊整了個狠招:獎勵機制繫結時間理解
研究人員把舊版GRPO演算法升級成了更懂時序的T-GRPO,直接把「考慮時序」這事寫進了模型的獎勵邏輯裡。
方法簡單粗暴又高效——模型每次會收到兩組輸入:一組影片幀隨機亂序,一組順序。只有當它在「順序」輸入上答對題的比例更高,才會獲得獎勵。
這個機制在「教」模型:別光看圖,推理得講前因後果。哪怕只看了一幀猜對了題,也拿不到分。
在這種嚴格打分機制下,模型終於明白——影片不是PPT翻頁,而是一個個邏輯線索串起來的故事。

靠混合資料打通任督二脈
影片推理資料太稀缺,模型「練不成」?
研究人員乾脆把影像推理資料請進影片訓練流程,做了兩個關鍵資料集:一個是影像為主的 Video-R1-COT-165k,專門用來冷啟動模型思維;另一個是以高質量影片為核心的 Video-R1-260k,用來精調強化訓練。
別以為圖片只是打輔助,恰恰相反——它幫AI打好了「邏輯底盤」,學會怎麼通用推理;而那些優選過的影片資料,則進一步逼它理解時間邏輯和動態變化。
這套影像+影片混合訓練方式,不光解決了資料稀缺,還真讓模型形成了從「看圖說話」到「影片深思」的進階跳躍,真正打通了多模態理解的任督二脈。

影片推理的「aha moment」
Video-R1在推理過程中,竟然出現了類似人類的「頓悟時刻」——那種突然把所有線索串起來、恍然大悟的瞬間,也被稱為「aha moment」。
比如有一道題是:哪個動作會導致系統能量損耗?另一個是:看完一段室內漫遊影片,推理出從書櫃走到浴缸的路徑。
換做以前的模型,十有八九就是「看一眼」就開答,但Video-R1卻能一步步分析時序,進行推理,最終給出邏輯閉環的準確回答。
這不是死記硬背,而是推理真正生效的訊號。AI第一次表現出:它不只是識圖,而是在「思考」影片裡發生了什麼。

實驗結果
在多個影片推理測試基準上,這個Video-R1-7B模型幾乎場場領先,尤其在李飛飛提出的VSI-Bench這一權威評測中,拿下了35.8%的準確率,超越了閉源頂尖大模型GPT-4o。
不僅如此,RL和傳統SFT之間的差距也被拉開了。比如同樣是7B體量的Qwen2.5-VL-SFT,在測試中表現不佳。反觀Video-R1,則在幾乎所有場景中都穩定輸出,泛化能力一騎絕塵。
還有一個非常關鍵的發現:幀數越多,推理越準。當模型輸入的影片幀數從16增加到32,再到64,測試表現都跟著上臺階。這說明,對時間線的理解力,正是影片推理模型的決勝點——誰能處理更長的影片,誰就更有未來。
團隊還做了一組消融實驗,直接「抽掉」影像資料訓練、再試試砍掉時間建模模組,結果都一樣——模型效能明顯下滑。這直接驗證了一件事:Video-R1的每一塊設計都打在了點子上。
不僅如此,從訓練動態中也能看出門道。隨著強化學習的推進,模型獲得的準確率獎勵和時間獎勵在持續上升,說明它不僅越來越會答題,還越來越懂得「時間邏輯」這回事。
有意思的是,模型在訓練早期輸出的回答變短了——這是在主動拋棄之前SFT裡學到的次優推理模式;但隨著訓練推進,輸出逐漸恢復並穩定,形成了一套更高效、更具邏輯的表達路徑。

寫在最後
Video-R1用實力證明:強化學習不只是NLP的專利,影片大模型也能玩出推理力。
它不靠「堆料」,靠的是機制設計和訓練策略,並且全套開源。
R1的推理正規化,正在把下一場AI革命,從文字世界帶進了每一幀畫面裡。
影片推理的時代,真的來了。
參考資料:
https://arxiv.org/abs/2503.21776


相關文章