Llama都在用的RoPE有了影片版,復旦上海AILab等提出長影片理解/檢索絕佳拍檔

VideoRoPE團隊 投稿

量子位 | 公眾號 QbitAI
Llama都在用的RoPE(旋轉位置嵌入)被擴充套件到影片領域,長影片理解和檢索更強了。
復旦大學、上海AI實驗室等提出VideoRoPE,並確定了將RoPE有效應用於影片所需的四個關鍵特性。
在長影片檢索、影片理解和影片幻覺等各種下游任務中,VideoRoPE始終優於先前的RoPE變體。

用三維結構保留時空關係

RoPE是一種能夠將相對位置資訊依賴整合到self-attention中並提升transformer架構效能的位置編碼方式。
RoPE及其變體因其長上下文處理能力而被廣泛採用,但將一維RoPE擴充套件到具有複雜時空結構的影片領域仍然是一個懸而未決的挑戰。
作為分析的一部分,這項工作引入了一個具有挑戰性的V-NIAH-D(帶干擾項的視覺大海撈針)任務,該任務在V-NIAH任務的基礎上增加了週期性干擾項。
V-NIAH-D任務表明,先前缺乏適當時間維度分配的RoPE變體很容易被幹擾項誤導。基於分析,作者提出了VideoRoPE,它具有三維結構,旨在保留時空關係
VideoRoPE的特點包括低頻時間分配以減輕週期性碰撞、對角佈局以保持空間對稱性,以及可調整的時間間隔以解耦時間和空間索引。
左圖:為了展示頻率分配的重要性,基於VIAH(a),作者提出了一個更具挑戰性的V-NIAH-D任務(b),其中插入了相似影像作為干擾項。
右圖:與M-RoPE相比,VideoRoPE在檢索中更具魯棒性,並且不容易受到干擾項的影響。
上圖:M-RoPE的時間維度侷限於區域性資訊,導致對角線佈局。
下圖:VideoRoPE有效利用時間維度進行檢索。
M-RoPE在定位目標影像上有效,但在多選問題中表現不佳,因為它主要透過垂直位置編碼來定點陣圖像,而非時間特徵,導致時間維度未能捕捉長距離依賴關係,關注區域性資訊。相比之下,空間維度則捕捉長距離語義資訊,導致M-RoPE在頻率分配設計上表現較差。

VideoRoPE設計

作者團隊提出了VideoRoPE,一種影片位置嵌入策略,優先考慮時間建模,透過低頻時間分配(LTA)減少振盪並確保魯棒性。它採用對角線佈局(DL)以保持空間對稱性,並引入可調時間間隔(ATS)來控制時間間隔。VideoRoPE有效地建模了時空資訊,從而實現了魯棒的影片位置表示。
1、低頻時間分配(LTA):
考慮一個基於RoPE的LLM,頭部維度為128,對應64個旋轉角度θn,分佈在不同維度上。每個圖示中,用平行的藍色平面表示cos(θnt)在3維上的表現。
(a)對於M-RoPE,時間依賴性由前16個高頻旋轉角度建模,導致振盪和位置資訊失真。低維度間隔較短,振盪週期性使得遠距離位置可能具有相似資訊,類似雜湊碰撞(如紅色平面所示),容易引發干擾,誤導模型。
(b)相比之下,VideoRoPE透過最後16個旋轉角度建模時間依賴性,具有更寬的單調間隔。時間建模不再受振盪影響,顯著抑制了干擾項的誤導效應。

2、對角線佈局(DL):

原始1D RoPE(Su et al., 2024)未包含空間建模。M-RoPE(Wang et al., 2024b)雖然採用3D結構,但引入了不同幀間視覺標記索引的差異。
相比之下,VideoRoPE實現了平衡,保留了原始RoPE一致的索引增長模式,並引入了空間建模。優點包括:1)保留視覺標記的相對位置,避免文字標記過於接近角落;2)保持原始RoPE編碼形式,相鄰幀的空間位置資訊增量與文字標記增量一致。
3、可調時間間隔(ATS):
為了縮放時間索引,作者團隊引入縮放因子δ來對齊視覺和文字標記之間的時間資訊。假設τ為標記索引,起始文字(0≤τ<Ts)的時間、水平和垂直索引為原始標記索引τ。對於影片輸入(Ts≤τ<Ts+Tv),τ−Ts表示當前幀相對於影片開始的索引,透過δ縮放控制時間間距。
對於結束文字(Ts+Tv≤τ<Ts+Tv+Te),時間、水平和垂直索引保持不變,形成線性進展。根據可調節的時間間距設計,影片位置編碼(VideoRoPE)中τ-th文字標記或(τ,w,h)-th視覺標記的位置資訊(t,x,y)如式(7)所示。
其中,w和h分別表示視覺塊在幀中的水平和垂直索引。
相鄰文字標記的位置資訊嵌入對於Vanilla RoPE(頂部行)、相鄰幀中對應的視覺標記對於M-RoPE(中間行)以及我們設計的帶有交錯水平垂直排布和時間維度放後面設計的VideoRoPE(底部行)。

優於其他RoPE變體

長影片檢索任務:
作者團隊展示了VideoRoPE與其他RoPE變體在V-NIAH和V-NIAH-D上的效能。V-NIAH-D比V-NIAH更具挑戰性。Vanilla RoPE和TAD-RoPE在視覺訓練上下文外具備一定外推能力,但超出極限後失效。相比之下,VideoRoPE和M-RoPE在測試上下文內表現優越,且VideoRoPE始終優於M-RoPE,展現出更強魯棒性。
長影片理解任務:
如表所示,作者團隊在三個長影片理解基準上比較了VideoRoPE與現有RoPE變體(Vanilla RoPE、TAD-RoPE和M-RoPE)。VideoRoPE在這些基準上優於所有基線方法,展示了其魯棒性和適應性。在LongVideoBench、MLVU和Video-MME上,VideoRoPE在64k上下文長度下分別比M-RoPE提高了2.91、4.46和1.66分,突顯了其在捕捉長距離依賴關係和處理具有挑戰性的影片任務中的卓越能力。
影片幻覺任務:
在VideoHallucer基準測試中,作者團隊的VideoRoPE顯著優於現有RoPE方法。特別是在時間幻覺任務中,VideoRoPE提升了29.5%,展示了更強的時間依賴關係捕捉能力,適合處理動態影片序列。在空間方面,VideoRoPE在物件-關係幻覺任務中提升了18.0%,突顯了其辨識複雜空間互動的能力。這些結果強調了VideoRoPE在影片幻覺問題上的魯棒性和實際應用潛力。

總結

本文確定了有效位置編碼的四個關鍵標準:2D/3D結構、頻率分配、空間對稱性和時間索引縮放透過V-NIAH-D任務,作者展示了先前RoPE變體因缺乏適當的時間分配而易受干擾。
因此,提出了VideoRoPE,採用3D結構保持時空一致性,低頻時間分配減少振盪,對角佈局實現空間對稱性,並引入可調節時間間距。VideoRoPE在長影片檢索、影片理解和影片幻覺任務中優於其他RoPE變體。
Paper:https://arxiv.org/pdf/2502.05173
Project Page:https://wiselnn570.github.io/VideoRoPE/
Code:https://github.com/Wiselnn570/VideoRoPE/
—  —
投稿請工作日發郵件到:
標題註明【投稿】,告訴我們:
你是誰,從哪來,投稿內容
附上論文/專案主頁連結,以及聯絡方式哦
我們會(儘量)及時回覆你
一鍵關注 👇 點亮星標
科技前沿進展每日見
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!

相關文章