AI/CV重磅乾貨,第一時間送達
AI/CV重磅乾貨,第一時間送達
新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球!可以獲得最新頂會/頂刊上的論文idea和入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!
新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球!可以獲得最新頂會/頂刊上的論文idea和入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!


注:*表示共同第一作者
論文:https://arxiv.org/abs/2505.24329
程式碼:github.com/josephzpng/DisTime
單位:美團&北京大學
貢獻
-
提出了 DisTime 框架,用於連續時間建模和邊界模糊性處理。 DisTime 引入了一個可學習的token,並透過基於分佈的時間解碼器將其轉化為時間機率分佈。這種方法有效解決了事件邊界的不確定性,並實現了連續的時間建模,從而提高 Video-LLMs 的時間定位精度 。 -
提出了一種自動化標註正規化並建立了 InternVid-TG 大規模資料集。 該正規化結合了大型語言模型(LLMs)的影像描述能力和專用時間定位模型的精細定位能力。透過這種方法,我們構建了 InternVid-TG 資料集,其中包含 17.9 萬個影片和 125 萬個時間定位事件,其規模是 ActivityNet-Caption 資料集的 55 倍,極大地緩解了時間感知資料集的稀缺問題 。 -
在多項時間敏感任務中實現了最先進的效能。 實驗證明,DisTime 在三項時間敏感任務的基準測試中顯著提升了 Video-LLMs 的精細定位能力。例如,在 Charades-STA 資料集上,該模型在零樣本設定下甚至超越了大多數現有的 Video-LLMs 和專有模型。
問題引入

圖1. 影片大模型對時間表徵的不同形式
儘管影片理解領域取得了顯著進展,但影片大語言模型(Video-LLMs)在精確的時間定位方面仍面臨嚴峻挑戰。這主要歸因於兩個關鍵問題:
-
離散的時間表示方式: 通常存在一些侷限,例如將時間與基於文字的數值混淆、新增一系列專用的時間標記token。如圖1a所示,GroundingGPT [24]、VTimeLLM [15] 和 TimeMarker [4] 等模型在文字模態中,單獨或結合標記,使用數字來表達時間。然而,這些方法強制時間和數字共享相同的決策邊界,這使得分類過程變得複雜,為了解決模態混淆問題,Momentor [34] 和 VTGLLM [13] 等一些方法引入了專門用於時間表達的額外標記token,如圖 1b 所示。然而,這種方法嚴重依賴於這些新標記的分類以及訓練過程中時間資料的平衡分佈。由於資料集中長尾分佈的存在,一些標記可能得不到充分的訓練。這兩種方法都存在一個共同的缺點,即使用標記來表達時間本質上是離散的,導致時間表示的精度不足(例如,無法表達小數),並且缺乏對相鄰數值之間關係的明確建模。第三種方法以 InternVideo2.5 [40] 為例,如圖 1c 所示,它建立了可訓練的任務標記和一個專門的時間感知頭,以協助時間點解碼。這些模組(例如 CGDETR [32])通常是為時間定位而設計的,包含大量引數並且需要重新輸入視覺資訊。 -
時序敏感資料集的匱乏: 針對時間敏感任務(如精確的時間定位)而專門標註的影片資料集數量和規模都非常有限。這與文字或影像領域中海量的資料集形成了鮮明對比。即便存在一些時間相關的影片資料集(VTimeLLM [15], InternVid-MR [11], and Momentor [34]),它們往往在時間標註的精細度上不夠,無法提供足夠細粒度的事件起止時間資訊,難以滿足 Video-LLMs 進行精確時間定位的需求。
解決方法
-
最佳化時間表達:為了改善大型語言模型(LLM)中時間位置的表示,我們提出了 DisTime,一種使用額外可學習標記token來指示事件時間跨度的方法。這個標記為時間戳建立了一個連續的嵌入空間,從而避免了與文字中數字值的混淆。如圖 1d 所示,DisTime 利用基於分佈的時間解碼器將時間標記轉換為起始和結束時間戳。受到 DFL [22] 的啟發(該方法承認邊界檢測固有的模糊性),時間邊界也面臨類似的挑戰,使得直接回歸到絕對時間值變得困難。將時間標記解碼成一個分佈,在事件邊界不明確時提供了靈活性,從而降低了模型預測的複雜性。我們的方法首先將時間標記轉換為機率分佈,然後積分該分佈以生成具體值。與圖 1c 中的方法不同,我們的解碼器使用的引數量極少(幾乎可以忽略不計),並且無需重新輸入原始/編碼影像。 -
無監督標註時序敏感資料集的流程:為了擴充具備時間感知能力的影片資料,我們提出了一種標註正規化,旨在克服事件邊界的時間粒度限制。我們的方法利用Video-LLMs的影像描述能力進行事件提取,並運用專用模型的細粒度定位能力進行事件邊界檢測。借鑑標註良好資料的專業知識,這些偽標籤擺脫了鏡頭邊界的限制,使其更適用於時間定位任務。我們採用了三個專用模型:UniMD [48] 、Mr.Blip [31] 、 TFVTG [51] ,並設計了一種評分策略來評估定位結果,選擇得分最高的模型輸出作為每個事件的整合結果。
實現細節:DisTime模型

圖2. 我們模型的總體結構
總體結構和流程
DisTime 旨在透過構建一個連續且基於分佈的時間表示來增強 Video-LLMs 的時間理解能力,以此克服傳統離散時間表示和邊界模糊性的問題。總體模型結構如圖2所示,包含我們提出的可學習的時間標記
<TIME_STAMP>
、基於分佈的時間解碼器(Distribution-based Time Decoder), 基於分佈的時間編碼器(Distribution-based Time Encoder)、大語言模型LLM和視覺編碼器。工作流程如下
-
首先,系統會從影片中均勻取樣一定數量的幀。然後,視覺編碼器對這些影片幀進行編碼,而投影器則將編碼後的視覺資訊對映到語言空間,從而得到一系列視覺標記(Visual Tokens)。 -
接下來,系統透過時間編碼器處理每個影片幀對應的時間戳,生成一系列時間表示 . -
隨後,這些時間標記 和視覺標記 會被交錯排列,並與使用者指令文字經文字編碼器編碼後的文字標記 一起輸入到LLM中。 -
LLM的自迴歸生成過程不僅包含標準的文字標記,也包括這個我們提出的專用時間標記 <TIME_STAMP>
。當LLM輸出<TIME_STAMP>
時,系統會從LLM最後一層提取對應的隱藏狀態 embedding,並將其傳遞給時間解碼器以獲取連續的時間戳 —— 事件起始時間()和結束時間()。 -
時間上下文重新整理與顯式時間引用 : 這些解碼得到的時間戳隨後會透過時間編碼器進行再處理,以重新整理LLM的時間上下文,為後續的自迴歸生成步驟提供更準確的參照。同時,原始的 <TIME_STAMP>
標記會被重新編碼後的時間標記所取代,從而在輸出中建立顯式的時間引用,這些引用就像是影片時間線上的指標。 -
最終輸出: 最後, <TIME_STAMP>
標記會被替換成相應的解碼時間戳 (, ),並與LLM生成的文字標記連線起來,形成LLM的完整輸出。
總體思路:將時間建模為機率分佈
我們提出的 DisTime是一種機率分佈的時間建模範式。我們的框架透過兩項關鍵創新實現了連續的時間表示:
-
單標記約束(Single-Token Constraint):這項創新利用輕量級編碼器 (Time encoder) 和解碼器 (Time decoder),將連續時間資訊封裝在一個專用標記中。這使得精確的時間定位成為可能,同時計算開銷極小。 -
分佈感知解碼(Distribution-Aware Decoding):這項創新透過機率時間戳生成來解決邊界模糊性。在這種方法中,最終的時間座標是從多個預測的加權組合中得出的,提供了一種更魯棒的時間建模方法。

圖3. 時間編解碼器的結構圖
具體地,時間建模主要包含以下三個模組:
-
專用時間token:該專用時間標記被稱為基於分佈的時間標記(Distribution-based time token)(表示為
<TIME_STAMP>
),它在詞彙表中與數字文字標記截然不同。當LLM生成<TIME_STAMP>
時,一個帶有 softmax 函式的輕量級解碼器會將其轉換為一個潛在機率分佈。這個潛在嵌入的每個維度都對應著歸一化時間軸上的一個錨點。這些機率分佈使得連續值表示成為可能。 -
時間解碼器:時間解碼器用於將
<TIME_STAMP>
解碼成連續的時間戳 (, ),如圖 3 所示。 -
時間編碼器:如圖 3 所示,時間編碼器的作用是時間解碼器的逆過程。它的任務是將連續的時間戳 (, ) ∈ [0,1] 轉換回一個時間標記 τ。首先,為了模擬標註中的模糊性,每個時間戳都被投影到一個標準高斯分佈中:,,其中 δ 控制著分佈的擴散程度。當存在邊界不確定性時,我們通常設定 δ=1。編碼過程存在於這兩個階段:
-
輸入視覺序列組合階段:在這個階段,我們會進行時間標記注入。此時,我們將起始時間 和結束時間 設定為相等,以表示瞬時的時間位置。 -
LLM 自迴歸處理階段:在這個階段,我們利用時間解碼器解碼得到的時間戳,並將 <TIME_STAMP>
替換為編碼後的標記 τ,以實現更精細的時間表示。

圖4. 文字token和時間token的自迴歸過程
因此,帶有專用時間token的自迴歸流程和文字token自迴歸流程幾乎保持一致,如圖4所示。這兩種token型別都進行顯式解碼:文字token對映到詞彙表索引,而時間token則解碼為連續的時間戳(, )。然後,解碼結果透過領域特定的編碼轉換為embeddings,以供後續迭代使用:文字token使用嵌入層進行編碼,時間token則使用時間編碼器進行編碼。
實現細節:構建InternVid-TG資料集

圖5. InternVid-TG資料集的構建過程

表1. InternVid-TG資料量情況
儘管一些自動化標註方法 [11, 15, 34] 試圖擴充套件監督規模,但它們仍受限於鏡頭邊界或粗略的固定時間間隔。為了擴充具備時間感知能力的監督資料並克服這些限制,我們提出了一個時間感知資料擴充套件框架。該框架協同結合了大型多模態模型的概括能力與專用時序模型的細粒度定位能力。
圖 5 展示了我們提出的標註正規化,它包含四個步驟:事件捕獲、事件邊界檢測、評分與整合處理以及指令編寫。最終,我們自動化地標註了 InternVid-FLT [38] 影片資料,將其從原始的影片-文字對齊資料轉換為時間定位資料,並命名為 InternVid-Temporal-Grounding (InternVid-TG)。最終,我們在17.9 萬個影片中標註了 125 萬個事件,如表1所示。
實驗部分
實現細節
我們提出的 DisTime 被整合到兩個當前的影片大型語言模型中:InternVL2.5 [5] 和 LLaVA-OneVision [18],以提升它們在時間敏感任務上的表現。我們使用 InternVL2.5-1B、LLaVA-OneVision-7B 和 InternVL2.5-8B 作為基線模型,並在 InternVL2.5-1B 上進行了消融研究。
值得一提的是,時間解碼器和編碼器都非常引數高效,它們加起來僅佔 InternVL2.5-1B 的 0.36%、LLaVA-OneVision-7B 的 0.34% 和 InternVL2.5-8B 的 0.84%。
評測集
這項全面的評估涵蓋了三項時間敏感任務:時刻檢索(Moment Retrieval, MR)、密集影片描述(Dense Video Captioning, DVC) 和 時序定位影片問答(Grounded Video Question Answering, Grounded-VQA)。
對於時刻檢索(MR),我們使用了 CharadesSTA [9]、ANet-Caption [16] 和 QVHighlights [17] 基準資料集。
對於密集影片描述(DVC),我們在 ANet-Caption 和 YouCook2 [52] 資料集上進行評估。
對於時序定位影片問答(Grounded-VQA),我們採用了 NExT-GQA [42] 資料集。
此外,我們還使用 MVBench [21]、Video-MME [8] 和 LongVideoBench [41] 對模型在通用影片理解任務上的效能進行了評估。
消融實驗

表3. 時間編解碼器的不同組成的消融實驗

表4. InternVid-TG的有效性比較
-
分散式表示的作用:表 3 展示了直接預測時間戳(標記為“Direct”)與透過分佈預測獲取時間戳(標記為“Dist.”)的對比。在時刻檢索(MR)任務的 Charades-STA 資料集和密集影片字幕(DVC)任務的 YouCook2 資料集上,利用分佈表示來建模時間顯著提升了模型在所有指標上的效能。值得注意的是,YouCook2 資料集表現出顯著的進步,F1 分數從 2.2% 大幅提升至 16.3%。 -
時間標記重編碼的作用:如表 3 所示,時間標記重編碼(“Re-Enc”)增強了分佈表示的有效性,尤其是在 Charades-STA 資料集上時刻檢索任務所需的高精度指標中,例如 R@1iou=0.7 提升了 3%。這突顯了時間標記重編碼對於高精度時間表達的重要性。此外,在用於密集影片字幕任務的 YouCook2 資料集中,“Re-Enc”使得 CIDEr 分數增加了 11.6%,F1 分數增加了 4.2%。 -
InternVid-TG 的有效性:我們評估了我們提出的資料集在兩個時刻檢索(MR)基準:Charades-STA 和 QVHighlights 上的有效性。為了與 VTimeLLM 進行公平比較,我們使用了一個與 VTimeLLM 共享重疊影片的子集(InternVid-TG†),總計約 9 萬個影片。如表 4 所示,與 VTimeLLM 和 Momentor 相比,即使 Momentor 包含比 InternVid-TG† 更多的事件,使用 InternVid-TG† 的模型在兩個基準上都顯示出效能提升。值得注意的是,標註噪聲會降低指標,正如 Momentor 的情況所示,其模型在 Charades 上的效能有所下降。最後,利用我們完整的 InternVid-TG 資料集(從 9 萬個影片擴充套件到 17.9 萬個影片),進一步提升了效能。
主要結果

表5. 時刻檢索MR的效果比較

表6. 密集影片描述的效果比較

表7. 時序定位VQA的效果比較

表8. 通用VQA的效果比較
本文總結
本文提出了 DisTime,這是一種輕量級正規化,透過使用單個標記並結合分佈預測來回歸連續時間戳,從而增強影片大型語言模型中的時間表達能力。此外,我們還提出了一種自動化標註正規化,它充分利用了 LLM 和專門的時間定位模型。配備 DisTime 的 Video-LLMs 透過高效的連續時間建模和可擴充套件的資料生成,提升了其時間理解能力,為需要細粒度影片理解的應用提供了實用的解決方案。
ICCV 2025 論文和程式碼下載
在CVer公眾號後臺回覆:ICCV2025,即可下載ICCV 2025論文和程式碼開源的論文合
CVPR 2025 論文和程式碼下載
在CVer公眾號後臺回覆:CVPR2025,即可下載CVPR 2025論文和程式碼開源的論文合集
ICCV 2025 論文和程式碼下載
ICCV 2025 論文和程式碼下載
CVPR 2025 論文和程式碼下載
CVPR 2025 論文和程式碼下載
CV垂直方向和論文投稿交流群成立
一定要備註:研究方向+地點+學校/公司+暱稱(如Mamba、多模態學習或者論文投稿+上海+上交+卡卡),根據格式備註,可更快被透過且邀請進群
▲掃碼或加微訊號: CVer2233,進交流群
CVer計算機視覺(知識星球)人數破萬!如果你想要了解最新最快最好的CV/DL/AI論文、實戰專案、行業前沿、從入門到精通學習教程等資料,一定要掃描下方二維碼,加入CVer知識星球!最強助力你的科研和工作!
▲掃碼加入星球學習
▲點選上方卡片,關注CVer公眾號
整理不易,請點贊和在看

▲掃碼或加微訊號: CVer2233,進交流群
CVer計算機視覺(知識星球)人數破萬!如果你想要了解最新最快最好的CV/DL/AI論文、實戰專案、行業前沿、從入門到精通學習教程等資料,一定要掃描下方二維碼,加入CVer知識星球!最強助力你的科研和工作!

▲掃碼加入星球學習
▲點選上方卡片,關注CVer公眾號
整理不易,請點贊和在看
