長影片效能提升6.6%!用文字資料撬動影片理解

Sparrow 僅使用 30K 混合資料,效能超越 100K 影片資料達 1.7%;同時,Sparrow 在資料規模 scaling 上去後這一差距更加明顯,在同樣達到 100K 資料量時領先達到了 4.2%。主要原因是基線方法在資料 scaling 時迅速達到了飽和,而 Sparrow 能更穩定地 scale up。
這一效能提升在長影片評測集上更為明顯,在同樣使用 100K 資料量時,Sparrow 領先基線達到 6.6%,即使未使用任何長影片訓練資料。

本文介紹影片多模態大語言模型領域的新工作《Sparrow: Data-Efficient Video-LLM with Text-to-Image Augmentation》,相關程式碼和資料已開源。
論文連結
https://arxiv.org/abs/2411.19951
資料鏈接: 
https://huggingface.co/datasets/xjtupanda/Sparrow-Synthetic
GitHub連結: 
https://github.com/VITA-MLLM/Sparrow
來自中國科學技術大學和南京大學等機構的學者合作提出了新的資料增強方法和影片 LLM 訓練正規化 Sparrow:利用長文字 QA 資料合成“影片”樣本,提高影片資料集的指令多樣性,從而提高影片 LLM 的微調效率。
該研究發現,總資料樣本量相同的前提下,在影片資料中混合合成數據,可以在一般影片理解以及長影片理解 benchmark 上取得顯著更優的結果。
▲ 圖1. 使用不同的訓練資料配置 scale up 後影片理解的效能對比。在訓練資料樣本量相同的前提下,使用 Sparrow 的資料增強方案後,一般影片理解與長影片理解的效能相較於基線(影片 caption 和指令資料 1:1 混合)顯著提升。
01|研究動機
1. 重新審視合成數據的 scaling 特性
大模型的成功很大程度上歸功於 scaling law,即更大的訓練資料量和更大的模型尺寸可以帶來更好的模型效能。而近年來,多模態資料的 scale up 主要靠搭建資料 pipeline 大批次合成數據,而核心就是依賴 self-instruction(即“蒸餾”)呼叫商用大模型(如 GPT、Gemini)生成資料。
然而,使用這些合成數據的 scaling 特性一直缺乏探究。因此,該工作首先在這方面做了簡單的探究實驗。 
基於預訓練的圖片大模型(InternVL-4B),使用不同資料量與型別進行微調與評測,訓練資料集包括合成的影片 caption 資料(ShareGemini-100K)以及合成的指令資料(Video-ChatGPT-100K),評測集包括 Video-MME、MVBench 以及 TempCompass,得到的結果如下:
▲ 圖2. 使用不同資料量和資料型別訓練後,模型在通用影片評測集上的效能
可以觀察到: 
1. 使用 caption 資料、指令資料或者兩者等量混合均可以提升影片理解效能。 
2. 隨著資料量增大,模型的效能提升迅速達到飽和。事實上,在 60K 以上增加資料量提升已經比較微小 (絕對提升小於 0.3 個百分點)。
2. 觀察資料的特性
觀察到這一資料 scaling 迅速飽和的現象後,該工作隨後探究訓練集的資料特性。具體方法是觀察資料指令的 t-SNE 分佈,如下圖所示。
▲ 圖3. ShareGemini與Video-ChatGPT資料集的指令分佈t-SNE視覺化
可以觀察到資料的整體分佈較缺乏多樣性,呈現出比較明顯的聚類現象。結合主流的合成數據構造正規化,可以作出以下分析:
1. Caption 資料中明顯的聚類簇。其中最明顯的是 9 個綠色的簇。這實際上對應了以往針對單一任務(比如 OCR、Grounding。此處是 caption)時的常用做法,即事先定義一個 prompt 池,對於每個資料樣本,從 prompt 池中隨機抽取一個 prompt 作為該條資料的指令。
2. 指令資料的多樣性不足。以往普遍做法是呼叫商業模型的 API 批次合成數據,呼叫 API 時輸入:固定的 prompt 模版、資料的要求(格式、長度等)、任務範圍、資料示範樣例。
這種做法的缺陷在於:任務較為單一(一般受限於預先劃定的任務範圍和相應的資料示範樣例),以 Video-ChatGPT 為例,該資料集劃定了三大類任務並制定了固定模版。
文中根據這些觀察判斷指令多樣性的不足導致了資料 scaling 的低效
02|解決方案
針對訓練資料指令多樣性不足的問題,直接標註更多樣的影片資料開銷很大。該工作提出一種經濟的資料增強方法 Sparrow,即利用已有的開源長文字 QA 資料合成“偽影片指令資料”,提高訓練集的多樣性。
該做法基於兩個出發點:1)文字資料的指令分佈多樣且不同於視覺領域,可以形成互補;2)長文字的上下文關聯結構與影片幀之間的一維時序結構類似,在形式上適合模擬影片。
▲ 圖4. Sparrow資料合成方法示意圖
如圖所示,該方法將長文字 QA 資料樣本的(長上下文,問題,答案)三元組中的長上下文分塊並分別嵌入圖片中,從而為每個文字樣本合成一串圖片,而問題和答案保持不變。合成得到的資料格式類似於一般的影片指令資料。
03|實驗結果
文中對這種基於簡單合成的資料增強方法進行了實驗驗證,此處主要介紹最主要的兩點,更好的 scaling 表現無長影片資料訓練前提下實現長影片理解效能提升
1. 更高的訓練效率和 scaling 效能
▲ 圖5. 使用不同資料量和資料型別訓練後,模型在通用影片評測集上的效能。紫色陰影區域表示Sparrow(影片資料:新合成數據=2:1)相較於基線的增益
如上圖所示,在使用等量資料訓練時,相比於其它方法,Sparrow 方法在各個 benchmark 的效能都更優。
在總體效能上,Sparrow 使用 30K 資料總量訓練得到的模型就已超越 100K 資料量訓練的基線 1.7 個百分點;而 Sparrow 在資料 scaling 上去後這一差距更加明顯,在同樣達到 100K 資料量時差距達到了 4.2 個百分點。主要原因是基線在資料 scaling 時迅速達到了飽和,而 Sparrow 能更穩定地 scale up。
2. 長影片理解效能提升
▲ 圖6. 使用不同資料量和資料型別訓練後,模型在長影片評測集上的效能
有趣的是,雖然沒有使用真正的長影片訓練,而只是加入了多模態上下文更長的合成數據訓練,模型在長影片理解 benchmark 上相比於基線方法顯著提升 6.6%。這可能說明模型處理長文字的能力在一定程度上遷移到了長影片理解上
04|關於影片LLM訓練的新思考
該工作主要重新審視了合成數據的特點以及 scaling 特性,並探索瞭如何利用資料增強的方法最佳化資料分佈,從而達到更好的資料 scaling 表現。 
另一方面,從構造影片訓練資料集的角度看,合成數據是並將長期是 scale up 多模態大模型訓練的主要推動力。如何更高效地利用合成數據、如何構造更高質量的合成數據值得更多的思考和探索。
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜尋「PaperWeekly」
點選「關注」訂閱我們的專欄吧
·
·
·

相關文章