近期,多模態大模型(MLLMs)發展迅速,但開源模型在長上下文場景(如長影片或高解析度影像)中仍顯著落後於閉源模型。部分專注於長上下文場景的開源模型在短上下文場景(如短影片或靜態影像)中又表現不佳。
為此,騰訊優圖實驗室和南京大學等聯合推出全開源、可復現的多模態大模型 Long-VITA,原生支援 4096 幀影像或者 100 萬 Tokens 輸入,在支援長上下文場景的同時,保持短上下文場景的優異表現。在單機推理上,實現推理長度擴充套件 417% 和推理速度降低 47.3%。
論文連結:
Long-VITA: Scaling Large Multi-modal Models to 1 Million Tokens with Leading Short-Context Accuracy
論文連結:
https://arxiv.org/pdf/2502.05177
程式碼連結:
https://github.com/VITA-MLLM/Long-VITA

背景介紹
目前多模態大模型在處理長上下文(長影片、高解析度影像等)時通常面臨以下挑戰:
-
上下文限制:模型的上下文視窗較小,無法處理長序列輸入,在長影片理解等任務中受限;
-
效能退化:為了擴充套件上下文,一些模型採用視覺 tokens 壓縮、稀疏 self attention 和位置編碼外推等技術,影響了模型在精細視覺任務中的表現;
-
多工平衡:大部分開源長影片模型在影像理解上效果不佳,忽略長影片理解和單圖理解間的平衡。
Long-VITA 致力於推動長上下文多模態大模型的開發與應用,為學術界和工業界提供一個強大的開源基準模型。Long-VITA 具有以下亮點:
-
原生支援 4096 幀影像、一百萬 Tokens 輸入:模型採用全參訓練,不用任何引數高效微調方法;不壓縮視覺 tokens;不採用稀疏 attention;不使用位置編碼外推;
-
支援長上下文的同時,保持短上下文效果優異:在 OpenCompass、Video-MME、LongVideoBench、MVBench 等不同場景的 Benchmark 上表現優異;
-
只用開源資料訓練,效果超過使用非公開資料訓練的主流模型:表明了開源資料的價值以及開源模型的巨大潛力;
-
完全開源可復現:除了開源模型權重,還開源訓練資料、訓練程式碼和測試程式碼,為社群提供一個完全透明、開放的研究基準;
-
訓練和推理流程全國產化:採用 MindSpeed 和 MindSpeed-LL 框架在 Ascend NPU 上實現模型訓練和推理。同時提供 GPU 平臺適配程式碼。在 8 卡 96G 顯示卡的機器上,實現推理長度擴充套件 417% 和推理速度降低 47.3%;

模型架構
Long-VITA 採用經典的 Vision Encoder – Vision Projector – LLM 架構。
Vision Encoder:採用 InternViT-300M,並針對不同長寬比的影像進行動態切分。
Vision Projector:採用兩層的 MLP,並使用 pixel shuffle 減少 visual tokens 數量。
LLM:採用 Qwen2.5-14B-Instruct。

訓練資料

Long-VITA 只採用開源資料進行訓練,沒有采用資料過濾操作。
不同訓練階段的資料配比不同。其中包括:
Image-Text Data:包括影像描述資料,如 LLaVA-ReCap、ALLaVA-4V 等;視覺問答資料,如 LVIS-Instruct4V、the-cauldron 等;圖文交織資料,如 M4Instruct 和 Comic-9k,其中 Comic-9k 為專案收集的漫畫及對應的故事梗概,單條資料超過 10 張影像,已在 Huggingface 平臺開源。
Video-Text Data:包括 VideoGPT-plus、ShareGemini、LLaVA-Video-178K,以及專案從 MovieNet 中整理的電影級別長度的影片理解資料 MovieNet-Summary,已在 Huggingface 平臺開源。
Short Text Data:包括 OpenHermes-2.5、LIMA、databricks-dolly-15k 等較短的純文字資料集。
Long Text Data:包括 Long-Instruction-with-Paraphrasing、LongForm、LongAlign-10k 等超長的純文字資料集,旨在將 LLM 的長上下文能力遷移至多模態領域。

訓練流程

階段一:視覺-文字對齊
該階段旨在實現影像表徵與 LLM 輸入文字空間的初步對齊。只訓練 Vision Projector。訓練資料主要為影像描述資料和文件型別資料。
階段二:通用知識學習
該階段旨在促進模型對通用視覺-文字知識的學習。訓練全部模組。訓練資料包括影像-文字,影片-文字,純文字資料,資料長度較短。採用 Packing 技術將多條資料拼接至固定長度,同時修改位置編碼和 Attention Mask 確保資料彼此獨立,以最大程度利用計算資源。
階段三:長序列微調
該階段將模型的上下文長度擴充套件至 128K。訓練全部模組。訓練資料中降低長度較短資料的比例,引入長度較長的漫畫、影片、文字資料。採用 Packing 技術,但不修改位置編碼和 Attention Mask。
階段四:超長序列微調
該階段將模型的上下文長度擴充套件至 1024K。訓練全部模組。訓練資料額外使用 MovieNet-Summary。採用 Packing 技術,但不修改位置編碼和 Attention Mask。

推理擴充套件
Long-VITA 設計了兩種提高模型在推理階段能處理的 tokens 數量的實現:
Context-Parallelism Distributed Inference:結合張量並行(Tensor Parallelism)和上下文並行(Context Parallelism)實現分散式推理,支援處理無限長輸入序列。
Logits-Masked Language Modeling Head:對 LLM 最後一層的輸出特徵進行遮蔽,只將需要預測下一 token 的輸出特徵送入 LM_head,顯著降低了記憶體消耗。



實驗評估
影像理解評估

Long-VITA-16K 在 OpenCompass 的 8 個 Benchmark 上表現優異,超越了許多開源模型,尤其在處理多影像任務時展現出強大的能力。
但 Long-VITA-1M 的表現略遜於 Long-VITA-16K 和 Long-VITA-128K,這可能是由於在 1M 訓練中未修改 Attention Mask 來隔離樣本導致了不同資料樣本的混淆。Long-VITA 展示了使用開源資料訓練也能實現與私有資料訓練相媲美的強大效能。
影片理解評估


在 Video-MME 上,Long-VITA-128K 在處理 256 幀影片時超越了所有其他 20B 引數以下的模型,尤其在中長影片任務上表現出色。Long-VITA-1M 能夠原生支援 4096 幀的影片輸入,併兼容 slow-fast 和 progressive pooling 等 training-free 方法進一步擴充套件視覺上下文視窗。
此外,由於在預訓練和微調階段未調整旋轉位置編碼的比例因子,因此在推理階段可透過位置編碼插值進一步實現長度外推。
在 LongVideoBench 和 MVBench 上,Long-VITA 分別展示了在長影片理解和短影片理解上的優異效能。另外,由於缺少多模態長上下文資料,Long-VITA-1M 仍有提升空間。

未來工作
Long-VITA 完全基於開源資料,在長視覺上下文和短視覺上下文中均展現出優異的效能,在各種影片和影像理解任務中處於領先地位。未來 Long-VITA 將採取多模態長上下文資料擴充過濾、訓練流程最佳化等手段進一步改善模型效能。
更多閱讀

#投 稿 通 道#
讓你的文字被更多人看到
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標註
• 稿件建議以 markdown 格式撰寫,文中配圖以附件形式傳送,要求圖片清晰,無版權問題
• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
• 投稿郵箱:[email protected]
• 來稿請備註即時聯絡方式(微信),以便我們在稿件選用的第一時間聯絡作者
• 您也可以直接新增小編微信(pwbot02)快速投稿,備註:姓名-投稿

△長按新增PaperWeekly小編
現在,在「知乎」也能找到我們了
進入知乎首頁搜尋「PaperWeekly」
點選「關注」訂閱我們的專欄吧
·
·
·
