突破百萬Tokens限制！Long-VITA：多模態大模型開源新標杆！

點選下方卡片，關注“CVer”公眾號

AI/CV重磅乾貨，第一時間送達

點選進入—>【頂會/頂刊】投稿交流群

新增微訊號：CVer2233，小助手會拉你進群！

掃描下方二維碼，加入CVer學術星球！可以獲得最新頂會/頂刊上的論文idea和CV從入門到精通資料，及最前沿應用！發論文/搞科研/漲薪，強烈推薦！

近期，多模態大模型（MLLMs）發展迅速，但開源模型在長上下文場景（如長影片或高解析度影像）中仍顯著落後於閉源模型。部分專注於長上下文場景的開源模型在短上下文場景（如短影片或靜態影像）中又表現不佳。

為此，騰訊優圖實驗室和南京大學等聯合推出全開源、可復現的多模態大模型 Long-VITA，原生支援 4096 幀影像或者 100 萬 Tokens 輸入，在支援長上下文場景的同時，保持短上下文場景的優異表現。在單機推理上，實現推理長度擴充套件 417% 和推理速度降低 47.3%。

論文連結：

Long-VITA: Scaling Large Multi-modal Models to 1 Million Tokens with Leading Short-Context Accuracy

論文連結：

https://arxiv.org/pdf/2502.05177

程式碼連結：

https://github.com/VITA-MLLM/Long-VITA

背景介紹

目前多模態大模型在處理長上下文（長影片、高解析度影像等）時通常面臨以下挑戰：

上下文限制：模型的上下文視窗較小，無法處理長序列輸入，在長影片理解等任務中受限；
效能退化：為了擴充套件上下文，一些模型採用視覺 tokens 壓縮、稀疏 self attention 和位置編碼外推等技術，影響了模型在精細視覺任務中的表現；
多工平衡：大部分開源長影片模型在影像理解上效果不佳，忽略長影片理解和單圖理解間的平衡。

Long-VITA 致力於推動長上下文多模態大模型的開發與應用，為學術界和工業界提供一個強大的開源基準模型。Long-VITA 具有以下亮點：

原生支援 4096 幀影像、一百萬 Tokens 輸入：模型採用全參訓練，不用任何引數高效微調方法；不壓縮視覺 tokens；不採用稀疏 attention；不使用位置編碼外推；
支援長上下文的同時，保持短上下文效果優異：在 OpenCompass、Video-MME、LongVideoBench、MVBench 等不同場景的 Benchmark 上表現優異；
只用開源資料訓練，效果超過使用非公開資料訓練的主流模型：表明了開源資料的價值以及開源模型的巨大潛力；
完全開源可復現：除了開源模型權重，還開源訓練資料、訓練程式碼和測試程式碼，為社群提供一個完全透明、開放的研究基準；
訓練和推理流程全國產化：採用 MindSpeed 和 MindSpeed-LL 框架在 Ascend NPU 上實現模型訓練和推理。同時提供 GPU 平臺適配程式碼。在 8 卡 96G 顯示卡的機器上，實現推理長度擴充套件 417% 和推理速度降低 47.3%；

模型架構

Long-VITA 採用經典的 Vision Encoder – Vision Projector – LLM 架構。

Vision Encoder：採用 InternViT-300M，並針對不同長寬比的影像進行動態切分。

Vision Projector：採用兩層的 MLP，並使用 pixel shuffle 減少 visual tokens 數量。

LLM：採用 Qwen2.5-14B-Instruct。

訓練資料

Long-VITA 只採用開源資料進行訓練，沒有采用資料過濾操作。

不同訓練階段的資料配比不同。其中包括：

Image-Text Data：包括影像描述資料，如 LLaVA-ReCap、ALLaVA-4V 等；視覺問答資料，如 LVIS-Instruct4V、the-cauldron 等；圖文交織資料，如 M4Instruct 和 Comic-9k，其中 Comic-9k 為專案收集的漫畫及對應的故事梗概，單條資料超過 10 張影像，已在 Huggingface 平臺開源。

Video-Text Data：包括 VideoGPT-plus、ShareGemini、LLaVA-Video-178K，以及專案從 MovieNet 中整理的電影級別長度的影片理解資料 MovieNet-Summary，已在 Huggingface 平臺開源。

Short Text Data：包括 OpenHermes-2.5、LIMA、databricks-dolly-15k 等較短的純文字資料集。

Long Text Data：包括 Long-Instruction-with-Paraphrasing、LongForm、LongAlign-10k 等超長的純文字資料集，旨在將 LLM 的長上下文能力遷移至多模態領域。

訓練流程

階段一：視覺-文字對齊

該階段旨在實現影像表徵與 LLM 輸入文字空間的初步對齊。只訓練 Vision Projector。訓練資料主要為影像描述資料和文件型別資料。

階段二：通用知識學習

該階段旨在促進模型對通用視覺-文字知識的學習。訓練全部模組。訓練資料包括影像-文字，影片-文字，純文字資料，資料長度較短。採用 Packing 技術將多條資料拼接至固定長度，同時修改位置編碼和 Attention Mask 確保資料彼此獨立，以最大程度利用計算資源。

階段三：長序列微調

該階段將模型的上下文長度擴充套件至 128K。訓練全部模組。訓練資料中降低長度較短資料的比例，引入長度較長的漫畫、影片、文字資料。採用 Packing 技術，但不修改位置編碼和 Attention Mask。

階段四：超長序列微調

該階段將模型的上下文長度擴充套件至 1024K。訓練全部模組。訓練資料額外使用 MovieNet-Summary。採用 Packing 技術，但不修改位置編碼和 Attention Mask。

推理擴充套件

Long-VITA 設計了兩種提高模型在推理階段能處理的 tokens 數量的實現：

Context-Parallelism Distributed Inference：結合張量並行（Tensor Parallelism）和上下文並行（Context Parallelism）實現分散式推理，支援處理無限長輸入序列。

Logits-Masked Language Modeling Head：對 LLM 最後一層的輸出特徵進行遮蔽，只將需要預測下一 token 的輸出特徵送入 LM_head，顯著降低了記憶體消耗。

實驗評估

影像理解評估

Long-VITA-16K 在 OpenCompass 的 8 個 Benchmark 上表現優異，超越了許多開源模型，尤其在處理多影像任務時展現出強大的能力。

但 Long-VITA-1M 的表現略遜於 Long-VITA-16K 和 Long-VITA-128K，這可能是由於在 1M 訓練中未修改 Attention Mask 來隔離樣本導致了不同資料樣本的混淆。Long-VITA 展示了使用開源資料訓練也能實現與私有資料訓練相媲美的強大效能。

影片理解評估

在 Video-MME 上，Long-VITA-128K 在處理 256 幀影片時超越了所有其他 20B 引數以下的模型，尤其在中長影片任務上表現出色。Long-VITA-1M 能夠原生支援 4096 幀的影片輸入，併兼容 slow-fast 和 progressive pooling 等 training-free 方法進一步擴充套件視覺上下文視窗。

此外，由於在預訓練和微調階段未調整旋轉位置編碼的比例因子，因此在推理階段可透過位置編碼插值進一步實現長度外推。

在 LongVideoBench 和 MVBench 上，Long-VITA 分別展示了在長影片理解和短影片理解上的優異效能。另外，由於缺少多模態長上下文資料，Long-VITA-1M 仍有提升空間。

未來工作

Long-VITA 完全基於開源資料，在長視覺上下文和短視覺上下文中均展現出優異的效能，在各種影片和影像理解任務中處於領先地位。未來 Long-VITA 將採取多模態長上下文資料擴充過濾、訓練流程最佳化等手段進一步改善模型效能。

何愷明在MIT授課的課件PPT下載

在CVer公眾號後臺回覆：何愷明，即可下載本課程的所有566頁課件PPT！趕緊學起來！

CVPR 2025 論文和程式碼下載

在CVer公眾號後臺回覆：CVPR2025，即可下載CVPR 2025論文和程式碼開源的論文合集

ECCV 2024 論文和程式碼下載

在CVer公眾號後臺回覆：ECCV2024，即可下載ECCV 2024論文和程式碼開源的論文合集

CV垂直方向和論文投稿交流群成立

掃描下方二維碼，或者新增微訊號：CVer2233，即可新增CVer小助手微信，便可申請加入CVer-垂直方向和論文投稿微信交流群。另外其他垂直方向已涵蓋：目標檢測、影像分割、目標跟蹤、人臉檢測&識別、OCR、姿態估計、超解析度、SLAM、醫療影像、Re-ID、GAN、NAS、深度估計、自動駕駛、強化學習、車道線檢測、模型剪枝&壓縮、去噪、去霧、去雨、風格遷移、遙感影像、行為識別、影片理解、影像融合、影像檢索、論文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。

一定要備註：研究方向+地點+學校/公司+暱稱（如Mamba、多模態學習或者論文投稿+上海+上交+卡卡），根據格式備註，可更快被透過且邀請進群

▲掃碼或加微訊號: CVer2233，進交流群

CVer計算機視覺（知識星球）來了！想要了解最新最快最好的CV/DL/AI論文速遞、優質實戰專案、AI行業前沿、從入門到精通學習教程等資料，歡迎掃描下方二維碼，加入CVer計算機視覺（知識星球），已彙集上萬人！

▲掃碼加入星球學習

▲點選上方卡片，關注CVer公眾號

整理不易，請點贊和在看

dignews.cc

突破百萬Tokens限制！Long-VITA：多模態大模型開源新標杆！

AI/CV重磅乾貨，第一時間送達

點選進入—>【頂會/頂刊】投稿交流群

新增微訊號：CVer2233，小助手會拉你進群！

掃描下方二維碼，加入CVer學術星球！可以獲得最新頂會/頂刊上的論文idea和CV從入門到精通資料，及最前沿應用！發論文/搞科研/漲薪，強烈推薦！

背景介紹

模型架構

訓練資料

訓練流程

推理擴充套件

實驗評估

何愷明在MIT授課的課件PPT下載

CVPR 2025 論文和程式碼下載

ECCV 2024 論文和程式碼下載

相關文章

Long-VITA：突破百萬Tokens限制！開源多模態大模型新標杆

撞車DeepSeekNSA！Kimi楊植麟署名的新注意力架構MoBA開源

頂刊TPAMI2025！紅外與可見光影像融合：最新綜述

谷歌新架構終結Transformer，長序列處理王者誕生？清華姚班校友新作Titans

多模態，殺瘋了！

CVPR2025滿分論文！重建vs生成：解決擴散模型中的最佳化難題

重磅！DeepSeekR1方法成功遷移到視覺領域，多模態迎來新突破！

“是我創造了第一個LLM”！Kaggle前首席科學家一句話引發AI學術圈考古行動

頂刊TPAMI2025！北大&位元組等提出IDM：可逆擴散模型賦能影像重建

直逼DeepSeek-R1，碾壓李飛飛s1！UC伯克利等開源全新SOTA推理模型

AI/CV重磅乾貨，第一時間送達 點選進入—>【頂會/頂刊】投稿交流群

新增微訊號：CVer2233，小助手會拉你進群！ 掃描下方二維碼，加入CVer學術星球！可以獲得最新頂會/頂刊上的論文idea和CV從入門到精通資料，及最前沿應用！發論文/搞科研/漲薪，強烈推薦！

背景介紹

模型架構

訓練資料

訓練流程

推理擴充套件

實驗評估

何愷明在MIT授課的課件PPT下載

CVPR 2025 論文和程式碼下載

ECCV 2024 論文和程式碼下載

相關文章

AI/CV重磅乾貨，第一時間送達

點選進入—>【頂會/頂刊】投稿交流群

新增微訊號：CVer2233，小助手會拉你進群！

掃描下方二維碼，加入CVer學術星球！可以獲得最新頂會/頂刊上的論文idea和CV從入門到精通資料，及最前沿應用！發論文/搞科研/漲薪，強烈推薦！