達摩院開源VideoLLaMA3:僅7B大小,影片理解拿下SOTA|線上可玩

達摩院 投稿

量子位 | 公眾號 QbitAI
7B大小的影片理解模型中的新SOTA,來了!
它就是由達摩院出品的Video LLaMA 3,以影像為中心構建的新一代多模態影片-語言模型。
在通用影片理解、時間推理和長影片理解三個核心維度進行評估的過程中,VideoLLaMA 3均取得優異成績,超越多數基線模型。
不僅如此,適用於端側的2B大小的Video LLaMA 3,在影像理解上的表現也是較為出色。
在涵蓋文件 / 圖表 / 場景文字理解、數學推理、多影像理解和常識問答等多個維度的基準測試,如在InfoVQA中超越之前最好成績,在MathVista數學推理任務上優勢明顯。

VideoLLaMA 3以圖片為中心的設計理念貫穿於整個模型架構和訓練過程。
透過高質量的圖片文字資料為影片理解打下堅實基礎,僅使用3M影片文字資料,實現全面超越同參數量開源模型的影片理解能力。

線上可玩

目前,VideoLLaMA 3已經在HuggingFace上提供了影像、影片理解的demo。
例如我們給一張《蒙娜麗莎的微笑》,並向VideoLLaMA 3提問:
Discuss the historical impact and the significance of this painting in the art world.

討論這幅畫在藝術界的歷史影響和意義。
VideoLLaMA 3的回答是這樣的:
《蒙娜麗莎》不僅是世界上最著名的畫作之一,也是藝術史上的重要作品。它創作於文藝復興時期,體現了該時期對人文主義的關注和古典學習的復興。列奧納多·達·芬奇的創新技術,如在色彩和色調之間進行柔和過渡的模糊手法,為這幅畫的神秘品質做出了貢獻。幾個世紀以來,《蒙娜麗莎》一直是一個迷人的主題,激發了無數的解釋和分析。它已成為西方文化的標誌,象徵著藝術成就的頂峰,象徵著視覺藝術對跨越時間和文化的觀眾的持久魅力。
再來看下影片理解的demo,我們的問題是:
What is unusual in the video?

影片中有什麼不尋常之處?
對此,VideoLLaMA 3表示:
這段影片的不同尋常之處在於,它展示了熊這種典型的野生動物,正在進行一種類似人類的活動,比如在桌子上吃壽司。
VideoLLaMA 3回答可謂是非常簡約且精準了。
並且這個demo在HuggingFace上的操作也是極其簡單,只需上傳圖片或影片,再提出你的問題即可。

怎麼做到的?

VideoLLaMA 3的關鍵,在於它是一種以影像為中心的訓練正規化。
這種正規化主要包含四個關鍵內容:
  1. 視覺編碼器適配:讓視覺編碼器能處理動態解析度影像,用不同場景影像提升其效能,使其能捕捉精細視覺細節。
  2. 視覺語言對齊:用豐富影像文字資料為多模態理解打基礎,利用多種資料增強空間推理能力,同時保留模型語言能力。
  3. 多工微調:用影像文字問答資料和影片字幕資料微調模型,提升其遵循自然語言指令和多模態理解能力,為影片理解做準備。
  4. 影片微調:增強模型影片理解和問答能力,訓練資料包含多種影片及影像、文字資料。
從框架設計來看,主要包含兩大內容。
首先是任意解析度視覺標記化(AVT)
這種方法突破了傳統固定解析度限制,採用2D – RoPE替換絕對位置嵌入,讓視覺編碼器能處理不同解析度影像和影片,保留更多細節。
其次是差分幀剪枝器(DiffFP)
針對影片資料冗餘問題,透過比較相鄰幀畫素空間的1-範數距離,修剪冗餘影片標記,提高影片處理效率,減少計算需求。
除了框架之外,高質量資料也對VideoLLaMA 3的效能起到了關鍵作用。
首先是高質量影像重新標註資料集VL3Syn7M的構建
為給 VideoLLaMA 3 提供高質量訓練資料,團隊構建了包含700萬影像-字幕對的VL3Syn7M資料集。
  • Aspect Ratio Filtering(長寬比過濾):影像長寬比可能影響模型特徵提取。像一些長寬比極端的影像,過寬或過長,會使模型在處理時產生偏差。透過過濾,確保資料集中影像長寬比處於典型範圍,為後續準確的特徵提取奠定基礎。
  • Aesthetic Score Filtering(美學評分過濾):利用美學評分模型評估影像視覺質量,捨棄低評分影像。這一步能去除視覺效果差、構圖不佳的影像,減少噪聲干擾,保證模型學習到的影像內容和描述質量更高,進而提升模型生成優質描述的能力。
  • Text-Image Similarity Calculation with Coarse Captioning(帶粗略字幕的文字-影像相似度計算):先用 BLIP2 模型為影像生成初始字幕,再借助CLIP模型計算文字 – 影像相似度,剔除相似度低的影像。這一操作確保剩餘影像內容與描述緊密相關,使模型學習到的圖文對更具可解釋性和代表性。
  • Visual Feature Clustering(視覺特徵聚類):運用CLIP視覺模型提取影像視覺特徵,透過k-最近鄰(KNN)演算法聚類,從每個聚類中心選取固定數量影像。這樣既保證資料集多樣性,又維持語義類別的平衡分佈,讓模型接觸到各類視覺內容,增強其泛化能力。
  • Image Re – caption(影像重新標註):對過濾和聚類後的影像重新標註。簡短字幕由InternVL2-8B生成,詳細字幕則由InternVL2-26B完成。不同階段訓練使用不同型別字幕,滿足模型多樣化學習需求。
其次是各訓練階段的資料混合
在VideoLLaMA 3的不同訓練階段,資料混合策略為模型提供了豐富多樣的學習場景。此外,團隊使用統一的資料組織形式以統一各個階段的訓練。
  • Vision Encoder Adaptation(視覺編碼器適配):此階段旨在增強模型對多樣場景的理解和特徵提取能力,訓練資料融合場景影像、文件識別影像和少量場景文字影像。
場景影像來源廣泛,像VL3-Syn7M-short等,其中Object365和SA-1B資料集的引入增加了資料多樣性;場景文字影像來自BLIP3-OCR,其文字內容和簡短重新標註都作為字幕;文件影像選取自pdfa-eng-wds和idl-wds,文件文字內容按閱讀順序作為影像字幕。
Vision-Language Alignment(視覺語言對齊):該階段使用高質量資料微調模型,涵蓋場景影像、場景文字影像、文件、圖表、細粒度資料以及大量高質量純文字資料。
場景影像整合多個數據集並重新標註;場景文字影像包含多種中英文資料集,並對LAION資料集中影像篩選形成 Laion-OCR資料集,其字幕包含文字內容和文字位置的邊界框註釋。
文件影像除常見資料集外,還加入手寫和複雜文件資料集;圖表資料雖量少,但來自Chart-to-Text 資料集;細粒度資料包含區域字幕資料和帶框字幕資料,增強模型對影像細節的理解。
Multi-task Fine-tuning(多工微調):用指令跟隨資料進行指令微調,資料混合覆蓋多種任務。
影像資料分為一般、文件、圖表 / 圖形、OCR、定位和多影像六類,每類針對特定視覺理解方面。同時包含大量純文字資料,提升模型處理涉及視覺和文字輸入的指令跟隨任務的能力。
影片資料則結合常用高質量影片字幕資料集、少量問答資料,以及VideoLLaMA2的內部資料和內部時間定位資料,增強模型影片理解能力。
Video – centric Fine – tuning(影片微調):此階段聚焦提升模型影片理解能力,收集多個開源資料集中帶註釋的影片資料,還透過合成特定方面的密集字幕和問答對擴充套件資料規模。
此外,引入流媒體影片理解和時間定位特徵,同時使用一定量的純影像和純文字資料,緩解模型災難性遺忘問題。
論文和demo地址放在下面了,感興趣的小夥伴可以去體驗嘍~
論文地址:https://arxiv.org/abs/2501.13106
GitHub專案地址:https://github.com/DAMO-NLP-SG/VideoLLaMA3/tree/main?tab=readme-ov-file
影像理解demo:https://huggingface.co/spaces/lixin4ever/VideoLLaMA3-Image
影片理解demo:https://huggingface.co/spaces/lixin4ever/VideoLLaMA3
HuggingFace地址:https://huggingface.co/collections/DAMO-NLP-SG/videollama3-678cdda9281a0e32fe79af15
—  —
投稿請工作日發郵件到:
標題註明【投稿】,告訴我們:
你是誰,從哪來,投稿內容
附上論文/專案主頁連結,以及聯絡方式哦
我們會(儘量)及時回覆你
一鍵關注 👇 點亮星標
科技前沿進展每日見
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!

相關文章