視覺LLM開源的瘋狂月!阿里Qwen、騰訊混元、谷歌等連續開源重磅模型

2024 年 12 月真的太瘋狂了,首先是閉源的視覺模型接連重磅釋出——
然後,筆者發現不僅閉源模型大爆發,就連開源的視覺 LLM 這個月也是扎堆爆發了。
根據筆者統計,12 月份,已經有來自阿里、騰訊混元、谷歌、Meta 等大廠的 5 個重磅視覺模型開源釋出了:
“大模型能夠透過影像識別樂譜和人類情緒了”。
“利用模型,直接可以生成高畫質影片,而且是還會帶配音的!”。
“模型能夠處理與理解的影片達到 20 分鐘以上了”。
“可以採用參考影像,更精確地控制圖生成使用者想要的影像和影片了”。
劃重點,它們都對你開源了!這是不是"潑天富貴"齊刷刷地來了!
現在將近期主要釋出的開源大模型列舉如下:
下面讓我們一起踏上這場視覺-語言模型的奇妙之旅吧!別急,跟著我的節奏,慢慢揭開這些神奇模型的神秘面紗。對於上述模型的進一步詳細瞭解,不要著急,請根據小編的節奏慢慢來了解吧。

一、PaliGemma 2

PaliGemma 2 這個讓人興奮的新一代視覺語言模型!它不僅是 PaliGemma 家族的新成員,更是 Gemma  2 模型能力的延伸。這個模型家族的靈感來源於 PaLI-3,並且基於開放元件,比如 SigLIP 視覺模型和 Gemma 2 語言模型。PaliGemma  2 能夠接收影像和文字作為輸入,並生成文字作為輸出,支援多種語言。它為一系列視覺語言任務提供了行業領先的微調效能,比如影像和短影片描述、視覺問題回答、文字閱讀、目標檢測和目標分割。
論文 :
https://arxiv.org/pdf/2412.03555
huggingface 模型庫https://huggingface.co/collections/google/paligemma-2
🍀模型亮點
  • PaliGemma 2 升級了語言模型元件,提供 3 種大小(3B、10B、28B)的引數版本和 3 種解析度為 224、448 和 896 版本。
  • 採用與 PaliGemma 相同的 3 階段訓練方法,PaliGemma 2 在 30 多個任務上表現優於 PaliGemma,尤其在較大模型尺寸上有顯著提升。
  • 探索新任務,包括文字檢測與識別、表格結構識別、分子結構識別、光學樂譜識別、長文字生成、空間推理和放射學報告生成,PaliGemma 2 在許多工上取得了最先進的結果。
  • 對 PaliGemma 2 的低精度版本進行基準測試,適用於 CPU 上的裝置部署。
🍀模型結構:
PaliGemma 2 是對原有 PaliGemma 的升級,在 Gemma 2 系列大語言模型基礎上,結合了 SigLIP-So400m 視覺編碼器,以提升視覺-語言模型(VLM)的效能。
上圖所示, PaliGemma 2 的結構主要包括 SigLIP-So400m 視覺編碼器和 Gemma 2 語言模型。
  • SigLIP-So400m 視覺編碼器:該編碼器負責將影像資訊轉化成特徵表示。這些視覺表示隨後與文字提示結合,輸入到 Gemma 2 語言模型中 ;SigLIP-400m 影像編 碼 器 能夠處 理 224、448 和 896 畫素圖 像 ,分別產生 256、1024 和 4096 個 token。
  • Gemma 2 語言模型:PaliGemma 2 基於 Gemma 2 系列的語言模型,涵蓋從 2B 到 27B 的不同規模的模型。影像 token 透過線性投影之後,與輸入文字連線起來該模型透過自迴歸取樣生成預測。
🍀解析度分階段訓練:
該模型在 224px²、448px² 和 896px² 三種解析度下進行多階段訓練,增強了模型的知識廣度和遷移能力。
  • 階段 1:使用 10 億個多模態任務樣本,影像解析度 224px², 聯合訓練 SigLIP-So400m 和 Gemma 2;
  • 階段 2:先在 448px² 畫素解析度下對 5000 萬個樣本進行訓練,再在 896px² 畫素解析度下訓練 1000 萬個樣本。此階段主要在重點任務上調權重,增加輸出序列的長度,以促進長視覺文字序列的 OCR 等任務的學習。
  • 階段 3:對階段 1 或 2 的 checkpoint 進行目標任務微調,涵蓋多個學術基準和新應用(文件任務、長標題生成、醫學影像理解)
🍀遷移任務擴充套件
PaliGemma 2 擴充套件了遷移任務的數量和範圍,包括:
  • 表格結構識別
  • 分子結構識別
  • 樂譜識別
  • 長文字細粒度描述的生成
  • 視覺空間推理
  • 放射影像報告的生成

二、InternVL 2_5

OpenGVLab 釋出 InternVL2.5,這是一個先進的多模態大型語言模型系列,引數覆蓋從 1B 到 78B。其中這周發出的 InternVL2_5-78B 是首個在 MMMU 基準測試上超過 70% 準確率的開源多模態大型語言模型,匹配了像 GPT-4o 這樣的領先閉源商業模型的效能。
Huggingface 模型庫:
https://huggingface.co/OpenGVLab/InternVL2_5-78B
論文:
https://arxiv.org/abs/2412.05271v1
Code:
https://github.com/OpenGVLab/InternVLModel
Demo:
https://huggingface.co/sp
主要貢獻點
  • InternVL 2.5 為多模態人工智慧系統的開發和應用提供了一個強大的工具,並鼓勵在該領域的進一步研究。
  • 研究多模態語言模型中的不同元件(如視覺編碼器、語言模型、資料集大小和推理時間)對效能的影響。
  • 在多學科推理、文件理解、多影像/影片理解、現實世界理解、多模態幻覺檢測、視覺定位、多語言能力和純語言處理方面可與 gpt-4o 和 Claude-3.5-Sonnet 等領先的商業模型相媲美。
  • 這是第一個在 MMMU 驗證集上超過 70% 的開源多模態語言模型,具有強大的擴充套件潛力。
模型結構及訓練策略
上圖所示,InternVL 2.5 保留了與其前身 InternVL 1.5 和 2.0 相同的模型架構,遵循“ViT MLP LLM”正規化。在這個新版本中,使用隨機初始化的 MLP Projector, 將新訓練的 InternViT 與各種預訓練的 LLMs(包括 InternLM  2.5 和 Qwen 2.5)整合在一起。
與前一版本相同的是使用了畫素解卷積操作,將視覺 token 的數量減少到原始數量的 1/4。此外,還採用了與 InternVL  1.5 類似的動態解析度策略,將影像分割成 448×448 畫素分塊。InternVL 2.0 開始,支援對多張影像和影片資料的處理。InternVL 2.5 採用的訓練策略包括:
  • 動態處理高解析度多模態資料:擴充套件了動態高解析度訓練方法,增強了其處理多影像和影片資料集的能力。
  • 單模型訓練步驟:包括 MLP 預熱、ViT 增量學習和完整的模型指令調優。
  • 漸進式擴充套件策略:首先使用較小的 LLM(例如 20B)進行訓練,以最佳化基礎視覺能力和跨模態對齊,然後再將視覺編碼器轉移到較大的 LLMs(例如 72B)。
  • 訓練增強方式:隨機 JPEG 壓縮和損失重計。

三、Qwen2-VL

Qwen2 VL 這是我們 Qwen VL 型號的最新迭代,代表了近一年的創新。這周新發布的是 Qwen2-VL-72B, 是一個沒有指令調優的預訓練模型。
paper:
https://arxiv.org/pdf/2409.12191
Huggineface 庫:
https://huggingface.co/Qwen/Qwen2-VL-72B
Code:
https://github.com/QwenLM/Qwen2-VL
🌺 模型亮點:
  • 對各種解析度和比率的影像的理解:Qwen2 VL 在視覺理解基準上達到了最先進的效能,包括 MathVista、DocVQA、RealWorldQA、MTVQA 等。
  • 理解 20 分鐘以上的影片:Qwen2 VL 可以理解超過 20 分鐘的影片,用於高質量的影片問答、對話、內容創作等。
  • 可以操作手機、機器人等:Qwen2 VL 具有複雜的推理和決策能力,可以與手機、機器人等裝置整合,根據視覺環境和文字指令進行自動操作。
  • 多語言支援:為了服務全球使用者,除了英語和中文,Qwen2 VL 現在還支援理解影像中不同語言的文字,包括大多數歐洲語言、日語、韓語、阿拉伯語、越南語等。
🌺 模型架構更新
  • 動態解析度:與以前不同,Qwen2 VL 可以處理任意影像解析度,將它們對映到動態數量的視覺 token 中,提供更人性化的視覺處理體驗。
  • 多模態旋轉位置嵌入(M-ROPE):將位置嵌入分解為代表時間和空間(高度和寬度)資訊的三個部分,以捕獲 1D 文字、2D 視覺和 3D 影片位置資訊,增強其多模態處理能力。

四、HunyuanVideo

HunyuanVideo 是騰訊新推出的、可以免費使用的文字生成影片的模型,它生成影片的能力跟那些頂尖的、不公開的模型一樣厲害,甚至有時候做得更好。這款模型擁有 130 億引數,能進行自然轉場和鏡頭切換。其影片生成效果在遠景和動作流暢度上表現出色,尤其在人文場景、人造場所、人物及多主體組合方面有明顯優勢,同時在物品和動植物方面也表現不錯。目前版本解析度為 720P,未來可能推出 1080P、4K、8K 版本,並考慮增加影像生成影片和影片自動配樂功能。
paper:
https://arxiv.org/pdf/2412.03603
code:
https://github.com/Tencent/HunyuanVideo
🔥模型的貢獻點:
開源性的模型:HunyuanVideo 是一個新穎的開源影片基礎模型,其效能與領先的閉源模型相當,甚至在某些方面超越了它們。有助於縮小行業與公眾社群之間在影片生成能力上的差距。
綜合框架:該模型整合了資料策劃、先進的架構設計、漸進式模型擴充套件和訓練,旨在促進大規模模型的訓練和推理。
大規模引數:HunyuanVideo 訓練了一個超過 130 億引數的影片生成模型,使其成為所有開源模型中最大的。
高視覺質量和動態表現:透過一系列針對性的設計,HunyuanVideo 確保了生成影片的高視覺質量、運動動態、文字與影片的對齊以及先進的拍攝技術。
影片-影像聯合訓練:透過影片-影像聯合訓練策略,HunyuanVideo 有效利用了影像資料,增強了模型的泛化能力,並防止了因影片和影像資料分佈差異而導致的災難性遺忘。
🔥HunyuanVideo 的架構
HunyuanVideo 就像是一個魔法盒子,它用一種特別的方法來製作影片。這個魔法盒子裡有一個叫做 3D VAE 的壓縮器,它能把影片中的時間和空間資訊壓縮成更小的資料。當有人給這個盒子一個文字提示,比如“一隻小狗在草地上奔跑”,這個提示會透過一個大語言模型轉換成一種特殊的訊號,然後告訴這個魔法盒子要做什麼。
接下來,這個魔法盒子會用這個訊號作為指導,從一團混亂的噪聲中一步步清理出秩序,最終得到一個代表影片的神秘程式碼。這個神秘程式碼就像是影片的藍圖,但是它還在一個隱藏的空間裡,我們看不見。
最後,當需要把影片做出來給大家看的時候,魔法盒子會用一個 3D VAE 解碼器,把那個隱藏的神秘程式碼轉換成一個真正的影片,這樣大家就可以看到小狗在草地上奔跑的畫面了。簡單來說,HunyuanVideo 就是一個能夠根據文字提示製作影片的神奇工具。
🔥模型的特點
🎉 統一的圖影片生成架構
HunyuanVideo 採用了 Transformer 和 Full Attention 的設計用於影片生成。具體來說,使用了一個“雙流到單流”的混合模型用於影片生成。在雙流階段,影片和文字 token 透過並行的 Transformer Block 獨立處理,使得每個模態可以學習適合自己的調製機制而不會相互干擾。在單流階段,將影片和文字 token 連線起來並將它們輸入到後續的 Transformer Block 中進行有效的多模態資訊融合。這種設計捕捉了視覺和語義資訊之間的複雜互動,增強了整體模型效能。
🎉MLLM 文字編碼器
過去的影片生成模型通常使用預訓練的 CLIP 和 T5-XXL 作為文字編碼器,其中 CLIP 使用 Transformer Encoder,T5 使用 Encoder-Decoder 結構。HunyuanVideo 使用了一個預訓練的 Multimodal Large Language Model (MLLM) 作為文字編碼器,它具有以下優勢:
  • 與 T5 相比,MLLM 基於圖文資料指令微調後在特徵空間中具有更好的影像-文字對齊能力,這減輕了擴散模型中的圖文對齊的難度;
  • 與 CLIP 相比,MLLM 在影像的細節描述和複雜推理方面表現出更強的能力;
  • MLLM 可以透過遵循系統指令實現零樣本生成,幫助文字特徵更多地關注關鍵資訊。
由於 MLLM 是基於 Causal Attention 的,而 T5-XXL 使用了 Bidirectional Attention 為擴散模型提供更好的文字引導。因此,引入了一個額外的 token 最佳化器來增強文字特徵。
🎉3D VAE
該模型中的 VAE 採用了 CausalConv3D 作為 HunyuanVideo 的編碼器和解碼器,用於壓縮影片的時間維度和空間維度,其中時間維度壓縮 4 倍,空間維度壓縮 8 倍,壓縮為 16 channels。這樣可以顯著減少後續 Transformer 模型的 token 數量,使得能夠在原始解析度和幀率下訓練影片生成模型。
🎉Prompt 改寫
為了解決使用者輸入文字提示的多樣性和不一致性的困難,透過微調 Hunyuan-Large model 模型作為 prompt 改寫模型,將使用者輸入的提示詞改寫為更適合模型偏好的寫法。
提供了兩個改寫模式:正常模式和導演模式。正常模式旨在增強影片生成模型對使用者意圖的理解,從而更準確地解釋提供的指令。導演模式增強了諸如構圖、光照和攝像機移動等方面的描述,傾向於生成視覺質量更高的影片。

五、OminiControl

OminiControl 是一種高效且通用的框架,旨在將參考影像整合到預訓練的 Diffusion Transformer(DiT)模型中。其核心思想是透過引數重用機制,使 DiT 利用自身作為強大的基礎架構來編碼參考影像,並透過靈活的多模態注意力機制進行處理。這種方法僅需增加約 0.1% 的額外引數,就能有效整合參考影像,並且能夠統一處理多種有參考影像的生成任務。
Paper:
https://arxiv.org/html/2411.15098v2
Code

https://github.com/Yuanshi9815/OminiControl
Demo:
https://huggingface.co/spaces/Yuanshi/OminiControl
🌞主要特點
  • 引數重用機制:透過引數重用機制,僅增加約 0.1% 的額外引數,有效整合影像條件,並且能夠統一處理多種影像條件任務。
  • 多工處理能力:該框架能夠統一處理多種影像條件任務,包括基於主題的生成和空間對齊條件(如邊緣、深度等)。
  • 自生成訓練資料:透過使用 DiT 自身生成的影像進行訓練,使 OminiControl 在主題驅動生成方面表現出色。
💐 應用舉例
  • 主題驅動的生成
  • 空間對齊
上圖展示了 OminiControl 在兩種生成任務上的結果:主題驅動的生成任務和空間對齊任務。上方的部分展示了在主題驅動生成任務中,模型如何根據輸入的文字描述和參考影像生成新的影像,而下方則展示了在空間對齊任務中,模型如何根據特定的條件(如邊緣圖、深度圖等)生成與之對應的影像。
紅框內的小影像表示了參考影像,這些參考在生成過程中起著至關重要的作用。它們為模型提供了必要的上下文資訊,使得生成的影像能夠更好地符合使用者的期望。例如,在主題驅動生成任務中,輸入可能是一個特定的物件影像和相關的文字描述,模型需要根據這些資訊生成新的影像,同時保持物件的特徵和風格。在空間對齊任務中,輸入參考圖如邊緣圖或深度圖則幫助模型理解影像的結構和內容,從而生成更為準確和一致的影像。
結束語
本月真是視覺 LLM 開源大爆炸的一個月。期待 2025 年,在視覺開源模型和閉源模型的加持下,多模態 AI 應用全面爆發!

相關文章