最近視覺模型真的卷瘋了…
前有《智譜 GLM-4V-Flash API 釋出即免費》、《Gemini2.0 即時全模態炸場》、《GPT-4o 視訊通話對波 Gemini》、《無問芯穹全模態端側模型開源》,《Kimi 上線了視覺思考,並和海螺、豆包打了一架》…
如今,作為國內大模型領域的黑馬,DeepSeek 也於幾天前宣佈推出了 DeepSeek-VL2,並且繼續保持開源路線,並在論文中公開了大量技術細節。
DeepSeek-2 在問世之際便備受好評。其在效能不輸於 Qwen1.5 和 LLaMA3 的同時,大幅降低了模型引數和訓練成本,引發了國內 AI 屆的降價狂潮,DeepSeek 也被戲稱為 AI 屆的“拼多多”。
廢話不多說,來一起康康!
論文標題:
DeepSeek-VL2: Mixture-of-Experts Vision-Language Models for Advanced Multimodal Understanding
DeepSeek-VL2: Mixture-of-Experts Vision-Language Models for Advanced Multimodal Understanding
論文連結:
https://github.com/deepseek-ai/DeepSeek-VL2/blob/main/DeepSeek_VL2_paper.pdf
https://github.com/deepseek-ai/DeepSeek-VL2/blob/main/DeepSeek_VL2_paper.pdf
程式碼連結:
https://github.com/deepseek-ai/DeepSeek-VL2
https://github.com/deepseek-ai/DeepSeek-VL2

家族介紹
DeepSeek-VL2 系列共包括 3 個模型:DeepSeek-VL2-Tiny、DeepSeek-VL2-Small 和 DeepSeek-VL2,分別擁有 1.0B、2.8B 和 4.5B 啟用引數。DeepSeek-VL2 在引數量僅有約一半的情況下,超越了現有的視覺語言模型 Qwen2-VL 和 InternVL2,實現了競爭性或最先進的效能。

技術提升
相比於初代 DeepSeek-VL,DeepSeek-VL2 主要在以下三點做了改進:
(1)透過動態的高解析度視覺編碼策略,增強了視覺理解
DeepSeek-VL2 改進了 DeepSeek-VL 的混合視覺編碼器,引入了一種動態平鋪視覺編碼策略,可以有效處理不同縱橫比的高解析度影像。相比於 DeepSeek-VL 只能在兩個固定解析度(384×384 和 1024×1024)下從影像中提取特徵,DeepSeek-VL2 避免了固定大小編碼器的限制,在視覺定位、文件/表格/圖表分析和詳細特徵提取等需要超高解析度的任務中表現出色。

透過動態切片平鋪方法,DeepSeek-VL2 系統將高解析度輸入分割成區域性平鋪,透過共享的視覺變換器處理每個平鋪,並在語言模型中無縫整合提取的特徵。這種設計保留了視覺變換器的區域性注意力優勢,實現了豐富的特徵提取,避免了增加影像解析度相關的二次計算擴充套件,大幅提升計算效率。
(2)透過改進 MOE 機制,提升訓練和推理效率
DeepSeek-VL2 語言模型基於自研模型 DeepSeekMoE。MoE(Mixture-of-Experts)是一種在擴大模型引數時管理計算成本的的架構。然而傳統的 MoE 架構需要儘量保證每個專家獲得不重疊且集中的知識,即 top-K 問題。為此,DeepSeekMoE 提出涉及四個主要策略:
1.細粒度專家劃分
在專家數量受限的情況下,分配給特定專家的 token 更有可能涵蓋多種型別的知識。如果每個 token 可以被分配到更多的專家,那麼不同型別的知識就有潛力被分解並在不同的專家中分別學習。在這種情況下,每個專家仍然可以保持高水平的專家專業化,有助於在專家之間實現更集中的知識分佈。
DeepSeekMoE 透過將 FFN(前饋網路)中間隱藏維度減少到原來的 1/m 倍,將每個專家 FFN 分割成 m 個更小的專家。由於每個專家變得更小,相應地增加啟用專家的數量到 m 倍,以保持相同的計算成本,由此更靈活地組合啟用的專家。
2.共享專家隔離
使用傳統的路由策略,分配給不同專家的 token 可能需要一些共同的知識或資訊。因此,多個專家可能會在各自的引數中匯聚以獲取共享知識,從而導致專家引數的冗餘。然而,如果有專門的共享專家致力於捕捉和整合不同上下文中的共同知識,其他路由專家之間的引數冗餘將會減少。這種冗餘的減少將有助於構建一個引數效率更高、專家更專業化的模型。

3.動態損失均衡
在 MoE 的 top-K 路由決策之前,動態損失均衡(Loss-Free Balancing)會首先對原始路由分數設定專家級別的偏置,以產生有偏的路由分數,這些分數決定了每個訓練 token 的實際路由目標。這些專家級別的偏置會根據最近訓練 token 上觀察到的專家負載進行更新,其中負載重的專家的偏置會被降低,而負載輕的專家的偏置會被提升。透過這種動態更新策略,動態損失均衡確保有偏的路由分數能得到平衡的路由結果。與輔助損失控制的負載平衡策略相比,Loss-Free Balancing 不引入會干擾主要語言建模目標的預設梯度,因此其訓練過程更加無噪聲且友好。

4.多頭潛在注意力機制
對於語言元件,DeepSeekMoE 模型採用了多頭潛在注意力(Multi-head Latent Attention,MLA)機制。MLA 透過將 Key-Value 快取壓縮成潛在向量,顯著降低了計算成本,從而實現了更快的推理和更高的吞吐量。

(3)資料擴充套件與訓練微調
DeepSeek-VL2 極大地增強了視覺-語言訓練資料的質量、數量和多樣性。其比一代 DeepSeek-VL 多一倍優質訓練資料,並且引入梗圖理解、視覺定位、視覺故事生成等新能力。全面的資料集使得模型在廣泛的任務上能夠更好地泛化和表現。

在訓練微調階段,DeepSeek-VL2 透過監督式微調增強預訓練模型的指令遵循和對話能力。使用 DeepSeek 的內部視覺-語言 SFT(Supervised Fine-Tuning) 資料,在只監督答案和特殊 token 的情況下最佳化所有引數,同時掩蔽系統和使用者提示。同時,DeepSeek-VL2 將多模態資料與純文字對話資料結合起來,加強對話理解,確保了在密集影像描述、視覺轉程式碼等視覺-語言任務中的強大效能。
結果展示
DeepSeek-VL2 分別在 OCR、多模態對話、視覺定位三個領域進行了測試。與 InternVL2、DeepSeek-VL、Qwen2-VL 等 VLM 模型相比中,DeepSeek-VL2 透過 MoE 架構在啟用引數更少的情況下實現了相似或更好的效能。

通用視覺問題回答
得益於新視覺-語言預訓練資料集和多樣化的 SFT 資料,DeepSeek-VL2 在通用視覺問題回答方面展現出明顯進步。DeepSeek-VL2 模型在密集影像描述方面表現出色,能夠識別常見的地標、一般視覺知識和中英文的豐富文字。

此外,DeepSeek-VL2 在圖表理解方面也表現良好,能夠準確識別屬性。在中文領域,DeepSeek-VL2 能夠描述正確的背景並用有意義的文化背景解釋幽默。

多影像對話
DeepSeek-VL2 能夠分析多個影像之間的關聯和差異,同時透過整合多個影像的內容進行簡單的推理。它能夠根據幾張影像編寫一個創意故事,也可以可以根據食材的影像編制一道菜譜。

視覺定位
視覺定位是 DeepSeek-VL2 新增的能力。有趣的是,儘管訓練集中的大多數影像來自自然場景,並且指代表達式是物體類別名稱或對物體的具體描述,DeepSeek-VL2 模型能夠泛化到其他場景(如模因和動漫),並且有能力識別某些名人和抽象概念。DeepSeek-VL2 還具有上下文視覺定位能力。給定第一張影像,其中物體透過視覺提示被引用,模型能夠在第二張影像中定位到同一類別的物體。

此外,DeepSeek-VL2 模型展現出了湧現能力。給定一張影像和文字描述,模型能夠結合影像和文字中的資訊來識別第二張影像中對應的物體。有了特殊標記 <|grounding|> ,DeepSeek-VL2 可以發揮其定位對話的能力,其中它能夠在其回應中準確地引用關鍵物體的位置,這使得模型能夠更好地與現實世界互動,從而在體現 AI 和計算機/手機代理等領域創造更多機會,發揮更大的作用。

全文總結
DeepSeek-VL2 作為一個基於 MoE 的視覺語言模型,其總共有 3B、16B 和 27B 引數規模的版本,對應的啟用引數為 1.0B、2.8B 和 4.5B,可以分別部署在具有 10GB、40GB 和 80GB 記憶體的單個 GPU 上。DeepSeek-VL2 改進了 DeepSeek-VL 的 MoE 基礎模型,並且採用了動態平鋪視覺編碼策略,有效地處理各種縱橫比的高解析度影像。
作為國內大模型屆的新勢力,DeepSeek 背後的勢力幻方量化是國內最大的量化公司之一。幻方量化擁有超過 1 萬枚 A100GPU,且於 2019 年就開始自研深度學習訓練平臺,2023 年 5 月成立 Deep Seek 作為獨立訓練大模型公司。關於幻方的成長奧秘,幻方內部將之歸結為“選用了一批沒有經驗但有潛能的人,以及有一個可以讓創新發生的組織架構和企業文化”,他們認為這也將是大模型創業公司可以與大廠競爭的秘密所在。
Deep Seek 的目標,不只是復刻 ChatGPT,還要去研究和揭秘通用人工智慧的更多未知之謎。


