Llama模仿Diffusion多模態漲分30%!不卷資料不燒卡,只需共享注意力分佈

靳晨 投稿

量子位 | 公眾號 QbitAI
這次不是卷引數、卷算力,而是卷“跨界學習”——
讓Stable Diffusion當老師,教多模態大模型(如Llama-3.2)如何“看圖說話”!
效能直接飆升30%。
中國研究員聯合DeepMind團隊的最新研究《Lavender: Diffusion Instruction Tuning》,透過簡單的“注意力對齊”,僅需1天訓練、2.5%常規資料量,即可讓Llama-3.2等模型在多模態問答任務中效能飆升30%,甚至能防“偏科”(分佈外醫學任務提升68%)。
且程式碼、模型、訓練資料將全部開源!
下面具體來看。

模仿Stable Diffusion的交叉注意力機制

當前遇到的問題是:
傳統多模態大模型(VLM)的“視覺課”總不及格?資料不夠、過擬合、細節抓不準……像極了考前突擊失敗的學渣。
對此,團隊提出了新的解決方案:
讓Stable Diffusion這位“影像生成課代表”,直接共享它的“學霸筆記”——注意力分佈
展開來說,其跨界教學可分為三步走:
Step1:拜師學藝。VLM(如Llama-3.2)向Stable Diffusion學習如何“看圖”,透過輕量級對齊網路(Aligner)模仿其交叉注意力機制。
Step2:高效補課:僅用13萬樣本(常規資料量的2.5%)、8塊GPU訓練1天,不卷資料不燒卡。
Step3:防偏科秘籍。引入LoRA技術“輕裝上陣”,保留原模型能力的同時,專攻薄弱環節。
然後來看下具體效果。
從論文曬出的成績單來看,在16項視覺-語言任務中,Lavender調教後的Llama-3.2,效能大有提升——
在預算有限的小模型賽道上,超過SOTA(當前最優模型)50%。
在超大模型圈子裡,Lavender調教的Llama-3.2-11B居然能和那些“巨無霸”SOTA打得有來有回。
要知道,這些對手的體量一般在它的10倍以上。
更令人驚訝的是,Lavender連醫學資料都沒“補習”,就直接讓Llama-3.2-11B在WorldMedQA這個“超綱考試”中成績暴漲68%。
具體分數見圖表(柱狀圖已標出)

程式碼/模型/訓練資料全開源

小結一下,新研究主要技術亮點如下:
1、注意力對齊:Stable Diffusion的“獨家教案”
傳統VLM的注意力機制像“散光患者”,而Stable Diffusion的注意力分佈則是“高畫質顯微鏡”。Lavender透過MSE損失函式,讓VLM學會Stable Diffusion的“聚焦技巧”,直接提升視覺理解精度。
2. 資料不夠?知識蒸餾來湊
無需海量標註資料,直接從影像生成模型中蒸餾視覺知識,堪稱“小樣本學習神器”。正如論文團隊調侃:“這大概就是AI界的‘名師一對一補習班’。”
3. 防過擬合Buff:LoRA+注意力約束
透過低秩適配(LoRA)鎖定核心引數,避免模型“死記硬背”。實驗顯示,Lavender在分佈外任務上的魯棒性吊打傳統SFT方法,具備“抗偏科體質”。
另外,從具體應用場景來看,Lavender的視覺理解能力直接拉滿。
無論是表格標題還是圖表裡的小資料點,Lavender都能一眼鎖定關鍵資訊,不會“偏題”;且對於複雜圖形、大小位置關係,Lavender也能避免視覺誤導,輕鬆拿捏。
實驗顯示,從醫學病灶定位到多語言問答,Lavender不僅看得準,還答得對,連西班牙語提問都難不倒它。
目前,團隊不僅公開了論文,程式碼/模型/訓練資料也全部開源了。
  • 訓練資料:由Stable Diffusion標註的高質量對齊樣本;
  • 預訓練模型:基於Llama-3.2、MiniCPMv2.5等架構的Lavender適配版;
  • 調參指南:從小白到進階的“注意力對齊”實操手冊;
對於上述研究,團隊負責人表示:
我們希望證明,高效、輕量的模型最佳化,比無腦堆引數更有未來。

論文:

https://arxiv.org/abs/2502.06814

專案主頁:

https://astrazeneca.github.io/vlm/

—  —
投稿請工作日發郵件到:
標題註明【投稿】,告訴我們:
你是誰,從哪來,投稿內容
附上論文/專案主頁連結,以及聯絡方式哦
我們會(儘量)及時回覆你
一鍵關注 👇 點亮星標
科技前沿進展每日見
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!

相關文章