超CLIP準確率11%!伯克利港大闡明「LLM文字——視覺」對齊深層機制


新智元報道  

編輯:LRST
【新智元導讀】多模態對齊模型藉助對比學習在檢索與生成任務中大放異彩。最新趨勢是用凍結的大語言模型替換自訓文字編碼器,從而在長文字與大資料場景中降低算力成本。LIFT首次系統性地剖析了此正規化的優勢來源、資料適配性、以及關鍵設計選擇,在組合語義理解與長文字任務上觀察到大幅提升。
多模態對齊模型近年來憑藉對比學習正規化在影像檢索、文生圖等任務中表現出色。然而,主流框架(如 CLIP)需要從零訓練文字和影像編碼器,導致計算成本高昂,尤其在處理長文字或大規模資料時更加明顯。
近期,相關工作嘗試將預訓練的大語言模型(LLM)作為文字編碼器融入多模態對齊框架,並在分類和檢索任務上觀察到效能提升。
然而,效能提升背後的機制尚不清晰,幾個關鍵問題仍未得到系統解答:
  • 能力提升的本質:LLM文字編碼器的加入究竟增強了多模態模型的哪些具體能力?
  • 資料特徵的適配:在哪些型別的訓練資料上,LLM文字編碼器表現更優,原因為何?
  • 關鍵元件的貢獻:LLM文字編碼器的哪些設計選擇對跨模態對齊至關重要?
  • 訓練流程的簡化:若使用LLM作為固定文字編碼器,傳統對比學習框架能否進一步最佳化?
來自UC伯克利和香港大學的研究團隊在最新工作LIFT(Language-Image Alignment with Fixed Text Encoders)中,對上述問題進行了系統性解答。
論文連結:https://arxiv.org/pdf/2506.04209
專案程式碼:https://github.com/Jingfeng0705/LIFT
該方法採用極簡訓練正規化——直接凍結預訓練LLM作為文字編碼器,僅最佳化影像編碼器。

LIFT首次闡明瞭LLM文字嵌入驅動語言-視覺對齊的關鍵機制,併為未來高效多模態模型的設計提供了全新思路。

能力提升的本質
「組合語義」理解大幅提升
大量實驗證明,CLIP及其變體缺乏「組合語義」理解(如詞序、空間關係、物體-物體關係, 物體-屬性關聯等)。
學界普遍認為,對比預訓練促使從零訓練的編碼器傾向於學習「捷徑」,即丟棄與組合語義相關的特徵。
在面向組合語義的SugarCrepe測試集上,LIFT相較CLIP在短文字訓練場景下平均準確率提升6.8%,長文字訓練場景下進一步提升至7.9%,在「新增屬性」、「替換屬性」與「替換關係」等子任務中優勢尤為顯著。
這表明,LLM的自迴歸訓練能有效避免對比學習的組合語義盲區,更精準地建模物體間以及物體與其屬性間的關聯。
團隊進一步以LIFT和CLIP作為影像編碼器訓練LLaVA式多模態大模型進行對比,以短文字訓練的LIFT贏得6個LLaVA下游任務中的5項,而在長文字訓練場景下全部取勝。
LIFT在MMBench的細粒度感知與關係推理子任務上取得最大增益,這表明LIFT的組合語義理解優勢可無縫遷移到大型多模態模型,顯著提升物體定位、屬性識別及物理關係判斷等視覺任務能力。

資料特徵的適配
在合成長文字中優勢顯著
由多模態模型合成的長文字在語言-視覺對齊中正發揮日益重要的作用,因其能提供更豐富的影像細節資訊。
現有研究已發現,LLM文字編碼器在處理此類長文字時不僅效率更高,還能帶來效能提升。
LIFT透過一系列實驗再次證實這一現象,並進一步揭示了其背後的深層原因:預訓練LLM文字編碼器對合成長文字的句法相似性具有更強的魯棒性。
團隊發現,合成文字通常遵循固定句法模板,這會扭曲原始文字分佈,並分散從零訓練的文字編碼器對核心語義的關注。
透過研究從Recap-DataComp-1B合成數據集中隨機抽取的影像文字對,團隊發現CLIP的文字編碼器容易賦予句法相似但語義迥異的影像標題對高相似度。
相比之下,LIFT採用海量文字預訓練的LLM文字編碼器能有效抵抗句法干擾,更精準地聚焦語義內容,賦予這些生成文字對更合理的相似度評分。

關鍵元件的貢獻
對比微調至關重要
在LLM文字編碼器逐漸超越傳統文字編碼器的過程中,文字嵌入提取方式、對比微調等策略是最為關鍵的設計要素。為探究哪些設計真正有助於語言-視覺對齊,團隊選取了五種7B規模的LLM作為LIFT的文字編碼器進行對比實驗。
結果顯示,未經微調的原始LLM表現顯著落後,在ImageNet-1K零樣本分類任務中平均準確率下降22.8%,這表明LLM本身難以提供高質量的文字嵌入,對比微調對於語言-視覺對齊至關重要。
三種微調後的模型均取得良好且相近的表現,既驗證了對比微調的有效性,也說明簡單的<eos>隱狀態已能有效表徵文字,複雜的嵌入提取方法可能並非必要

訓練流程的簡化
極簡Cosine Similarity Loss
CLIP依賴基於餘弦相似度的InfoNCE對比損失來防止模式坍縮,但其計算量和視訊記憶體需求會隨批次大小呈平方級增長,且嚴重依賴大批次負樣本。
而預訓練的LLM文字編碼器解決了模式坍縮問題,因此團隊嘗試改用僅計算正向影像文字對的極簡餘弦相似度損失來實現對齊。
這種損失函式使FLOPs和視訊記憶體需求降至線性複雜度,完全擺脫了對負樣本和大批次的依賴。
實驗表明,在組合語義理解和LLaVA下游任務上,簡化後的損失函式與InfoNCE表現相當;使用長文字訓練時,該損失函式甚至在中英MMBench測試中顯著領先。
然而,其在零樣本分類與檢索任務中準確率有所下降。
團隊認為這一差距源於缺乏負樣本導致表徵區分度不足,證明對比損失函式在分類和檢索任務中仍具有獨特優勢。

總結與後續工作
LIFT採用極簡的訓練正規化,結合系統測試與消融實驗,首次剖析了LLM文字嵌入驅動語言-視覺對齊的關鍵機制,歸納出四大核心發現:
  1. 相比從零訓練的文字編碼器, LLM文字編碼器帶來的多模態模型效能提升主要來自於更強的組合語義理解能力;
  2. 面對句法模板化、語義資訊豐富的合成長文字,LLM編碼器具備更強的魯棒性與判別力;
  3. 在語言-視覺對齊中,對比微調對於LLM文字編碼器至關重要,而複雜的嵌入提取方式並非必要,<eos>隱狀態即可勝任;
  4. 在固定文字編碼器後,用僅含正樣本的極簡線性餘弦損失即可替代InfoNCE,對組合語義理解、LLaVA下游任務無損甚至有益。
未來,團隊將把該簡化正規化與自監督等視覺表徵學習策略結合,進一步細化並豐富語義聯結。
此外,當前對齊仍主要停留在低階統計層面,如何實現區域性視覺特徵與對應語義的深度耦合,將成為下一階段的核心研究方向。
參考資料:
https://arxiv.org/pdf/2506.04209


相關文章