
來源 | 量子位
作者 | 一水
謝賽寧團隊新作正在引起熱議!
一直以來,作為文生圖基石的CLIP模型主要基於英文資料訓練,但實際上,全球網際網路仍有超過50%的非英文資料。
為了將CLIP模型進一步擴充套件,研究人員需要搞定兩大“攔路虎”:
-
缺乏處理非英語資料的篩選方法; -
現有多語言CLIP的英語效能比純英語版本差(即所謂的“多語言詛咒”)。
而謝賽寧團隊正是在這兩方面取得突破。他們提出了首個基於全球資料從頭訓練的CLIP——MetaCLIP 2,透過擴充套件元資料、最佳化篩選和提升模型容量,斬獲了以下成果:
-
搭建了能處理300多種語言的CLIP資料整理流程。 -
打破了“多語言詛咒”,不僅沒有影響英語任務的表現,而且反倒還提升了。
論文一作Yung-Sung Chuang(MIT博士生、現Meta實習生)激動表示:
是時候告別語言過濾器了!

剛被小扎從OpenAI挖走的Lucas Beyer也出來對這一觀點表示認同,順帶還感謝了論文中的引用:
很高興看到我們提出並始終倡導的“NoFilter”理念能在MetaCLIP 2中得到應用。這就是正確的道路!

這也引來了謝賽寧本人的回應:
早在MetaCLIP中,團隊的目標也是NoFilter(與其搞複雜過濾,不如相信原始資料的價值)。我也認為NoFilter才是正道。

下面詳細來看MetaCLIP 2所採用的方法。
基於MetaCLIP,進一步最佳化結構和流程
概括而言,為了讓CLIP模型能從全球資料中學習,MetaCLIP 2採用了三大關鍵創新:
-
構建全球元資料 -
實施全球篩選演算法 -
構建全球模型的訓練框架

開始之前,論文先回顧了原始MetaCLIP所採用的思路。
簡單說,其篩選邏輯主要分三步:
-
從英語WordNet、維基百科提取50萬個 “視覺概念”,組成元資料列表M;
-
用這些概念匹配影像-文字對的描述文字(逐個檢查文本里的內容,看能否匹配到M裡的詞條);
-
設定一個閾值t,透過 “平衡機制”(控制頭部/尾部概念的比例)篩選資料,確保“貓”“狗”這類常見概念和“深海生物”“小眾建築”這類少見概念分佈合理。
順便一提,OpenAI CLIP將t設定為20k,而MetaCLIP為了適配十億級英語資料,把t調高到170k ,讓平衡策略更適合大規模資料。
而MetaCLIP 2,正是在英文MetaCLIP的基礎上,進一步優化了架構和流程。
這第一步非常簡單,無非是將之前的元資料擴充套件到300多種語言。
具體而言,它現在包含了多語言的WordNet和各國維基百科的詞彙,有點像給每種語言都編了一套 “視覺概念詞典”。
然後用演算法給每種語言“量身篩資料”。
先是識別文字是哪種語言,再用對應語言的“字典”去匹配影像-文字對。
同時給每種語言設立單獨的篩選標準(比如控制“常見概念”和“少見概念”的比例),確保每種語言的資料分佈合理,不會出現某類內容過多的情況。
下圖為MetaCLIP 2篩選全球多語言影像-文字對的虛擬碼(用Python/NumPy風格編寫):

最後再調整訓練策略,避免“顧此失彼”。
一方面,鑑於全球資料變多了,所以團隊按比例增加了訓練時“見過的樣本量”(比如擴大2.3倍),保證英語樣本量不減少。
另一方面,團隊發現模型大小很關鍵——小一點的模型(如ViT-L/14)還會受“多語言詛咒”,但大一點的ViT-H/14能打破詛咒,讓英語和非英語能力一起提升。

p.s. 大語言模型中的“多語言詛咒”是指,當模型在多語言資料上進行訓練時,出現某些特定語言(尤其是原本表現較好的語言,如英語 )效能下降的現象。
採用以上資料篩選方法,MetaCLIP 2與NoFilter理念形成了深度協同——篩選邏輯的本質從“語言過濾”(如直接排除非英語資料)轉向“概念平衡”,從“排除資料”(如用單一標準排除資料)轉向“最佳化分佈”。
多語言任務創下新SOTA,還打破了“多語言詛咒”
為了驗證方法的有效性,團隊基於全網公開資料(英語佔44%,非英語佔56%)進行了實驗。
訓練配置上,團隊基本沿用OpenAI CLIP/MetaCLIP的引數,僅調整樣本量(如ViT-H/14用290億樣本)和模型容量。
實驗結果顯示,MetaCLIP 2在多項測試中表現亮眼:
首先,它打破了大語言模型領域存在的“多語言詛咒”,證明學了非英語資料後,英語能力不僅沒有下降,甚至反而變強了。
例如,它在ImageNet識別日常物品上準確率達到81.3%,超過純英語CLIP的80.5%。

其次,它在多語言測試中(如用280種語言給圖片分類、跨36種語言搜圖),成績遠超之前的mSigLIP、SigLIP 2等模型。
還是上面這張圖,它在Babel-ImageNet多語言影像分類任務裡,取得了50.2%的準確率;在XM3600影像到文字檢索任務中,檢索匹配的準確率達到64.3%。
更有意思的是,MetaCLIP 2不僅更懂“文化多樣性”,而且嵌入質量也更優。
一方面,它在文化多樣性任務(如地理定位)上表現更優,如在Dollar Street、GLDv2等資料集上,全球資料訓練的模型準確率顯著高於純英語或純非英語模型。

另一方面,它在對齊性(影像-文字相關性)和均勻性(視覺嵌入分佈)上的得分同樣更優。

劃重點,目前相關資料和程式碼均已開源了~
論文:https://arxiv.org/abs/2507.22062程式碼地址:https://github.com/facebookresearch/MetaCLIP
參考連結:[1]https://x.com/YungSungChuang/status/1950575753449681350[2]https://x.com/giffmana/status/1950657494709125447[3]https://x.com/sainingxie/status/1950689320722952550
技術交流群邀請函
△長按新增小助手
掃描二維碼新增小助手微信
請備註:姓名-學校/公司-研究方向
(如:小張-哈工大-對話系統)
即可申請加入自然語言處理/Pytorch等技術交流群
關於我們
MLNLP 社群是由國內外機器學習與自然語言處理學者聯合構建的民間學術社群,目前已經發展為國內外知名的機器學習與自然語言處理社群,旨在促進機器學習,自然語言處理學術界、產業界和廣大愛好者之間的進步。
社群可以為相關從業者的深造、就業及研究等方面提供開放交流平臺。歡迎大家關注和加入我們。

掃描二維碼新增小助手微信
關於我們
