打破紀錄!谷歌全網扒1000億影像文字對,ViT大佬坐鎮:資料Scaling潛力依舊

明敏 發自 凹非寺

量子位 | 公眾號 QbitAI
史上最大規模視覺語言資料集:1000億影像-文字對!
什麼概念?
較此前紀錄擴大10倍。
這就是由谷歌推出的最新資料集WebLI-100B
它進一步證明,資料Scaling Law還遠沒有到上限。
在英文世界之外的多元文化、多語言維度,1000億規模資料集能更好覆蓋長尾場景,由此帶來明顯效能提升。
這意味著,想要構建更加多元的多模態大模型,千億級資料規模,將成為一個重要參考。
同時研究還進一步證明,CLIP等模型的過濾篩選步驟,會對這種多元性提升帶來負面影響。
該研究由谷歌DeepMind帶來,一作為Xiao Wang、 Ibrahim Alabdulmohsin。
作者之列中還發現了ViT核心作者翟曉華。2024年12月,他在推特上官宣,將入職OpenAI蘇黎世實驗室。

資料規模越大對細節理解越好

論文主要工作有三方面。
  • 驗證VLMs在1000億規模資料集上的效果
  • 證明1000億規模資料集能增強VLMs文化多樣性、多語言能力以及減少不同子組之間的效能差異。
  • 發現CLIP這類模型過濾篩選資料的過程會對無意中降低模型的文化多元性,在1000億規模資料集上亦是如此。
具體來看,研究人員從網路上搜集了1000億影像-文字對,初步去除有害內容以及敏感資訊。
然後使用CLIP模型對資料集進行質量評估,篩選出與影像內容高度對齊的影像-文字對。
他們訓練了一個分類器模型,對影像-文字進行對齊和錯位分類,並調整閾值以重新篩選資料集。為了評估多語言能力,還使用網頁的語言標籤來確定資料集中的語言分佈。
為了評估不同資料規模對模型效能的影響,研究人員從1000億資料集中隨機抽取了1%和10%的資料,分別建立了10億和100億規模的資料集。
同時為了提高低資源語言的代表性,研究人員對低資源語言進行了上取樣,將它們的佔比從0.5%提高到1%。
實驗方面,研究人員使用SigLIP模型在不同規模的資料集上進行對比視覺語言預訓練。
他們訓練了不同大小的模型(ViTB/16、ViT-L/16、ViT-H/14),並使用了大規模的批次大小和學習率排程。
從結果來看,1B資料集訓練的模型在注意力圖上無法很好捕捉細節。10B資料集有所改善,100B資料集能更精準。
同時使用多語言mt5分詞器對文字進行分詞,並訓練了多種語言的模型。
在模型評估上,研究人員主要進行以下幾個維度分析:
  • 傳統基準測試:多個傳統基準測試(如ImageNet、COCO Captions等)上評估。
  • 文化多樣性:使用Dollar Street、GeoDE和Google Landmarks Dataset v2等資料集評估了模型在文化多樣性任務上的效能。
  • 多語言能力:使用Crossmodal-3600資料集評估了模型在多語言任務上的效能。
  • 公平性:評估了模型在不同子組(如性別、收入水平、地理區域)上的效能差異,以評估模型的公平性。
結果顯示,從100億到1000億規模資料,在以西方文化為主的傳統基準測試上帶來的提升比較有限,但在多語言能力和公平性相關任務上顯著提高。
資料過濾可以提高模型在傳統任務上的效能,但可能會減少某些文化背景的代表性,從而限制資料集的多樣性。
此外,透過調整低資源語言的混合比例,可以顯著提高模型在低資源語言基準測試上的效能。

主創翟曉華已被OpenAI挖走

該研究的一作為Xiao Wang和Ibrahim Alabdulmohsin。
Xiao Wang本科畢業於南京大學,碩士畢業於北京大學。
領英資料顯示,他畢業後先後任職於IBM中國開發實驗室、網易有道。2015年加入谷歌DeepMind至今,職位是高階軟體工程師,主要從事視覺語言研究。
主創中還發現了翟曉華的身影。
他同樣本科畢業於南京大學,在北京大學攻讀博士學位後,赴蘇黎世加入谷歌。
翟曉華和盧卡斯·拜爾(Lucas Beyer)、亞歷山大·科列斯尼科夫(Alexander Kolesnikov)一起在谷歌提出多項重要工作。
2021年,他們三人作為共同一作的計算機視覺領域神作ViT釋出即重新整理ImageNet最高分。
這項研究證實了CNN在CV領域不是必需的,Transformer從NLP跨界,一樣可以取得先進效果。開創了Transformer在CV領域應用的先河。
目前這篇論文被引用量已超過5.3萬。
他在谷歌DeepMind時領導蘇黎世多模態研究小組,重點研究多模態資料(WebLI)、開放權重模型 ( SigLIP、PaliGemma )以及文化包容性。
2024年12月,爆料稱OpenAI挖走ViT三大核心作者。隨後,該訊息被本人證實。

論文地址:

https://arxiv.org/abs/2502.07617

評選報名2025年值得關注的AIGC企業&產品
下一個AI“國產之光”將會是誰?
本次評選結果將於4月中國AIGC產業峰會上公佈,歡迎參與!
一鍵關注 👇 點亮星標
科技前沿進展每日見
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!

相關文章