

2009 年,ImageNet 資料集的釋出讓深度學習在計算機視覺領域迎來了轉折點。這個包含 1,400 萬張影像的資料集,不僅推動了卷積神經網路的發展,更開創了用大規模資料訓練視覺模型的先河。隨後,JFT-300M(3 億影像)和 JFT-3B(30 億影像)的相繼問世,進一步驗證了“資料規模決定模型上限”這一理念。
近年來,隨著視覺語言模型(VLM,Visual Language Model)的興起,研究人員開始關注影像-文字對資料集的構建。從最初的 COCO Captions(包含約 12 萬張影像),到微軟的 Conceptual Captions(約 330 萬對資料),再到 LAION-5B(50 億對)和谷歌的 WebLI(100 億對),資料規模在持續突破。而現在,谷歌 DeepMind 團隊再次重新整理了這一記錄。
2 月 11 日,谷歌 DeepMind 在 arXiv 上釋出了題為《將視覺語言模型的預訓練擴充套件至千億級資料》(Scaling Pre-training to One Hundred Billion Data for Vision Language Models)的論文。他們推出了規模空前的視覺語言資料集 WebLI-100B,包含 1,000 億對影像-文字資料。這個資料集在 WebLI 的基礎上構建,不僅保持了原有的高質量抓取策略,還將規模擴大了 10 倍。
那麼,將資料規模擴大 10 倍究竟能帶來什麼樣的提升?研究結果發現,在傳統的西方中心化任務上,從 100 億擴充套件到 1,000 億的邊際效益較小。具體來說:
在 ImageNet 零樣本分類任務上,ViT-L/16 模型在 100 億資料訓練時的錯誤率為 29.7%,擴充套件到 1000 億後僅降低到 28.5%。同樣的趨勢也出現在 CIFAR-100 等其他分類任務上。在 COCO 影像檢索任務中,效能提升也相對有限。這些結果透過 Wilcoxon 符號秩檢驗得到了統計學支援(p 值為 0.9),表明在這些傳統任務上的效能差異並不顯著。

圖丨左側:將資料從 100 億擴充套件到 1000 億樣本,比其他指標更顯著地增強了文化多樣性和多語言能力;右側:資料規模影響的示例(來源:arXiv)
然而,在文化多樣性相關任務上,大規模資料展現出了意外的價值。研究團隊使用 Dollar Street 資料集(一個包含來自 63 個國家的 38,000 張影像的資料集)來評估模型對不同文化場景的理解能力。結果表明:
在 10-shot 分類任務中,ViT-L/16 模型在 1,000 億資料上單輪訓練就達到了 41.7% 的準確率,而同樣架構的模型在 100 億資料上訓練 10 個 epoch 只能達到 35.9%。更大的 ViT-H 模型獲得了類似幅度的提升。這 5-6 個百分點的絕對效能提升遠超傳統任務上不到 1% 的增益。Wilcoxon 檢驗的 p 值為 0.002,表明這種提升具有統計學顯著性。
在多語言能力方面,研究者們發現了一個更加引人注目的現象:低資源語言從大規模資料中獲得的收益明顯高於高資源語言。研究團隊使用 Crossmodal-3600 資料集(包含 36 種語言的影像-文字檢索任務)進行評估,發現:
以 Telugu 語言為例,儘管它在整個資料集中僅佔 0.036% 的比例,但模型效能仍然獲得了顯著提升。這種“長尾效應”在其他低資源語言(如孟加拉語、菲律賓語、印地語、希伯來語、毛利語和斯瓦希里語)中也普遍存在。
並且,這種差異在模型規模越大時越發明顯。專案負責人之一的翟曉華在社交媒體上以 Telugu 語言為例,認為“這突出展示了大規模資料集在改善長尾概念理解方面的力量。即使在資料集中佔比極小的語言,也能從中受益。”

圖丨相關推文(來源:X)
研究團隊還深入探索了資料質量與多樣性之間的權衡。他們發現,使用 CLIP 模型進行質量過濾雖然能提升 ImageNet 等傳統任務的效能,但會降低 Dollar Street 等文化多樣性指標的表現。這個發現促使研究者們提出了一個簡單但有效的策略:將低資源語言的取樣比例提升到 1%。實驗表明,這種重平衡策略雖然會輕微影響英語任務的效能,但能顯著改善模型在低資源語言上的表現,最終實現了更平衡的效能分佈。
在模型注意力視覺化方面,研究發現數據規模的擴大確實幫助模型形成了更細緻的理解。例如,在識別“Igorot Dance”(菲律賓伊戈洛特族傳統舞蹈)的影像時,在 1,000 億資料上訓練的模型能夠更準確地關注傳統服飾的細節特徵;在識別“Igloo”(因紐特人冰屋)時,模型也能更好地捕捉其獨特的穹頂結構特徵。

圖丨在不同資料規模上訓練的 ViT-L/16 模型的注意力圖視覺化(來源:arXiv)
此外,研究還探索了大規模資料對遷移學習的影響。團隊使用 PaLI-Gemma 模型評估了視覺特徵的遷移效果,涵蓋了影像描述、視覺問答、分割等多個下游任務。在這些任務上,模型效能並未隨資料規模的增加而顯著提升。這提示我們,提升遷移學習效果可能需要探索新的模型架構或訓練策略。
值得一提的是,該研究還公佈了詳細的資料擴充套件策略和實驗結果,這將有助於學術界更好地理解大規模資料對視覺語言模型的影響。不過遺憾的是,由於資料集體量巨大且涉及版權等問題,WebLI-100B 目前還未對外開放。
這項研究再次證明,Scaling Law 的潛力或許遠未觸及天花板。在很多難以發出聲音、難以看到的地方,還有許多有價值的資料等待被挖掘。
參考資料:
1.https://arxiv.org/abs/2502.07617
2.https://x.com/XiaohuaZhai/status/1889775999648248024
運營/排版:何晨龍


