Ilya錯了？Scaling另有他用，ViT大佬力挺谷歌1000億資料新發現

新智元報道

編輯：KingHZ

【新智元導讀】谷歌釋出了1000億文字-影像對資料集，是此前類似資料集的10倍，創下新紀錄！基於新資料集，發現預訓練Scaling Law，雖然對模型效能提升不明顯，但對於小語種等其他指標提升明顯。讓ViT大佬翟曉華直呼新發現讓人興奮！

預訓練Scaling Law到盡頭了？

ViT大佬翟曉華（Xiaohua Zhai）並不這樣認為，至少在多模態模型上並非如此。

他公佈了最新的關於多模態Scaling的最新見解，而訓練資料達到了1000億的規模！

什麼長尾任務的新發現讓他興奮？

一句話就是，Illya所說的「Scaling Law」即將終結，不太對。

新研究透過實驗表明，1000億資料規模對已有基準測試提升可能非常小，但顯著影響了一些「非主流」的小眾探索領域。

讓大牛翟曉華眼前一亮點是：泰盧固語（Telugu）表現顯著提升，即使僅佔資料集的0.036%！

資料集中語言的長尾分佈：左二表示泰盧固語的比例

圖1總結了透過資料擴充套件實現的文化多樣性和多語言性的提升。

圖1：資料擴充套件所實現的文化多樣性和多語言性的提升

左圖顯示了將資料規模從100億擴充套件到1000億訓練資料，在文化多樣性和多語言能力方面的提升比其他指標更加顯著。

右圖給出了資料規模影響的示例說明。最左邊的兩個是以為西方中心的指標，擴充套件資料到1000億時，收益不大；而最右邊的兩個則展示了文化多樣性和多語言能力的提升。

這讓OpenAI的工程師Lucas Beyer不禁發帖質疑下列流傳甚廣的觀點：

預訓練scaling結束了

10-40億圖片足夠了

他認為這類觀點都是些縹緲的「神話」，而此類論斷之所以甚囂塵上，是因為忽視了下列提醒：

-你一葉障目，目光短淺

-不要只盯著美國可疑的評估指標

-拓展到1000億預訓練圖片，會極大促進模型的文化和語言包容性

2023年，還在谷歌的Lucas Beyer見到實驗結果時，就燃起了對泰盧固語的興趣：

新研究的主要貢獻如下：

1. 資料規模對於構建真正包容的多模態系統至關重要。

2. 質量過濾器（例如基於CLIP的過濾器）雖然通常用於提高整體資料質量，但可能會不經意限制資料集的多樣性。

3. 釋出了史無前例的1000億視覺-語言資料集，並實證研究了資料集的潛力。

論文連結：https://arxiv.org/abs/2502.07617

Scaling Law的信仰：資料規模x10

視覺-語言模型（VLMs）的進展，與大規模資料集的可用性密切相關。

在過去，模型的發展，就是「大力出奇跡」：資料規模越大，模型誤差越小，效能越高。

資料規模與模型效能之間的關係通常遵循冪律：

𝑓(𝑥) = 𝛼𝑥⁻ᶜ + 𝜖，

其中𝑓(𝑥)是模型效能指標如誤差率，𝑥是資料規模。

這就是「縮放定律」（Scaling Law）。

重要的是，冪律表明，增加訓練資料的量雖然會導致準確性和效能的收益逐漸遞減，但依然能夠帶來物超所值的提升。

在Scaling Law信念的引領下，擴大資料集規模是視覺-語言（vision-language）的領域重點：

早期的資料集如Conceptual Captions，提供了數百萬對影像-描述對用於預訓練。
利用大規模網路爬蟲技術Common Crawl專案，將資料集規模推向了數十億對影像-文字對，從而加速了視覺-語言模型（VLMs）的進展。
截至文章發表時，報告的最大影像-文字對資料集已經停留在約100億的規模上。
新的資料集WebLI100B包含1000億影像-文字對，資料量增長了10倍。

專案連結：https://commoncrawl.org/

這類似於影像識別領域的情形，比如資料集ImageNet加速了監督影像預訓練的進展。

這引出了問題：將資料規模提高10倍，達到1000億這個規模，能解鎖哪些進一步的好處？

比如說：對人而言「讀萬卷書，行萬里路」「見多識廣」，對AI模型這些話也成立嗎？

實驗設定

訓練資料

為了評估視覺-語言模型在大規模影像-文字資料上的表現，新研究構建了一個包含1000億對影像-文字的資料集，稱為WebLI-100B。

從1000億資料集中分別隨機抽取1%和10%的樣本，建立了分別代表1億和10億樣本的子集，分別稱為WebLI-1B和WebLI-10B。

在此研究中，僅應用了必要的資料過濾，如去除有害影像和個人身份資訊。這種方法確保資料集保持儘可能多語言和多樣化。使用與每張影像關聯的alt文字和頁面標題作為配對文字。

為了確保公平評估，從資料集中去除了90多個常見視覺-語言任務中的近重複影像。

為了研究資料擴充套件對質量過濾資料的影響，採用常見方法，使用 CLIP-L/14 模型作為過濾器，保留一個包含50億對影像和英文替代文字的高質量資料集。

論文連結：https://arxiv.org/abs/2103.00020

為了進一步鞏固研究結果，研究人員在網路資料上訓練了一個VLM，用於對齊或不對齊影像-文字對分類，並調整其閾值，以重新訓練另一個大小相同的過濾資料集。

對比視覺-語言預訓練

為了研究資料規模對模型效能的影響，使用三種不同的資料集大小（10億、100億和1000億）訓練了SigLIP模型，見表2中1B，10B, 100B對應的資料列。

還透過使用ViT-B/16、ViT-L/16和ViT-H/14架構來調整模型大小，分別用於影像和文字編碼器，見表2中B、L以及H對應的資料行。

在大型、嘈雜的網路資料集上，對比學習已成為獲取強大視覺表示的主導方法，這種弱監督正規化超越了傳統的監督學習方法。

這裡採用SigLIP對比學習方法。

與標準的對比學習方法不同，Sigmoid損失僅在影像-文字對上操作。

同時允許批次大小的進一步擴充套件，而且在批次較小時也表現得更好。

論文連結：https://arxiv.org/abs/2303.15343

在對比訓練過程中，其他設定如下：

批次大小：32K；

學習率：逆平方根排程；

預熱和冷卻階段資料量：2億；

學習率：0.001

權重衰減：0.0001。

在預處理階段，影像被調整為224×224畫素的解析度，文字則使用多語言mt5分詞器進行分詞，最大序列長度為64個tokens。

所有模型的訓練最大示例數為1000億。

在多個訓練步驟後冷卻模型，並評估它們在冷卻後的表現。所有模型在計算資源匹配的條件下進行比較。

透過這種方法，能夠評估不同資料規模和模型規模對SigLIP模型效能的影響，並探討如何根據資料規模調整訓練過程以實現最優的效能。

測試結果

流行的基準測試結果

第一組評估使用了多樣且廣泛認可的基準測試，主要從上到下分為3類任務：

表2頂部表示零樣本分類（zero-shot classification部分），使用ImageNet、CIFAR-100和Oxford-IIIT Pet資料集。
表2中間部分表示零樣本檢索（retirval@1部分），使用COCO Captions和Flickr30k資料集，包括影像到文字檢索和文字到影像檢索。
表2底部表示10-shot評估（10-shot部分），使用了Caltech-UCSD Birds、Caltech 101、Cars196、Colorectal Histology和Describable Textures Dataset (DTD)基準測試來評估視覺模型的表示能力。

如表2所示，將資料集的規模從100億增加到1000億個樣本並未顯著提升效能，透過Wilcoxon符號秩檢驗，該檢驗的𝑝值為0.9，表明差異不具有統計顯著性。

此外，針對模型和資料集的不同組合，擬合了資料Scaling Law，從而評估在無限計算資源的情況下，效能差距是否會增加或減少。在表2中報告了結果中的擴充套件指數和漸近效能極限。同樣，在95%的置信水平下，沒有觀察到顯著差異（𝑝值為0.09）。

下圖中，帶下劃線表示結果較差，而加粗的表示評估結果較好，可以看到1000億（下圖100B）的訓練資料並不總會帶來最佳結果，而且普遍提升的效果有限。

表2：從10B到100B的訓練樣本擴充套件，收益有限。

在ImageNet和CoCo檢索中出現了收益遞減現象，與縮放定律保持一致。

但這些基準測試的評估，主要反映的是西方（特別是英語國家）的語言文化。

文化多樣性測評結果

近期的研究表明，為了提升視覺-語言模型效能而採用的流行技術，如基於英語語言的篩選，可能會無意中削弱文化理解。因此，研究人員這次也對文化多樣性進行了評估，這些評估分為兩類：

第一類：地理定位，涉及透過少量樣本分類預測影像的來源國或地區。

第二類：在從不同地理區域策劃的資料集上進行zero-shot分類，包括Dollar Street、GeoDE和Google Landmarks Dataset v2 (GLDv2)。

其中Dollar Street包含來自63個國家的38K張家庭物品影像。GeoDE包含來自不同地理位置的62K張手動標註影像。最後，GLDv2包含來自84個國家的1,542張影像，代表884個地標，用於評估模型在識別具有文化重要性的地點方面的表現。

與以西方為導向的測試標準不同，文化多樣性呈現出完全不同的結果。

新研究發現，當資料集的規模從100億擴充套件到1000億時，文化多樣性任務的表現有顯著提升。

如表3所示，將訓練資料從100億擴充套件到1000億個樣本，在Dollar Street的10-shot分類任務中，ViT-L和ViT-H的絕對提升分別為5.8%和5.4%，遠超在以西方為導向的10-shot度量標準上通常觀察到的不到1%的改善。

使用Wilcoxon符號秩檢驗，得到𝑝值為0.002，表明在99%的置信水平下，這一差異具有統計學顯著性。

表3 | 文化多樣性基準的評估和擴充套件規律，其中從100億到1000億個樣本的擴充套件顯示出更大的優勢。

多語言性

使用Crossmodal-3600資料評估模型的多語言能力，該資料集包含來自36種語言的3600張具有人工生成標題的地理多樣化影像。

下圖3展示了效能提升的差異：低資源語言在1000億規模下比高資源語言受益更多。這種差異不論模型引數規模大小都存在，而且隨著模型規模的增大，差距逐漸加大。

每種語言的詳細結果，可以參考下表8。

實驗分析

質量過濾器的影響

儘管這些過濾器在傳統任務中通常有益，但它們透過減少某些文化背景的表現，可能會對資料多樣性產生負面影響。

原始網路資料通常噪聲過大，難以有效訓練視覺-語言模型。為了解決這一問題，常見的一種策略是使用資料過濾模型，去除不太相關的影像-文字對。

在新研究中，在下列三個資料集上訓練了ViT-L模型：

利用CLIP-L/14模型對原始資料進行過濾，並重新訓練了50億個高質量的英文影像-文字對。
為了進行對比，還在原始網路資料上訓練了一個分類模型，得到了一個大小相同的過濾資料集。
此外，還從原始資料中抽取了一個相同大小的英文子集，作為基準。

CLIP過濾器在以西方為中心的任務中表現出色，這與資料驅動的研究一致，表明有效的資料過濾能夠提升模型效能。

然而，所有經過過濾的資料集在其他任務中表現較差，尤其是在涉及文化多樣性的任務中。

這是資料過濾的一個主要缺點，即它可能無意中將偏見引入過濾後的資料集，這與先前的研究結果一致。

資料質量過濾可能會妨礙文化多樣性（圖4中）和公平性（圖4右），即使它在以西方為中心的任務（圖4左）中有所幫助，具體結果如下：

圖4：資料質量過濾對不同任務的影響

語言再平衡

在原始資料中，低資源語言的比例僅為0.5%，這導致模型無法充分學習這些語言或地區中的概念。

為了解決這個問題，將每種低資源語言的樣本量上取樣到固定的1%比例。

透過這種再平衡，如圖5所示，模型在低資源語言基準上的表現有所提升。相應地，高資源語言的表現略有下降，但仍然保持在可比範圍內（這也適用於其他僅基於英文的zero-shot檢索任務），從而在整個多語言基準上實現了總體的提升。

此外，還觀察到，在文化多樣性任務中有輕微的改善，而在其他任務中結果略有下降，這可能是由於減少了以西方為中心的示例所致，因為大多數評估都基於英文資料。

具體結果見圖5。

圖5：語言再平衡的結果

定性示例

通常，經過更大規模資料訓練的模型，會更加專注於語義相關的區域。

例如，在「伊戈洛舞蹈」（Igorot Dance）影像中，100B訓練的模型能夠捕捉到更精細的細節，如傳統裝飾品上的複雜圖案和具有文化意義的物品。

在「冰屋」（Igloo）影像中，100B訓練的模型準確地聚焦於冰屋的結構細節（其圓頂形狀），與其他模型不同，後者被背景中的山脈和冰雪等元素分散了注意力。

除了低資源概念，100B資料還可以提高常見概念的效能。如「野牛」（Bison）影像所示，經過更大資料集訓練的模型能夠更準確地捕捉到野牛，而不是周圍的景觀。

不同資料規模下，訓練的 ViT-L/16 模型的注意力圖視覺化區域比較。

作者簡介

另外值得一提的是，共一華人作者Xiao Wang。

2008年，他本科畢業於南京大學計算機軟體工程專業；2011年，碩士畢業於北京大學計算機軟體工程專業。

在國內積累了5年經驗後，於2015年加入谷歌DeepMind，任高階軟體工程師。

參考資料：

https://x.com/giffmana/status/1889797540671005101

https://arxiv.org/abs/2502.07617

dignews.cc

Ilya錯了？Scaling另有他用，ViT大佬力挺谷歌1000億資料新發現

新智元報道

訓練資料

對比視覺-語言預訓練

流行的基準測試結果

文化多樣性測評結果

多語言性

質量過濾器的影響

定性示例

相關文章

一文讀懂！多語言大模型資料研發在大模型時代的實戰全解

英語才是AI的母語？科學家發現模型的多模態推理全靠它

只給一張圖，AI找到對應合適BGM，央音清華等構建全球化音樂資訊檢索新正規化

整合大語言模型與產業資料智慧，邁向“產業基礎模型”

CellPatterns重磅綜述！473篇文獻全面解析多語言大模型最新研究進展

“鵬城·腦海”大模型多語言版：打破中文與低資源語言藩籬，引領多語言智慧新時代

跨越模態邊界，探索原生多模態大語言模型

微軟Phi-4家族新增兩位成員，5.6B多模態單任務超GPT-4o，3.8B小模型媲美千問7B

谷歌釋出史上最大規模的千億級視覺語言資料集，ScalingLaw的潛力或遠未見頂

最強全模態模型Ola-7B橫掃影像、影片、音訊主流榜單，騰訊混元Research&清華&NTU聯手打造