Ilya錯了?Scaling另有他用,ViT大佬力挺谷歌1000億資料新發現


新智元報道  

編輯:KingHZ
【新智元導讀】谷歌釋出了1000億文字-影像對資料集,是此前類似資料集的10倍,創下新紀錄!基於新資料集,發現預訓練Scaling  Law,雖然對模型效能提升不明顯,但對於小語種等其他指標提升明顯。讓ViT大佬翟曉華直呼新發現讓人興奮!
預訓練Scaling  Law到盡頭了?
ViT大佬翟曉華(Xiaohua Zhai)並不這樣認為,至少在多模態模型上並非如此。
他公佈了最新的關於多模態Scaling的最新見解,而訓練資料達到了1000億的規模!
什麼長尾任務的新發現讓他興奮?
一句話就是,Illya所說的「Scaling Law」即將終結,不太對。
新研究透過實驗表明,1000億資料規模對已有基準測試提升可能非常小,但顯著影響了一些「非主流」的小眾探索領域。
讓大牛翟曉華眼前一亮點是:泰盧固語(Telugu)表現顯著提升,即使僅佔資料集的0.036%!
資料集中語言的長尾分佈:左二表示泰盧固語的比例
圖1總結了透過資料擴充套件實現的文化多樣性和多語言性的提升。
圖1:資料擴充套件所實現的文化多樣性和多語言性的提升
左圖顯示了將資料規模從100億擴充套件到1000億訓練資料,在文化多樣性和多語言能力方面的提升比其他指標更加顯著。
右圖給出了資料規模影響的示例說明。最左邊的兩個是以為西方中心的指標,擴充套件資料到1000億時,收益不大;而最右邊的兩個則展示了文化多樣性和多語言能力的提升。
這讓OpenAI的工程師Lucas  Beyer不禁發帖質疑下列流傳甚廣的觀點:
預訓練scaling結束了
10-40億圖片足夠了
他認為這類觀點都是些縹緲的「神話」,而此類論斷之所以甚囂塵上,是因為忽視了下列提醒:
-你一葉障目,目光短淺
-不要只盯著美國可疑的評估指標
-拓展到1000億預訓練圖片,會極大促進模型的文化和語言包容性
2023年,還在谷歌的Lucas Beyer見到實驗結果時,就燃起了對泰盧固語的興趣:
新研究的主要貢獻如下:
1. 資料規模對於構建真正包容的多模態系統至關重要。
2. 質量過濾器(例如基於CLIP的過濾器)雖然通常用於提高整體資料質量,但可能會不經意限制資料集的多樣性。
3. 釋出了史無前例的1000億視覺-語言資料集,並實證研究了資料集的潛力。
論文連結:https://arxiv.org/abs/2502.07617
Scaling  Law的信仰:資料規模x10
視覺-語言模型(VLMs)的進展,與大規模資料集的可用性密切相關。
在過去,模型的發展,就是「大力出奇跡」:資料規模越大,模型誤差越小,效能越高。
資料規模與模型效能之間的關係通常遵循冪律:
𝑓(𝑥) = 𝛼𝑥⁻ᶜ + 𝜖,
其中𝑓(𝑥)是模型效能指標如誤差率,𝑥是資料規模。
這就是「縮放定律」(Scaling Law)。
重要的是,冪律表明,增加訓練資料的量雖然會導致準確性和效能的收益逐漸遞減,但依然能夠帶來物超所值的提升。
在Scaling Law信念的引領下,擴大資料集規模是視覺-語言(vision-language)的領域重點:
  1. 早期的資料集如Conceptual Captions,提供了數百萬對影像-描述對用於預訓練。
  2. 利用大規模網路爬蟲技術Common Crawl專案,將資料集規模推向了數十億對影像-文字對,從而加速了視覺-語言模型(VLMs)的進展。
  3. 截至文章發表時,報告的最大影像-文字對資料集已經停留在約100億的規模上。
  4. 新的資料集WebLI100B包含1000億影像-文字對,資料量增長了10倍。
專案連結:https://commoncrawl.org/
這類似於影像識別領域的情形, 比如資料集ImageNet加速了監督影像預訓練的進展。
這引出了問題:將資料規模提高10倍,達到1000億這個規模,能解鎖哪些進一步的好處?
比如說:對人而言「讀萬卷書,行萬里路」「見多識廣」,對AI模型這些話也成立嗎?
實驗設定

訓練資料

為了評估視覺-語言模型在大規模影像-文字資料上的表現,新研究構建了一個包含1000億對影像-文字的資料集,稱為WebLI-100B。
從1000億資料集中分別隨機抽取1%和10%的樣本,建立了分別代表1億和10億樣本的子集,分別稱為WebLI-1B和WebLI-10B。
在此研究中,僅應用了必要的資料過濾,如去除有害影像和個人身份資訊。這種方法確保資料集保持儘可能多語言和多樣化。使用與每張影像關聯的alt文字和頁面標題作為配對文字。
為了確保公平評估,從資料集中去除了90多個常見視覺-語言任務中的近重複影像。
為了研究資料擴充套件對質量過濾資料的影響,採用常見方法,使用 CLIP-L/14 模型作為過濾器,保留一個包含50億對影像和英文替代文字的高質量資料集。
論文連結:https://arxiv.org/abs/2103.00020
為了進一步鞏固研究結果,研究人員在網路資料上訓練了一個VLM,用於對齊或不對齊影像-文字對分類,並調整其閾值,以重新訓練另一個大小相同的過濾資料集。

對比視覺-語言預訓練

為了研究資料規模對模型效能的影響,使用三種不同的資料集大小(10億、100億和1000億)訓練了SigLIP模型,見表2中1B,10B, 100B對應的資料列。
還透過使用ViT-B/16、ViT-L/16和ViT-H/14架構來調整模型大小,分別用於影像和文字編碼器,見表2中B、L以及H對應的資料行。
在大型、嘈雜的網路資料集上,對比學習已成為獲取強大視覺表示的主導方法,這種弱監督正規化超越了傳統的監督學習方法。
這裡採用SigLIP對比學習方法。
與標準的對比學習方法不同,Sigmoid損失僅在影像-文字對上操作。
同時允許批次大小的進一步擴充套件,而且在批次較小時也表現得更好。
論文連結:https://arxiv.org/abs/2303.15343
在對比訓練過程中,其他設定如下:
批次大小:32K;
學習率:逆平方根排程;
預熱和冷卻階段資料量:2億;
學習率:0.001
權重衰減:0.0001。
在預處理階段,影像被調整為224×224畫素的解析度,文字則使用多語言mt5分詞器進行分詞,最大序列長度為64個tokens。
所有模型的訓練最大示例數為1000億。
在多個訓練步驟後冷卻模型,並評估它們在冷卻後的表現。所有模型在計算資源匹配的條件下進行比較。
透過這種方法,能夠評估不同資料規模和模型規模對SigLIP模型效能的影響,並探討如何根據資料規模調整訓練過程以實現最優的效能。
測試結果

流行的基準測試結果

第一組評估使用了多樣且廣泛認可的基準測試,主要從上到下分為3類任務:
  1. 表2頂部表示零樣本分類(zero-shot classification部分),使用ImageNet、CIFAR-100和Oxford-IIIT Pet資料集。
  2. 表2中間部分表示零樣本檢索(retirval@1部分),使用COCO Captions和Flickr30k資料集,包括影像到文字檢索和文字到影像檢索。
  3. 表2底部表示10-shot評估(10-shot部分),使用了Caltech-UCSD Birds、Caltech 101、Cars196、Colorectal Histology和Describable Textures Dataset (DTD)基準測試來評估視覺模型的表示能力。
如表2所示,將資料集的規模從100億增加到1000億個樣本並未顯著提升效能,透過Wilcoxon符號秩檢驗,該檢驗的𝑝值為0.9,表明差異不具有統計顯著性。
此外,針對模型和資料集的不同組合,擬合了資料Scaling Law,從而評估在無限計算資源的情況下,效能差距是否會增加或減少。在表2中報告了結果中的擴充套件指數和漸近效能極限。同樣,在95%的置信水平下,沒有觀察到顯著差異(𝑝值為0.09)。
下圖中,帶下劃線表示結果較差,而加粗的表示評估結果較好,可以看到1000億(下圖100B)的訓練資料並不總會帶來最佳結果,而且普遍提升的效果有限。
表2:從10B到100B的訓練樣本擴充套件,收益有限。
在ImageNet和CoCo檢索中出現了收益遞減現象,與縮放定律保持一致。
但這些基準測試的評估,主要反映的是西方(特別是英語國家)的語言文化。

文化多樣性測評結果

近期的研究表明,為了提升視覺-語言模型效能而採用的流行技術,如基於英語語言的篩選,可能會無意中削弱文化理解。因此,研究人員這次也對文化多樣性進行了評估,這些評估分為兩類:
第一類:地理定位,涉及透過少量樣本分類預測影像的來源國或地區。
第二類:在從不同地理區域策劃的資料集上進行zero-shot分類,包括Dollar Street、GeoDE和Google Landmarks Dataset v2 (GLDv2)。
其中Dollar Street包含來自63個國家的38K張家庭物品影像。GeoDE包含來自不同地理位置的62K張手動標註影像。最後,GLDv2包含來自84個國家的1,542張影像,代表884個地標,用於評估模型在識別具有文化重要性的地點方面的表現。
與以西方為導向的測試標準不同,文化多樣性呈現出完全不同的結果
新研究發現,當資料集的規模從100億擴充套件到1000億時,文化多樣性任務的表現有顯著提升。
如表3所示,將訓練資料從100億擴充套件到1000億個樣本,在Dollar Street的10-shot分類任務中,ViT-L和ViT-H的絕對提升分別為5.8%和5.4%,遠超在以西方為導向的10-shot度量標準上通常觀察到的不到1%的改善。
使用Wilcoxon符號秩檢驗,得到𝑝值為0.002,表明在99%的置信水平下,這一差異具有統計學顯著性。
表3 | 文化多樣性基準的評估和擴充套件規律,其中從100億到1000億個樣本的擴充套件顯示出更大的優勢。

多語言性

使用Crossmodal-3600資料評估模型的多語言能力,該資料集包含來自36種語言的3600張具有人工生成標題的地理多樣化影像。
下圖3展示了效能提升的差異:低資源語言在1000億規模下比高資源語言受益更多。這種差異不論模型引數規模大小都存在,而且隨著模型規模的增大,差距逐漸加大。
每種語言的詳細結果,可以參考下表8。
實驗分析

質量過濾器的影響

儘管這些過濾器在傳統任務中通常有益,但它們透過減少某些文化背景的表現,可能會對資料多樣性產生負面影響。
原始網路資料通常噪聲過大,難以有效訓練視覺-語言模型。為了解決這一問題,常見的一種策略是使用資料過濾模型,去除不太相關的影像-文字對。
在新研究中,在下列三個資料集上訓練了ViT-L模型:
  1. 利用CLIP-L/14模型對原始資料進行過濾,並重新訓練了50億個高質量的英文影像-文字對。
  2. 為了進行對比,還在原始網路資料上訓練了一個分類模型,得到了一個大小相同的過濾資料集。
  3. 此外,還從原始資料中抽取了一個相同大小的英文子集,作為基準。
CLIP過濾器在以西方為中心的任務中表現出色,這與資料驅動的研究一致,表明有效的資料過濾能夠提升模型效能。
然而,所有經過過濾的資料集在其他任務中表現較差,尤其是在涉及文化多樣性的任務中。
這是資料過濾的一個主要缺點,即它可能無意中將偏見引入過濾後的資料集,這與先前的研究結果一致。
資料質量過濾可能會妨礙文化多樣性(圖4中)和公平性(圖4右),即使它在以西方為中心的任務(圖4左)中有所幫助,具體結果如下:
圖4:資料質量過濾對不同任務的影響
語言再平衡
在原始資料中,低資源語言的比例僅為0.5%,這導致模型無法充分學習這些語言或地區中的概念。
為了解決這個問題,將每種低資源語言的樣本量上取樣到固定的1%比例。
透過這種再平衡,如圖5所示,模型在低資源語言基準上的表現有所提升。相應地,高資源語言的表現略有下降,但仍然保持在可比範圍內(這也適用於其他僅基於英文的zero-shot檢索任務),從而在整個多語言基準上實現了總體的提升。
此外,還觀察到,在文化多樣性任務中有輕微的改善,而在其他任務中結果略有下降,這可能是由於減少了以西方為中心的示例所致,因為大多數評估都基於英文資料。
具體結果見圖5。
圖5:語言再平衡的結果

定性示例

通常,經過更大規模資料訓練的模型,會更加專注於語義相關的區域。
例如,在「伊戈洛舞蹈」(Igorot Dance)影像中,100B訓練的模型能夠捕捉到更精細的細節,如傳統裝飾品上的複雜圖案和具有文化意義的物品。
在「冰屋」(Igloo)影像中,100B訓練的模型準確地聚焦於冰屋的結構細節(其圓頂形狀),與其他模型不同,後者被背景中的山脈和冰雪等元素分散了注意力。
除了低資源概念,100B資料還可以提高常見概念的效能。如「野牛」(Bison)影像所示,經過更大資料集訓練的模型能夠更準確地捕捉到野牛,而不是周圍的景觀。
不同資料規模下,訓練的 ViT-L/16 模型的注意力圖視覺化區域比較。
作者簡介
另外值得一提的是,共一華人作者Xiao Wang。
2008年,他本科畢業於南京大學計算機軟體工程專業;2011年,碩士畢業於北京大學計算機軟體工程專業。
在國內積累了5年經驗後,於2015年加入谷歌DeepMind,任高階軟體工程師。
參考資料:
https://x.com/giffmana/status/1889797540671005101
https://arxiv.org/abs/2502.07617

相關文章