ICLR2025|如何在ImageNet-1K上訓練視覺基礎模型​?!

點選下方卡片,關注“CVer”公眾號

AI/CV重磅乾貨,第一時間送達

新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球可以獲得最新頂會/頂刊上的論文ideaCV從入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!

本文主要介紹我們最近被åICLR2025接收的工作:Accessing Vision Foundation Models via ImageNet-1K。
論文:https://arxiv.org/abs/2407.10366     
現有視覺基礎模型例如CLIP[1], DINOv2[2], SynCLR[3]通常是在鉅額資料量(CLIP-400M, DINOv2-142M, SynCLR-600M)下訓練得到的,這不僅對訓練資源有著非常大的需求,同時這些資料集也處於未公開的狀態,讓訓練視覺基礎模型非常困難。我們本次工作就是為了解決這個問題,我們僅在ImageNet-1K的1.2M影像上訓練就可以在多項任務上達到跟別人所提供的預訓練模型相當的效能。論文,程式碼和所有預訓練模型現已開源,歡迎大家交流和試用。
TL, DR:
動機:視覺基礎模型因其強大的泛化能力而著稱,這得益於其龐大的訓練資料。然而,這些模型需要巨大的訓練資源,而且訓練資料通常是未公開的,例如CLIP和DINOv2。
解決:我們提出了一個非常簡單且通用的解決方案,名為Proteus,可以在不訪問原始訓練資料的情況下,將基礎模型在ImageNet-1K上蒸餾成較小的等效模型。   
優點:(1) 低訓練成本(類似於在ImageNet-1K上進行的DeiT蒸餾);(2) 強大的效能(類似於使用大量資料訓練的基礎模型);(3) 優秀的泛化能力(在DINOv2、CLIP、SynCLR上驗證)。
1. Introduction
透過在多樣且龐大的資料集上進行廣泛的預訓練,視覺基礎模型[1,2,3,4]在計算機視覺領域取得了顯著進展,旨在學習全面且多功能的視覺特徵,能夠很好地泛化到各種下游任務,如分類、分割等。因此,視覺基礎模型正成為計算機視覺研究中的基礎元件。
儘管這些模型已經發布了其權重供公眾使用,但由於兩個主要因素,訓練基礎模型對於大多數研究人員來說仍然難以實現:(1)這些基礎模型的訓練資料很少公開。儘管已經有嘗試使用替代資料集[4]來重現CLIP [1],但由於資料來源私密,重現DINOv2 [2]和SynCLR [3]等基礎模型的訓練仍然鮮有探索。(2)即使訓練資料可以獲取,使用這些龐大的資料集進行訓練需要大量的計算資源,這對於大多數研究人員來說是難以獲取的。ImageNet-1K [5],長期以來一直是監督學習領域進步的基石,但在基礎模型時代,由於其相對較“小”的規模,現在較少被用作訓練集。在這項工作中,我們試圖解決以下問題:是否可以在不犧牲泛化能力的情況下,在更小的資料集(如ImageNet-1K)上重現視覺基礎模型的成功?
直觀上,利用這些基礎模型的預訓練權重對於完成這一任務至關重要, 例如結構化剪枝[6,7]。但結構剪枝需要精細的手工設計,無法輕易泛化到任意架構,使其難以滿足現實世界中多樣化的需求。為了追求更通用的設計,我們大膽選擇知識蒸餾作為實現這一目標的方法,即將基礎模型中豐富的知識轉移到一個隨機初始化的學生網路。但與TinyCLIP[8]等方法不同的是,我們選擇在規模更小的資料集——ImageNet-1K上進行訓練,而不是採用原基礎模型的巨型資料集。   
在ImageNet-1K上的知識遷移仍然存在兩個關鍵問題:(1) 那些未公開資料集(例如WIT400M [1],LVD-142M [2])的確切分佈未知,並且很可能ImageNet-1K和這些大規模資料集之間存在分佈偏移。這對目標模型的泛化能力構成了顯著挑戰,因為網路傾向於以固定模式記憶訓練影像,導致Dataset Bias[9,10]。(2) 大多數視覺基礎模型[1, 2, 3, 4]是透過自監督學習目標訓練的,這需要大量的資料才能有效。因此,直接採用它們的最佳化策略在我們的環境中可能不會產生最佳結果。為解決上述挑戰,我們提出了一個簡單通用的蒸餾框架,Proteus,透過模擬視覺基礎模型的行為來將其豐富的知識遷移到目標網路中。
2. Method
在本節我們將介紹Proteus,這是一種簡單且通用的框架,用於在“有限”資料(即ImageNet-1K)上訓練視覺基礎模型。我們首先介紹了在減輕Dataset Bias方面所做的努力,以便Proteus能夠透過模仿預訓練基礎模型的行為,有效地轉移其通用的表徵。然後,我們提出了包含多層次學習目標的Proxy Task,以確保模型在各種任務中的應用。
2.1 Proxy Dataset
在常規知識蒸餾的設定中,通常會引入KL divergence Loss來計算學生網路預測結果和教師網路預測結果的相似度,並輔以Cross-Entropy Loss來計算模型預測的機率分佈與資料集One-hot Label的匹配程度,來指導模型的最佳化。從經驗上看,這種設計在監督學習情況下效果良好,因為它在ImageNet-1K上表現出色。   
然而,我們認為這種設定會在以下兩個方面阻礙知識傳遞:(1) Cross-Entropy Loss利用了One-hot Label的資訊,可能導致Dataset Bias,因為模型傾向於記住訓練影像和類別。這種記憶使得模型在下游評估中難以對未見過的類別進行泛化。(2) Class logits的生成隱性地引入了Dataset Bias,因為中間特徵被投影到一個預定義的維度上,例如ImageNet-1K的1000維,這在下游評估中可能會被丟棄。基於這些考慮,我們在Projection head(全連線層)之前進行知識蒸餾,並利用中間特徵進行知識傳遞[11]。
2.2 Proxy Task
基礎模型如DINOv2 [2]旨在學習通用的視覺特徵,不僅在高層次的分類任務中表現出色,而且在語義分割等密集預測任務中也表現優異。為了最大化知識傳遞能力並保證其在各種任務中的應用,我們在三個不同層次的訓練目標(即token-level, patch-level, and feature-level)上進行蒸餾,透過模擬教師模型的行為來傳遞豐富的知識。
Token-level Objective:為了學習用於高層次理解的discriminative的特徵,我們最小化L2距離,以對齊教師模型和學生模型之間的classification token。
Feature-level Objective:儘管token-level的學習目標作為Proxy Task可以獲得discriminative的視覺特徵,但它無法保證在語義分割或深度估計等密集預測任務上取得良好表現。為了解決這個問題,我們以類似的方式,即最小化教師模型和學生模型feature的L2距離,進行feature-level的知識傳遞。
Patch-level Objective:為了進一步挖掘基礎模型中的隱藏知識,我們借鑑Masked Image Modeling [12, 13, 14] 的思想,構建了一個patch-level的學習目標。給定一個影像,我們會生成一個額外的檢視,其中部分patch被隨機遮掩,然後將其送到學生網路以生成中間特徵,並透過最小化教師模型和學生模型patch的L2距離來恢復被遮掩的區域。   
3. Empirical Validation
我們在ImageNet-1K的訓練集上進行預訓練,該資料集包含約120萬張影像,分佈在1000個類別中。預設情況下,Proteus 是從具有相同patch大小的基礎模型中蒸餾出來的。按照DINOv2和 SynCLR的設定,我們在分類任務(ImageNet-1K 和12個細粒度分類資料集)以及密集預測任務(語義分割和深度估計)上評估我們的方法。
3.1 Accessing DINOv2
DINOv2 在私有的大規模資料集 LVD-142M 上進行訓練,我們利用預訓練的 DINOv2 作為教師模型,在 ImageNet-1K 上訓練一個隨機初始化的網路。
3.1.1 Target Model: ViT-S
Proteus-S 在不同任務上明顯優於其他baseline方法,並且在訓練資料遠少於 Oracle 方法 DINOv2-S 的情況下,僅略微落後於後者。
3.1.2 Target Model: ViT-B and ViT-L
當我們擴大模型規模時,Proteus 與 Oracle 方法 DINOv2 之間的效能差距縮小。Proteus-L 在各項任務上的表現幾乎與 DINOv2-L 相匹配。
3.1.3 Comparison with Distillation in Supervised Learning
Proteus 在相似的成本下,在多個方面優於傳統的監督訓練,提供了一種被基礎模型強化的新穎訓練方案。
3.2 Accessing SynCLR and CLIP
我們透過使用其他基礎模型 SynCLR 和 CLIP 作為教師網路來測試 Proteus 的泛化能力。SynCLR 透過在未公開的 6 億張合成數據集進行對比學習而訓練得到,而 CLIP 是透過在私有資料集 WIT-400M 上對影像和相應的文字描述進行對比學習獲得的。   
3.3 Ablation on Proxy Dataset
3.3.1 Dataset diversity
如果我們增加Proxy Dataset的多樣性,Proteus 的泛化能力可以得到提升。即使在只有單一影像作為Proxy Dataset的極端情況下,Proteus 仍然表現出很強的魯棒性。
3.3.2 Scaling behavior
當我們從每個類別中子取樣一部分資料或從總共1000個類別中子取樣一部分類別時,Proteus 仍然表現出很強的魯棒性。這表明即使在更小的資料規模下,也有可能訓練基礎模型。   
4. Application
首先,Proteus 在所有指標上全面超越了監督學習方法,展示了其代替傳統監督學習訓練正規化的潛力。此外,我們的工作支援模型壓縮研究,從而能夠以更小的成本壓縮基礎模型。進一步地,我們展示了在比ImageNet-1K更小的資料集上訓練基礎模型的可能性,這可能也是未來探索的一個方向。此外,儘管我們的工作主要集中在具有影像模態的純視覺基礎模型上,但我們希望我們的工作能夠激勵這一想法在大型語言模型(LLMs)和大型多模態模型(LMMs)的探索,以促進基礎模型時代下的研究。
Reference:
[1] Radford A, Kim J W, Hallacy C, et al. Learning transferable visual models from natural language supervision[C]//International conference on machine learning. PMLR, 2021: 8748-8763.
[2] Oquab M, Darcet T, Moutakanni T, et al. Dinov2: Learning robust visual features without supervision[J]. arXiv preprint arXiv:2304.07193, 2023.
[3] Tian Y, Fan L, Chen K, et al. Learning vision from models rivals learning vision from data[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024: 15887-15898.
[4] Cherti M, Beaumont R, Wightman R, et al. Reproducible scaling laws for contrastive language-image learning[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023: 2818-2829.
[5] Deng J, Dong W, Socher R, et al. Imagenet: A large-scale hierarchical image database[C]//2009 IEEE conference on computer vision and pattern recognition. Ieee, 2009: 248-255.
[6] Ma X, Fang G, Wang X. Llm-pruner: On the structural pruning of large language models[J]. Advances in neural information processing systems, 2023, 36: 21702-21720.
[7] Xia M, Gao T, Zeng Z, et al. Sheared llama: Accelerating language model pre-training via structured pruning[J]. arXiv preprint arXiv:2310.06694, 2023.
[8] Wu K, Peng H, Zhou Z, et al. Tinyclip: Clip distillation via affinity mimicking and weight inheritance[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2023: 21970-21980.   
[9] Torralba A, Efros A A. Unbiased look at dataset bias[C]//CVPR 2011. IEEE, 2011: 1521-1528.
[10] Liu Z, He K. A Decade's Battle on Dataset Bias: Are We There Yet?[J]. arXiv preprint arXiv:2403.08632, 2024.
[11] Romero A, Ballas N, Kahou S E, et al. Fitnets: Hints for thin deep nets[J]. arXiv preprint arXiv:1412.6550, 2014.
[12] Bao H, Dong L, Piao S, et al. Beit: Bert pre-training of image transformers[J]. arXiv preprint arXiv:2106.08254, 2021.
[13] He K, Chen X, Xie S, et al. Masked autoencoders are scalable vision learners[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2022: 16000-16009.
[14] Zhou J, Wei C, Wang H, et al. ibot: Image bert pre-training with online tokenizer[J]. arXiv preprint arXiv:2111.07832, 2021.

何愷明在MIT授課的課件PPT下載


在CVer公眾號後臺回覆:何愷明,即可下載本課程的所有566頁課件PPT!趕緊學起來!

ECCV 2024 論文和程式碼下載


在CVer公眾號後臺回覆:ECCV2024,即可下載ECCV 2024論文和程式碼開源的論文合集

CVPR 2024 論文和程式碼下載


在CVer公眾號後臺回覆:CVPR2024,即可下載CVPR 2024論文和程式碼開源的論文合集
Mamba、多模態和擴散模型交流群成立
掃描下方二維碼,或者新增微訊號:CVer2233,即可新增CVer小助手微信,便可申請加入CVer-Mamba、多模態學習或者擴散模型微信交流群。另外其他垂直方向已涵蓋:目標檢測、影像分割、目標跟蹤、人臉檢測&識別、OCR、姿態估計、超解析度、SLAM、醫療影像、Re-ID、GAN、NAS、深度估計、自動駕駛、強化學習、車道線檢測、模型剪枝&壓縮、去噪、去霧、去雨、風格遷移、遙感影像、行為識別、影片理解、影像融合、影像檢索、論文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要備註:研究方向+地點+學校/公司+暱稱(如Mamba、多模態學習或者擴散模型+上海+上交+卡卡),根據格式備註,可更快被透過且邀請進群

▲掃碼或加微訊號: CVer2233,進交流群
CVer計算機視覺(知識星球)來了!想要了解最新最快最好的CV/DL/AI論文速遞、優質實戰專案、AI行業前沿、從入門到精通學習教程等資料,歡迎掃描下方二維碼,加入CVer計算機視覺(知識星球),已彙集上萬人!

掃碼加入星球學習
▲點選上方卡片,關注CVer公眾號
整理不易,請贊和在看


相關文章