CVPR2025滿分論文!一塊2080Ti搞定資料蒸餾,GPU佔用僅2G!來自上交大“最年輕博導”課題組!

點選下方卡片,關注“CVer”公眾號

AI/CV重磅乾貨,第一時間送達

新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球可以獲得最新頂會/頂刊上的論文ideaCV從入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!

克雷西 發自 凹非寺

轉載自:量子位(QbitAI)
只要一塊6年前的2080Ti,就能做大模型資料蒸餾?
來自上交大EPIC實驗室等機構的一項最新研究,提出了一種新的資料集蒸餾方法——NFCM
與前SOTA相比,新方法的視訊記憶體佔用只有1/300,並且速度提升了20倍,相關論文獲得了CVPR滿分
NCFM引入了一個輔助的神經網路,將資料集蒸餾重新表述為一個極小化極大(minmax)最佳化問題。
在多個基準資料集上,NCFM都取得了顯著的效能提升,並展現出可擴充套件性。
在CIFAR資料集上,NCFM只需2GB左右的GPU記憶體就能實現無損的資料集蒸餾,用2080Ti即可實現。
並且,NCFM在連續學習、神經架構搜尋等下游任務上也展現了優異的效能。

將資料蒸餾轉化為minmax最佳化

NCFM的核心是引入了一個新的分佈差異度量NCFD,並將資料集蒸餾問題轉化為一個minmax最佳化問題
透過交替優化合成資料以最小化NCFD,以及最佳化取樣網路以最大化NCFD,NCFM在提升合成數據質量的同時,不斷增強分佈差異度量的敏感性和有效性。

特徵提取與頻率引數取樣

NCFM的第一步,是進行特徵提取,也就是從真實資料集和合成資料集中分別取樣一批資料,並將其輸入到特徵提取網路中。
特徵提取網路將原始資料從畫素空間對映到一個特徵空間,得到對應的特徵表示,目的是提取資料的高層語義特徵,為後續的分佈匹配做準備。
特徵提取網路可以是一個預訓練的模型,也可以是一個隨機初始化的模型,這裡NCFM採用了一種混合方式。
接下來,NCFM引入了一個輕量級的神經網路作為取樣網路,它接受一個隨機噪聲作為輸入,輸出一組頻率引數。
這些頻率引數將用於對特徵函式(Characteristic Function,CF)進行取樣。

特徵函式計算與分佈差異度量

對於每一個頻率引數,將其與特徵表示進行內積運算,然後取復指數,就得到了對應的CF值。
這兩個CF值都是複數,其中實部刻畫了資料在該頻率上的分佈範圍,捕捉分佈的散度或多樣性;虛部則反映了資料在該頻率上的分佈中心,捕捉分佈的典型性或真實性。
透過比較真實資料和合成資料的CF值,就可以全面地度量它們在特徵空間上的分佈差異。
為了定量地度量真實資料和合成資料之間的分佈差異,NCFM引入了一個稱為神經特徵函式差異(Neural Characteristic Function Discrepancy,NCFD)的度量。
NCFD綜合考慮了所有采樣頻率上的CF差異,將其彙總為一個標量值。NCFD越小,說明兩個分佈越接近;NCFD越大,說明兩個分佈差異越大。

minmax最佳化

有了NCFD這個分佈差異度量,NCFM的最佳化目標就很清晰了——
最小化NCFD,使得合成數據和真實資料的分佈儘可能接近;同時,望最大化NCFD對合成資料的敏感度,使之能夠準確反映合成數據的變化。
為了同時實現這兩個目標,NCFM引入了一個minmax最佳化框架
  • 在極小化階段,固定取樣網路的引數,調整合成資料,目標是最小化NCFD。這一步使得合成數據向真實資料分佈不斷靠攏。
  • 在極大化階段,固定合成數據,調整取樣網路的引數,目標是最大化NCFD。這一步使得NCFD對合成資料的差異更加敏感,提升其作為差異度量的有效性。
透過交替進行極小化階段和極大化階段的最佳化,NCFM不斷改進合成數據的質量,同時也不斷強化NCFD度量的敏感性和準確性。

模型微調與標籤生成

為了進一步提升合成數據的質量,NCFM在最佳化過程中還引入了兩個額外的步驟——模型微調和標籤生成。
  • 在模型微調階段,NCFM用合成數據微調特徵提取網路,使其更加適應合成數據的特徵分佈,從而進一步縮小合成數據和真實資料之間的特徵差異,提高合成數據的真實性;
  • 在標籤生成階段,用一個預訓練的教師模型來為合成數據生成軟標籤。軟標籤提供了更加豐富和細粒度的監督資訊,可以指導合成數據更好地模模擬實資料的類別分佈,提高合成數據的多樣性。

一塊2080Ti搞定CIFAR實驗

相比於此前方法,NCFM在多個數據集上實現了顯著的效能提升。
在CIFAR-10、CIFAR-100、等資料集中上,NCFM在每類1/10/50張圖片的情況下的測試精度均超過了所有baseline方法。
在ImageNet的各個子集上,NCFM也展現了卓越的效能。
例如在ImageNette上,每類10張圖片時,NCFM達到了77.6%的測試精度,比現有最佳方法(RDED)高出14.4個百分點;
在ImageSquawk上,每類10張圖片時,NCFM達到了72.8%的測試精度,比現有最佳方法(MTT)高出20.5個百分點。
在效能提升的同時,NCFM還實現了大量的速度提升和資源節約。
在CIFAR-100上,NCFM每輪迭代的平均訓練時間比TESLA快了29.4倍,GPU記憶體消耗僅為TESLA的1/23.3(每類50張圖片)
在Tiny ImageNet上,NCFM每輪迭代的平均訓練時間比TESLA快了12.8倍,GPU記憶體消耗僅為TESLA的1/10.7(每類10張圖片)
並且,NCFM在CIFAR-10和CIFAR-100上實現了無損的資料集蒸餾,僅使用了約2GB的GPU記憶體,使得CIFAR上的所有實驗都可以在一塊2080Ti上進行
此外,NCFM生成的合成數據在跨模型泛化能力上超過了現有方法。
例如在CIFAR-10上,用NCFM生成的合成數據訓練AlexNet、VGG和ResNet,都取得了比現有方法更高的測試精度。

來自上交大“最年輕博導”課題組

本文第一作者,是上交大人工智慧學院EPIC實驗室博士生王少博
王少博本科就讀於哈工大軟體工程專業,專業排名第一名;然後在上交大讀研,導師是嚴駿馳教授,研究方向為深度學習理論和可解釋性機器學習,其間專業排名第二。
現在王少博正在張林峰助理教授負責的EPIC實驗室讀博,研究方向為“高效、可解釋的深度學習和”大模型。
王少博現在的導師張林峰,是本文的通訊作者。
同時,張林峰還在NeurIPS、ICML、ICLR、CVPR等頂級學術會議當中擔任審稿人。
張林峰還曾到香港科技大學(廣州)擔任訪問助理教授,他的邀請人胡旭明同樣是一名年輕博導,並且也參與了本專案。
此外還有EPIC實驗室的其他成員,以及來自上海AI實驗室的學者,亦參與了NFCM的研究。

論文地址:

https://github.com/gszfwsb/NCFM/blob/main/asset/paper.pdf

GitHub倉庫:

https://github.com/gszfwsb/NCFM

何愷明在MIT授課的課件PPT下載


在CVer公眾號後臺回覆:何愷明,即可下載本課程的所有566頁課件PPT!趕緊學起來!

CVPR 2025 論文和程式碼下載


在CVer公眾號後臺回覆:CVPR2025,即可下載CVPR 2025論文和程式碼開源的論文合集

ECCV 2024 論文和程式碼下載


在CVer公眾號後臺回覆:ECCV2024,即可下載ECCV 2024論文和程式碼開源的論文合集
CV垂直方向和論文投稿交流群成立
掃描下方二維碼,或者新增微訊號:CVer2233,即可新增CVer小助手微信,便可申請加入CVer-垂直方向和論文投稿微信交流群。另外其他垂直方向已涵蓋:目標檢測、影像分割、目標跟蹤、人臉檢測&識別、OCR、姿態估計、超解析度、SLAM、醫療影像、Re-ID、GAN、NAS、深度估計、自動駕駛、強化學習、車道線檢測、模型剪枝&壓縮、去噪、去霧、去雨、風格遷移、遙感影像、行為識別、影片理解、影像融合、影像檢索、論文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要備註:研究方向+地點+學校/公司+暱稱(如Mamba、多模態學習或者論文投稿+上海+上交+卡卡),根據格式備註,可更快被透過且邀請進群

▲掃碼或加微訊號: CVer2233,進交流群
CVer計算機視覺(知識星球)來了!想要了解最新最快最好的CV/DL/AI論文速遞、優質實戰專案、AI行業前沿、從入門到精通學習教程等資料,歡迎掃描下方二維碼,加入CVer計算機視覺(知識星球),已彙集上萬人!

掃碼加入星球學習
▲點選上方卡片,關注CVer公眾號
整理不易,請點贊和在看


相關文章