點選下方卡片,關注“CVer”公眾號
點選下方卡片,關注“CVer”公眾號
AI/CV重磅乾貨,第一時間送達
AI/CV重磅乾貨,第一時間送達
新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球!可以獲得最新頂會/頂刊上的論文idea和CV從入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!
新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球!可以獲得最新頂會/頂刊上的論文idea和CV從入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!

克雷西 發自 凹非寺
轉載自:量子位(QbitAI)
只要一塊6年前的2080Ti,就能做大模型資料蒸餾?
來自上交大EPIC實驗室等機構的一項最新研究,提出了一種新的資料集蒸餾方法——NFCM。
與前SOTA相比,新方法的視訊記憶體佔用只有1/300,並且速度提升了20倍,相關論文獲得了CVPR滿分。

NCFM引入了一個輔助的神經網路,將資料集蒸餾重新表述為一個極小化極大(minmax)最佳化問題。
在多個基準資料集上,NCFM都取得了顯著的效能提升,並展現出可擴充套件性。
在CIFAR資料集上,NCFM只需2GB左右的GPU記憶體就能實現無損的資料集蒸餾,用2080Ti即可實現。
並且,NCFM在連續學習、神經架構搜尋等下游任務上也展現了優異的效能。
將資料蒸餾轉化為minmax最佳化
NCFM的核心是引入了一個新的分佈差異度量NCFD,並將資料集蒸餾問題轉化為一個minmax最佳化問題。
透過交替優化合成資料以最小化NCFD,以及最佳化取樣網路以最大化NCFD,NCFM在提升合成數據質量的同時,不斷增強分佈差異度量的敏感性和有效性。

特徵提取與頻率引數取樣
NCFM的第一步,是進行特徵提取,也就是從真實資料集和合成資料集中分別取樣一批資料,並將其輸入到特徵提取網路中。
特徵提取網路將原始資料從畫素空間對映到一個特徵空間,得到對應的特徵表示,目的是提取資料的高層語義特徵,為後續的分佈匹配做準備。
特徵提取網路可以是一個預訓練的模型,也可以是一個隨機初始化的模型,這裡NCFM採用了一種混合方式。
接下來,NCFM引入了一個輕量級的神經網路作為取樣網路,它接受一個隨機噪聲作為輸入,輸出一組頻率引數。
這些頻率引數將用於對特徵函式(Characteristic Function,CF)進行取樣。
特徵函式計算與分佈差異度量
對於每一個頻率引數,將其與特徵表示進行內積運算,然後取復指數,就得到了對應的CF值。
這兩個CF值都是複數,其中實部刻畫了資料在該頻率上的分佈範圍,捕捉分佈的散度或多樣性;虛部則反映了資料在該頻率上的分佈中心,捕捉分佈的典型性或真實性。
透過比較真實資料和合成資料的CF值,就可以全面地度量它們在特徵空間上的分佈差異。
為了定量地度量真實資料和合成資料之間的分佈差異,NCFM引入了一個稱為神經特徵函式差異(Neural Characteristic Function Discrepancy,NCFD)的度量。
NCFD綜合考慮了所有采樣頻率上的CF差異,將其彙總為一個標量值。NCFD越小,說明兩個分佈越接近;NCFD越大,說明兩個分佈差異越大。
minmax最佳化
有了NCFD這個分佈差異度量,NCFM的最佳化目標就很清晰了——
最小化NCFD,使得合成數據和真實資料的分佈儘可能接近;同時,望最大化NCFD對合成資料的敏感度,使之能夠準確反映合成數據的變化。
為了同時實現這兩個目標,NCFM引入了一個minmax最佳化框架:
-
在極小化階段,固定取樣網路的引數,調整合成資料,目標是最小化NCFD。這一步使得合成數據向真實資料分佈不斷靠攏。
-
在極大化階段,固定合成數據,調整取樣網路的引數,目標是最大化NCFD。這一步使得NCFD對合成資料的差異更加敏感,提升其作為差異度量的有效性。
透過交替進行極小化階段和極大化階段的最佳化,NCFM不斷改進合成數據的質量,同時也不斷強化NCFD度量的敏感性和準確性。
模型微調與標籤生成
為了進一步提升合成數據的質量,NCFM在最佳化過程中還引入了兩個額外的步驟——模型微調和標籤生成。
-
在模型微調階段,NCFM用合成數據微調特徵提取網路,使其更加適應合成數據的特徵分佈,從而進一步縮小合成數據和真實資料之間的特徵差異,提高合成數據的真實性;
-
在標籤生成階段,用一個預訓練的教師模型來為合成數據生成軟標籤。軟標籤提供了更加豐富和細粒度的監督資訊,可以指導合成數據更好地模模擬實資料的類別分佈,提高合成數據的多樣性。
一塊2080Ti搞定CIFAR實驗
相比於此前方法,NCFM在多個數據集上實現了顯著的效能提升。
在CIFAR-10、CIFAR-100、等資料集中上,NCFM在每類1/10/50張圖片的情況下的測試精度均超過了所有baseline方法。

在ImageNet的各個子集上,NCFM也展現了卓越的效能。
例如在ImageNette上,每類10張圖片時,NCFM達到了77.6%的測試精度,比現有最佳方法(RDED)高出14.4個百分點;
在ImageSquawk上,每類10張圖片時,NCFM達到了72.8%的測試精度,比現有最佳方法(MTT)高出20.5個百分點。

在效能提升的同時,NCFM還實現了大量的速度提升和資源節約。
在CIFAR-100上,NCFM每輪迭代的平均訓練時間比TESLA快了29.4倍,GPU記憶體消耗僅為TESLA的1/23.3(每類50張圖片);
在Tiny ImageNet上,NCFM每輪迭代的平均訓練時間比TESLA快了12.8倍,GPU記憶體消耗僅為TESLA的1/10.7(每類10張圖片)。
並且,NCFM在CIFAR-10和CIFAR-100上實現了無損的資料集蒸餾,僅使用了約2GB的GPU記憶體,使得CIFAR上的所有實驗都可以在一塊2080Ti上進行。

此外,NCFM生成的合成數據在跨模型泛化能力上超過了現有方法。
例如在CIFAR-10上,用NCFM生成的合成數據訓練AlexNet、VGG和ResNet,都取得了比現有方法更高的測試精度。

來自上交大“最年輕博導”課題組
本文第一作者,是上交大人工智慧學院EPIC實驗室博士生王少博。
王少博本科就讀於哈工大軟體工程專業,專業排名第一名;然後在上交大讀研,導師是嚴駿馳教授,研究方向為深度學習理論和可解釋性機器學習,其間專業排名第二。
現在王少博正在張林峰助理教授負責的EPIC實驗室讀博,研究方向為“高效、可解釋的深度學習和”大模型。

王少博現在的導師張林峰,是本文的通訊作者。
同時,張林峰還在NeurIPS、ICML、ICLR、CVPR等頂級學術會議當中擔任審稿人。

張林峰還曾到香港科技大學(廣州)擔任訪問助理教授,他的邀請人胡旭明同樣是一名年輕博導,並且也參與了本專案。
此外還有EPIC實驗室的其他成員,以及來自上海AI實驗室的學者,亦參與了NFCM的研究。

論文地址:
https://github.com/gszfwsb/NCFM/blob/main/asset/paper.pdfGitHub倉庫:
https://github.com/gszfwsb/NCFM
何愷明在MIT授課的課件PPT下載
何愷明在MIT授課的課件PPT下載
CVPR 2025 論文和程式碼下載
CVPR 2025 論文和程式碼下載
ECCV 2024 論文和程式碼下載
ECCV 2024 論文和程式碼下載
CV垂直方向和論文投稿交流群成立
一定要備註:研究方向+地點+學校/公司+暱稱(如Mamba、多模態學習或者論文投稿+上海+上交+卡卡),根據格式備註,可更快被透過且邀請進群
▲掃碼或加微訊號: CVer2233,進交流群
CVer計算機視覺(知識星球)來了!想要了解最新最快最好的CV/DL/AI論文速遞、優質實戰專案、AI行業前沿、從入門到精通學習教程等資料,歡迎掃描下方二維碼,加入CVer計算機視覺(知識星球),已彙集上萬人!
▲掃碼加入星球學習
▲點選上方卡片,關注CVer公眾號
整理不易,請點贊和在看

▲掃碼或加微訊號: CVer2233,進交流群
CVer計算機視覺(知識星球)來了!想要了解最新最快最好的CV/DL/AI論文速遞、優質實戰專案、AI行業前沿、從入門到精通學習教程等資料,歡迎掃描下方二維碼,加入CVer計算機視覺(知識星球),已彙集上萬人!

▲掃碼加入星球學習
▲點選上方卡片,關注CVer公眾號
整理不易,請點贊和在看
