點選下方卡片,關注“CVer”公眾號
點選下方卡片,關注“CVer”公眾號
AI/CV重磅乾貨,第一時間送達
AI/CV重磅乾貨,第一時間送達
新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球!可以獲得最新頂會/頂刊上的論文idea和CV從入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!
新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球!可以獲得最新頂會/頂刊上的論文idea和CV從入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!

當下,AI生成影像的技術足以以假亂真,在社交媒體肆意傳播。
如何對不同生成模型實現通用檢測?
小紅書聯合中國科學技術大學給出瞭解決方案,僅用1.44M引數量實現了通用AI圖片檢測,在33個測試子集上達到96.7% 準確率,超 SOTA 模型 4.5 個百分點。
這項研究目前已經被 KDD 2025 接收。

AI影像共性:源於成像機制
要實現通用的 AI 影像檢測,核心問題是如何泛化到未知的生成模型上去,現在主流的生成模型包括生成對抗網路 GANs 和擴散模型 DMs。
研究團隊從生成模型架構的共性出發,期望從 AI 影像和真實影像的成像機制的差異中找到突破口。

在 GANs 中,先透過全連線層把低解析度的潛在特徵變成高解析度,然後用上取樣和卷積操作合成影像。DMs 呢,先把有噪影像透過池化和卷積操作降維,再透過同樣的操作升維預測噪聲。
這兩種模型在合成影像時,都大量使用上取樣和卷積,而這兩個操作在數值計算上相當於對畫素值加權平均,會讓合成影像相鄰畫素的區域性相關性變強,留下獨特的 “偽影特徵”,這就是 AI 影像檢測的關鍵線索。
檢測方法 “跑偏”:錯在訓練策略
想象一下,你要在一堆真假難辨的畫作裡找出贗品,如果用來鑑定的方法本身就有缺陷,那肯定很難完成任務。
現有的 AI 影像檢測方法,就面臨著這樣的困境。
當前的 AI 影像檢測方法大多將重點放在挖掘真實影像與AI影像之間的通用差異,,也就是“通用偽影特徵”,卻忽略了訓練過程中的關鍵問題。
研究團隊發現,當前的訓練模式存在兩大問題。

第一個問題是“弱化的偽影特徵”。
AI 影像在生成過程中,由於使用了上取樣和卷積等操作,影像畫素之間的聯絡變得更加緊密,從而留下了可供檢測的痕跡。然而,許多檢測方法在對影像進行預處理時,常常採用下采樣操作來統一影像尺寸,這一操作會“抹除”那些細微的痕跡,大大增加了檢測的難度。
第二個問題是“過擬合的偽影特徵”。
現有的檢測方法在訓練時,資料增強方式較為單一,比如僅僅進行水平翻轉操作。這就使得模型過度適應了訓練資料中的特定特徵,出現過擬合現象。一旦遇到未曾見過的 AI 影像,模型就無法準確識別,泛化效能較差。
簡單影像變換:有效去偏
為了解決這些問題,研究團隊提出了 SAFE,它憑藉三種簡單的影像變換直擊難題。
第一是痕跡保留(Artifact Preservation)。
SAFE在影像預處理階段,捨棄了傳統的下采樣(Resize)操作,改為採用裁剪(Crop)操作。在訓練過程中進行隨機裁剪(RandomCrop),測試時則使用中心裁剪(CenterCrop)。這樣一來,AI影像中的細節以及畫素之間的微妙聯絡得以保留,方便檢測器發現那些細微的“破綻”,顯著提升了捕捉 AI 偽影的能力。
第二是不變性增強(Invariant Augmentation)。
SAFE引入了ColorJitter和RandomRotation兩種資料增強方式。ColorJitter透過在色彩空間中對影像進行調整,能夠有效減少因顏色模式差異而帶來的偏差。RandomRotation則讓模型在不同旋轉角度下依然能夠聚焦於畫素之間的聯絡,避免受到與旋轉相關的無關特徵的干擾,增強了模型對影像旋轉的適應能力。
第三是區域性感知(Local Awareness)。
SAFE提出了基於 Patch 的隨機掩碼策略(RandomMask)。在訓練時,按照一定機率對影像實施隨機掩碼,引導模型將注意力集中在區域性區域,進而提升模型的區域性感知能力。令人驚喜的是,即使影像的大部分割槽域被掩蔽,模型依然能夠依據剩餘的未掩蔽部分準確判斷影像的真偽。
此外,SAFE利用簡單的離散小波變換(DWT)來提取高頻特徵,並將其作為檢測的偽影特徵。由於AI影像與自然影像在高頻分量上存在明顯差異,DWT能夠很好地保留影像的空間結構,有效提取這些差異特徵。
實驗對比:輕量且高效
研究團隊開展了大量實驗,以驗證SAFE的實際效果。
在實驗設定上,訓練資料選用 ProGAN 生成的 AI 影像以及對應的真實影像,測試資料則廣泛涵蓋了多種來源的自然影像,以及由 26 種不同生成模型所生成的 AI 影像,包括常見的 GANs 和 DMs 等。並且選取了 10 種極具代表性的方法作為基線進行對比,透過精確的分類準確率(ACC)和平均精度(AP)來衡量檢測效果。
1. 泛化效能對比
SAFE在33個測試子集上達到了平均96.7%的準確率,超過SOTA方法4.5個點。
值得注意的是,SAFE只有1.44M的引數量,在實際推理時的FLOPs僅為2.30B,相比於SOTA 方法有 50 多倍的效率提升,便於工業部署。

針對最新的基於 DiTs 的生成器,研究團隊構建了DiTFake測試集,包含最新的生成模型Flux、SD3以及PixArt。SAFE在DiTFake上表現堪稱卓越,平均準確率達到99.4%,對新型生成器的泛化能力極強。

2. 即插即用的特性
值得一提的是,由於SAFE具有模型無關的特性,研究人員將其提出的影像變換作為一個即插即用的模組,應用到現有的檢測方法之中。從GenImage測試集的對比結果來看,這一應用帶來了令人驚喜的效果,檢測效能得到了一致提升。

3. 消融實驗
研究團隊還進行了充分的消融實驗,深入探究模型各個組成部分的具體作用。
在影像預處理環節,重點聚焦於裁剪(Crop)操作的效能探究。實驗資料有力地證實,在訓練程序中,裁剪操作相較於傳統的下采樣(Resize),具有不可替代的關鍵作用。
即使測試圖片在傳輸過程中不可避免地經歷了下采樣操作,基於裁剪方法比基於下采樣方法訓練出的模型仍表現出更好的檢測效果。

對於資料增強技術,分別對 ColorJitter、RandomRotation 和 RandomMask 進行了單獨和組合的效果評估。這三種資料增強技術不僅各自都能發揮有效的作用,而且當它們共同作用時,效果更加顯著,能夠進一步提升檢測效能。

在特徵提取方面,研究團隊對不同的影像處理運算元進行了消融,包括用原圖(Naive)、頻域變換運算元(FFT、DCT、DWT)、邊緣提取運算元(Sobel、Laplace)以及不同的頻帶(LL、LH、HL、HH)。

因為 AI 影像在高頻部分的擬合能力相對較弱,透過高頻資訊的差異進行判別展現出了卓越的效能。在高頻資訊提取上,FFT和DCT仍表現出和DWT相當的效能,說明簡單的頻域變換已經能夠很好地進行 AI 影像檢測。
SAFE為AI影像檢測領域開闢了新的方向。它促使我們重新思考複雜的人工設計特徵的必要性,也啟發後續研究可以從最佳化訓練模式入手,減少訓練偏差。
論文連結:https://arxiv.org/abs/2408.06741
程式碼連結:https://github.com/Ouxiang-Li/SAFE
何愷明在MIT授課的課件PPT下載
何愷明在MIT授課的課件PPT下載
ECCV 2024 論文和程式碼下載
ECCV 2024 論文和程式碼下載
CVPR 2024 論文和程式碼下載
CVPR 2024 論文和程式碼下載
CV垂直方向和論文投稿交流群成立
一定要備註:研究方向+地點+學校/公司+暱稱(如Mamba、多模態學習或者論文投稿+上海+上交+卡卡),根據格式備註,可更快被透過且邀請進群
▲掃碼或加微訊號: CVer2233,進交流群
CVer計算機視覺(知識星球)來了!想要了解最新最快最好的CV/DL/AI論文速遞、優質實戰專案、AI行業前沿、從入門到精通學習教程等資料,歡迎掃描下方二維碼,加入CVer計算機視覺(知識星球),已彙集上萬人!
▲掃碼加入星球學習
▲點選上方卡片,關注CVer公眾號
整理不易,請贊和在看

▲掃碼或加微訊號: CVer2233,進交流群
CVer計算機視覺(知識星球)來了!想要了解最新最快最好的CV/DL/AI論文速遞、優質實戰專案、AI行業前沿、從入門到精通學習教程等資料,歡迎掃描下方二維碼,加入CVer計算機視覺(知識星球),已彙集上萬人!

▲掃碼加入星球學習
▲點選上方卡片,關注CVer公眾號
整理不易,請贊和在看
