小紅書團隊 投稿至 凹非寺
量子位 | 公眾號 QbitAI
AI生成內容已深度滲透至生活的方方面面,從藝術創作到設計領域,再到資訊傳播與版權保護,其影響力無處不在。
然而,隨著生成模型技術的飛速發展,如何精準甄別AI生成影像成為業界與學界共同聚焦的難題。
來自小紅書生態演算法團隊、中科大、上海交通大學聯合提出行業稀缺的全人工標註Chameleon基準和行業領先的AIDE檢測方法。

團隊經過分析,幾乎所有模型都將Chameleon基準中AI生成的影像歸類為真實影像
於是他們提出了AIDE(具有混合特徵的AI -generated Image DE tector ),它利用多個專家同時提取視覺偽影和噪聲模式。最終分別比現有的最先進方法提高了 3.5% 和 4.6% 的準確率。
重新定義AI生成影像檢測任務
Train-Test Setting-I:在現有研究中,AI 生成影像檢測任務通常被設定為在一個特定的生成模型(如 GAN 或擴散模型)上訓練模型,然後在其他生成模型上進行測試。

然而,通常來說,這種設定存在兩個主要問題:
評估Benchmark過於簡單:現有Benchmark中的影像通常會有一些artifacts。
訓練資料的侷限性:將模型限制在特定型別的生成模型上 (GAN or 擴散模型) 訓練,限制了模型從更先進的生成模型中學習多樣化特徵的能力。
為了解決這些問題,團隊提出了一個新的問題設定:
Train-Test Setting-II:鑑別器可以將多種生成模型的影像混合一起訓練,然後在更具挑戰性的、真實世界場景中的影像上進行測試。這種設定更符合實際應用中的需求,能夠更好地評估模型的泛化能力和魯棒性。

為了更真實地評估 AI 生成影像檢測方法的效能,團隊精心構建了Chameleon 資料集。

Chameleon資料集具有以下顯著特點:
高度逼真性:所有AI生成影像均通過了人類感知“圖靈測試”,即人類標註者無法將其與真實影像區分開來。這些影像在視覺上與真實影像高度相似,能夠有效挑戰現有檢測模型的極限。
多樣化類別:資料集涵蓋了人類、動物、物體和場景等多類影像,全面模擬現實世界中的各類場景。這種多樣性確保了模型在不同類別上的泛化能力。
高解析度:影像解析度普遍超過720P,最高可達4K。高解析度影像不僅提供了更豐富的細節資訊,也增加了檢測模型對細微差異的捕捉能力。
資料集構建
為構建一個能夠真實反映 AI 生成影像檢測挑戰的高質量資料集,團隊在資料收集、清洗和標註環節均採取了創新且嚴謹的方法,確保資料集的高質量和高逼真度。
資料收集:多渠道、高逼真度影像獲取
與之前的基準資料集不同,團隊從多個流行的 AI 繪畫社群(如 ArtStation、Civitai 和 Liblib)收集了超過 150K 的 AI 生成影像,這些影像均由廣泛的使用者創作,使用了多種先進的生成模型(如 Midjourney、DALL·E 3 和 Stable Diffusion 等)。這些影像不僅在視覺上逼真,而且涵蓋了豐富多樣的主題和風格,包括人物、動物、物體和場景等。此外,還從 Unsplash 等平臺收集了超過 20K 的真實影像,這些影像均由專業攝影師拍攝,具有高解析度和高質量。所有影像均獲得了合法授權,確保了資料的合法性和可用性。
相比之下,之前的基準資料集通常使用生成效果較差的模型生成影像,缺乏多樣性和真實感,如下圖所示。

資料清洗:多維度、精細化過濾
為確保資料集的高質量,團隊對收集的影像進行了多維度、精細化的清洗過程:
解析度過濾:團隊過濾掉了解析度低於 448×448 的影像,確保所有影像具有足夠的細節和清晰度,以反映 AI 生成影像的真實特性。
內容過濾:利用先進的安全檢查模型(如 Stable Diffusion 的安全檢查模型),團隊過濾掉了包含暴力、色情和其他不適宜內容的影像,確保資料集的合規性和適用性。
去重處理:透過比較影像的雜湊值,團隊去除了重複的影像,確保資料集的多樣性和獨立性。
文字-影像一致性過濾:利用 CLIP 模型,團隊計算了影像與對應文字描述的相似度,過濾掉了與文字描述不匹配的影像,確保影像與文字的一致性和相關性。
之前的基準資料集往往缺乏嚴格的過濾步驟,導致資料集中包含大量低質量、不適宜或重複的影像,影響了資料集的整體質量。
資料標註:專業標註平臺與多輪評估
為確保資料集的準確性和可靠性,團隊建立了專門的標註平臺,並招募了 20 名具有豐富經驗的人類標註者對影像進行分類和真實性評估:
分類標註:標註者將影像分為人類、動物、物體和場景四類,確保資料集覆蓋了多種現實世界中的場景和物件。
真實性評估:標註者根據“是否可以用相機拍攝”這一標準對影像的真實性進行評估。每個影像獨立評估兩次,只有當兩名標註者均誤判為真即時,影像才被標記為“高逼真”。
多輪評估:為確保標註的準確性,團隊對標註結果進行了多輪稽核和校對,確保每個影像的分類和真實性評估結果準確無誤。
與之前的基準資料集不同,該資料集經過了嚴格的人工標註,確保了資料集的高質量和高逼真度。之前的基準資料集往往缺乏嚴格的人工標註,導致資料集中的影像質量和標註準確性參差不齊。
透過上述多維度、精細化的資料收集、清洗和標註過程,構建了一個高質量、高逼真度的 AI 生成影像檢測基準資料集,為後續的研究和模型評估提供了堅實的基礎。該資料集不僅在規模上更大,而且在影像質量和標註精度上也有了顯著提升,能夠更好地反映 AI 生成影像檢測的實際挑戰。
資料集對比
Chameleon資料集可以作為現有評測資料集的擴充套件,Chameleon資料集在規模、多樣性和影像質量等方面均展現出顯著優勢:
規模:Chameleon資料集包含約26,000張測試影像,是目前最大的AI生成影像檢測資料集之一。
多樣性:資料集涵蓋了多種生成模型和影像類別,遠超其他資料集的單一類別。
影像質量:影像解析度從720P到4K不等,提供了更高質量的影像資料,增加了檢測模型的挑戰性。
AIDE模型:多專家融合的檢測框架
在AI生成影像檢測領域,現有的檢測方法往往只能從單一角度進行分析,難以全面捕捉AI生成影像與真實影像之間的細微差異。
為了解決這一問題,研究者們提出了簡單且有效的AIDE(AI-generated Image DEtector with Hybrid Features)模型,該模型透過融合多種專家模組,從低階畫素統計和高階語義兩個層面全面捕捉影像特徵,實現了對AI生成影像的精準檢測。
AIDE模型主要由兩個核心模組組成:Patchwise Feature Extraction(PFE)模組和Semantic Feature Embedding(SFE)模組。這兩個模組透過多專家融合的方式,共同為最終的分類決策提供豐富的特徵資訊。

Patchwise Feature Extraction(PFE)模組
PFE模組旨在捕捉影像中的低階畫素統計特徵,特別是AI生成影像中常見的噪聲模式和紋理異常。具體而言,該模組透過以下步驟實現:
Patch Selection via DCT Scoring:首先,將輸入影像劃分為多個固定大小的影像塊(如32×32畫素)。然後,對每個影像塊應用離散餘弦變換(DCT),將其轉換到頻域。透過設計不同的帶通濾波器,計算每個影像塊的頻率複雜度得分,從而識別出最高頻率和最低頻率的影像塊。
Patchwise Feature Encoder:將篩選出的高頻和低頻影像塊調整為統一大小(如256×256畫素),並輸入到SRM(Spatial Rich Model)濾波器中提取噪聲模式特徵。這些特徵隨後透過兩個ResNet-50網路進行進一步處理,得到最終的特徵圖。
Semantic Feature Embedding(SFE)模組
SFE模組旨在捕捉影像中的高階語義特徵,特別是物體共現和上下文關係等。具體而言,該模組透過以下步驟實現:
Semantic Feature Embedding:利用預訓練的OpenCLIP模型對輸入影像進行全域性語義編碼,得到影像的視覺嵌入特徵。透過新增線性投影層和平均空間池化操作,進一步提取影像的全域性上下文資訊。
Discriminator模組
將PFE和SFE模組提取的特徵在通道維度上進行融合,透過多層感知機(MLP)進行最終的分類預測。具體而言,首先對高頻和低頻特徵圖進行平均池化,得到低階特徵表示;然後將其與高階語義特徵進行通道級拼接,形成最終的特徵向量;最後透過MLP網路輸出分類結果。
實驗結果
資料集:實驗在AIGCDetectBenchmark、GenImage和Chameleon三個資料集上進行。AIGCDetectBenchmark和GenImage是現有的基準測試資料集,而Chameleon是研究者們新構建的更具挑戰性的資料集。
模型對比:研究者選擇了9種現成的AI生成影像檢測器進行對比,包括CNNSpot、FreDect、Fusing、LNP、LGrad、UnivFD、DIRE、PatchCraft和NPR。
評價指標:實驗採用分類準確率(Accuracy)和平均精度(Average Precision, AP)作為評價指標。
團隊評測了AIDE在AIGCDetectBenchmark和GenImage上的結果,如下表所示:

AIDE模型在這兩個資料集上的優異表現表明,融合低階畫素統計和高階語義特徵的方法能夠有效捕捉AI生成影像與真實影像之間的差異,從而提高檢測準確率。
隨後在Chameleon benchmark上測評了9個現有的detectors,如下表所示。

同時團隊可視化了,之前的SOTA方法PatchCraft在AIGCDetectBenchmark & GenImage 以及Chameleon上的表現

結果表明,之前在AIGCDetectBenchmark &GenImage上表現優異的模型,在Chameleon benchmark上均表現很差,這表明Chameleon資料集中的影像確實具有高度的逼真性,對現有檢測模型提出了更大的挑戰。
本論文透過對現有 AI 生成影像檢測方法的重新審視,提出了一個新的問題設定,構建了更具挑戰性的 Chameleon 資料集,並設計了一個融合多專家特徵的檢測器 AIDE。實驗結果表明,AIDE 在現有的兩個流行基準(AIGCDetectBenchmark 和 GenImage)上取得了顯著的效能提升,分別比現有的最先進方法提高了 3.5% 和 4.6% 的準確率。然而,在 Chameleon 基準上,儘管 AIDE 取得了最好的效能,但與現有基準相比,仍存在較大的差距。
這表明,檢測 AI 生成影像的任務仍然具有很大的挑戰性,需要未來進一步的研究和改進。希望這一工作能夠為這一領域的研究提供新的思路和方向,推動 AI 生成影像檢測技術的發展。
儘管AIDE模型在AI生成影像檢測領域取得了顯著進展,但研究者們仍計劃在未來的工作中進一步最佳化模型架構,探索更高效的特徵提取和融合方法。
此外,研究者們還計劃擴大Chameleon資料集的規模,涵蓋更多類別、更多場景、更多生成模型的影像,以推動AI生成影像檢測技術的進一步發展。
論文:https://arxiv.org/pdf/2406.19435
主頁:https://shilinyan99.github.io/AIDE/
程式碼:https://github.com/shilinyan99/AIDE
主頁:https://shilinyan99.github.io/AIDE/
程式碼:https://github.com/shilinyan99/AIDE
投稿請工作日發郵件到:
標題註明【投稿】,告訴我們:
你是誰,從哪來,投稿內容
附上論文/專案主頁連結,以及聯絡方式哦
我們會(儘量)及時回覆你

一鍵關注 👇 點亮星標
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!