
現在,區分 AI 圖片,真的越來越難了。

給你幾秒時間,下面這四張圖,你看得出哪個是 AI 生成的嗎?
先做題,不準下劃偷看答案!

其實,這裡只有左下角是真實照片。不知道你猜沒猜對,反正編輯部的小夥伴們都覺得挺難的。

而事實也是這樣,AI 圖片已經越來難辨真假,甚至很多 AI 檢測工具都失靈了。
這麼說吧,以前生成的那些圖片,有些是漫畫風,有些長著奇怪的四肢和五官,還有不合理的背景,總之漏洞百出,有時候還挺驚悚。
但前一陣子 GPT-4o 一升級,大模型的文生圖能力直接超神了。比如,剛剛右上角的 “ 自拍照 ” 就是下面這些提示詞生成的:

大模型甚至能理解提示詞裡的 “ 平庸 ”、“ 漫不經心 ”、“ 模糊 ”、“ 過曝 ” 等等抽象的要求,生成的圖片就像我們生活裡的隨手一拍,一點違和感都沒有。
具體這些模型是怎麼做到讓 AI 圖以假亂真的,官方還沒有開源他們的訓練架構。

不過在 OpenAI 官網上,我們找到了一些線索。

官方表示,他們在訓練模型的時候, 可以讓模型更好地理解語言和影像之間的關聯。再加持神秘的 “ 後期訓練 ”,能讓生成的結果看起來很流暢。
所以,當我們給出一些抽象的詞彙,比如 “ 漫不經心 ”,模型就能知道影像的角度應該有些歪、畫面有些糊、表情應該自然等等,還能完美地展示出來。

技術發展這麼快,咱碳基生物是真沒辦法了。
但更絕望的是,實驗結果表示,這回矽基也分不清。我們先試了試大模型的矛能不能攻破自己的盾。不出意外,原來那種一眼假的 AI 圖片,它和我們一樣,還能輕鬆分辨出來。但現在,同樣一張圖,丟給豆包和 GPT,它們都認為這是一張真實的自拍照。
豆包看不出這張圖片是AI生成的


除了用大模型測試,我們還找了兩個推薦排名最靠前的免費 AI 圖片檢測器,結果它們各有各的拉垮。
我們測試了八張肉眼完全看不出破綻的 AI 人像圖片。其中有四張它們意見達成了一致,只不過,是一致認為都是真實照片。。。


還有四張,兩個檢測器的意見完全相反。剛才還以為他們互相抄作業,但這下我不懷疑了,因為這回錯的題全都不一樣。
總之就是對著幹

這還只是比較簡單的人像,畫面集中在人的正臉上,背景也比較單一。
接下來一些複雜場景的測試就更慘不忍睹了,人多或者背景過於精細,甚至單純的風景圖片,都讓檢測器幾乎全軍覆沒。如果說檢測器面對 AI 自拍照還有一點懷疑,面對這些圖片的時候它是真的信了。

認不出也就罷了,有一個檢測器還出現了誤傷,把一張真正的照片判定成了 AI 圖片。


有一說一,網戀人的天塌了,以後真分不清是照片還是照騙了。P 圖可能會留下痕跡,但現在的 AI 生圖真的讓人懷疑,這不會是哪個網紅明星要和我談戀愛吧。
那為啥現在 AI 檢測工具都不靈了?
在搜尋的時候,我們發現,雖然文生圖技術的發展像是坐上了火箭,但 AI 影像檢測這麼多年還在騎著卷積神經網路的腳踏車。

由於大部分工具不會開放它們的原始碼,我們在 github 上找到了幾個 AI 圖片檢測專案作為參考。

我們發現,這幾個 AI 檢測工具的架構都還停留在資料集 + 卷積特徵識別 + 分類的階段。
熟悉計算機視覺的差友,可能瞭解這一套沿用了 N 年的流程:先給資料集裡的每張圖片打上是或不是 AI 生成的標籤,剩下的就交給神經網路去學習標籤相應的圖片特徵,最後進行分類。

AI 生圖技術更新了一茬又一茬,這些工具做的不過就是把新 AI 圖打上標籤,加進老資料集,重新再訓練一遍。甚至其中一個工具用的 CvT-13 模型,已經是 4 年前的老東西了。
可以說是魔高一尺,道高一寸,技術本身沒更新,準確率當然上不去了。
CvT-13架構

雖然 AI 圖片識別相關的學術研究也有一些,但研究速度,數量和受到的關注度都和大模型文生圖沒法比。

不過,與其費時費力的後期區分,不如從源頭解決問題。
比如各大 AI 公司共同倡導的 C2PA 組織,鼓勵制定相關標準,來更方便地驗證資訊來源,避免 AI 內容氾濫。
其中,OpenAI 表示會嘗試給生成的圖片加上水印。谷歌也提出 synthID,可以把數字水印嵌入 AI 生成的文字、圖片、影片、音訊裡。這種水印不會影響我們的觀感,但可以被軟體識別。
而且,在今年 3 月國家頒佈的《 人工智慧生成合成內容標識辦法 》中明確表示,從 2025 年 9 月起,所有 AI 生成的內容都必須新增顯式或隱式標識。

那我們為啥要一定區分 AI 圖呢?分不清難道不是技術力 max,這不是好事嗎?

生圖確實很厲害,不過凡事咱得看兩面。因為在 AI 生圖震驚全球的時候,利用 AI 進行詐騙犯罪的新聞還在頻繁曝出。AI 越真,我們被騙的機率就越高。
畢竟,有些人想的肯定不是怎麼用 AI 生成吉卜力風格的可愛圖片,而是用最真實的圖片來攻擊大家最薄弱的點。

總的來說,現在靠我們自己已經很難分清 AI 影像的真假了。
不管是識別的工具,還是從源頭給 AI 內容打標記,現在的技術都有些落後,但需求很緊迫。
這樣看來,區分 AI 內容會是一場持久戰。各大公司在搞生圖技術,秀肌肉的時候,也該考慮一下 AI 識別技術的升級了。
撰文:莫莫莫甜甜
編輯:江江 & 面線
美編:萱萱
圖片、資料來源:
https://sightengine.com/detect-ai-generated-images
http://hivemoderation.com/ai-generated-content-detection
https://openai.com/index/introducing-4o-image-generation/ https://www.bleepingcomputer.com/news/artificial-intelligence/openai-tests-watermarking-for-chatgpt-4o-image-generation-model/ https://deepmind.google/technologies/synthid/
https://www.gov.cn/zhengce/zhengceku/202503/content_7014286.htm
https://github.com/guyfloki/ai-image-detector https://github.com/mytechnotalent/deepfake-detector https://github.com/HassaniAtefe/ai-or-not
https://m.okjike.com/originalPosts/67fb98097cb8c547e2ad23c5?s=eyJ1IjoiNTkzZjcwNDUwOWVkNmUwMDEyYjRiZmUwIiwiZCI6MX0%3D
豆包,GPT-4o,pexels

