
好久沒有露面的劉強東,最近跑去送了外賣,被人給抓拍到了:

而且還和“兄弟”王興一起自拍:

前兩天還在上演激烈的商戰,突然大和解了麼。。
別誤會,第二張照片是網友用 GPT-4o 生成的。
不止如此,還有陳奕迅和謝霆鋒的偶遇:

成龍和施瓦辛格的偶遇:

還有油管超級網紅“甲亢哥”爬長城的自拍:

這些照片全是 AI 生成的。。。而且在各大平臺上已經氾濫。毫不誇張地說,這些 AI 照片已經到了真假難辨的程度了。
這就是最近全網非常火的“意外風”照片。
這種玩法最開始來自 reddit 上的一個帖子,有一個網友發了一張“再日常不過”的照片。

這張平平無奇的照片,就是用 GPT 生成的。
和以往的 AI 照片不同,這些照片主打一個“不經意”和“瑕疵”。
比如 reddit 上這張圖,缺乏主題,沒有焦點,運動模糊,曝光不準確,被拍攝的物體也是充滿了各種“瑕疵”,地面不整潔,有各種汙漬,磨損,甚至連車都是一輛普通的家用車。
Reddit 上有一個網友說得好:

那這種不完美的“真實”照片是怎麼生成的呢?
核心是反向提示詞。
這是之前的慣用的提示詞——
陽光照耀下,一位穿著復古白色連衣裙的年輕女子站在櫻花樹下,微笑看向鏡頭,背景是淺粉色花海,清晨柔光,照片風格,4K 高畫質

總之提示詞描述地越細緻、越詳細,效果越逼真。
與之前“完美”的提示詞不一樣,反向提示詞主打就是描述不完美,比如
“平凡無奇,隨手一拍,曝光過度,構圖混亂,平庸,沒有特點”
比如生成一張馬雲和馬斯克在大雁塔前的自拍的提示詞:
請畫一張極其平凡無奇的 iPhone 自拍照,沒有明確的主體或構圖感,就像是隨手一拍的快照。照片略帶運動模糊,陽光或店內燈光不均導致輕微曝光過度。角度尷尬、構圖混亂,整體呈現出一種刻意的平庸感-就像是從口袋裡拿手機時不小心拍到的一張自拍。主角是[馬雲和馬斯克],[晚上],旁邊是 [西安大雁塔]。
只需要替換[]內的對應內容,就可以生成你想要的內容。

如果想和大佬合照,上傳一張你自己的照片,並使用如下提示詞:
請畫一張極其平凡無奇的 iPhone 自拍照,沒有明確的主體或構圖感,就像是隨手一拍的快照。照片略帶運動模糊,陽光或店內燈光不均導致輕微曝光過度。角度尷尬、構圖混亂,整體呈現出一種刻意的平庸感-就像是從口袋裡拿手機時不小心拍到的一張自拍。主角是 [XX和馬斯克,馬斯克表現得比較高興],[晚上],旁邊是 [上海外灘]。
這是小瑤和世界首富馬斯克的合影——

如果你不想自拍,只是想要一張足夠以假亂真的普通照片,可以用下面的提示詞模板:
這是一張極其普通、毫無特色的 iPhone 照片,看不出明確的主題或構圖——就像是隨手一拍的快照。畫面中可能[包含一段人行道、一輛停著的車的車角、背景裡的綠籬,或其他雜亂的元素]。照片有些輕微的運動模糊,陽光不均導致曝光略微過度。拍攝角度顯得尷尬,幾乎沒有構圖可言,整體效果平平無奇——就像是不小心從口袋裡掏手機時誤按快門拍下的一張照片。
方括號中內容就是你想要表達的主題。
這是我用這一段提示詞的效果:

這些照片到底有多真?
先把這張照片讓 o3 給判斷一下:

(GPT-4o 生成,提示詞:馬雲和馬斯克, 晚上在西安大雁塔旁邊的自拍)

o3 的答案:這是假的!
能證明 o3 有能力分辨一般的 AI 照片。
接著,我把這張圖問了 o3 是真是假?

o3 從純視覺角度已經分辨不出真假了。。。。
我又用幾張圖試了試,同樣的效果:


雖然 o3 對這些照片分析很細緻,但是 o3 統一認為都是真實的圖片。
那麼用 Gemini 2.5 Pro 呢?

Gemini 2.5 Pro 判斷對了。
但是它的判斷邏輯是根據公開資訊,圖片的兩位主人公沒有共同遊覽西安的報道。
而從圖片本身的視覺資訊上,沒有給出任何確定性的結論。可以認為照片的真實程度已經超過了 Gemini 2.5 Pro 的判斷能力。
這套“反向提示詞”模板生成的不完美照片,其真實程度超出了當前最頂級的影像模型的判斷能力。
Reddit 上的網友普遍表示:


除了感慨圖形過於逼真之外,還有些網友已經開始動起了歪腦筋。
比如透過編輯照片,放大汽車事故嚴重性,騙取保險:


還有這樣子的:

技術的提升永遠都是雙刃劍,這種矛和盾的交鋒肯定還會繼續。
當“瑕疵”都能被完美偽造時,“眼見為實”這四個字,還剩多少分量?


