谷歌新版Gemini可“一句話P圖”,付費相簿危矣?

最近兩天,科技圈被谷歌的一項新功能刷屏了。谷歌上週擴大了 Gemini 2.0 Flash 模型影像生成功能的訪問許可權,讓開發者可透過 Google AI Studio 和 Gemini API 免費使用這一實驗性功能,也是其首個原生的全模態影像生成器。
與傳統 AI 影像生成不同,Gemini 2.0 Flash 不是像 ChatGPT 呼叫 DALL-E 3 或 Grok 呼叫 flux.1 那樣讓語言模型去呼叫單獨的擴散模型,而是在處理文字提示的同一模型中原生生成影像。目前谷歌並未公開此功能的詳細技術細節,只簡單介紹稱它“結合多模態輸入、增強推理和自然語言理解”。
因為有了這種能力,現在使用者只需一句簡單的提示語,就能完成以前需要 Photoshop 等專業軟體才能實現的複雜影像編輯任務。在各大社交平臺上,大家已經玩瘋了這個功能。
比如,可以上傳一件時尚外套的圖片,然後要求模型讓照片中的模特穿上這件衣服,結果非常自然。
(來源:X)
或者是讓人物手持一瓶香水,合成效果也非常出色。
(來源:X)
或者更實用一點的,你還可以在遲到時讓 Gemini 將自己在家拍的自拍照轉換成在地鐵故障現場等車的場景照片。雖然有眼尖的網友指出,生成影像中背景人物看起來像虛構角色,主角的拇指形狀也很奇特,但整體效果看起來還是挺讓人驚訝的。
(來源:X)
筆者也用兩道題目試了一下,簡單一點的要求實現起來還是很輕鬆的。
(來源:Gemini 生成)
但比較複雜的題目,效果就不盡如人意了。
(來源:Gemini 生成)
這款實驗版 Gemini 2.0 Flash 模型還有許多特別的功能:
  • 圖文故事模式:開發者可以生成帶插圖的故事,保持人物和場景的一致性。使用者可以提出反饋意見,隨時調整故事情節或藝術風格。
  • 對話式影像編輯:支援多輪編輯對話,使用者可以透過自然語言指令不斷完善影像,實現即時協作和創意探索。
  • 基於世界知識的影像生成:利用模型的推理能力,建立基於真實世界知識的上下文準確影像。比如,它可以根據實際配料和烹飪方法準確地為食譜配圖。
  • 改進的文字渲染:在影像中呈現清晰、拼寫正確的文字,特別適合製作廣告、社交媒體帖子和邀請函。
X 上,不少使用者直言這項技術可能意味著 Photoshop 和 Canva 等專業影像編輯工具的末日。一位使用者評論道:“谷歌這次真的做到了,普通人不需要學習任何專業技能就能完成高階修圖任務。”
不過在眾多應用場景中,有一項功能卻引發了巨大的爭議,那就是它能輕鬆移除影像水印,包括來自 Getty Images 和其他知名相簿的版權保護水印。
根據多位社交媒體使用者的展示和技術媒體的實測,Gemini 不僅能夠移除水印標記,還能智慧填補水印去除後留下的空白區域,而且處理後的影像質量相當高——AI 不僅移除了水印痕跡,還進行了畫素級的智慧重建,效果類似於 Google Photos 應用中的魔法橡皮擦功能。
(來源:X)
甚至,當處理低解析度的影像時,Gemini 不僅能去除水印,還會自動提升整體影像質量。根據一位測試者的詳細記錄,他上傳的 485×632 畫素影像在處理後變成了 783×1024 畫素的高畫質影像。雖然最終生成的影像會帶有 Gemini 自己的水印,但這個水印很容易透過簡單的裁剪操作去除。
Reddit 上多位使用者分享的對比圖顯示,Gemini 能夠成功移除 iStock 和 Getty 的複雜水印,甚至處理那些帶有半透明設計元素的版權標記。通常情況下,要獲取無水印的影像,使用者需要支付一次性費用或訂閱相關服務,但現在 Gemini 2.0 Flash 免費就能完成這一任務。
不過,這一功能目前只在 Google AI Studio 的開發者工具中可用,如果使用者嘗試在面向消費者的移動或桌面版 Gemini 應用中去除水印,系統會顯示警告資訊:“未經版權持有者明確許可移除影像水印在大多數國家是違法的,應尊重版權法和智慧財產權。如果想使用帶水印的影像,應聯絡版權持有者並獲取許可。”
這項功能被發現後,立即引發了廣泛爭議。和 Gemini 不一樣的是,它的主要競爭對手 Anthropic 的 Claude 3.7 Sonnet 和 OpenAI 的 GPT-4o 都明確拒絕執行移除水印的請求。當被要求移除影像水印時,Claude 甚至直白地表示這是“不道德且可能違法”的行為(雖然它只能生成 SVG 影像)。
X 平臺上一位名為 tmophoto 的使用者警告說:“如果你因為移除水印被抓到,懲罰可能是直接盜用影像的 100 倍那麼嚴重。現在可以用 AI 生成影像,根本沒必要偷圖。”
對此,Menlo Ventures 合夥人、前谷歌工程師 Deedy Das 反駁道:“嚴格來說,新生成的影像雖然與原圖相似,但實際上是從頭建立的。如何在法律上證明它們是同一張影像?”
從模型生成的包含文字的圖片的效果上來看,或許它的確並非完全複製原圖以生成。
圖丨在下面這張包含文字的圖片中,我們明顯它“生成”的痕跡——文字亂碼(來源:X)
不過許多使用者對此並不買賬,認為這在法律上毫無疑問是侵權行為。
從法律角度看,美國版權法明確規定,未經原始所有者同意移除水印屬於違法行為(除極少數特殊情況外)。歐盟《人工智慧法案》第 50 條更是明確要求 AI 系統的輸出應採用“機器可讀格式”,並且必須能夠被識別為“人工生成或操縱”的內容。中國最佳也宣佈了類似的“識別措施”,要求 AI 生成的內容應當有人類和機器可讀的標識。
實際上,谷歌曾在 2023 年與其他 AI 公司(包括 Meta、Anthropic、亞馬遜和 OpenAI)共同向白宮承諾實施 AI 生成內容的水印系統,以應對美國前總統拜登提出的關於 AI 造假內容風險的擔憂。今年早些時候,谷歌還為其 Photos 應用中的 AI Reimagine 工具處理的照片添加了名為 SynthID 的數字水印技術,這種水印雖然肉眼無法識別,但機器可以檢測並驗證其 AI 來源。
而谷歌與水印技術的淵源還可以追溯到更早之前。2017 年,一個谷歌研究團隊曾開發過一種能從影像中移除庫存和機構水印的演算法。這項發表在計算機視覺和模式識別會議上的研究,主要目的是揭示現有水印技術的漏洞,並推動水印安全性的改進。
圖丨相關論文(來源:Google Research)
研究論文中寫道:“我們揭示了可見水印使用方式中的一個漏洞,它允許自動移除水印並高精度地恢復原始影像。這種攻擊利用了水印在多個影像中的一致性,不受水印複雜度或位置的限制。”
研究團隊在食品、自然和時尚等多個類別的知名相簿資料庫上測試了這一工具。整個系統依靠檢測、摳圖、重建、分解和混合因子等多階段技術。不過與當時的研究不同,現在的 Gemini 2.0 Flash 是一個面向所有人的工具,使用者無需任何程式設計或技術知識就能使用,這種低門檻顯然更容易導致其被濫用,也因此,這項技術招致如此大的爭議。
Digital Trends 評論道:“移除影像水印是一項絕對不應做的行為,原因有很多。除了違反當地法律外,這還剝奪了藝術家和攝影師的辛勤工作成果,而他們已經因為自己的作品在未經許可或未獲報酬的情況下被用於訓練 AI 而面臨困境。”
谷歌目前尚未對媒體關於 Gemini 水印移除功能的質疑做出官方回應。考慮到該功能目前被標記為“實驗性”且“不用於生產環境”,谷歌有可能在未來的更新中對其進行限制或調整。對於開發者和使用者來說,這也是一個關於技術邊界與倫理責任的重要思考點。
參考資料:
1.https://techcrunch.com/2025/03/16/people-are-using-googles-new-ai-model-to-remove-watermarks-from-images/
2.https://x.com/deedydas/status/1901042632958345369
3.https://www.yahoo.com/tech/saw-google-gemini-ai-erase-101201568.html?guccounter=1&guce_referrer=aHR0cHM6Ly93d3cuZ29vZ2xlLmNvbS8&guce_referrer_sig=AQAAAFLOk5Yl3NiN6NLhLsrVJnRhO89tTN-G75BS9zPhrClIDIEYAyCvRRUJiF-R85TRAGcPpg-4XZshAfe9Ez3wy_Zjol-lCHIlgUPBFEO4dHnWSz3dUNaKc9D2W6m-FBVLrpzqRnZIfc6A3QiWWvpgeNn3Geq7JEaYFq6Jib_KPJxA

運營/排版:何晨龍


相關文章