Gemini2.0原生繪畫能力驚豔我了,兌現了我對GPT-4o曾經的幻想!

MLNLP社群是國內外知名的機器學習與自然語言處理社群,受眾覆蓋國內外NLP碩博生、高校老師以及企業研究人員。
社群的願景是促進國內外自然語言處理,機器學習學術界、產業界和廣大愛好者之間的交流和進步,特別是初學者同學們的進步。
來源 | 夕小瑤科技說
等了好久,谷歌終於開放了 Gemini 2.0 的原生繪圖能力。
其實,Gemini 2.0 系列模型早在2024 年 12 月 就正式釋出了,是谷歌首次支援原生多模態輸出的版本(文字、影像、音訊),但是當時並沒有開放繪畫能力。
昨天,谷歌正式放出了 Gemini 的原生繪畫能力,目前大家可以直接在 Google AI Studio 免費體驗。注意,這裡是原生,由Gemini直接混合生成文字和圖片(後文影片裡能看到),而不是呼叫外部繪畫模型。
大家體驗一定是選Gemini 2.0 Flash Experimental這個實驗版模型,輸出設定成文字和影像混合輸出。

我上手測了一天,基本全程 WOC,已獻上我的膝蓋。
GPT-4o是第一個主打原生多模態的模型,比如它的語音、視覺理解一放出來就當時就炸場了,但是它的繪畫能力是透過呼叫外部的DALL·E來實現的。但是這次Gemini的繪圖能力則是原生繪圖,兌現了我對 GPT-4o 具備原生繪畫能力的幻想!而且,Gemini繪圖的“一致性”太頂了。
什麼顛覆設計圈、動嘴 P 圖、設計師噩夢看多就膩了,請看效果——

第一個:給人物變形出多種動作

23 年好多搞 AIGC 創業的朋友中一致認為能賺到錢為數不多的場景之一——
「淘寶電商的批次生圖」
當然也是在那個時間就已經被吐槽非常卷的賽道。
我隨便輸入一張模特圖,讓 AI 換一些不同的拍照姿勢

人物、裙子完美和原始模特保持一致,完全看不出是 AI 生成的。

第二個:14 輪連續對話修圖

整個對話的過程是這樣的:
  1. draw a box(畫一個箱子)
  2. make it silver(變成銀色的)
  3. Realistic(真實點)
  4. 最上面變成玻璃
  5. 玻璃下面,櫃子上面放上珠寶
  6. 櫃子變成高階的展示櫃
  7. 變成真實材質的渲染圖
  8. 櫃體變成實木的
  9. 裡面新增珠寶,光線明亮一些
  10. 新增背景環境和地板
  11. 珠寶區太亮了,稍微暗一點,環境奢華一些
  12. 暗一些
  13. 管線調整暗一些
  14. 過於暗了,正常的商場環境就行
從最開始畫一個箱子,到經歷 14 輪連續對話,變成一個商場的珠寶展示箱。
全程我就用的最簡單的話,告訴它我的需求,跟指揮一個設計師給我畫圖一樣,整個過程非常絲滑連貫。
一點點地調整,只有中間一步是強調了兩遍光線變暗,其他都是一次過。

第三個:一句話生成繪本,插畫師的噩夢

問題很簡單:
給我講一個小黑貓大戰外星人的故事, 3d cartoon animation style. For each scene, generate an image.
貓的形象全程一致,而且表情豐富,就是連配角外星人的形象都保持了前後一致。

第四個:球鞋設計,從線稿到模特上身,一氣呵成

連線稿都不用提供,我這裡就是讓 AI 直接生成,懶得找了。
中間讓 AI 設計,上色,調整 nike 標和鞋底位置的顏色,調整配色風格,從一隻變成一雙,讓職業運動員穿上看效果。
需求很多,儘可能去模擬真實工作環境的各種要求,就光一個“顏色太卡通,不夠穩重”這個噁心的需求,日常讓人乾的話都多少天完成?就好比讓申公豹長毛的特效。
我覺得這裡的完成度也很好。
看完你就能理解,為什麼我稱 Gemini2.0 是一致性的神了。
它既能一次性生成多張圖片,並保持角色、場景和風格的一致性。這真的能解決影片分鏡和連續內容創作中的大痛點。也能在一輪輪的修改過程中保持一致性。我覺得大家可以加大輪數再試!
再來看看 X 上網友的 case:

第五個:遊戲原畫師也要噩夢了

這是 X 上網友的一個兩個 case。都和遊戲場景裡有關。

而且,能把具體的一個東西放在任何場景裡都不會違和。
看完已獻上我的膝蓋。設計師看完都要集體沉默了。
但是彆著急,夕小瑤的 case 怎麼可能就到這兒!必須要為難一下它。看我下面跟上的幾個 case,我發現它不是萬能的。
好比這個 case——
這是某一個拍攝角度下辦公室照片,我要它“變換幾個不同的視角”。
一共生成了 3 張新圖,第一張和第三張感覺像是擴圖了,視角開大了,第一看沒有問題,還有點意外,但是經不起推敲。仔細看,綠植的位置不一樣,電腦顯示器也變形了,燈泡還有漏掉。總之就是不能看細節。
我猜測,如果圖片元素過多,比較複雜,細節處理能力很有限。
繼續看——
依舊是一張辦公室的圖,同樣是讓 AI 給一些不同的拍攝視角。
只能說照片型別感覺對了,都是精緻佈置的辦公室,而且有人,但是並不是我要的不同拍攝角度。我的預期是人的相對位置不能改變。
一種原因是我的指令比較簡單,沒有細節描述,不夠細緻。另一種還是上面提到的過於複雜的問題。
刷著刷著突然看到一張照片,好多人聚會的一張圖,我就突發奇想,來一道終結題目。
都知道站在前排的人顯臉大,那如果換個角度,從最後面的人開始拍呢。
說實話,難度確實大。

最後,Gemini 以慘敗結束。畢竟這個要求 P 圖師現在也做不到吧?
換個臉、換個髮型、加個背景、扣掉一個東西,就是增刪改一個簡單的元素,是完全沒有問題的;
再難一點,同一個主體變換動作,變換角度、變換一下場景,比如模特那個擺拍動作,小黑貓不同場景裡也不會變形,都能保持非常不錯的一致性,AI 操控的物件也是相對簡單的,小貓沒有那麼多特徵。
再再難一點,如果讓 AI 操控一個複雜的、特徵點多的、細節多的東西,就辦不到了。
總之,經過一天上手的實測,Gemini2.0 的繪圖能力依舊給我帶來的感受是顛覆性的,它的一致性依舊是超超牛的存在,至少目前。
依舊有不足,但也請保持期待!

技術交流群邀請函

△長按新增小助手
掃描二維碼新增小助手微信
請備註:姓名-學校/公司-研究方向
(如:小張-哈工大-對話系統)
即可申請加入自然語言處理/Pytorch等技術交流群

關於我們

MLNLP 社群是由國內外機器學習與自然語言處理學者聯合構建的民間學術社群,目前已經發展為國內外知名的機器學習與自然語言處理社群,旨在促進機器學習,自然語言處理學術界、產業界和廣大愛好者之間的進步。
社群可以為相關從業者的深造、就業及研究等方面提供開放交流平臺。歡迎大家關注和加入我們。


相關文章