
文章轉載於新智元
就在剛剛,谷歌Gemini支援原生影像生成功能了!這是谷歌首個向公眾釋出的全模態影像生成器。
現在,所有開發者都可以使用Gemini 2.0 Flash進行原生影像生成了,使用Gemini API 和Google AI Studio中的實驗版本即可。

全模態影像生成器,跟其他AI生圖模型最大的區別在哪裡?
因為它自身具備的超強推理能力,能結合現實世界的知識生成更符合上下文的影像,理解更多細節,更遵循文化背景特徵。
其中,全程都是由Gemini模型完成,無需呼叫其他模型,只需透過自然語言提示。
此外,傳統的AI生圖器需要分開處理文字和圖片,它則是能同時輸出文字和插圖,保持驚人的一致性。
·
真正的多模態能力:同時理解文字、影像,以及二者聯絡
·
理解世界知識:能做智慧推理,結合現實世界知識生成準確內容
·
自然語言互動:僅用對話修改圖片,真正實現動嘴PS
下面這張圖,就是用Gemini 2.0 Flash生成的,包括黑板上的文字。
此前很多影像生成模型,都死在渲染長序列文字上,這個致命弱點,竟被它克服了。

有趣的是,其實第一個展示全模態影像生成的是OpenAI,比谷歌早了整整8個月。
而就在昨天,OpenAI要釋出第一個全模態模型的訊息更是傳得沸沸揚揚,沒想到今天,竟是谷歌成功釋出了第一個版本。
谷歌的這個新功能,可以根據上下文生成相關影像,支援對話式編輯,還能在影像中生成長文字。
比如,你只要動動嘴,告訴模型給牛角麵包加點巧克力邊,啪的一下,它在對話方塊裡立馬給你滿意的影像。

跟它說:可以在桌子上加一些花嗎?它立刻給你在桌子上加上花瓶。

如果告訴它,自己不太滿意,更喜歡紅色鬱金香,它能在幾秒內立刻換成你滿意的影像。

1
網友驚呼:太炸了
現在,我們終於有了原生影像輸出功能,這樣影像就能遵循智慧的上下文了。

這個模型的真正厲害之處,就在於它真正能夠理解多模態的資訊。
比如在這位網友的實測中,它就可以直接從URL解析YouTube影片,給出內容摘要,還是基於時間戳分析的。


手快的網友,已經開始瘋狂實測了。





生成30歲的中年女性不同角度的兩張照片,一致性非常驚豔。

以後你想要的照片,想怎麼p就怎麼p。

一輛小汽車、一個模特,拿著小汽車的廣告大片即時生成。



甚至,你還可以用Gemini來迭代影像,建立任何遊戲!

Gemini 2.0 Flash的自畫像,有點意思。

有人表示,這個功能太酷了,自己手中的不少圖,將煥然一新。



左右滑動檢視
有人說,谷歌的首個原生影像生成功能,可能是今年最棒的釋出之一。它的編輯過程和一致性如此簡潔,忍不住讓人期待何時能在Gemini上整合。

當然,也有人實測後發現,有些情況下很難讓模型輸出不帶文字的圖片,即使嘗試了五六種不同的prompt也不行。
比如,讓它根據奧特曼昨天分享的OpenAI創意寫作模型寫的元小說,來創作一幅畫。
文字太多的話,它就失去了想象能力,只能輸出純文字。

小編親測了一下,結果也是如此。

對此,谷歌Gemini團隊的研究者現身表示,會改進這項功能,並且建議如果讓模型先以文字形式思考,可能會更好。

但好笑的是,「一隻馬騎宇航員」這樣的影像,它依然無法生成。

漫畫和動漫圈,沸騰了
這次,Gemini 2.0 Flash直接攻陷了漫畫圈。
現在用它來生成漫畫,只需要動動嘴的功夫。

有網友嘗試後,發現自己根本停不下來。只需一個簡單的提示,就能進行選擇性修改,而不會破壞整個影像。
他激動地表示,「用它來製作漫畫和故事分鏡會變得非常輕鬆」。

給漫畫加個色,也是一句話的事兒。


就連漫畫角色的動作——抬起手臂,也能用嘴完成。而且,輸出影像與原圖保持了高度的一致性。

動漫圈的二次元們更是激動不已,有人驚呼,這是史上最佳動漫模型!


動漫創作的全流程,它都能依指示完成,比如把素描轉換為線稿;填充基礎色;新增一些柔和的陰影,光源位於左上角;新增一個室內背景,使其與當前的光源和陰影環境相匹配,使用合適的角度;調整為單色灰度,以符合輕小說插畫風格等等。



更多的測試demo,自己體會。


故事分鏡
Gemini 2.0 Flash還可以支援文字+配圖輸出的形式,比如繪本、食譜之類的,它都能通通拿下。
有網友讓它去生成,一個「烏鴉喝水」的經典故事。

從內容到配圖,Gemini 2.0 Flash對故事把控度,和現實邏輯,非常合理。
更驚豔的是,以下這些全部都是一次性輸出的。




左右滑動檢視
還有網友讓Gemini 2.0解釋生命的意義,只用影像回答。

模型一鏡到底,輸出了一大串影像。網友表示,「事實上,大部分的寫作是不連貫的,讓這件事更加怪異」。
惡搞表情包
用Gemini 2.0 Flash製作表情包,也是一個不錯的選擇。
網友上傳一張照片後,要求它把人替換成吉卜力工作室風格的狗,並配上一把機關槍。
Gemini 2.0 Flash瞬間完成替換,像那麼回事兒。

又或者,給Hugging Face抱抱臉加個鬍子。

再比如,給經典表情包,配上文字。

一個提示,完成多個編輯
更令人驚掉下巴的是,Gemini 2.0 Flash還可以根據一個提示,完成影像多處編輯。
沃頓商學院教授Ethan Mollick表示,如果你使用過LLM影像生成器,你會知道它們很難控制:LLM需要向一個獨立的影像生成工具傳送提示詞,而不是直接生成影像。
而Gemini 是首個公開發布的「完全多模態」LLM,能夠直接生成影像。

下面這個例子中,是Mollick在一家本地手工藝品店拍的照片,提示中核心要求是——把這本小冊子改成關於拿破崙的主題,子任務有多個:
將文字修改為「Napoleon Crochet」,字型保持不變。調整圖片,使其與拿破崙相關,同時保留白色括號和影像中的其他元素。確保頭部朝向與原圖一致,圖片保持縱向格式。將價格更改為$99.00。
看到Gemini 2.0 Flash生成的圖片後,他完全驚到了,並表示生成的藝術風格竟然完全匹配。

1
原生影像生成,四大亮點
去年12月,谷歌首次將Gemini 2.0 Flash,向內部測試者推出了原生影像生成的功能。
經過幾個月的最佳化打磨,就在巴黎開發者日期間,正式向支援Google AI Studio所有地區開放。
開發者們可以透過這個平臺,選擇Gemini 2.0 Flash實驗版本——gemini-2.0-flash-exp,或透過Gemini API即可上手新功能。

如上測試中,不難看出,Gemini 2.0 Flash是一款集多模態輸入、增強推理能力、自然語言理解於一身的模型,能夠直接生成影像。
接下來,一起看看Gemini 2.0 Flash在多模態輸出上的幾大亮點:
1 文字與影像結合
假設你正在創作一個奇幻冒險的故事,只用文字描述情節,Gemini 2.0 Flash就能自動生成與故事配套的插圖。
更厲害的是,它還能在整個故事中,保持角色和場景的一致性。

如果對插圖風格、敘述方式不滿意,你可以直接給出反饋,Gemini 2.0 Flash會根據你的意見重新調整故事,或最佳化影像。
2 對話式影像編輯
傳統的影像編輯,往往需要專業軟體和複雜的操作,而Gemini 2.0 Flash讓你透過自然語言對話,就能完成一切。
只要告訴它你的想法,模型就會即時調整,並在多輪對話中不斷最佳化。
這種方式不僅適合快速迭代創意,還能幫助你在探索不同風格時,節省大量的時間。

3 世界知識理解
與其他影像生成模型不同,Gemini 2.0 Flash的獨特優勢在於,融合了世界知識和增強推理能力。
這意味著,它不僅能生成美觀的影像,還更符合現實邏輯。
比如,當你讓它生成一份巧克力曲奇餅乾食譜,並繪製插圖,Gemini 2.0 Flash的表現著實令人驚豔。

當然,作為語言模型,Gemini 2.0 Flash並非絕對完美,偶爾需要稍作調整。
4 文字渲染
對於大多數影像生成模型來說,準確呈現長短文字一直是個難題——要麼格式混亂,要麼字元模糊,甚至拼寫錯誤層出不窮。
但Gemini 2.0 Flash在這方面表現,非常搶眼。
內部基準測試表明,它在文字渲染上的效能,優於主流競品。
不論是製作廣告、社交媒體帖子,甚至是邀請函,Gemini 2.0 Flash都能清晰、準確呈現文字內容。

用Gemini API快速上手
現在,開發者可以直接透過Gemini API測試Gemini 2.0 Flash影像生成模型了。
from google import genai
from google.genai import types
client = genai.Client(api_key="GEMINI_API_KEY")
response = client.models.generate_content(
model="gemini-2.0-flash-exp",
contents=(
"Generate a story about a cute baby turtle in a 3d digital art style. ""For each scene, generate an image."
),
config=types.GenerateContentConfig(
response_modalities=["Text", "Image"]
),
)
Gemini團隊研究人員為此還做了一個邀請廣大開發者適用的影像,快點上手吧。

參考資料:
https://developers.googleblog.com/en/experiment-with-gemini-20-flash-native-image-generation/
https://x.com/OfficialLoganK/status/1899853465922175427