截胡OpenAI，谷歌全模態模型首次解禁！Gemini2.0中文嘮嗑式P圖，動漫遊戲圈沸騰

2025-09-12 20:53 矽星人Pro

文章轉載於新智元

就在剛剛，谷歌Gemini支援原生影像生成功能了！這是谷歌首個向公眾釋出的全模態影像生成器。

現在，所有開發者都可以使用Gemini 2.0 Flash進行原生影像生成了，使用Gemini API 和Google AI Studio中的實驗版本即可。

全模態影像生成器，跟其他AI生圖模型最大的區別在哪裡？

因為它自身具備的超強推理能力，能結合現實世界的知識生成更符合上下文的影像，理解更多細節，更遵循文化背景特徵。

其中，全程都是由Gemini模型完成，無需呼叫其他模型，只需透過自然語言提示。

此外，傳統的AI生圖器需要分開處理文字和圖片，它則是能同時輸出文字和插圖，保持驚人的一致性。

·

真正的多模態能力：同時理解文字、影像，以及二者聯絡

·

理解世界知識：能做智慧推理，結合現實世界知識生成準確內容

·

自然語言互動：僅用對話修改圖片，真正實現動嘴PS

下面這張圖，就是用Gemini 2.0 Flash生成的，包括黑板上的文字。

此前很多影像生成模型，都死在渲染長序列文字上，這個致命弱點，竟被它克服了。

有趣的是，其實第一個展示全模態影像生成的是OpenAI，比谷歌早了整整8個月。

而就在昨天，OpenAI要釋出第一個全模態模型的訊息更是傳得沸沸揚揚，沒想到今天，竟是谷歌成功釋出了第一個版本。

谷歌的這個新功能，可以根據上下文生成相關影像，支援對話式編輯，還能在影像中生成長文字。

比如，你只要動動嘴，告訴模型給牛角麵包加點巧克力邊，啪的一下，它在對話方塊裡立馬給你滿意的影像。

跟它說：可以在桌子上加一些花嗎？它立刻給你在桌子上加上花瓶。

如果告訴它，自己不太滿意，更喜歡紅色鬱金香，它能在幾秒內立刻換成你滿意的影像。

1

網友驚呼：太炸了

現在，我們終於有了原生影像輸出功能，這樣影像就能遵循智慧的上下文了。

這個模型的真正厲害之處，就在於它真正能夠理解多模態的資訊。

比如在這位網友的實測中，它就可以直接從URL解析YouTube影片，給出內容摘要，還是基於時間戳分析的。

手快的網友，已經開始瘋狂實測了。

左右滑動檢視

生成30歲的中年女性不同角度的兩張照片，一致性非常驚豔。

以後你想要的照片，想怎麼p就怎麼p。

一輛小汽車、一個模特，拿著小汽車的廣告大片即時生成。

甚至，你還可以用Gemini來迭代影像，建立任何遊戲！

Gemini 2.0 Flash的自畫像，有點意思。

有人表示，這個功能太酷了，自己手中的不少圖，將煥然一新。

左右滑動檢視

有人說，谷歌的首個原生影像生成功能，可能是今年最棒的釋出之一。它的編輯過程和一致性如此簡潔，忍不住讓人期待何時能在Gemini上整合。

當然，也有人實測後發現，有些情況下很難讓模型輸出不帶文字的圖片，即使嘗試了五六種不同的prompt也不行。

比如，讓它根據奧特曼昨天分享的OpenAI創意寫作模型寫的元小說，來創作一幅畫。

文字太多的話，它就失去了想象能力，只能輸出純文字。

小編親測了一下，結果也是如此。

對此，谷歌Gemini團隊的研究者現身表示，會改進這項功能，並且建議如果讓模型先以文字形式思考，可能會更好。

但好笑的是，「一隻馬騎宇航員」這樣的影像，它依然無法生成。

漫畫和動漫圈，沸騰了

這次，Gemini 2.0 Flash直接攻陷了漫畫圈。

現在用它來生成漫畫，只需要動動嘴的功夫。

有網友嘗試後，發現自己根本停不下來。只需一個簡單的提示，就能進行選擇性修改，而不會破壞整個影像。

他激動地表示，「用它來製作漫畫和故事分鏡會變得非常輕鬆」。

給漫畫加個色，也是一句話的事兒。

就連漫畫角色的動作——抬起手臂，也能用嘴完成。而且，輸出影像與原圖保持了高度的一致性。

動漫圈的二次元們更是激動不已，有人驚呼，這是史上最佳動漫模型！

動漫創作的全流程，它都能依指示完成，比如把素描轉換為線稿；填充基礎色；新增一些柔和的陰影，光源位於左上角；新增一個室內背景，使其與當前的光源和陰影環境相匹配，使用合適的角度；調整為單色灰度，以符合輕小說插畫風格等等。

左右滑動檢視

更多的測試demo，自己體會。

故事分鏡

Gemini 2.0 Flash還可以支援文字+配圖輸出的形式，比如繪本、食譜之類的，它都能通通拿下。

有網友讓它去生成，一個「烏鴉喝水」的經典故事。

從內容到配圖，Gemini 2.0 Flash對故事把控度，和現實邏輯，非常合理。

更驚豔的是，以下這些全部都是一次性輸出的。

左右滑動檢視

還有網友讓Gemini 2.0解釋生命的意義，只用影像回答。

模型一鏡到底，輸出了一大串影像。網友表示，「事實上，大部分的寫作是不連貫的，讓這件事更加怪異」。

惡搞表情包

用Gemini 2.0 Flash製作表情包，也是一個不錯的選擇。

網友上傳一張照片後，要求它把人替換成吉卜力工作室風格的狗，並配上一把機關槍。

Gemini 2.0 Flash瞬間完成替換，像那麼回事兒。

又或者，給Hugging Face抱抱臉加個鬍子。

再比如，給經典表情包，配上文字。

一個提示，完成多個編輯

更令人驚掉下巴的是，Gemini 2.0 Flash還可以根據一個提示，完成影像多處編輯。

沃頓商學院教授Ethan Mollick表示，如果你使用過LLM影像生成器，你會知道它們很難控制：LLM需要向一個獨立的影像生成工具傳送提示詞，而不是直接生成影像。

而Gemini 是首個公開發布的「完全多模態」LLM，能夠直接生成影像。

下面這個例子中，是Mollick在一家本地手工藝品店拍的照片，提示中核心要求是——把這本小冊子改成關於拿破崙的主題，子任務有多個：

將文字修改為「Napoleon Crochet」，字型保持不變。調整圖片，使其與拿破崙相關，同時保留白色括號和影像中的其他元素。確保頭部朝向與原圖一致，圖片保持縱向格式。將價格更改為$99.00。

看到Gemini 2.0 Flash生成的圖片後，他完全驚到了，並表示生成的藝術風格竟然完全匹配。

1

原生影像生成，四大亮點

去年12月，谷歌首次將Gemini 2.0 Flash，向內部測試者推出了原生影像生成的功能。

經過幾個月的最佳化打磨，就在巴黎開發者日期間，正式向支援Google AI Studio所有地區開放。

開發者們可以透過這個平臺，選擇Gemini 2.0 Flash實驗版本——gemini-2.0-flash-exp，或透過Gemini API即可上手新功能。

如上測試中，不難看出，Gemini 2.0 Flash是一款集多模態輸入、增強推理能力、自然語言理解於一身的模型，能夠直接生成影像。

接下來，一起看看Gemini 2.0 Flash在多模態輸出上的幾大亮點：

1 文字與影像結合

假設你正在創作一個奇幻冒險的故事，只用文字描述情節，Gemini 2.0 Flash就能自動生成與故事配套的插圖。

更厲害的是，它還能在整個故事中，保持角色和場景的一致性。

如果對插圖風格、敘述方式不滿意，你可以直接給出反饋，Gemini 2.0 Flash會根據你的意見重新調整故事，或最佳化影像。

2 對話式影像編輯

傳統的影像編輯，往往需要專業軟體和複雜的操作，而Gemini 2.0 Flash讓你透過自然語言對話，就能完成一切。

只要告訴它你的想法，模型就會即時調整，並在多輪對話中不斷最佳化。

這種方式不僅適合快速迭代創意，還能幫助你在探索不同風格時，節省大量的時間。

3 世界知識理解

與其他影像生成模型不同，Gemini 2.0 Flash的獨特優勢在於，融合了世界知識和增強推理能力。

這意味著，它不僅能生成美觀的影像，還更符合現實邏輯。

比如，當你讓它生成一份巧克力曲奇餅乾食譜，並繪製插圖，Gemini 2.0 Flash的表現著實令人驚豔。

當然，作為語言模型，Gemini 2.0 Flash並非絕對完美，偶爾需要稍作調整。

4 文字渲染

對於大多數影像生成模型來說，準確呈現長短文字一直是個難題——要麼格式混亂，要麼字元模糊，甚至拼寫錯誤層出不窮。

但Gemini 2.0 Flash在這方面表現，非常搶眼。

內部基準測試表明，它在文字渲染上的效能，優於主流競品。

不論是製作廣告、社交媒體帖子，甚至是邀請函，Gemini 2.0 Flash都能清晰、準確呈現文字內容。

用Gemini API快速上手

現在，開發者可以直接透過Gemini API測試Gemini 2.0 Flash影像生成模型了。

from google import genaifrom google.genai import typesclient = genai.Client(api_key="GEMINI_API_KEY")response = client.models.generate_content(model="gemini-2.0-flash-exp",contents=("Generate a story about a cute baby turtle in a 3d digital art style. ""For each scene, generate an image."),config=types.GenerateContentConfig(response_modalities=["Text", "Image"]),)

Gemini團隊研究人員為此還做了一個邀請廣大開發者適用的影像，快點上手吧。

參考資料：

https://developers.googleblog.com/en/experiment-with-gemini-20-flash-native-image-generation/

https://x.com/OfficialLoganK/status/1899853465922175427

點個“愛心”，再走吧

相關文章

國產DeepSeekV3被秒成“前浪”？谷歌開放最強Gemini2.0全家桶：速度快60倍，上下文還長16倍

國產DeepSeekV3被秒成“前浪”？谷歌開放最強Gemini2.0全家桶：速度快60倍，上下文還長16倍

國產DeepSeekV3被秒成“前浪”？谷歌開放最強Gemini2.0全家桶：速度快60倍，上下文還長16倍！

國產DeepSeekV3被秒成“前浪”？谷歌開放最強Gemini2.0全家桶：速度快60倍，上下文還長16倍！

谷歌“狙擊”OpenAI，釋出新一代大模型！主打Agent+多模態

谷歌“狙擊”OpenAI，釋出新一代大模型！主打Agent+多模態

Gemini2.0霸榜，價格卷哭DeepSeekV3，價效比新王誕生！

Gemini2.0霸榜，價格卷哭DeepSeekV3，價效比新王誕生！

谷歌新版Gemini可“一句話P圖”，付費相簿危矣？

谷歌新版Gemini可“一句話P圖”，付費相簿危矣？

防盜水印一秒蒸發、證件照10秒摳圖，谷歌Gemini2.0新神技很難評

防盜水印一秒蒸發、證件照10秒摳圖，谷歌Gemini2.0新神技很難評

人類自愧不如：DeepSeekR1、o3-mini和Gemini2.0思考過程大橫評，AI們比你腦子清楚多了

人類自愧不如：DeepSeekR1、o3-mini和Gemini2.0思考過程大橫評，AI們比你腦子清楚多了

Gemini大模型逆襲，給了GoogleCloud「AI基建」的勇氣

Gemini大模型逆襲，給了GoogleCloud「AI基建」的勇氣

一文看懂GoogleCloudNext25AI大更新：Google一夜十二次，能否逆襲當回AI界老大

一文看懂GoogleCloudNext25AI大更新：Google一夜十二次，能否逆襲當回AI界老大

吊打DeepSeekR1！！！谷歌Gemini2.0“閃電思維”一齣，直接封神…

吊打DeepSeekR1！！！谷歌Gemini2.0“閃電思維”一齣，直接封神…

Copyright © 2025 | WordPress Theme by MH Themes