當時還只面對付費使用者,現在在 AI Studio 中已經可以看到更完整豐富的呈現。可以說,在目前文生圖的可控性程度,以及相對應的使用者體驗上,Gemini 的確做到了無人能出其右。下面我們會具體解釋為什麼這樣下結論。同時在測試過程中,我們也發現了一些使用技巧,一併奉上。可控性不好?不存在了誠實的說,單純講生成還是有一點不穩定,但是 Gemini 2.0 Flash Experimental 展示出了堪稱逆天的修改可控性。下面這組花田圖裡,使用了 Imagen 3 的官方例項:Impressionistic landscape painting of a sunset over a field of sunflowers, vibrant colors, thick brushstrokes, inspired by Monet。
中間的修改提示詞,是為了把天空換成藍綠色:turn the clouds at the back of the picture in to blue-greenish color
注意看中間圈出來的地方,花田和天空過渡處的油彩,基本沒有變化——模型充分理解這個修改提示詞裡「區域性改色」的意圖,只對天空區域性改動,其它任何地方都保持了不變。接下來這組城市街景的例子更明顯,生成提示詞:generate a Tokyo street crossroad, cars passing the traffic light and people walking around