作者丨珊瑚
圖源丨midjourney
2025年3月26日,OpenAI凌晨官宣,GPT-4o的原生多模態影像生成功能正式上線。使用者不再需要登入OpenAI的文生圖模型DALL-E,可以直接在ChatGPT應用裡呼叫4o生成、修改圖片。
一夜之間,AI生成的吉卜力影像在X等社交媒體上瘋傳,網際網路被一場溫柔的二次元畫風浪潮淹沒。人們上傳自拍照,輸入“吉卜力風格”,幾秒後,宮崎駿動畫中的唯美與夢幻便流淌在髮絲衣角間,甚至連OpenAI創始人奧特曼也曬出自己的吉卜力頭像,為這場熱潮添了一把火。
不過,吉卜力的火爆只是其一,更關鍵的是,GPT-4o的繪圖能力出圈打破了文生圖領域的固有格局,以Midjourney等垂類應用為首的賽道第一次遭到了大模型的挑戰。
原來,人們用Midjourney生圖時,仍面臨著一個致命問題:隨機性太強,在提示詞過於複雜的時候,細節還原度就會顯著降低,而GPT-4o控圖能力的躍升,讓人類第一次感受到了與AI藝術家在多輪對話中精準改圖的魅力。
那麼,一個人類印象裡只會聊天的通用大模型GPT-4o,是如何趕超文生圖領域專業選手Midjourney的呢?

實際上,類似Midjourney一樣的應用早在一年前就能生成吉卜力、賽博朋克、超現實等多種風格的影像,甚至在畫面細膩感、解析力上略勝於GPT-4o。但GPT-4o的聰明之處在於,它沒有選擇正面硬剛其藝術領域的生圖質量,而是在應用門檻、修圖改圖、跨學科能力等細分賽道彎道超車。
一是自然語言對話能力的提升大大降低了使用門檻。傳統文生圖領域,使用者必須掌握一套複雜的結構化提示指令,比如風格、鏡頭、色彩、角度、背景、主體等,差之毫釐、謬以千里。而GPT-4o可以精準理解自然語言命令,只需要像跟好友一樣交流,張嘴畫圖成為現實。
自然語言就是大白話,日常生活中的口頭語。比如,如果你需要一張瀑布圖,只需要告訴GPT-4o,“幫我生成一幅清晨茂密森林裡的彩虹瀑布”就可以了。但面對Midjourney就需要像下圖一般,用高度結構化的prompt指令告訴它:這個影像的主體有什麼,背景是什麼顏色,仰角、俯角還是平視,風格是油畫、古典或者賽博朋克,需要細分到這種程度才可能達到理想效果,但就算分得這麼細了,依然會有一些無關緊要的畫面元素跳出來畫蛇添足。

二是多模態能力帶來的圖生圖、圖改圖功能的上線。類似Midjourney一樣的應用只能發文字指令,不支援上傳一張圖片再做修改,或者說不支援AI生圖後,再調整影像的解析度、色彩、背景。如果成圖效果不理想,只能回到第一步重寫提示詞碰運氣,之前生成的影像等同作廢。
GPT-4o的強悍就在於使用者可以隨便上傳一張圖片多次修改,可以是AI生成的,也可以是自己拍的。比如,你可以上傳一張全身照,把頭型換成大波浪,把衣服換成購物車裡的裙子看上身效果。它支援在現有的圖片上去p圖去修改,相當於我們不用學習PS這種具有高壁壘性質的修圖技術。
更牛的是它還可以多輪對話,支援在原圖上不限次數地一直改,直到滿意為止。你可以一會兒改一個頭發,一會兒把背景換成沙漠,或者一會兒調整濾鏡風格。只要你想,它便滿足。

圖源:小紅書@Mr.湯先森
除了互動門檻的降低和控圖能力的提升,GPT-4o的跨學科知識儲備也讓人驚豔。集成了大語言模型原有知識庫的GPT-4o相當於一個知天文、曉地理的畫家,不僅能解高數、做物理題,還原建築草圖也不在話下。相比之下,Midjourney作為垂類應用始終侷限在藝術領域裡,為電影宣發、廣告等文娛產業服務。
GPT-4o有多牛?給一個題目就可以生成函式影像,相當於一款畫圖指導版的拍照搜題應用。甚至於你給他一個沒有任何色彩的鉛筆畫建築草圖,它都能生成出施工後的房屋實景,完全跨越了學科的邊界,是一個文理雙全的全能型選手。

圖源:小紅書@雲安
既然GPT-4o生圖改圖功能如此驚豔,我們就要發問了,在其火爆出圈背後,能夠為普通人帶來什麼實際價值呢?

就在其上線一週內,Midjourney CEO大衛·霍爾茲坐不住了,發文稱:GPT-4o只是花架子,Midjourney-v7下週上線。

GPT-4o和Midjourney孰優孰劣,現在還難以定論。但能夠肯定的是,GPT-4o火出圈了,它衝出了設計師這個小眾的圈子,走入了大多數人的工作場景裡,就算完全不知道AI生圖是什麼,但一定也知道社交媒體上突然冒出一個能用嘴P圖的網路工具。
那麼,GPT-4o為什麼這麼火,給我們帶來的一個最實際的價值點在哪裡?
首先,它真的做到了應用零門檻,使用者甚至不需要任何藝術功底和AI基礎,毫無基礎的普通人也能直接上手。用Midjourney,你必須知道一些基本的流派、色彩、光學、框架等繪畫知識以及/imagine(生成影像)、–ar(影像寬高比)等基礎英文提示指令。但用GPT-4o,你也可以不懂透視、框架、光線,也不需要知道什麼是結構化提示詞,完全不用任何專業基礎,就像跟朋友對話一般交流就可以修圖。

圖源:小紅書@Geek4Fun
除了使用門檻降低,模型產品的質量和效能也大幅提升。一是生圖更快,以前用Midjourney解析複雜指令需要1min左右,GPT-4o在20s內就可以還原。
第二,生圖和改圖的控制性提高了,GPT-4o能夠完全還原你給它的指令。比如同樣的一個指令“給我生成一個貓貓和狗狗在草地裡玩耍的場景”,GPT-4o生成的就是一隻貓和一隻狗在草地上玩,沒有任何其他會突然冒出的元素,但Midjourney可能在草坪上多一個公園或建築,不會完全按指令來。通俗地講,就是GPT-4o更能聽你的人話了,它就像你的電子僕人一樣,你讓他幹嘛,他就幹嘛,多餘的事一件不做,該做的事也絕不少幹,精確度更強了。
由此,GPT-4o開啟全民賽道,進入到我們工作場景裡。之前,普通使用者用Midjourney更多還是出於興趣,娛樂屬性強、工具屬性弱。生成的油畫、動漫等各種風格的影像雖好看,但既不能提升工作效率,也不能賺錢,主要起到了一個造型上的作用。

而GPT-4o的用嘴P圖讓AI繪圖能夠落地的行業增多,從娛樂化與藝術性走向了專業化與生產力,可以應用到電商、教育、建築、設計等各行各業。比如你的小孩不會做題,以前需要請教課老師或者下載作業幫,輔導費用貴而作業幫的講解只有乾巴巴的一段文字,令人費解。但是GPT-4o完全可以生成一張講解草稿圖,函式怎麼生成的,答案怎麼得來的,推導過程流暢自然。
再比如電商行業的宣傳海報,甲方需要你生成一個針對歐美市場的英語海報,其中設計元素和語言都需要做本地化潤色。之前的流程是對接設計師修改元素、去翻譯軟體潤色,再匯入PS軟體修改,費時費力。但現在GPT-4o只需要一句話,“把這張海報改成歐美風,語言變成英語”,它就很快就能設計一張符合要求的海報,跨領域跨學科的整合能力非常強悍。

聊完GPT-4o的畫圖出圈,不如再聊聊,GPT-4o作為一種底層模型還有什麼可挖掘的地方。
我們都知道,Midjourney是一個架構在模型上的應用,但GPT-4o本身就是一個模型,生圖是它的能力之一。2022年剛出道的ChatGPT只是一個能夠文字交流的對話助手,後來可以語音打電話,現在又能畫圖,一直不停在不同維度上迭代升級。

而此次GPT-4o能繪圖賽道突出重圍,真要感謝其原生多模態模型能力的大幅湧現。跟Midjourney不一樣,GPT-4o有更多技術路徑可走。現在文生圖領域應用普遍用的底層模型叫擴散模型diffusion model,原理是先生成一個大概的影像,再消除噪點,就像雪中作畫、霧裡看花,還原能力不強。而GPT-4o沿用文生圖自迴歸模型,相當於把之前預測token的邏輯推理能力進一步延伸到了文生圖領域,透過逐幀繪製的方式,從已生成的畫素推測下一個畫素,本質是模仿人類畫畫。這意味著,與垂類應用不同,大模型可以從底層架構上選擇不同的技術路徑,而架構的升級通常會帶來效能的躍升,基於GPT-4o等原生模型的功能有更多的生長空間。

第二個是,多模態融合會帶來跨領域的融會貫通,GPT-4o作為一種通用大模型,擁有整合文字、音訊、影像等不同格式資訊的能力,現階段已經可以打電話、生圖改圖了。而在未來,是不是可以直接生成音樂和影片,也值得期待。實際上,GPT-4o本次上線的生圖功能就脫胎於OpenAI的文生圖模型DALL-E。或許,OpenAI旗下的文生影片模型Sora也可能透過某種技術被整合到GPT模型裡。屆時,在一個模型裡交叉處理多種模態的資訊將不再遙遠。
而多模態創新也進一步說明,模型走向多功能後,處理各種任務的能力越來越強,帶來的總AI使用成本降低。一個可以預見的趨勢是,大模型正在試圖成為一個一站式打包站點,將程式碼、設計、音樂、資料處理等多種任務整合在一起。可能在未來某一天,類似於ChatGPT一樣的模型強悍到在任何領域都能做到前三,我們也不再需要下載畫圖的Midjourney、寫程式碼的coze、做音樂的suno等垂類應用,直接下載類似於ChatGPT一樣的模型,就能解決所有的事情。這樣一來,手機的記憶體更大了,執行效率也快了。每個月還可以省下了垂類應用一百塊左右的會員定製費,價效比更高了。

簡言之,GPT-4o繪圖能力的出圈讓我們看到了底層大模型整合多應用的能力。而從這個能力衍生出的願景是,我們未來可以在一個一站式的模型裡面同時使用繪畫、音樂、程式碼等多維能力。並且,它的使用門檻是非常低的,低到任何一個毫無技術基礎,甚至連AI都不瞭解的人都能用。
而這或許才是人類發明AI的終極目標——讓技術普惠到每一個角落。



