親測:GPT-4o們,離成精還有多遠?

最近,GPT-4o模型的文生圖功能走紅網路。混沌同學Z在第一時間也做了測試,並用國內的新生AI模型與GPT-4o進行了簡單的對比。結合其他測試者的測試結果,同學Z發現:
在不同的場景下,GPT-4o們有著相當亮眼的表現,但離“成精”……
因為只是同學單方面嘗試體驗,不代表各AI模型的真實水平,也不代表混沌立場,請同學們獨立判斷。
文 / 混沌同學Z
只需上傳照片到GPT-4o,並輸入轉換為XX風格的影像,幾分鐘的時間,GPT-4o便能將日常場景瞬間轉為符合使用者期望的寫真影像。
同時,走紅的不只是GPT-4o,從位元組旗下的即夢AI、快手旗下的可靈AI,到上個月剛剛釋出,譽為“AI影像生成新標杆的Reve Image等等,一大批文生圖大模型正雨後春筍般出現。
所以,這些工具之間有哪些功能差別?又有哪些真的可以為我所用?
結合上手的實際體驗,我為大家整理了一些應用案例,透過不同模型生成結果的對比,幫助大家在不同的應用場景裡,去解鎖影像生成AI從入門到進階的N種新姿勢。
由於這次我嘗試的模型功能相對比較簡單,後期大家還想看哪些AI模型功能的效果對比,可以在評論區留言,我會挑選出比較有代表性的模型來繼續做對比測試。
生成/轉為XXX風格的影像
先拿最火的吉卜力風格來說,使用者只需輸入“把這個圖片轉為吉卜力風格“,並上傳圖片,GPT-4o便可以將一張極具寫實風格的照片轉換為宮崎駿筆下的治癒系童話。
無論筆觸、調色都讓人感覺來自真實的藝術家之手,這是最近一段時間裡,大家都在跟風嘗試的方式。
例如,我隨便選一張善友教授的照片,傳送給GPT-4o並要求轉為吉卜力風格影像,結果顯示:
即夢AI生成的效果似乎還不錯,再比如我選一張教授與其他同學家屬互動的照片:
GPT-4o一次生成的完成度已經相當不錯了,同樣的內容再分別由即夢AI處理,生成的結果如下所示:

整體而言,即夢的處理速度相當快,真實體感在3-5秒的時間內便能生成內容相近的四張圖。
如果使用者認可某一張的細節,可以再次要求就某一張生成高畫質的版本,響應速度方面即夢非常有優勢。
但也可以明顯發現,即夢對於吉卜力風格的把握依然不夠成熟,這或許與模型能夠參考的資料有關係。
即夢AI生成的圖片更偏向通俗意義上的漫畫風格,而非辨識度很高的吉卜力風格,在依據使用者提示詞的生成效果上是打了折扣的。
除了轉換圖片的風格外,GPT-4o文生圖的能力也相當亮眼,同樣以吉卜力風格為例:
(來源:網路)
結果很不錯,GPT-4o生成的海邊小鎮場景是很有代表性的吉卜力風格,治癒系的氣息以及色彩、紋理、街景,都是宮崎駿系列電影中常見的筆觸。
再用相同的提示詞來詢問即夢AI
相對而言,完成度也很不錯,但同樣的問題再次顯現——
吉卜力的風格特徵相對並不充分,與GPT-4o相比效果還是打了折扣的。
再來看進階一些的玩法,例如上傳一張圖並給出提示詞:“以XXX風格重新設計影像並保留所有細節”:
一句話就能切換吉卜力、粘土風、皮克斯3d動畫風、畫素風、漫畫風等等,不需要額外的描述。
同樣的內容即夢AI也可以實現,大體上的特徵還是遵循了提示詞的要求,但效果確實不夠精細。
即夢AI對於圖片風格有一定的把握,但的確不夠——
同一風格生成的不同圖片差異度甚至比生成不同風格的圖片還要大,說明識別、生成能力與穩定性都有待提高。
藝術功能應用
簡單的風格轉換功能測試過後,我們再來看文生圖模型最重要的功能之一——
對於藝術創作工作的實現程度。
GPT-4o作漫畫的能力同樣也是大家津津樂道的地方我們拿一段網上的資料來對比。
例如給出提示詞:
製作一個4格漫畫的影像:
第一格:小老鼠在家裡無聊極了,打電話給小牛,小老鼠問小牛“你在做什麼”,小牛說“在做草莓果醬”
第二格:小老鼠又和小老虎打電話,小老鼠問小老虎“你在做什麼“,小老虎說“在和弟弟一起剪紙帽子“
第三格:小老鼠又和小兔子打電話,小老鼠問小兔子“你在做什麼“,小兔子說“在做胡蘿蔔湯“
第四格:小老鼠又和小羊打電話,小老鼠問小羊“你在做什麼“,小兔子說“在青青草原吃草”
輸出結果顯示:
(提示詞及生成圖源自網路)
同樣的內容我們交給即夢AI來處理:
文字的遵循效果並不太好,對話內容還是比較混亂,但畫面風格相較於GPT-4o而言更為豐富,且每一張圖風格各有不同,在創意的效果上來說是有優勢的。
更進一步創作的話可以發現,如果想要更經典的黑白漫畫,也只需要給GPT-4o追加提示:應用黑白日漫風格,即可得到:
即夢AI雖然也能創作出符合要求的作品,但漫畫比較簡單,還無法達到類似人工創作的精細程度。
除此以外,還有一些有意思的圖片效果,例如給老畫填充顏色:
(圖源自網路)
再例如生成一些海報,提示詞:創作一張關於不同種類鯨魚的教育海報,採用活潑的水彩風格。背景設為純白色。“
左邊為GPT-4o的輸出結果,右邊為同樣提示詞的即夢AI輸出的結果:
相對而言,即夢的內容更為豐富一些,但種類不算齊全,但在後續的測試中可以修改提示詞繼續豐富鯨魚種類。也就是說,在海報生成一方面上,二者能力基本相當。
GPT-4o也可以直接做解剖圖
(上圖為GPT-4o生成,圖源自網路)
(上圖為即夢AI創作,提示詞:生成一幅蜜蜂的解剖圖並用中文註釋)
即夢AI也可以生成不同樣式的解剖圖,但標註的文字比較混亂,這種情況在很多需要文字描述的圖片中廣泛出現。
除了海報和插圖,還有網友發現可以用GPT-4o給自己家的房子生成裝修效果圖
這種情況,我也在即夢AI中引入了簡單的毛坯房圖片並進行了應用,結果如下:
在不加以限制的情況下,它對於裝修方案的生成還是較為不錯的,同樣的戶型不同的風格有了一個概念效果。
而當我同樣將要求作為提示詞輸入後,生成效果如下所示,其結果還是很令人驚喜的。
裝修效果圖效果還不錯,家裝行業的設計師估計坐不住了。
而坐不住的不僅僅是家裝行業,實際上做廣告圖也不需要模特了。

GPT-4o結合昂跑商品圖生成的模特展示,注:源自網路)
GPT-4o在商品模特上身圖上,生成的效果還比較好,而在即夢AI的體驗上就比較糟糕了:
在不同的提示詞下,只要提供了參考圖,即夢AI生成的效果圖中基本還是以參考圖的展示為主,而且經測試,AI的邏輯還無法立體理解一個物體的樣貌,
當然,或許也是參考圖的權重過重導致。
類似的問題,還出現在以下關於項鍊的佩戴示圖上:
項鍊的佩戴效果慘不忍睹,已經出現了明顯錯誤,這一點確實很影響使用體驗。
再比如把古人像作轉為清晰拍攝的照片
提示詞:把這個場景變成一張照片。用數碼單反相機 (DSLR) 拍攝。
輸入圖片並得到反饋:

在這裡我還想介紹一個新的AI模型工具:Reve Create,它對於真實圖片的生成效果相當不錯,比如我希望它能為我生成杜甫的真實照片,可以得到:
甚至於,前幾天混沌學園公眾號釋出了一篇以查理·芒格角度解讀關稅政策的文章,我也用這個模型生成了一張特朗普和查理芒格交談的照片,結果顯示:
畫面逼真程度幾乎以為拍攝完成。
但該工具還無法上傳參考圖,對於圖片的生成完全依賴文字描述,這一點上確實會限制其功能的發揮。
比如,生成一幅菜譜
(上圖來自GPT-4o,下圖來自即夢AI)
經測試,即夢AI離開完整的提示詞,很難直接生成一份菜譜,生成的均為菜品的效果圖。
小結:
此次模型功能的對比主要是由GPT-4o和即夢AI完成,可靈AI在圖片轉影片的效果上相當出色,但由於相對較久的排隊等待情況不利於生成圖片的測試,所以整體測試還是由即夢AI完成。
(可靈AI圖片生成的效果)
需要注意的是,即夢AI和可靈AI均為創意激發AI,它們集成了較多的AI功能——圖文、影片、數字人等。本次測試主要用到的是圖文功能,不能代表模型的完整水平,有需要的同學還要自己上手測試才能看到真實、有針對性的效果。
從測試的結果來看,GPT-4o的圖文能力要超越國內主流圖文AI,但就功能效果而言,國內對應AI基本能夠實現下位替代。
目前圖文模型間也存在一些通病,比如在一些文字內容複雜度較高的圖片中,文字的展示效果相當不理想,這一點在GPT-4o上也不例外。
下圖所生成的長圖以及元素週期表都可以看到文字效果的問題:
GPT-4o的官方文件中,開發者列舉出了一些詳細的模型缺陷,而這幾乎也是所有圖文模型共性的存在:
1、裁剪:GPT-4o有時會錯誤地裁剪較長的影像(如海報),尤其是靠近底部的部分。
2、編造資訊:與其他文字模型一樣,影像生成模型也可以編造資訊,尤其是在上下文提示較少時。
3、高結合問題:當生成影像需要依賴於其知識庫時,它可能難以同時準確地呈現 10-20 多個不同的概念,例如完整的元素週期表。
4、精確繪圖:模型可能在繪製涉及資料的圖表時不準確。
5、多語言文字渲染:模型有時難以渲染非拉丁語言,並且字元可能不準確或產生幻覺,尤其是在更復雜的情況下。
6、編輯精度:當要求編輯影像生成的特定部分(例如拼寫錯誤)時,結果並不總是有效,還可能出現在沒有請求的情況下更改影像的其他部分或引入更多錯誤的情況。另一個錯誤是模型難以保持使用者上傳的人臉在編輯中的一致性,但OpenAI 預計將在一週內修復該錯誤。
7、小文字資訊密集:眾所周知,當被要求以非常小的尺寸呈現詳細資訊時,模型會遇到困難。
參考資料:
1.GPT-4o 引爆全球吉卜力風格生圖潮流!附10+玩法與教程
2.Alan李廠長:《AI不無聊》第2期|GPT-4o 的生圖能力,正在顛覆創意產業鏈的底層邏輯
3.新智元:不止吉卜力!GPT-4o新玩法全網瘋傳,網友:AI成精了
4. https://openai.com/index/introducing-4o-image-generation/
讀完同學Z的這篇文章後,我們不難發現,無論是GPT-4o的吉卜力童話、即夢AI的秒級出圖,或是Reve lmage近乎真實的場景生成,這場AI影像革命早已超越了"技術秀場"的範疇,它正在悄然重構企業與使用者之間的創造力邊界。
對每一位混沌同學而言,這不僅是工具的迭代,更是一次重新定義創意生產關係的機遇。
未來已來,未來的競爭一定會屬於AI與人工協同的模式,這一點,混沌的同學需要早有意識,也要儘早佈局。
2025李善友開年大課門票售賣倒計時6天:
今天,我們站在舊時代和新時代的晨昏線上,
移動網際網路的大船已開到了世界盡頭。
今天,所有不用AI的企業都成了傳統企業,
所有不用AI的人都成了傳統從業者。
今天,混沌大課呼應AI時代蛻變重生,
我們要陪伴萬分之一的先鋒者,
一起提前半步,走入AI的黎明。
課已經10年,如果說過去我是在迭代,那麼今年我可能會重構,因為時代變了,AI的黎明呼嘯而來。
“第一批iPhone的使用者,最早在移動網際網路創業成功”。沒有人願意錯過AI,混沌已經All in。
今年大課,我想站在AI世界的基座上去講述,這三年,我們親身探索關於AI的一切,AI和創新將開啟一個什麼樣的文明。
我想邀請地球上最硬核、最新銳、最有夢想的創造者們,一起來走入混沌,走出混沌。在時代混沌的轉折期,你的一個想法,可能就是未來文明的火種。
——李善友 混沌創辦人
4月25日-4月26日,在杭州大會展中心,善友教授會用2天時間,為混沌同學做閉門分享。如果你正好有時間,千萬不要錯過善友教授的年度分享,它會幫助你在AI時代找尋新的機會和方向。
現場沒有直播,是與善友教授面對面地流淌。
現在,我們誠摯地邀請你來參加,這場面向未來的AI盛會。
點選下方購票連結,可以瞭解到更多票務資訊。


相關文章