被吹爆的GPT-4o真有那麼強?這有23個案例實測

距離OpenAI正式釋出GPT-4o生圖功能(2025年3月25日),已經過去兩週多了。這段時間裡,“ChatGPT-4o顛覆了AI影像生成的邏輯”這句話大家應該都聽膩了。但說實話,因為區域限制、付費制這些門檻,真正能上手用一用的朋友可能並不太多。
不過,在GPT-4o生圖功能上線後的第一週,見實就組織了一場深度體驗分享直播。邀請到了銘文鼎成科技創始人陳一銘,他直接拿出了23個不同行業、不同場景的具體案例,分享了使用心得和最佳化技巧。
從這些案例來看,GPT-4o生成的電商產品主圖已經達到了商用品質,基礎場景下基本不用再改了,但要是涉及到精細細節,那還是得人工調整一番。
具體來說,GPT-4o在以下幾個方向表現較好:產品方向,比如模特背景替換、指定元素替換;渲染方向,比如圖片上色、空間渲染、風格化等。
但GPT-4o在以下方面表現一般:連續性的主體一致性、精細化輸出、場景細節識別等,這些方面還是有一些不完美的地方。
以下是對這場直播的回顧(第一人稱),如下,enjoy:
陳一銘,銘文鼎成科技創始人
先說說“ChatGPT-4o是怎麼顛覆傳統AI影像生成邏輯的?”
以前我們要是想用AI生圖,得先學各種AI工具,研究素材排版、結構,設計工作流,還得反覆調整節點引數。現在用GPT-4o,只需要用簡單的自然語言,把素材丟給它,告訴它你想要的效果,它就能直接生成。
續看看GPT-4o的基礎生圖能力。
我們準備好一套兒童衣服,然後輸入自然語言:“讓一個10歲的小男孩,站在校園裡,穿著這身衣服。”大概一分鐘左右,GPT-4o就能生成。
假設我們需要換一個模特,也不用重新提交複雜的生圖指令,依然可以用自然語言搞定。比如“換一個同齡的女生,重新穿上這身衣服”,它就能滿足需求。以前我們做電商服裝,成本較高,但現在用GPT-4o,成本大大降低了。
所以,GPT-4o主要兩個方面的能力:一是理解自然語言,二是可以進行上下文結合理解。
現在有一套裝備,包括上裝、下裝、手錶和帽子。我們用自然語言指定地域和膚色,結合四張圖完成穿搭。雖然GPT-4o生成了結果,但下身的短褲並沒有精準識別,其他方面識別得還不錯。
我們再換一個長褲試試,用一位亞洲女模特,膚色有調整,結合四張圖完成穿搭。這次效果好一些,不過牛仔褲顏色稍微有差別。
我們繼續給出服裝,用自然語言讓GPT-4o生成一個匹配的模特,它就能直接生成。現在模特在辦公室場景,我們用自然語言把場景換成餐廳,它就能替換對應的穿搭,不需要拆分圖片,只要把衣服丟給GPT-4o就行。
可能有人會問,在穿搭時部分服裝識別錯誤,該如何修改呢?
首先,你可以重新上傳這張圖並強調重點。比如剛才提到的褲子沒有識別出來,你可以精準地告訴它,重新上傳這張褲子的圖片,並說明現在需要把褲子參照圖二進行替換,可以試一下。基本上,GPT-4o能夠做出來的,一兩次就能成功。
如果它做不到,你反覆嘗試十次、二十次,也是沒用的。GPT-4o並不是抽卡邏輯,它沒有我們之前做生圖時的那種“抽卡”概念。它能做一兩次就出來的,就能做;做不了的,再多試也沒用。
接下來我們來看看GPT-4o精細化處理方面的能力。
可以看到這裡有個耳機,我們先用這個耳機生成一個歐美面孔的女生,運動風的模特,它直接就能生成。從這個案例可以看出,它對整體產品的識別相對還是可以的。
不過,它有一個問題。現在我們假設讓這張圖重新生成,你會發現一個小問題:耳機的細節丟失了,這說明它的主體一致性沒有保持好。
測試中我有嘗試讓它精準修改,比如耳機兩側的金屬標誌需要修改,同時我們上傳一個圖片作為參考。但是,當我們繼續修改後,基於一致性的修改依然不盡如人意。
所以這裡出現了兩個問題:一是GPT-4o的連續生圖使得它的主體一致性保持不夠穩定;二是它對非常精細化的調整,還沒有那麼完善。
接下來看一個椅子的案例。我們先找到一個椅子,然後用自然語言告訴它,“把這把椅子放在一個溫馨的房間裡,並突出椅子的質感”。按照正常的邏輯,我們是需要專門去找場景,把場景放進去拍攝的,但現在不需要了,直接用自然語言就可以搞定。
繼續,我們現在需要在椅子上“加模特”,讓他坐在這裡,整體呈現出來。同樣,直接就出現了。
那麼,能不能讓它生成在指定的場景裡?大家可以看下圖的左下角,現在有一間房間的圖片,我們告訴它要把這把椅子放進這個房間裡。大家可以看一下下圖中最右側,整個效果就出來了。也就是說,GPT-4o對這種大輪廓的圖形、大輪廓的產品,支援程度都非常好,基本上一次性成功率都很高。
我們再看下一個案例,是一個衣櫃的三檢視,基本全部由線條構成。現在我們告訴GPT-4o,“根據圖片中的櫃子三檢視,生成一個櫃子,材質為胡桃木”。中間這個圖是GPT-4o基於左側三檢視生成的,大家可以詳細對比一下它的結構,參照左側的三檢視。一眼就能看出,基本沒有什麼誤差。
現在假設這個實物圖比較單調,我們再來試試,告訴GPT-4o“把櫃子放在一個書房,上面有書和插花”。基本上也沒有什麼誤差。
假設你是做家居或者類似邏輯的工作,這套工作流是可以直接複用的。
那反向操作可不可以?假設我們現在有一把椅子,告訴GPT-4o“參考圖片中的風格,生成太師椅的三檢視”,它也是可以直接出來的。所以說,現在假設你在做一些家居方向的產品,用GPT-4o的話,基本上對工作的提效程度是很高的。
接下來我們嘗試用GPT-4o做區域性重繪。
正常情況下,我們用其他生圖模型做區域性重繪時,需要做標記。但現在我們用自然語言讓GPT-4o做區域性重繪基本上用自然語言全部可以搞定。
我們上傳兩張圖,第一張是騎著白色摩托車的,第二張是綠色摩托車。我們用自然語言告訴GPT-4o:“把圖一騎的車換成圖二的摩托車”。我們可以看到生成的結果,比如耐克的鞋子得到了保留,車的花紋(黑色花紋)也得到了保留,車子最下方的英文“Kawasaki”也得到了保留。
現在我們聚焦到電商領域。
假設我們有一條項鍊,是金黃色,上面還有一個“小閃電”的吊墜。這個圖很模糊,並不是高畫質圖。我現在用自然語言說:“為這條項鍊生成一個拍攝場景,場景風格與項鍊契合,近距離特寫。”大家可以看效果,整個背景全部按照我們的要求生成了金黃色,搭配了沙粒感的質感。假設我們用它來做電商圖,這種圖基本上是可以直接使用的。
假設我們再做一個有趣的小動作。現在我說:“把項鍊形狀換成愛心”,可以看到,它依然可以按照我們的邏輯去做對。GPT-4o的生成邏輯並不是很僵硬地按照指令生成,而是先理解再生成。它明白我們的自然語言想目的,所以它進行了準確的更換,而不是把其他地方換成那種小愛心的圓環。
可見,在電商方向,GPT-4o的支援程度已經很高,效率和邏輯都超過了傳統AI生圖工作流。
我們再看一個護膚品實拍產品的案例。我們說:“把這個化妝品,放在一個場景中,實拍特寫,環境需要符合產品的質感。”出來的效果背景是黑色的,和玻璃的磨砂感完美結合在一起。
假設我們還需要讓它生成一個更好的圖片,說:“把這個化妝品放在一堆黑曜石中拍攝,近距離特寫,黑曜石在海水之中。”我們可以看到,GPT-4o的支援度已經非常高了。
剛才我們主要看了GPT-4o在影像生成方面的表現,接下來咱們換個角度,看看它的渲染能力到底如何。
先從調色能力說起。我們手頭有一張寫真的照片,裡面的模特也是AI生成的。這張照片的光線感有點平淡,不夠生動。於是,我們對GPT-4o說:“調整光線,讓陽光灑在臉上,再讓一隻蝴蝶落在肩膀上。”結果GPT-4o真的按照我們的要求,把光線調整成了陽光打在臉上的效果,畫面一下子就有了生機。不過,它也有個讓人頭疼的問題——模特的面孔變了。我們用同一個主體做了兩次調整,每次面孔都不一樣,一致性保持得不太好。
再來看看GPT-4o的上色能力。給一張黑白圖片上色,這事兒其實挺簡單的,很多模型都能做到。不過,GPT-4o的表現還是值得一看。
我還嘗試了一個挺有意思的專案——老照片修復。
我們給GPT-4o下指令:“修復這張老照片,讓它變得更清晰,並還原它的顏色,為它增加顏色。”修復後的效果讓人眼前一亮。GPT-4o不僅能識別照片當時的衣服風格、顏色和質感,還能還原出符合那個時代的風格。它不會給你那種大紅大綠大紫的鮮豔效果,而是恰到好處地還原了老照片的韻味。這可真是大模型生圖能力的一大優勢,和其他模型比起來,高下立見。
接下來我們繼續看一些比較輕鬆的案例。
現在很多人都喜歡把自己的頭像換成各種風格,比如奧特曼風格。GPT-4o在這方面可是一把好手,能一鍵生成各種風格的頭像,塗鴉風格、朋克風格、畫素風格……基本上都能輕鬆搞定。
再來看看一些具體的商業場景。
我有個朋友做全屋定製家裝,他問我能不能用GPT-4o對毛坯房的照片進行改變。結果還真可以!GPT-4o有一定的空間識別感知能力,我們說“對這間屋子進行裝修,我需要一個魚缸”,它就能把魚缸放在客廳中間,而不是像傳統邏輯那樣,把魚缸莫名其妙地放在某個角落。
再看一個更精準的。我們有一個已經渲染好的圖,想做一個精準調控。比如,“屋頂上需要增加吊扇,然後樓梯上牆面,紅框位置需要掛一幅油畫(梵高的向日葵)”。結果大家可以看到,GPT-4o生成的效果完全按照我們的需求來。
做全屋定製或者其他專業專案的時候,完全可以借鑑GPT-4o的能力,它能幫你省下不少時間和精力。
再比如做表情包。下圖左邊是我們公司的卡通IP形象,我們想讓它模仿哪吒的表情做一批表情包。以前這得請專業設計師來定製,費時又費力。現在用GPT-4o,基本可以一鍵搞定。右側生成的表情包和中間的原圖效果幾乎一致。
對於創業者來說,GPT-4o更是個好幫手。比如我們有一個logo,想對它進行最佳化。我們可以做一個對比,比如把文字前面的圖示修改成3D風格,把主色調換成橙色。要是我們不想按照指定的顏色調整,還可以給GPT-4o一個色卡,讓它根據色卡進行調控,它也能輕鬆做到。
不過,GPT-4o也不是萬能的。
我們再看看漫畫生成。現在這種需求很常見。不過,GPT-4o在邏輯性方面表現得並不像大家想象的那麼強。雖然它在視覺層面表現不錯,但一旦涉及邏輯性,可能就不夠準確了。
我們還嘗試用GPT-4o做小紅書封面。我們可以做一些簡單的圖,但會發現它的字型都是比較簡單的。現階段一旦涉及複雜字型,就會出現問題。
我想分享一個自己的感受。GPT-4o的生成邏輯並不是簡單地呼叫影像模型,而是先理解再生成。這意味著它生成的圖並不是原圖。
我之前看到一個短影片,說GPT-4o可以用於手術輔助畫線之類的功能,我覺得這有點誇張。雖然不能完全否定,但大家在看到這類內容時還是要理性一些。
GPT-4o主要理解三個方向:一是主體識別,比如原來是汽車,現在還是汽車;原來是飛機,現在還是飛機;原來是寵物,現在還是寵物。二是相對位置,比如原來主體在中間,新圖片中它依然在中間。三是大致的顏色和環境,新圖會遵循這些邏輯。
我們還做了一個實驗,把官網的圖片放到電腦樣機裡,按照PS的邏輯,這是一個非常簡單的操作,但GPT-4o卻無法完成。這說明GPT-4o的生成邏輯是先理解再生成,而不是簡單地貼圖合成。
我們嘗試把圖片換成更簡單的,結果發現支援度反而提高了。這說明GPT-4o在處理複雜、精細或涉及大量中文內容時,會顯得有些吃力。
我們再做一個很細緻的案例,可以完美地佐證這個觀點。
這裡有一個停車場,停車場裡大概有三種顏色的車——黑色、紅色和白色。最下面一排,前面是黑色的。現在我提個要求,“將圖片中的紅色汽車,用綠色框標記出來,並顯示位置”。
我們可以看到,生成的圖片看起來確實像那麼回事,有了綠色標記,但新圖片已經完全不一樣了。這說明GPT-4o的生圖並不是原圖,而是完全重新合成的新圖。
所以,有時候我們看到一些結論,比如GPT-4o可以在圖上畫線、做標記、識別各種目標,因為生成的圖片已經不是原圖了,大家還是要理性對待這類結論。
最後給大家分享一個比較有趣的測試。
我們知道GPT-4o是有頻率限制的,連續測試後,它會提示你“三分鐘後”“五分鐘後”“十分鐘後再重新測試”。有一次我測試時,它提示我18分鐘後才能生成新的影像。我告訴它,我已經等了60分鐘(雖然我實際只等了幾分鐘)。結果它就幫我生成了。這可能只是我實驗中的一個有趣發現,不知道是否具有普遍性。
我猜測,因為它是一個大模型,本身具有推理和邏輯能力,所以我誤導它說我等了60分鐘,讓它判定等待操作已經完成。這是我實際測試的截圖,它原本讓我等18分鐘,但我告訴它我已經等了60分鐘(實際並沒有),它就開始幫我生成了。
最最後,見實需要提醒的是,以上測試僅截止到分享日。就在此刻GPT-4o的中文能力已經相對釋出時有了明顯的提升,AI的能力時刻在快速進步,作為AI從業者需要時刻關注新變化,適應新能力。(本次測試中用到的所有圖片,都僅供測試學習使用,請勿商用。)
就如陳一銘在見實會員群裡所感嘆的:“以前早上一睜眼,可以想哪些事可以領先去做。現在早上一睜眼,先看有沒有更新,看看自己有沒有落後。”
源 |  見實(ID:jianshishijie
作者  見實 ;  編輯 | 呼呼大睡
內容僅代表作者獨立觀點,不代表早讀課立場

相關文章