

題圖由 GPT-4o 生成,提示詞是“請你根據下面這句話生成一個吉卜力風格的影像:周圍有一圈人,看著一個機器吐出影像”。
文丨賀乾明
編輯丨黃俊杰
新產品釋出兩天後,在 OpenAI 創始人山姆·阿爾特曼(Sam Altman)的推文下,有人祝賀他十年努力終於帶來了 AGI——社交網路上全是吉卜力影像 “All Ghibli Images”。
3 月 26 日,OpenAI 更新 GPT-4o 文生圖功能。付費使用者可以在 ChatGPT 直接呼叫 4o 生成、修改圖片,不再需要使用 OpenAI 的文生圖模型 DALL-E。僅僅一天時間,近年影響較大的照片和 meme 圖都被 4o 重做了一遍,最流行的就是宮崎駿的畫風。





左右滑動檢視
人人都用生成吉卜力畫風不僅僅因為宮崎駿對世界的卓絕貢獻,也因為 OpenAI 的引導——阿爾特曼在 GPT-4o 新功能釋出的直播裡選擇生成吉卜力風格的三人自拍照。但其實 GPT-4o 生成其他風格效果通常也不錯。
文生圖已經不新鮮,此前也有文生圖產品能實現風格化效果。比如 Midjourney 年付費使用者可以改照片風格,Stable Diffusion 也有專門訓練成吉卜力風格的模型,Gemini 2.0 半個月前也增強了文生圖功能。
但 GPT-4o 在多個領域明顯超過所有對手,比如影像中的文字(尤其是英文)基本不再是亂碼。以圖生圖時,畫面細節更符合現實情況,修改圖片時畫面細節能保證較高的一致性。


右圖是原圖,有兩輪提示詞,分別是 “保留圖片中的文字,把圖片改成動漫風格”“在周圍加一圈貓”。(左右滑動檢視)


提示詞是 “請幫我生成一個泡泡瑪特的 MOLLY ,畫面中是它正在爆炸起飛,像皇帝一樣登基了,周圍有人朝拜它”“那你改成 3D 版本”。(左右滑動檢視)
GPT-4o 對技術普及影響最大的可能是控制更容易也更精確,整個過程不再需要複雜、精確的提示詞,像平時說話一樣給修改建議就行。
文生圖開源模型 Stable Diffusion 在 2022 年釋出。需要製圖、畫插畫的行業很快就將它引入工作。但 Stable Diffusion 本身不夠可控,於是 LoRA、ControlNet 等技術被髮明出來,新的創業公司應運而生,幫助完善產品、提供服務,搭建起一套實際可用的工作流程。
“(GPT-4o)直接幹翻了之前很多創業公司的產品。” 資深使用者體驗設計師章蕭醇說。“他們花了那麼多時間、人力、投資人的錢,調優的演算法、工作流、模型,直接被一次大模型的更新取代了。”
“因為大模型變得過於強大,一種新型程式設計方式正在興起。”AI 科學家安德烈·卡帕斯(Andrej Karpathy)把它稱為 “Vibe Coding(氛圍程式設計)”,“只是看東西、說話、執行程式和複製貼上,就能開發程式,這套流程大多數時候都能正常工作。”
而 GPT-4o 的文生圖功能就像是 Vibe Painting。
技術細節有限,推論是 OpenAI 靠底層能力提升
不論是 Google 還是 OpenAI,釋出新的文生圖功能時,都沒有介紹技術細節,以至於許多人去問 ChatGPT,OpenAI 到底是怎麼做到的。
相對權威的技術介紹,是 OpenAI 的研究員加布裡埃爾·吳(Gabriel Goh)在直播中提到的兩點:
全模態的 GPT-4o 是這項功能的基礎,它有生成各種型別資料如文字、影像、音訊和影片的能力。
採用自迴歸(autoregressive)方法(根據已經生成的內容來預測下一個元素)——從左到右、從上到下順序生成影像,類似於文字的書寫方式——而不是大多數影像生成模型(如 DALL-E)使用的擴散模型(Diffusion Model)技術,一次性建立整個影像,然後降噪提高畫質晰度。
GPT-4o 是 OpenAI 去年 5 月釋出的大模型,與 GPT-4.5、DeepSeek-V3 等專注文字能力的模型不同,它用文字、視覺、音訊等資料訓練。OpenAI 稱,它可以處理使用者輸入文字、音訊、影像或影片的組合內容,也可以反饋文字、音訊、影像或影片組合內容——不過現在 GPT-4o 還沒有完全具備上述能力。
OpenAI 新發布的文生圖功能,是其沿著 GPT-4o 技術路線發掘到的新成果。
清華大學 NICS-EFC 實驗室專注文生圖研究的博士生趙天辰對《晚點 LatePost》說,GPT-4o 用自迴歸技術可能不是影像生成能力大幅提升的核心原因,而是 OpenAI 大幅提升了“文字-影像對齊”(text-image alignment)能力。
行業內慣用的文生圖模型,如 Midjourney、DALL-E 系列,生成影像時會用到多個元件:先理解使用者輸入的提示詞,轉換為文字特徵,再聚合對應的影像特徵,最後生成影像。
趙天辰說,目前開源的文生圖模型,引入文字控制訊號上,存在以下不足:
一般都採用較小的模型提取文字特徵(CLIP/T5),文字的理解能力會受到 “不夠強” 的文字制約,損失一些文字資訊。
引入控制訊號的方式 “相對樸素”,用注意力機制融合文字特徵與影像特徵,即使文字特徵足夠好,也無法保證影像特徵能夠準確遵循文字特徵。
許多開發文生圖工具的公司或者使用文生圖工具的設計師,往往用精心調教的提示詞、層層疊加的外掛、環環相扣的模型鏈彌補缺陷,把它變成可用的工具。
OpenAI 用 GPT-4o 提升了模型的理解文字特徵和提示詞的能力。“如果我去畫一幅圖,雖然能力有限,但也會用自己積累的知識完成它”。ChatGPT 多模態產品負責人傑基·夏農(Jackie Shannon)說,“大模型有通用知識,當你用 GPT-4o 生成一張牛頓稜鏡實驗的影像時,你不需要解釋那是什麼,就能得到相應的結果。”
趙天辰推測,OpenAI 模型展示出的驚豔文字遵從能力,尤其是能準確把握文字描述中多個物件,以及形容詞和位置關係,可能很難透過傳統的單次文生圖“端到端”達成。在現有模型中,如果提示詞中有很多顏色,比如 “藍色的帽子” 和 “紅色的衣服”,直接交給模型端到端生成,結果可能是衣服和帽子都有藍有紅,顏色混在一起。
GPT-4o 基本不會有類似錯誤。他認為可能採用了 “組合-分解式” 的生成方案,比如生成一個人在左邊,再生成一條狗在右邊,然後把這些圖疊起來,最後整體生成一遍,把它們融合在一起。
從程式設計到圖片生成,大模型試圖吞噬依賴它的應用
程式設計是大模型最早規模商業化的場景。2021 年 OpenAI 推出 GPT-3 不久,微軟就用它做出了 GitHub Copilot。
就像它的名字那樣,受限於模型能力,GitHub Copilot 很長時間只能作為輔助程式設計工具,它最好用的場景是補全程式碼和 Debug,程式設計師還要做不少引導工作。
隨著大模型能力持續提升,GitHub Copilot 在 2023 年用上新模型後,年化收入迅速突破 1 億美元。行業內也誕生了 Cursor、甚至 Devin 這樣的產品。它們集成了 Anthropic、OpenAI 的最新模型,編寫簡單的程式碼多數情況都不需要程式設計師干預,但寫複雜的程式碼還是需要程式設計師引導。
Cursor 等產品還面臨一批競爭對手——它們依賴的大模型公司,如 Anthropic、OpenAI 等。它們在持續提高大模型本身的程式設計能力,每一次更新都有可能削減 Cursor 等產品的價值。比如程式設計競賽 CodeForces 的測試,OpenAI 的 o3 的程式設計能力已經達到了 Top 200 人類程式設計師的水平。雖然它並不代表實際的程式設計水平,但證明了大模型本身的潛力。
這就是安德烈·卡帕斯提出 Vibe Coding 的背景,程式設計 “幾乎不用碰鍵盤”,收到報錯資訊時,只用複製貼上進去,通常就能解決問題。
矽谷創業孵化器 YC CEO 陳嘉興(Garry Tan)接受採訪說,創業者不再需要第一個 50 或 100 人的工程師團隊,可以用 10 個人建立每年賺 1000 萬或 1 億美元的公司。最新一期 YC 創業營中,有 1/4 的公司採用 Vibe Coding, 95% 的程式碼由大模型直接生成。
GPT-4o 也推動文生圖沿著類似的趨勢發展。過去的文生圖模型可以生產出來以假亂真的影像,但還是有足夠高的門檻——更懂模型的人、更有審美的人、更會寫提示詞的人,再自己訓練模型、找外掛,可能還得動手 PS 一下,才能得到理想的圖。
現在模型本身變成了一個聰明的專業人士。
“我曾引以為傲的複雜工作流程——精心調教的提示詞、層層疊加的外掛、環環相扣的模型鏈——如今都被一個簡單對話介面所取代。” 資深產品設計師歸藏說,他認為這會是 AI 領域的常態,“複雜工程化註定會被模型碾碎”。
GPT-4o 圖片生成功能推出後,文生圖領域明星創業公司 Midjourney CEO 創始人大衛·霍爾茲(David Holz)在公司舉辦的活動中說,OpenAI 只是 “在試圖籌錢,並以一種有毒的方式競爭,它只是一個梗而不是創意工具”,未來 Midjourney 還是會基於社群的反饋驅動改進,而不是外部的市場壓力。
Midjourney 的成長得益於 OpenAI 在 2021 年推出的文字-影像對齊模型 CLIP。在後續的產品迭代中,Midjourney 用更精細的工程能力,對生成影像審美的苛刻關注,訓練了效果更好的模型,僅靠 Discord 就迅速獲得每年數億美元的收入。類似的例子還有 AI 搜尋應用 Perplexity。
如果大模型本身的能力進步有限,就是這類創業公司的機會——他們針對垂直領域的功能最佳化或者訓練小模型,可以更好地發揮大模型效果。
但如果大模型能持續進步,許多精心調教後的產品能力成為龐大模型的一部分,使用者直接說幾句話就能實現想要的效果,那大模型本身就是終極產品。能投入組建大團隊、巨資訓練模型的公司才有資格參與大模型效能的比拼。
技術演進偏向哪一端,最終將決定 AI 生態的未來更偏向大公司還是新銳團隊。
– FIN –



