OpenAI的吉卜力，撞車了被位元組起訴“投毒AI”的前實習生？

作者｜週一笑郵箱｜[email protected]

想象一下，耗費動畫大師宮崎駿數十年心血、一幀一畫精雕細琢的藝術風格——比如《起風了》中耗時一年多的四秒人群場景，或是《幽靈公主》裡那個生物鑽地鏡頭背後一年零七個月的 5300 幀手繪，如今，在GPT-4o手中，似乎變得“唾手可得”。使用者們興奮地將個人照片、網路梗圖甚至歷史影像紛紛“一鍵吉卜力化”，其效果之逼真、風格之統一，迅速點燃了網路。無數人的時間線都被塞入了宮崎駿的平行宇宙。OpenAI CEO Sam Altman透露，4o的影像生成功能在一小時內就吸引了百萬新使用者。

但如果你認為這僅僅是OpenAI用一個更強的模型替換了之前的DALL-E，那可能就忽視了全貌。有敏銳的網友指出：“這不僅僅是一次產品更新——這很可能是一個徹底的正規化轉變。” OpenAI 似乎正在解決那些長期困擾AI影像生成過程中，讓創作者望而卻步的問題。

那麼，秘密武器是什麼？OpenAI自己給出了線索：這次的影像生成是直接內建在GPT-4o模型中的，並且，與廣泛採用擴散模型（Diffusion Models）的DALL-E、Midjourney、Stable Diffusion 不同，OpenAI在模型卡片中宣告：“與作為擴散模型執行的DALL·E不同，4o影像生成是一個原生嵌入在ChatGPT中的自迴歸模型”

值得注意的是，將自迴歸思想應用於影像生成並非OpenAI的獨創。事實上，如何讓擅長序列預測的自迴歸模型在視覺領域發揮潛力，一直是AI研究者們試圖攻克的方向之一，意在尋找不同於主流擴散模型的新正規化。

例如此前獲得頂級學術會議NeurIPS 2024最佳論文獎等《視覺自迴歸建模：透過下一尺度預測實現可擴充套件的影像生成》（Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction）的研究，它不僅提出了一種創新的 VAR 方法，顯著提升了自迴歸模型生成影像的質量和效率，更是在實驗中首次證明了類 GPT 的純自迴歸模型在影像生成任務上，有潛力超越當時頂尖的擴散 Transformer 模型。

這篇論文由北京大學與字節跳動的研究者共同完成。而為這篇技術含量極高的論文增添了更多話題性的，是其第一作者田柯宇的另一重身份——他正是那位因被指控惡意攻擊字節跳動訓練叢集、面臨鉅額索賠而備受關注的前位元組實習生。

這位“含金量還在上升”的實習生，以一種意想不到的方式，與AI影像生成的前沿探索交織在了一起。

自迴歸的“復興”

GPT-4o 在影像生成上的突破，關鍵之一在於其宣稱採用的自迴歸技術（AR）路徑，這與主流的擴散模型截然不同。理解這一差異，是把握這場潛在“正規化轉變”的核心。

擴散模型，如Midjourney和Stable Diffusion，其原理是從隨機噪聲出發，透過學習資料分佈逐步去噪，最終生成影像，強項在於生成高質量、逼真的影像，但在速度、計算成本以及精確理解複雜指令（尤其是文字渲染）方面常顯不足。

自迴歸模型則借鑑了GPT處理文字的方式：按順序預測下一個元素。在影像上，這意味著模型基於已生成的部分（如畫素或影像標記），逐步構建出完整影像。理論上，這賦予了AR在上下文理解、細節控制和連貫性上的優勢。然而，傳統AR方法存在效率低、易出錯的問題，長期以來難以在效果上匹敵擴散模型。

近年來，以 VAR（Visual Autoregressive Modeling）、掩碼自迴歸建模（MAR）等研究，開始為 AR “正名”。VAR提出的“下一尺度預測”（從粗到細生成）等創新，顯著提升了AR模型的影像質量和生成效率，證明了AR路徑不僅可行，甚至有潛力超越擴散模型。VAR等研究可能為GPT-4o提供了理論啟發，而GPT-4o的實踐進一步驗證了自迴歸模型在視覺生成中的可行性，讓 AR 在影像生成領域迎來了“復興”的可能。

那麼，GPT-4o 的影像生成具體是如何運作的？OpenAI強調其影像功能原生集成於模型核心，而非獨立模組。這意味著4o能充分利用其強大的語言理解和世界知識來指導影像生成，實現前所未有的上下文理解和指令遵循能力——比如準確畫出包含特定公式的白板。這種深度融合是 4o 效果出色的關鍵。

然而，一張流出的內部白板圖（標註了Transformer -> Diffusion流程）引發了對其“純粹”自迴歸的質疑，可能採用了混合架構：即利用 AR 的理解能力生成中間表示，再結合 Diffusion 的畫素生成優勢輸出最終影像。這種猜測認為4o可能融合了兩條路線的優點，以規避各自的短板。不過也不能排除是OpenAI在故意混淆事實。

由於沒有任何技術報告，其具體實現細節仍是謎團，但OpenAI的戰略意圖清晰可見：一是將自迴歸原則置於下一代多模態模型影像生成的核心位置；二是依託其超大規模的模型為這一切提供算力和智慧基礎。無論最終的技術“配方”如何，GPT-4o 都已將自迴歸推向了前沿，這很可能會改變AI影像生成的未來發展方向。

中美溫差

GPT-4o影像生成功的成功，引出了一個值得關注的現象：無論是語言模型還是影片模型，中國的企業追趕迅速，但在尖端影像生成上，似乎總是美國公司在前沿“獨奏”？無論是從Midjourney到Gemini Image再到4o，在中國似乎都看不到能與之“對標”的企業或產品。

我們可以從技術和商業兩個視角來看待這種“溫差”。技術上，美國頂尖公司似乎更傾向於探索和押注如自迴歸（AR）等可能帶來正規化革命的新路徑，這或許得益於其在基礎研究上的長期投入和對風險的更高容忍度。OpenAI在2020年就推出的自迴歸影像生成模型Image GPT，旨在將自然語言處理中的Transformer架構應用於影像生成領域。

而國內力量可能更集中於最佳化成熟的Diffusion路線並快速落地應用，這在追趕階段十分有效，但也可能帶來一定的路徑依賴。同時，頂尖模型所需的算力、高質量資料和核心演算法創新，本身就構成了不低的壁壘。有觀點認為， Diffusion模型可能已觸及瓶頸，亟待新的突破。

商業上，市場定位和變現模式也塑造了不同的發展方向。Midjourney、GPT-4o等似乎更瞄準對效果要求極致的專業使用者或付費意願強的市場，追求打造“爆款”工具並直接收費。而中國龐大的應用場景（電商、社交、營銷等）或許更看重成本、效率和與現有生態的融合，促使技術發展更偏向工程最佳化和平臺賦能，而非單一工具的極限探索。不同的資本偏好和生態整合策略也加劇了這種分野。

當然，這並非說中國在生圖領域毫無建樹。阿里巴巴、位元組、DeepSeek等公司也在持續推出有競爭力的模型。只是在全球“爆款”層面，暫時由美國公司領跑。

歸根結底，技術和商業的合力共同塑造了當前的格局。隨著 GPT-4o可能引領的自迴歸新浪潮，我們無疑等不及要看到這個方向的開源進展，或是中國企業的快速跟進與實現了。