剛剛，OpenAI釋出生圖神器狙擊Google！一句話P圖奧特曼現場玩梗，免費能用

2025-08-18 06:05 APPSO

就在剛剛，OpenAI 宣佈在 GPT-4o 模型中集成了迄今為止最先進的影像生成器。

OpenAI CEO Sam Altman 在 X 平臺繼續誇誇群主上線，表示初次見到模型生成的圖片時，難以相信是 AI 所為，並期待使用者能發揮創意。

新功能亮點如下：

能夠精確渲染文字內容

支援多模態輸入輸出(文字、影像、音訊)

能理解複雜指令並結合上下文

能建立具有真實感的第一人稱視角影像

遵循指令，可以處理上傳的圖片並進行編輯或風格轉換

先來感受一下新模型生成的圖片：

向左滑動檢視更多內容

最新版本的系統卡寫到，與作為擴散模型的 DALL·E 不同，4o 影像生成是一個自迴歸模型，原生嵌入在 ChatGPT 中。

具體來說，比起其他影像生成模型，GPT-4o 能處理多達 10-20 個不同物體的複雜指令，遠超競爭對手 5-8 個的限制，差距不是一般大。

一句話 P 圖也行，該模型同樣支援多輪影像生成，聊著天就能最佳化影像，確保角色等元素在多次迭代中保持一致性。

比如設計個遊戲角色，改來改去外觀都能穩住，還能分析使用者上傳的影像、細節抓得準，並指導後續影像生成。

目前，新功能已向 Plus、Pro、Team 和免費使用者開放，Enterprise 和 Edu 使用者即將獲得訪問許可權。別急，開發者們幾周後也能透過 API 用上這功能。

附體驗連結：https://chatgpt.com/

使用 GPT-4o 建立和自定義影像非常簡單，只需描述需求，包括縱橫比、精確顏色或透明背景等規格。不過要是細節多，渲染可能得等上一分鐘，畢竟慢工出細活嘛。

今天凌晨召開的釋出會也向我們展示了幾個具體的案例。比如說，演示者拍了張仨人的合影，讓 ChatGPT 改成動漫風。

結果模型不僅保留了三人的特徵（如鬍鬚、表情等），還能理解並融合「動漫」這一視覺風格。

接著他又讓它改成網際網路梗圖，加上了「I FEEL THE AGI」的文字，果然，OpenAI 的釋出會少了 AGI 總感覺差點意思，屬實是傳統藝能了。

又或者，演示者要求模型建立一個「描述相對論的彩色漫畫頁面，並新增幽默元素」。

模型生成一個結構完整的漫畫頁面，包含了相對論相關概念的解釋，融合了不同語言的文字，並透過視覺表現形式呈現出幽默效果。

換句話說，能夠將抽象科學概念視覺化，有望利好教育領域。

還有演示者先上傳了一張 Sora 釋出會的交易卡片照片作為參考，然後上傳了自己寵物狗的照片，並提供了卡片上應包含的具體資訊（名稱、年份、能力、體重身高等）。

模型很快整出一張風格統一的卡片。卡片裡，狗狗站在滑雪板上帥氣出場，文字排版清晰準確。

繼續上強度，演示人員拿前兩個演示的圖加上背景兩張圖，讓模型設計一枚紀念幣，並指定了特定的顏色程式碼（春季色彩）和文字要求。

模型成功將四張不同影像以和諧方式融合到一個幣面設計中。他隨後還要求將背景改為透明，以便實際列印，模型穩穩改好，設計也沒走樣。

AI 生成影像造成的危害已經不是什麼新鮮的話題了。為了安全，所有生成影像都帶有 C2PA 元資料標識，OpenAI 還構建了內部搜尋工具，驗證內容來源，以及阻止違反內容政策的影像請求。

當要求生成真人影像時，OpenAI 則管得更嚴。包括 Altman 也表示，OpenAI 希望工具預設不生成冒犯性內容，除非使用者明確要求，並在合理範圍內實現。

那新功能也存在比較明顯的短板。比如偶爾裁剪不恰當、低上下文提示下可能產生幻覺、渲染非拉丁語言文字困難、區域性調整不夠細等。OpenAI 說了，這些小問題會在釋出後慢慢最佳化。

此外，Google 於今天凌晨也釋出了旗下迄今為止最強大的 AI 模型。

Google CEO Sundar Pichai 線上打 Call，稱 Gemini 2.5 Pro Experimental 是一款最先進的「思維」模型，在多個基準測試中領先，特別是在推理和程式設計能力上有了顯著的提升。

在大模型競技場 Chatbot Arena 中，新模型力的排名壓 Gork 3，再次遙遙領先。

按照 OpenAI 過往的「狙擊」作風，新模型的釋出一方面是對上週 Google 釋出的影像模型進行回擊，另一方面同樣是狙擊 Gemini 2.5 Pro Experimental。

你方唱罷我登場，AI 巨頭們針鋒相對的戲碼只會越演越烈，消停？看來是想都別想了。

我們正在招募夥伴

📮 簡歷投遞郵箱[email protected]

✉️ 郵件標題「姓名+崗位名稱」（請隨簡歷附上專案/作品或相關連結）

更多崗位資訊請點選這裡🔗

相關文章

視覺LLM開源的瘋狂月！阿里Qwen、騰訊混元、谷歌等連續開源重磅模型

視覺LLM開源的瘋狂月！阿里Qwen、騰訊混元、谷歌等連續開源重磅模型

小紅書等給AI影像檢測上難度！資料集均透過人類感知“圖靈測試”|ICLR2025

小紅書等給AI影像檢測上難度！資料集均透過人類感知“圖靈測試”|ICLR2025

智源BGE-VL拍照提問即可精準搜，1/70資料擊穿多模態檢索天花板！

智源BGE-VL拍照提問即可精準搜，1/70資料擊穿多模態檢索天花板！

僅1/70的資料量，多模態檢索效果卻更優！智源釋出BGE-VL，合成數據立大功

僅1/70的資料量，多模態檢索效果卻更優！智源釋出BGE-VL，合成數據立大功

何愷明ResNet級神作，分形生成模型計算效率狂飆4000倍！清華校友一作

何愷明ResNet級神作，分形生成模型計算效率狂飆4000倍！清華校友一作

大模型裝進口袋：手機本地執行9倍速秒出高畫質圖，質量比肩頂級模型

大模型裝進口袋：手機本地執行9倍速秒出高畫質圖，質量比肩頂級模型

無需百卡叢集！港科等開源LightGen：極低成本文生圖方案媲美SOTA模型

無需百卡叢集！港科等開源LightGen：極低成本文生圖方案媲美SOTA模型

達摩院開源VideoLLaMA3：僅7B大小，影片理解拿下SOTA|線上可玩

達摩院開源VideoLLaMA3：僅7B大小，影片理解拿下SOTA|線上可玩

統一SAM2和LLaVA！位元組豆包提出DenseVideo多模態大模型Sa2VA

統一SAM2和LLaVA！位元組豆包提出DenseVideo多模態大模型Sa2VA

Idea撞車何愷明「分形生成模型」！速度領先10倍，效能更強

Idea撞車何愷明「分形生成模型」！速度領先10倍，效能更強

Copyright © 2025 | WordPress Theme by MH Themes