OpenAI爆火的影像生成開放API,一張圖花掉1.4元

家人們,OpenAI 又上新了!
今天凌晨,OpenAI 宣佈,已在 API 服務中正式推出 gpt-image-1 模型的呼叫,gpt-image-1 的開放將讓開發者和企業能夠直接整合 OpenAI 的高質量影像生成能力到自己的工作流中 ~

根據 OpenAI 自述,上個月上新的基於 ChatGPT 影像功能,上線首周即實現 1.3 億使用者創作,超過 7 億張圖片的斐然成績,OpenAI 認為這充分印證了影像生成巨大的市場需求和應用潛力。
為此,OpenAI 此次開放了用於驅動影像生成核心模型 gpt-image-1 的 API 介面,旨在為開發者提供 更強大、更靈活 的影像生成能力。透過 API 呼叫,開發者可以實現:
  • 更高質量、更逼真的影像
  • 更多樣的視覺風格
  • 更精確的影像編輯
  • 利用模型豐富的世界知識
  • 確保影像中文字呈現的一致性
OpenAI CEO Sam Altman 在談到 API 版本時特別指出,相較於 ChatGPT 的使用者介面版本,API 提供了更高階的控制能力。
比如使用者可以利用 moderation 引數對生成內容進行更精細的 稽核控制,還能靈活調整影像的質量與生成速度、指定背景,以及控制輸出格式等。

模型功能

目前,gpt-image-1 主要透過 Images API 提供,可以將 DALL·E 2 和 DALL·E 3 與新推出的 gpt-image-1 模型的影像 API 一起呼叫。

目前開放了以下核心功能:
  1. 影像生成 (Generations):
    • 基於純文字提示,從零開始建立全新的影像。
    • 可一次請求生成多張圖片 。

  2. 影像編輯與修改 (Edits):(1)基於參考圖生成/影像合成:結合一個或多個現有參考影像和文字提示,生成一張包含參考元素的新圖片。比如,提供幾張商品單品圖,生成一張包含這些商品的精美禮品籃圖片:

    (2) 區域性修改 (Inpainting):

OpenAI Images API 預設返回 base64 編碼的影像資料,也允許呼叫的使用者靈活自定義輸出設定。
使用者可以選擇影像的檔案格式,預設是 PNG,但也支援 JPEG 和 WebP。對於 JPEG 和 WebP 格式,可以透過 output_compression 引數指定 0-100% 的壓縮級別(例如 output_compression=50)。
此外,如果 gpt-image-1 模型可以將 background 引數設為 transparent 來生成透明背景的影像。

API 定價

gpt-image-1 模型的定價主要基於 Token 使用量,其中包含不同類別的 Token:
  • 文字輸入 Token (Prompt): 每 100 萬 Token 5 美元
  • 影像輸入 Token (用於編輯的參考圖): 每 100 萬 Token 10 美元
  • 影像輸出 Token (生成的影像): 每 100 萬 Token 40 美元
最終實際生成影像的成本主要由影像輸出 Token 的數量決定,同時包含少量文字輸入 Token 的費用。以生成一張方形影像為例,不同質量等級的大致成本和對應 Token 數如下:
  • 低質量 (Low Quality): 約 $0.02 (0.144元人民幣,對應約 272 Token)
  • 中質量 (Medium Quality): 約 $0.07 (0.504元人民幣,對應約 1056 Token)
  • 高質量 (High Quality): 約 $0.19 (1.368元人民幣,對應約 4160 Token)
這樣算下來,總體的 Token 使用量與影像的尺寸和質量呈正相關,因此成本也會相應變化。

應用場景

據 OpenAI 的透露,gpt-image-1 已經被很多企業應用了!
Adobe 用於直接整合在自家工具內,用於生成、編輯影像,調整風格、增刪物體、擴充套件背景等:

Figma 用於生成互動素材:

Gamma 每天生成超 500 萬張 AI 圖片用於演示和網站:

Wix 將其整合到 AI 設計平臺 Wixel:

Photoroom 推出 Product Beautifier、Product Staging 等工具,幫賣家快速生成專業商品圖、場景圖:

HeyGen 用於增強虛擬人編輯:

結語

將驅動 ChatGPT 現象級影像功能的 gpt-image-1 模型透過 API 開放,無疑為開發者和企業解鎖非常廣闊的創意和產品開發潛力!
家人們有什麼有趣的想法嗎!歡迎評論區和我們一起探討 ~
雖然 Adobe、HeyGen 等行業在緊緊擁抱 gpt-image-1 的強大能力,而且都對 gpt-image-1 提出了很高的評價,氮素,開發者也坦言,目前 gpt-image-1 仍然有一些侷限性沒有解決,包括處理複雜提示時的潛在延遲(可達兩分鐘)、文字渲染上的精確性和清晰度挑戰、多代生成時保持元素一致性的難度,以及在需要精確定位的場景下,模型的構圖控制尚不能完全滿足所有指令。
小鹿感覺這些問題從影像生成有了之後就一直存在,還沒有看到這些問題有什麼解決方法。儘管模型能力不斷提升,應用日益廣泛,當前生成式 AI 影像技術面臨的普遍性技術瓶頸還是在卡脖子哎 ~
希望 Altman 下一步開始著手解決這些問題!(我將記得感謝 OpenAI 的 hhh)

參考文獻https://platform.openai.com/docs/guides/image-generation?image-generation-model=gpt-image-1https://mp.weixin.qq.com/s/oUGB2YoBL9PNAMB0rrPvuA

相關文章