夢晨 發自 凹非寺量子位 | 公眾號 QbitAI
位元組開源影像編輯新方法,比當前SOTA方法提高9.19%的效能,只用了1/30的訓練資料和1/13引數規模的模型。
做到這一切無需額外預訓練任務和架構修改,只需要讓強大的多模態模型(如GPT-4o)來糾正編輯指令。

這一方法旨在解決現有影像編輯模型中監督訊號有噪聲的問題,透過構建更有效的編輯指令提升編輯效果。
資料和模型在Github上開源。

為什麼AI編輯影像模型常常“理解錯誤”
當人們讓AI”給照片中的男孩加一條粉色領帶”時,AI可能會把皮膚顏色、衣服顏色也改變,或者完全重繪整張圖片。
為什麼會這樣?

團隊發現了一個被忽視的關鍵問題:現有的影像編輯資料集存在大量的噪聲監督訊號。
當前基於指令的影像編輯方法流行起來,但訓練這類模型需要大量原始-編輯後圖像對和指令,手動收集困難。
現有資料集通常使用各種自動化方法構建,導致指令與影像對之間的不匹配,產生有噪聲的監督訊號。
簡單來說就是:AI在學習時,看到的指令和實際編輯效果對不上號,導致”學廢了”。
如此一來,SuperEdit的方法就不是靠擴大引數規模或增加預訓練算力,而是專注於提高監督訊號質量。

用GPT-4o糾正編輯指令
團隊首先發現,擴散模型在生成影像的不同階段有著不同側重點。
-
早期階段:關注全域性佈局變化 -
中期階段:關注區域性物體屬性變化 -
晚期階段:關注影像細節變化

受此啟發,團隊利用GPT-4o這樣的強大視覺語言模型,透過觀察原始影像和編輯後圖像之間的差異,生成更準確的編輯指令。
將原始影像和編輯後的影像輸入到GPT-4o中,並要求它返回以下四個屬性的差異:整體影像佈局、區域性物件屬性、影像細節、樣式變化。
由於CLIP文字編碼器最多接受77個文字token輸入,還需要讓GPT-4o總結完善這些指令。

僅僅有正確的指令還不夠,團隊還構建了一套對比監督機制:
-
根據正確的編輯指令,生成一系列錯誤指令(如改變物體數量、位置或顏色) -
使用三元組損失函式(triplet loss)讓模型學會區分正確和錯誤的編輯指令
由於在正確指令和錯誤指令之間只替換了幾個單詞,因此CLIP文字編碼器生成的文字嵌入作為擴散模型的輸入也會很相似。
透過這一點確保學習任務的難度,幫助模型瞭解兩個編輯指令之間的細微差異如何導致截然不同的編輯結果。
編輯模型訓練基於InstructPix2Pix框架,利用對比監督訊號時,在訓練階段引入錯誤編輯指令生成正負樣本,提升模型理解和執行指令的能力。

SuperEdit在多個基準測試上的表現出色,在Real-Edit基準測試中,它以69.7%的整體準確率和3.91的評分,超越前SOTA方法SmartEdit的58.3%準確率和3.59評分。

在人工評估中,SuperEdit在指令遵循度、原始內容保留和影像質量三個關鍵指標上全面超越了現有方法。

不過該方法也存在一些侷限,經過訓練的模型在理解和執行復雜指令上仍然存在困難,尤其是在密集排列的物件和複雜的空間關係方面。
以及為確保校正指令的準確性和有效性大量呼叫GPT-4o,可能產生額外的成本。
團隊計劃將這種資料優先的方法擴充套件到更多視覺生成任務中,並探索與更大模型相結合的可能性。
論文:https://arxiv.org/abs/2505.02370xia
— 完 —
📪 量子位AI主題策劃正在徵集中!歡迎參與專題365行AI落地方案,一千零一個AI應用,或與我們分享你在尋找的AI產品,或發現的AI新動向。
💬 也歡迎你加入量子位每日AI交流群,一起來暢聊AI吧~

一鍵關注 👇 點亮星標
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!