
本論文共同第一作者閆澤軒和馬躍分別是上海交通大學人工智慧學院2025級研究生,以及香港科技大學2024級博士生。目前在上海交通大學EPIC Lab進行科研實習,接受張林峰助理教授指導,研究方向是高效模型和AIGC。
本文主要介紹張林峰教授的團隊的最新論文:EEdit⚡: Rethinking the Spatial and Temporal Redundancy for Efficient Image Editing。
這是首個用於加速匹配流模型上相容多種引導方案的影像編輯框架。該框架速度提升顯著,較原始工作流可加速2.4倍;並且輸入引導條件靈活,支援包括參考影像引導,拖拽區域引導,提示詞引導的多種編輯任務;該框架採用免訓練的加速演算法,無需微調和蒸餾。
該論文已經入選ICCV 2025。

-
論文連結:https://arxiv.org/pdf/2503.10270
-
論文已開源:https://github.com/yuriYanZeXuan/EEdit
最近,基於流匹配(Flow Matching)的擴散模型訓練方式逐漸成為擴散模型的熱點,以其優雅簡潔的數學形式和較短時間步的生成能力吸引了許多研究者的關注。其中以Black Forest Lab開發的FLUX系列模型為主要代表,它在效能和生成質量上超過了以往的SD系列模型水平,從而達到了擴散模型領域的SOTA水平。
然而,擴散模型在影像編輯上的表現還存在諸多痛點,包括所需時間步數量較多,反演過程開銷大但是對最終編輯結果質量影響有限,更重要的是,非編輯區域的計算帶來的不必要的開銷,造成了計算資源的巨大浪費。此外,在各種型別的編輯引導方法上,流匹配模型當前還沒有一個統一的方案進行應用和加速。對於影像編輯任務中由於時空冗餘性所帶來的計算開銷問題,當前學界的研究還處於初級階段,相關研究內容還是一片藍海。
面對當前研究現狀,上海交通大學EPIC Lab團隊提出了一種無需訓練的高效快取加速編輯框架EEdit。
其核心思想在於,在一個基於擴散模型的反演-去噪的影像編輯過程中,使用輸出特徵複用的方式在時間冗餘性上壓縮反演過程時間步;使用區域分數獎勵對區域標記更新進行頻率控制,非編輯區域複用快取特徵,同時又儘量多地更新編輯區域對應的標記從而達到高效計算的目標。
EEdit具有幾個重要的亮點:
1.無需訓練,高效加速。EEdit基於開源的FLUX-dev模型進行推理,無需任何訓練或蒸餾,相較於未加速版本達超2.4X推理速度,而相比於其他型別的影像編輯方法最快可達超10X加速。
2. 在影像編輯領域中,首次發掘並嘗試解決了由於時空冗餘性帶來的計算開銷浪費的問題。透過反演過程特徵複用和區域分數獎勵控制區域標記計算頻率從而降低編輯任務中模型計算額時空冗餘性。
3. 適配多種輸入型別引導。該編輯框架適配多種引導型別的編輯任務,包括參考影像引導的影像合成,提示詞引導的影像編輯,拖拽區域引導的影像編輯任務。
接下來,我們一起來看看該研究的細節。
研究動機

圖表1在將貓->虎的編輯案例中發現的模型計算開銷的空間和時間冗餘
本文作者在一個影像編輯的實際案例中發現了存在於基於擴散模型的影像編輯任務中的時空冗餘性。
非編輯區域相對於編輯區域存在更高的空間冗餘,在畫素級別的差分視覺化影像中,編輯區域(動物臉部,毛髮紋理部分)存在高亮區域表明這裡存在較大的變化幅度,其餘黑色區域代表了非編輯區域基本無變化幅度。本文作者將隱藏層按照空間上的對應關係進行重排並使用熱力圖進行視覺化。在隱藏層狀態的差分餘弦相似度熱力圖中,也可以發現一致的空間冗餘性:編輯區域在反演-去噪過程的前後階段有較低的相似度,而非編輯區域有更高的相似度。
反演過程相對於去噪過程存在更高的時間冗餘,本文作者在一個完整時間步中的反演-擴散過程中分別透過複用來控制跳過一定比例的時間步帶來的模型計算。完整反演過程下,縮減去噪時間步編輯結果呈現迅速崩壞的現象;相反,完整去噪過程下,縮減反演時間步編輯結果仍然與完整計算基本保持一致。鑑於擴散模型在每一個時間步的完整計算都需要資料透過整個模型,減少冗餘的時間步對於加速編輯延遲有著立竿見影的效果。
方法簡介

圖表2基於擴散模型反演–去噪正規化編輯框架的快取加速方案
基於MM-DIT擴散模型的影像編輯的框架採用了一種有效免訓練方法。編輯框架採用原始影像和編輯提示為輸入。具體而言,在反演和去噪的兩個過程中,固定的時間步週期進行重新整理,而對於週期內時間步,則採用用於更新快取的部分計算。反演過程中本文作者還額外採用了直接複用模型輸出特徵來跳過計算的反演過程跳步(Inversion Step Skipping, ISS)技巧。
而對於快取更新的部分,作者精心設計了空間局域快取演算法,具體設計如下:

圖表3用於縮減空間冗餘性的空間快取演算法設計
對於影像編輯過程中存在的空間冗餘,本文作者巧妙地設計了一種利用影像輸入的編輯區域掩碼作為空間知識先驗來針對性地更新feature tokens的快取演算法。空間局域快取演算法(Spatial Locality Caching, SLoC)是一種即插即用的針對MM-DiT的快取演算法。該演算法針對MLP,Cross-Attention, Self-Attention的不同元件都可以進行快取加速。SLoC會在初始化階段和固定週期時間步上進行完全計算以減少漂移誤差,在週期內會部分計算自注意力和多層前饋神經網路部分的feature tokens並及時更新到快取中。
SLoC的核心在於對於分數圖(Score Map)的細粒度控制來改變不同空間區域所對應的feature tokens經過計算的頻率,具體而言:
1. 初始化時會使用隨機種子將整個分數圖隨機初始化,此時所有feature tokens的評分都是服從於高斯分佈的隨機均勻分佈。
2. 對於被編輯區域的feature tokens乘以一個係數作為區域分數獎勵,對於相鄰區域則乘以一個隨L1距離衰減的係數,從而按照編輯區域分佈來改變分數圖的數值分佈。
3. 按照分數圖數值排序後的前R%數值對應的索引下標來選取feature tokens,送入模型層進行計算並更新快取。
4. 對於未被選中的feature tokens,會給予分數圖的遞增補償,從而平衡不同區域間的計算頻次。對於被選中的feature tokens,該遞增補償會重新累計。
作者還採用了快取索引預處理(Token Index Preprocessing, TIP)的技巧,具體來說,作者還利用了快取更新演算法中下標索引與具體向量內容的無關性,將快取更新索引的更新邏輯可以從線上計算方式等價地轉變成離線的預處理演算法,從而使用集中計算來加速這一快取的更新過程。
總而言之,透過空間可感的快取更新和重用演算法,SLoC作為EEdit的核心元件發揮了在保證影像編輯質量無損的前提下,加以TIP的技巧使得EEdit達到了相對於未加速的原始方案超過2.4X的加速比。
實驗結果
本文在FLUX-dev的開源權重上進行實驗,在包括PIE-bench,Drag-DR,Drag-SR,以及TF-ICON benchmark四個資料集上進行了詳細的定性和定量實驗,對EEdit的效能和生成質量進行檢驗。

圖表4 SLoC在各種指標上與已有的SD系列模型,FLUX系列工作的對比
定量評估維度包括生成領域常用的PSNR,LPIPS,SSIM,CLIP,也包括定量衡量模型效率的FLOPs和推理時間指標。如下圖所示,相比於其它型別的編輯方法,EEdit採用的SLoC+ISS的方案,在相同擴散模型權重(FLUX 12B)下的指標的普遍最優,且計算開銷和推理時間也有顯著提高。有趣的是,相比於權重小一個數量級的的SD系列,本文的方法也具有推理效率上的競爭力。

圖表5 EEdit在各種型別的引導條件中的編輯能力與其它方法的對比
不僅如此,定性實驗也表明,在多種引導模式下,本文方法具有更強編輯區域精確度,和更強的背景區域一致性。在提示詞引導的幾個案例中,別的方法存在大幅修改整體佈局,或者背景不一致,畫風不一致的問題存在;在拖拽引導的案例中,對於使用者輸入的拖拽意圖,本文的方法體現了更好的遵循程度;在參考影像引導的影像合成任務中,本文的方法在畫風一致,以及與原物品身份一致性的保持程度上都呈現了顯著的優越性。

空間局域快取是否是應用於編輯任務的優越快取演算法?本文作者透過與其它的快取加速演算法的比較,得出的結論是肯定的。與同樣可應用於MM-DiT的快取演算法,FORA,ToCa和DuCa相比,本文提出的SLoC演算法不僅在加速比和推理延遲上取得優勢,而且在前景保持度(FG preservation)中取得了最優的結果。甚至在某些指標上相比於其它快取加速演算法,效果提高50%以上。
如需引用本文,歡迎按照以下格式:
@misc{yan2025eeditrethinkingspatial,
title={EEdit : Rethinking the Spatial and Temporal Redundancy for Efficient Image Editing},
author={Zexuan Yan and Yue Ma and Chang Zou and Wenteng Chen and Qifeng Chen and Linfeng Zhang},
year={2025},
eprint={2503.10270},
archivePrefix={arXiv},
primaryClass={cs.CV},
url={https://arxiv.org/abs/2503.10270},
}
© THE END
轉載請聯絡本公眾號獲得授權
投稿或尋求報道:[email protected]