
本文由聖路易斯華盛頓大學與北京大學聯合完成,第一作者為聖路易斯華盛頓大學的劉曉一,他在北京大學訪問期間完成了該項研究;通訊作者為北京大學計算機學院唐浩助理教授 / 研究員。
從單張低解析度(LR)影像恢復出高解析度(HR)影像 —— 即 “超解析度”(SR)—— 已成為計算機視覺領域的重要挑戰。近年來,隨著醫療影像、衛星遙感、影片監控和遊戲渲染等應用對影像細節的需求不斷提升,該技術的應用愈發廣泛。傳統深度學習超分模型(如 SRCNN、EDSR)在固定放大倍數下表現優異,但要麼無法支援任意放大尺度,要麼在大倍率和複雜紋理場景中常出現細節模糊和偽影。擴散模型能有效恢復高頻細節,卻因需多次迭代去噪而推理緩慢,難以滿足即時應用需求。為徹底打破 “高質量重建” 與 “快速推理” 之間的矛盾,運算元學習在運算效率和解析度不變性方面的提升為該領域帶來了新的機遇。
聖路易斯華盛頓大學和北京大學團隊提出的 DiffFNO(Diffusion Fourier Neural Operator)以神經運算元賦能擴散架構。該方法支援高質、高效、任何連續倍率(如 2.1、11.5 等)的超分。它的優秀表現來源於三大元件:【1】加權傅立葉神經運算元(WFNO)、【2】門控融合機制、和【3】自適應 ODE 求解器。在各大基準上,DiffFNO 均以 2~4 dB PSNR 優勢領先於 SOTA 方法。在訓練分佈外的超分倍率上,改進效果尤為明顯。此研究已入選 CVPR 2025 Oral。

-
論文題目:DiffFNO: Diffusion Fourier Neural Operator
-
論文主頁:https://jasonliu2024.github.io/difffno-diffusion-fourier-neural-operator/
-
論文連結:https://arxiv.org/abs/2411.09911
一、核心思路與框架概覽
DiffFNO 由三大模組組成:
1.WFNO(Weighted Fourier Neural Operator)+模式重平衡(Mode Rebalancing):藉助頻域卷積捕獲全域性資訊,並透過可學習的頻率權重放大高頻分量,進一步增幅普通 FNO 在超分任務中對高頻細節的提取。
2.Gated Fusion Mechanism(門控融合機制):並行引入輕量化的注意力運算元(AttnNO),以捕捉區域性空間特徵。時空動態門控圖將譜域與空域特徵按需融合,兼具全域性一致性與細節刻畫。
3.ATS ODE Solver(自適應步長 ODE 求解器):將擴散模型逆過程從隨機 SDE 轉化為確定性 ODE,僅幾十步內即可完成去噪重建,大大提升推理速度。
下圖展示了 DiffFNO 的完整流架構。此方法將圖片

視作從空間座標到 RGB 值的方程,透過 WFNO 學習此類方程之間的任意解析度超分對映,在門控機制的調適下與空域運算元協作,再由自適應求解器高效地用擴散模型進一步最佳化重構結果

的質量。

二、加權傅立葉神經運算元與模式重平衡
傳統 FNO 在頻域對輸入特徵進行截斷處理,捨棄高頻模式以降低計算量,但這也導致超分場景中紋理、邊緣等細節難以恢復。WFNO 透過以下兩步予以改進:
-
全模式保留:保留完整傅立葉頻譜,兼顧圖片資訊的整體解構與區域性細節;
-
可學習頻率權重:在每一層引入可學習的標量引數
具體地,頻域濾波器由權重實現了對高頻細節的自適應放大。實驗表明,WFNO 相比普通 FNO 在大倍率超分任務中,PSNR 提升約 0.3–0.5 dB,細節還原更加清晰。
三、門控融合:譜域與空域特徵的智慧分配
儘管 WFNO 強於全域性依賴建模,但區域性紋理如微小紋路、噪點修復仍需空域資訊。於是,DiffFNO 並行引入 Attention-based Neural Operator(AttnNO),其核心由雙三次插值、Galerkin 注意力和非線性啟用組成,可高效捕捉區域性關聯。兩路輸出 WFNO 和 AttnNO 特徵經通道拼接後,透過 1×1 卷積加 sigmoid 得到門控圖。
此方式兼具光譜全域性資訊與空間區域性資訊,讓網路在不同畫素位置靈活 “借力”,避免了簡單拼接帶來的冗餘計算與資訊衝突。
四、自適應步長 ODE:從上千步到數十步
擴散模型逆向過程本質為去噪迭代,若按原生 SDE 形式取樣,通常需上千步,耗時數百毫秒以上。DiffFNO 首先將隨機 SDE 轉化為確定性機率流 ODE,再引入自適應時間步分佈:
1. 以多項式基函式構造可學習的對映,透過其逆函式生成非均勻步長;
2. 在每一步評估區域複雜度,動態分配步長,使關鍵階段步長更細、平滑區域步長更粗;
3. 採用經典的 RK4 高階求積器,兼顧精度與效率。
如此一來,DiffFNO 使用自適應 ODE 求解器後,僅需約 30 步即可還原高畫質影像——與傳統需要約 1000 步的逆擴散過程相比,推理步數減少了近 33 倍;推理時間也幾乎減半(從266 ms 縮短至約 141 ms),但影像質量依舊保持不變,甚至在大尺度放大下表現更佳。
五、實驗驗證與視覺對比
在 DIV2K、Set5、Set14、BSD100、Urban100 等五大公開資料集上,DiffFNO 均以 2~4 dB 的 PSNR 優勢領先於 MetaSR、LIIF、SRNO、HiNOTE 等多種 SOTA 任意尺度超分方法,其中優勢在 ×8、×12 等大倍數放大時更加顯著。


定性結果中,DiffFNO 對建築細節、植物紋理、動物皮毛、玻璃反射等高頻結構均有出色復原,邊緣輪廓銳利且偽影極少。
消融研究表明:
-
去除模式重平衡,PSNR 下降約 0.4 dB;
-
去除 AttnNO,區域性紋理復原受損;
-
去除 ATS,所需推理步數回升至千步級。
這些實驗共同證明,三大元件缺一不可,相輔相成。

六、總結
本文介紹了 DiffFNO,一種以神經運算元強化擴散的新穎任意解析度方法。透過加權傅立葉神經運算元、門控融合機制、和自適應 ODE 求解器,該方法取得了優異的計算時效和高質量的重構,為看似矛盾的 “高精度” 與 “低成本” 取捨提供了新的思路。實驗結果表明,我們的方法在多個數據集中、訓練分佈之外均優於以往與當代任意解析度方法。DiffFNO 有力地打破了超分任務中固定尺寸的枷鎖,適用於醫學,勘探,遊戲等多個對影像質量有著高要求的領域。
© THE END
轉載請聯絡本公眾號獲得授權
投稿或尋求報道:[email protected]