CVPR2025|PiSA-SR:畫素級和語義級可調的超解析度

點選下方卡片,關注“CVer”公眾號

AI/CV重磅乾貨,第一時間送達
點選進入—>【超解析度】投稿交流群

新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球可以獲得最新頂會/頂刊上的論文ideaCV從入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!

轉載自:煤礦工廠
來源:CVPR 2025作者:Lingchen Sun, Rongyuan Wu, Zhiyuan Ma, Shuaizheng Liu, Qiaosi Yi, Lei Zhang論文題目:Pixel-level and Semantic-level Adjustable Super-resolution: A Dual-LoRA Approach論文連結:https://arxiv.org/pdf/2412.03017內容整理:汪奕文基於擴散先驗的方法在真實場景影像超解析度(SR)中表現出色。然而,大多數現有方法在訓練過程中將畫素級和語義級的超解析度目標混為一體,難以在畫素級保真度和感知質量之間找到平衡。同時,由於使用者對超解析度結果的偏好各不相同,因此迫切需要開發一種可調節的超解析度模型,該模型能夠在推理過程中根據不同的保真度和感知質量偏好進行調整,並且無需重新訓練。我們提出了一種畫素級和語義級可調節超解析度模型(PiSA-SR),透過在預訓練的 SD 模型上學習兩個 LoRA 模組,實現了改進且可調節的超解析度結果。我們首先將基於 SD 的超解析度問題形式化為學習低質量輸入與高質量輸出之間的殘差,然後證明學習目標可以被解耦為兩個獨立的 LoRA 權重空間:一個透過 L2 損失進行畫素級迴歸,另一個透過 LPIPS 和分類器得分蒸餾損失從預訓練的分類和 SD 模型中提取語義資訊。在預設設定下,PiSA-SR 可在單步擴散中完成超解析度任務,在質量和效率上均達到領先水平。透過在推理過程中引入兩個可調節的引導因子,用於分別控制畫素級保真度和語義級細節的強度,PiSA-SR 能夠根據使用者偏好靈活生成超解析度結果,而無需重新訓練。

引言

單幀影像超解析度(SR)旨在從其低質量(LQ)版本(受到多種退化的影響,如噪聲、模糊、降取樣等)重建出高質量(HQ)影像。由於在重建細節時存在固有的不確定性,SR 是一個具有挑戰性的病態問題,因此開發了多種深度神經網路來解決這一問題。
畫素級迴歸損失(如  和  損失)對保持 SR 輸出的畫素級保真度至關重要,但它們往往會導致過於平滑的細節。結構相似性指數(SSIM)和感知損失可以緩解這一問題。具體來說,SSIM 用於衡量 SR 影像與真實影像(GT)之間的區域性結構相似性,而感知損失透過預訓練的分類模型提取語義特徵,以提高 SR 結果的感知質量。與 SSIM 和感知損失相比,生成對抗網路(GAN)相關的對抗損失提供了一種更有效的解決方案,將 SR 影像與自然影像分佈對齊,從而生成感知上更加真實的 SR 結果。然而,對抗訓練的不穩定性以及 GAN 模型在表徵自然影像空間能力上的侷限性,同時引入了許多不良的視覺偽影。
最近開發的 SD 模型是基於文字到影像(T2I)任務預訓練的,它們展示了出色的影像生成能力和強大的語義理解能力,已成功應用於許多下游任務,包括單幀影像超解析度(SR)。基於 SD 的 SR 方法在感知真實感方面優於基於 GAN 的方法,但通常在擴散過程中將畫素級保真度和語義級增強目標糾纏在一起,這在最佳化中可能是相互矛盾的,導致它們在最終的 SR 輸出中難以平衡畫素級保真度和語義級感知。
儘管一些方法設計為在語義級增強之前執行畫素級恢復(即按順序方式進行),但後續階段的效能在很大程度上依賴於前一階段的準確性。除了畫素級保真度與語義級細節之間的權衡外,實際應用中使用者對 SR 結果的偏好往往不同:有些人優先考慮內容保真度,而另一些人則更傾向於語義豐富的細節。這種使用者偏好上的多樣性凸顯了開發一種更靈活的 SR 方法的重要性和需求,以在推理過程中滿足個性化的偏好。
儘管一些現有方法探索了互動式 SR 方法來控制恢復強度,但這些方法主要侷限於退化級別的調整(如噪聲和模糊),輸出結果通常僅表現為更清晰或更平滑。而一些基於多步 SD 的 SR 方法透過在每個取樣步驟中使用基於引導的策略實現不同程度的語義豐富性,但這些方法在精確控制和效率方面往往表現不佳。
在本文中,我們提出了一種畫素級和語義級可調節超解析度模型(Pixel-level and Semantic-level Adjustable Super-Resolution,簡稱 PiSA-SR),該模型利用預訓練的 SD 模型,將畫素級增強和語義級增強分離到兩個獨立的低秩介面卡(Low-Rank Adapter, LoRA)權重空間中,為滿足使用者的多樣化需求提供了一種高效的超解析度解決方案。我們首先將基於 SD 的 SR 問題形式化為學習 LQ 和 HQ 潛在特徵之間的殘差。這種形式化不僅加速了模型訓練的收斂,還能在模型輸出上引入比例因子,從而在推理階段無需重新訓練即可靈活調整 SR 結果。
接著,我們透過引入兩個專門用於畫素級迴歸和語義級增強的獨立 LoRA 模組對預訓練的 SD 模型進行微調。具體來說,畫素級迴歸的 LoRA 模組使用  損失,而語義級增強的 LoRA 模組使用 LPIPS 損失和分類器得分蒸餾(CSD)損失,充分利用了預訓練 VGG 分類模型和 SD 影像生成模型中編碼的語義先驗。我們提出了一種解耦訓練方法,用於分別訓練畫素級和語義級 LoRA,有效提升語義資訊的同時保持畫素級保真度。
實驗結果表明,PiSA-SR 不僅在 SR 效能上優於現有基於 SD 的模型,還為使用者提供了一種根據個人偏好調整 SR 風格的有效方式。例如,在圖 1 中,橫軸和縱軸分別表示語義級和畫素級增強的因子。增加畫素級增強的因子可以有效去除噪聲和壓縮偽影,但過高的畫素級增強因子會使影像細節過於平滑。相反,增加語義級增強的因子能夠豐富影像細節,使影像感知上更真實。然而,過高的語義增強因子會引入過度增強的視覺偽影。PiSA-SR 提供了靈活的調整能力,允許使用者根據個人需求同時調整畫素級和語義級增強因子。

圖1

方法

本節首先將基於 SD 的超解析度(SR)問題形式化為殘差學習模型,然後介紹了雙 LoRA 方法,用於解耦畫素級迴歸和語義級增強的學習目標。最後,提出了畫素和語義引導策略,以實現靈活的 SR 結果生成。在後續描述中,我們用  和  表示低質量(LQ)影像和高質量(HQ)影像,分別用  和  表示它們對應的 latent code。 和  分別為變分自編碼器(VAE)的編碼器和解碼器,可以近似得到 

模型定義

擴散模型(DMs)如 Stable Diffusion(SD)透過  步前向過程逐步將初始latent code  轉換為高斯噪聲 。在每個時間步 ,透過向  直接新增噪聲  生成噪聲latent code ,其公式為:

其中, 是控制時間步  噪聲水平的累積引數。在反向過程中,基於 SD 的多步 SR 方法通常使用  步去噪過程,將高斯噪聲  逐步轉換為高質量 latent code ,透過 ControlNet 將低質量影像 作為條件 (如圖 2(a) 所示)。在時間步  階,透過 SD UNet 估計的噪聲  和當前 latent code ,可以計算出 

然後,時間步  的 latent code  可以透過以下分佈取樣得到:

其中, 和  分別表示  的均值和方差。然而,這些基於多步擴散的 SR 方法計算開銷高,並且由於擴散過程中取樣的隨機噪聲,結果往往不穩定。
為了解決這一問題,OSEDiff 從低質量 latent code  開始,僅使用一步擴散完成 SR 過程(如圖 2(b) 所示),同時提高了效率和穩定性。 和  之間的轉換可以描述為:

在上述公式中可以省略時間步 ,因為在單步擴散中, 可以視為常數。
在深度學習恢復方法中,學習 LQ 和 GT 特徵之間的殘差已被成功應用。然而,擴散模型通常執行多步迭代,使得傳統的殘差學習難以適用。最近開發的 OSEDiff 方法透過單步擴散實現了端到端 SR 訓練,使得采用殘差學習策略成為可能。在此,我們將 SR 問題定義為學習  和  之間的殘差,如圖 2(c) 所示。由於擴散模型在逆擴散過程中被訓練為去噪,因此我們在全域性殘差連線中使用減法。這樣的殘差學習的定義可以幫助模型專注於從 HQ latent code 中學習所需的高頻資訊,同時簡化從 LQ latent code 中提取不相關資訊的任務。同時也能加速模型訓練過程的收斂。
此外,在推理過程中,我們可以引入比例因子  來調整新增到 LQ  latent code 的殘差 ,其公式為:

使用者可以透過選擇較小的 (即保留更多原始內容)或較大的 (即更多地增強細節)來根據個人偏好調整輸出。

圖2

雙LoRA訓練

現有的基於 SD 的 SR 方法大多在訓練過程中將畫素級和語義級增強目標交織在一起,這使得在內容保真度和感知質量之間的平衡變得困難。一些方法採用兩階段網路順序地進行畫素級和語義級增強。然而,前一階段產生的誤差可能傳播到後一階段,從而限制整體效能。此外,使用兩個獨立的網路會增加計算負擔和記憶體需求,降低了方法的效率。
受在定製化文字到影像(T2I)任務中使用獨立 LoRA 模組生成多樣化風格的成功應用啟發,我們提出了一種解耦訓練方法,在預訓練的 SD 模型下利用兩個 LoRA 模組,分別針對 SR 任務的畫素級和語義級增強。我們的方法稱為“雙LoRA”,在訓練過程中僅引入少量額外引數。這些 LoRA 引數在推理階段可以合併到預訓練的SD模型中。圖 3(a) 展示了我們方法的訓練過程。我們凍結了預訓練 VAE 的引數,並在 SD 的 UNet 中引入兩個可訓練的 LoRA 模組。
由於 LQ 影像受到噪聲、模糊和降取樣等退化的影響,我們首先最佳化畫素級 LoRA 以減少退化影響,然後最佳化語義級 LoRA。畫素級 LoRA 的最佳化由畫素級損失函式驅動,其引數記為 。結合預訓練的 SD 引數,完整引數集表示為 。HQ latent code 可以透過以下公式估計:

並透過VAE解碼器解碼為:

對於語義級增強,我們透過語義級損失函式訓練另一個 LoRA,記為。為了解耦畫素級和語義級目標,我們固定已訓練的畫素級 LoRA ,並將其與語義級 LoRA  結合進行訓練,形成 PiSA-LoRA 組(見圖3(a))。注意,在此階段僅更新 PiSA-LoRA 組中的語義級 LoRA 模組。這確保了最佳化過程專注於語義細節,而不會受到畫素級退化的過多幹擾。在 PiSA-LoRA 訓練階段,完整引數集可以表示為:

該階段後的HQ latent code 為:

並透過VAE解碼器解碼為:

圖3

畫素級和語義級損失

我們使用  損失訓練畫素級 LoRA 模組。如圖 4 中 所示, 損失能夠有效去除退化並增強邊緣,但它不足以生成語義級細節,導致 SR 輸出過於平滑。
LPIPS 損失可以透過與預訓練的 VGG 分類網路對齊高層特徵來啟用語義細節。然而,VGG 網路僅在有限的影像類別上訓練。GAN 損失透過對抗訓練捕獲語義資訊,鼓勵生成器生成更真實的影像,但 GAN 損失在訓練中可能不穩定並引入偽影。最近開發的 SD 模型在生成增強語義細節的開放類別影像方面表現出色。
作為一種條件生成模型,SD 可用於形成隱式分類器來建模後驗分佈,其相對於合成影像的梯度如下:

其中  是文字提示, 是當前時間步,。SD 模型由引數  定義,透過噪聲預測建模  和  的得分函式。
透過對上式中的梯度在所有可能的  上取期望,我們得到 CSD 損失。CSD 損失最初用於 3D 生成任務,透過最佳化渲染影像的後驗機率,使其語義內容與文字提示對齊。受 CSD 損失在生成任務中的功能啟發,我們研究了 CSD 損失在 SR 任務中進行語義級增強的應用。根據之前的研究,我們將 CSD 梯度公式化為以下公式:
其中,梯度期望在所有時間步  上計算,噪聲從  中取樣, 由以下公式得到:
 是從  中提取的文字提示, 是依賴於時間步的標量權重, 表示包含 CFG 項的預訓練 SD 輸出,其公式為:
需要注意的是,VSD 損失也在潛在空間中對齊增強影像與自然影像的分佈,其在 OSEDiff 中已被驗證對 SR 有效。VSD 損失的梯度可以表示為:
其中, 表示經過微調的 SD 輸出,其與合成影像的分佈對齊。帶有  的 VSD 損失可以分為兩個部分:當  時的 VSD 損失,即 ,以及 CSD 損失。結合LPIPS損失,我們可視化了 VSD 兩部分對語義級 LoRA 最佳化的結果。觀察顯示,CSD 損失在正常引導因子  時顯著增強語義細節,而 VSD 損失在  時弱化語義細節。此外, 的最佳化需要雙層最佳化,導致記憶體消耗大且訓練不穩定。相比之下,CSD 損失無需雙層最佳化,顯著降低了記憶體使用並提高了訓練穩定性。因此,我們將 LPIPS 和 CSD 損失結合用於語義級 LoRA 最佳化。

圖4

PiSA-SR 的推理過程

圖 3(b) 展示了 PiSA-SR 的推理過程。在預設推理設定下,僅使用合併了畫素級和語義級 LoRA 模組的 PiSA-LoRA,與預訓練的 SD 模型一起處理輸入,能夠在一步擴散內實現最先進的超解析度效能。為了實現靈活的 SR 以滿足多樣化的使用者偏好,受 CFG 的啟發,我們引入了一對畫素和語義引導因子,分別記為  和 ,以控制 SR 結果,其公式如下:
在上述公式中, 是僅使用畫素級 LoRA 的輸出,而  是同時使用畫素級和語義級增強的輸出。它們之間的差值,即 ,可以很好地表示增強的語義細節。因此,透過調整  和  的值,我們可以控制畫素級 LoRA 和語義級 LoRA 的貢獻,從而生成具有不同風格的 SR 結果。

實驗

可調節因子的 SR 實驗

我們透過固定一個引導因子( 或 )為 1,並調整另一個因子的值,觀察重建影像的變化。PSNR、LPIPS、CLIPIQA 和 MUSIQ 被用來評估效能,PSNR衡量畫素級保真度;LPIPS 以 GT 為參考評估影像感知質量;CLIPIQA 和 MUSIQ 無需參考即可衡量影像質量。

表1
實驗結果如表 1 所示。增加畫素級引導因子  會使無參考指標(CLIPIQA 和 MUSIQ)持續提高。這是因為  的增加可以消除影像退化並增強邊緣,符合這些指標的偏好。PSNR 在  時達到峰值,表明此時畫素級保真度最佳。LPIPS 在  時達到最佳值,表明此時恢復的影像在感知上與 GT 最相似且細節豐富。進一步增加  會降低 PSNR 和 LPIPS 分數。
增加語義級引導因子  也會使 CLIPIQA 和 MUSIQ 持續提高,其上限高於畫素級調整。這是因為  的增加能夠合成更多語義級細節。PSNR 隨著  的增加而下降,而 LPIPS 先提高,在  達到峰值,然後下降。這是因為過多的語義細節可能引起影像內容變化,從而降低畫素級保真度。同時,過度增強的影像可能展示出許多與 GT 不同的細節,使 LPIPS 指標惡化。
PiSA-SR 的靈活性允許使用者根據具體需求自定義偏好,或保留更多的保真度,或強調更豐富的語義增強。

與現有方法的比較

定量比較
在預設設定下( 和 ),PiSA-SR 可透過一步擴散完成推理。表2比較了預設版本 PiSA-SR 與其他基於 DM 的 Real-SR 方法的效能。
ResShift 和其蒸餾版本 SinSR 在無參考指標上表現有限,表明其感知質量較差。PASD 和 SeeSR 利用預訓練 SD 作為基礎模型,並提取額外的高階資訊來提高影像的感知質量,其無參考指標(如 MUSIQ 和 CLIPIQA)顯著提高,但多步推理使其效率較低。此外,其較低的 LPIPS 和 DISTS 分數表明對 GT 的重建不夠準確。OSEDiff 使用 VSD 損失將多步 DM 的生成能力濃縮到一步擴散中,雖然有效且高效,但其無參考指標表現有限。
我們提出的 PiSA-SR 同樣只需一步推理,展示出令人印象深刻的畫素級保真度和語義級感知質量。PiSA-SR 不僅在參考指標(如 LPIPS 和 DISTS)上優於其他方法,還在無參考指標(如 CLIPIQA、MUSIQ 和 MANIQA)上表現出色。

表2
定性比較
  • ResShift 和 SinSR 由於生成能力有限,無法生成更豐富的紋理和細節。
  • StableSR 和 DiffBIR 藉助強大的 SD 先驗生成了更細膩的細節(例如第二個例子中更真實的企鵝羽毛)。
  • PASD 和 SeeSR 結合高階資訊指導,生成了更全面的細節。然而,PASD 和 SeeSR 的固有隨機性可能導致過度增強(如 SeeSR 生成的不自然企鵝羽毛)或過度平滑的細節(如 SeeSR 生成的模糊木凳紋理)。
  • OSEDiff 在兩個例子中生成了更一致的結果,但恢復的細節有限。
  • 對比之下,提出的 PiSA-SR 提供了高質量、真實感強的 SR 結果。透過雙 LoRA 設計,恢復的結構與輸入 LQ 影像很好地對齊,提供了更準確的保真度資訊,同時生成了更加自然和豐富的細節。

複雜度比較
表 3 比較了方法的引數量和推理時間,其中 PiSA-SR-def. 和 PiSA-SR-adj.分別表示預設設定和可調節設定。在  的 SR 任務中,使用解析度為  的 LQ 影像,在單個 NVIDIA A100 80G GPU 上測量推理時間。 ResShift 的引數較少,因為它從零開始訓練,未使用預訓練 SD 模型。SinSR 繼承了其父模型 ResShift 的引數。在基於 SD 的 SR 方法中,PiSA-SR-def. 引數量最少,且推理時間最快。與 OSEDiff 不同,PiSA-SR-def. 在推理過程中不需要語義提取器,而是透過 CSD 將語義資訊濃縮到語義級 LoRA 中。PiSA-SR-adj. 需要兩步擴散以從畫素級和語義級 LoRA 模組計算輸出,導致推理時間略長於預設設定。然而,這一小幅時間增加為使用者提供了根據具體需求生成 SR 輸出的優勢。

表3

何愷明在MIT授課的課件PPT下載

在CVer公眾號後臺回覆:何愷明,即可下載本課程的所有566頁課件PPT!趕緊學起來!

CVPR 2025 論文和程式碼下載

在CVer公眾號後臺回覆:CVPR2025,即可下載CVPR 2025論文和程式碼開源的論文合集

ECCV 2024 論文和程式碼下載

在CVer公眾號後臺回覆:ECCV2024,即可下載ECCV 2024論文和程式碼開源的論文合集
CV垂直方向和論文投稿交流群成立
掃描下方二維碼,或者新增微訊號:CVer2233,即可新增CVer小助手微信,便可申請加入CVer-垂直方向和論文投稿微信交流群。另外其他垂直方向已涵蓋:目標檢測、影像分割、目標跟蹤、人臉檢測&識別、OCR、姿態估計、超解析度、SLAM、醫療影像、Re-ID、GAN、NAS、深度估計、自動駕駛、強化學習、車道線檢測、模型剪枝&壓縮、去噪、去霧、去雨、風格遷移、遙感影像、行為識別、影片理解、影像融合、影像檢索、論文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要備註:研究方向+地點+學校/公司+暱稱(如Mamba、多模態學習或者論文投稿+上海+上交+卡卡),根據格式備註,可更快被透過且邀請進群

▲掃碼或加微訊號: CVer2233,進交流群
CVer計算機視覺(知識星球)來了!想要了解最新最快最好的CV/DL/AI論文速遞、優質實戰專案、AI行業前沿、從入門到精通學習教程等資料,歡迎掃描下方二維碼,加入CVer計算機視覺(知識星球),已彙集上萬人!

掃碼加入星球學習
▲點選上方卡片,關注CVer公眾號
整理不易,請點贊和在看


相關文章