風格遷移重大突破！西湖大學等提出StyleStudio攻克「過擬合」難題|CVPR2025

新智元報道

編輯：LRST

【新智元導讀】StyleStudio能解決風格遷移中風格過擬合、文字對齊差和影像不穩定的問題，透過跨模態AdaIN技術融合文字和風格特徵、用教師模型穩定佈局、引入基於風格的無分類器引導，實現精準控制風格元素，提升生成影像的質量和穩定性，無需額外訓練，使用門檻更低！

近年來，隨著擴散模型的發展，風格遷移技術在文字引導的影像生成任務中取得了顯著突破。

然而，儘管現有方法可以實現優秀的風格化效果，但其對文字資訊的精準控制仍存在明顯不足，大多數方法在融合風格影像與文字描述時，往往會讓生成結果過度依賴參考風格影像，導致對文字內容的響應能力下降。

「風格主導的失衡問題」使得使用者在輸入文字提示時難以精準控制影像的顏色、結構或其他細節屬性，還可能引入不穩定因素，例如棋盤格效應，進一步限制了其實用性。

為了解決這些問題，西湖大學、復旦大學、南洋理工大學、港科廣的研究人員提出了StyleStudio，一種無需額外訓練即可增強文字控制能力、提升風格選擇靈活性，並改善影像穩定性的方法。

論文連結：https://arxiv.org/abs/2412.08503

專案地址：https://stylestudio-official.github.io/

Github地址：https://github.com/Westlake-AGI-Lab/StyleStudio

Demo地址：https://huggingface.co/spaces/Westlake-AGI-Lab/StyleStudio

研究人員還在Huggingface上提供了線上Demo，點選即可體驗。

目前，該研究成功中稿CVPR 2025，相關程式碼已經開源。

風格遷移的挑戰：如何克服「過擬合」問題

在文字驅動的風格遷移任務中，仍然存在兩個關鍵的挑戰，極大限制了生成結果的靈活性和穩定性。

文字與風格的對齊問題當前的風格遷移方法在處理文字與風格影像的融合時，常常面臨文字與影像條件之間的對齊難題。

傳統方法往往會過度依賴參考風格影像，導致風格特徵的遷移失去精確控制，進而使得生成的影像與文字條件不完全匹配，文字與風格之間的失調不僅削弱了生成影像的文字響應能力，也使得模型在面對複雜文字提示時缺乏適應性。

棋盤格現象在風格遷移過程中，生成影像中經常會出現佈局不穩定或重複圖案的問題，例如棋盤格效應。

這種現象會顯著影響生成影像的視覺質量，特別是在大範圍的風格遷移任務中，佈局的連貫性和穩定性往往難以保證。這不僅損害了影像的美學效果，也限制了風格遷移技術在實際應用中的穩定性和可靠性。

StyleStudio的創新解決方案

針對上述問題，研究人員提出了幾項核心創新，旨在提升文字驅動的風格遷移模型的靈活性與穩定性：

跨模態自適應例項正則化技術（Cross-modal AdaIN）

傳統基於介面卡（Adapter-Based）的風格遷移方法透過簡單的加權求和方式，將文字與風格影像的條件資訊進行融合，但這種方式會導致風格過擬合，最終影像的文字對齊能力下降。

為了解決這一問題，研究人員提出了跨模態自適應例項正則化（Cross-modal AdaIN），在經典AdaIN技術的基礎上進行了創新，適用於文字驅動的風格遷移任務。

該方法的核心思想是：先分別提取文字和風格影像的特徵並生成獨立的特徵網格，然後藉助AdaIN技術，將文字特徵與風格特徵進行歸一化融合，使得風格影像的屬效能夠自適應地調節文字特徵，從而有效保留風格的整體性，同時確保文字資訊的準確傳達，最終生成符合文字要求的風格化影像。

該技術的優勢在於：解決了傳統加權求和方法中存在的文字與風格資訊衝突問題，使得兩者能夠在同一個嵌入空間中和諧共存。

更重要的是，這一方法不依賴額外的訓練過程，即使在不改變現有模型架構的情況下，可以無縫替代傳統的介面卡方法，避免了複雜的超引數調節，顯著提升了生成影像的質量和準確性。

教師模型穩定生成

在影像生成任務中，佈局穩定性對最終的視覺效果至關重要。研究人員發現，在風格遷移的過程中，常見的一個問題是棋盤格效應，即生成的影像出現不自然的重複圖案，從而影響影像的整體美感。

為了應對這一挑戰，研究人員提出了一個一種即插即用（plug and play）的方法，利用風格遷移方法中對應的Stable Diffusion模型作為教師模型，在生成過程中提供佈局指導。

具體來說，這種方法透過教師模型來引導風格化影像生成的過程：在每一個去噪步驟中，用教師模型生成的注意力圖替代原本風格化影像的注意力圖，從而確保影像的空間結構特徵穩定並且可以實現跨風格圖一致。

在實驗中，可以觀察到兩個重要現象：

首先，相較於替換交叉注意力圖，用自注意力圖進行替換能夠更好地穩定影像佈局，並且保證了在跨風格影像生成過程中佈局的一致性；

其次，自注意力圖的替換隻需要在去噪的初期進行，若教師模型的影響延續過長，則可能會導致風格特徵的喪失。

基於風格影像的無分類器生成引導（Style-CFG）

在風格遷移中，當參考風格影像融合了多種不同的風格元素（如卡通風格與樹葉紋理或夜景元素的結合）時，往往會出現風格模糊的問題。

這種情況下，現有的方法往往難以有效區分和控制不同風格元素，導致生成的影像中風格混雜，無法精確突出所需的特定風格特徵。

為了應對這一挑戰，研究人員借鑑了擴散模型中常用的無分類器引導（CFG）技術，提出了基於風格的無分類器引導（Style-Based Classifier-Free Guidance, SCFG）。該方法透過對多種風格元素進行選擇性控制，允許使用者明確指定需要強調的風格特徵，並有效過濾掉不相關或衝突的元素，從而實現更精確的風格遷移。