風格遷移重大突破!西湖大學等提出StyleStudio攻克「過擬合」難題|CVPR2025


新智元報道  

編輯:LRST
【新智元導讀】StyleStudio能解決風格遷移中風格過擬合、文字對齊差和影像不穩定的問題,透過跨模態AdaIN技術融合文字和風格特徵、用教師模型穩定佈局、引入基於風格的無分類器引導,實現精準控制風格元素,提升生成影像的質量和穩定性,無需額外訓練,使用門檻更低!
近年來,隨著擴散模型的發展,風格遷移技術在文字引導的影像生成任務中取得了顯著突破。
然而,儘管現有方法可以實現優秀的風格化效果,但其對文字資訊的精準控制仍存在明顯不足,大多數方法在融合風格影像與文字描述時,往往會讓生成結果過度依賴參考風格影像,導致對文字內容的響應能力下降。
「風格主導的失衡問題」使得使用者在輸入文字提示時難以精準控制影像的顏色、結構或其他細節屬性,還可能引入不穩定因素,例如棋盤格效應,進一步限制了其實用性。
為了解決這些問題,西湖大學、復旦大學、南洋理工大學、港科廣的研究人員提出了StyleStudio,一種無需額外訓練即可增強文字控制能力、提升風格選擇靈活性,並改善影像穩定性的方法。
論文連結:https://arxiv.org/abs/2412.08503
專案地址:https://stylestudio-official.github.io/
Github地址:https://github.com/Westlake-AGI-Lab/StyleStudio
Demo地址:https://huggingface.co/spaces/Westlake-AGI-Lab/StyleStudio
研究人員還在Huggingface上提供了線上Demo,點選即可體驗。
目前,該研究成功中稿CVPR 2025,相關程式碼已經開源。
風格遷移的挑戰:如何克服「過擬合」問題
在文字驅動的風格遷移任務中,仍然存在兩個關鍵的挑戰,極大限制了生成結果的靈活性和穩定性。
文字與風格的對齊問題當前的風格遷移方法在處理文字與風格影像的融合時,常常面臨文字與影像條件之間的對齊難題。
傳統方法往往會過度依賴參考風格影像,導致風格特徵的遷移失去精確控制,進而使得生成的影像與文字條件不完全匹配,文字與風格之間的失調不僅削弱了生成影像的文字響應能力,也使得模型在面對複雜文字提示時缺乏適應性。
棋盤格現象在風格遷移過程中,生成影像中經常會出現佈局不穩定或重複圖案的問題,例如棋盤格效應。
這種現象會顯著影響生成影像的視覺質量,特別是在大範圍的風格遷移任務中,佈局的連貫性和穩定性往往難以保證。這不僅損害了影像的美學效果,也限制了風格遷移技術在實際應用中的穩定性和可靠性。
StyleStudio的創新解決方案
針對上述問題,研究人員提出了幾項核心創新,旨在提升文字驅動的風格遷移模型的靈活性與穩定性:
跨模態自適應例項正則化技術(Cross-modal AdaIN)
傳統基於介面卡(Adapter-Based)的風格遷移方法透過簡單的加權求和方式,將文字與風格影像的條件資訊進行融合,但這種方式會導致風格過擬合,最終影像的文字對齊能力下降。
為了解決這一問題,研究人員提出了跨模態自適應例項正則化(Cross-modal AdaIN),在經典AdaIN技術的基礎上進行了創新,適用於文字驅動的風格遷移任務。
該方法的核心思想是:先分別提取文字和風格影像的特徵並生成獨立的特徵網格,然後藉助AdaIN技術,將文字特徵與風格特徵進行歸一化融合,使得風格影像的屬效能夠自適應地調節文字特徵,從而有效保留風格的整體性,同時確保文字資訊的準確傳達,最終生成符合文字要求的風格化影像。
該技術的優勢在於:解決了傳統加權求和方法中存在的文字與風格資訊衝突問題,使得兩者能夠在同一個嵌入空間中和諧共存。
更重要的是,這一方法不依賴額外的訓練過程,即使在不改變現有模型架構的情況下,可以無縫替代傳統的介面卡方法,避免了複雜的超引數調節,顯著提升了生成影像的質量和準確性。
教師模型穩定生成
在影像生成任務中,佈局穩定性對最終的視覺效果至關重要。研究人員發現,在風格遷移的過程中,常見的一個問題是棋盤格效應,即生成的影像出現不自然的重複圖案,從而影響影像的整體美感。
為了應對這一挑戰,研究人員提出了一個一種即插即用(plug and play)的方法,利用風格遷移方法中對應的Stable Diffusion模型作為教師模型,在生成過程中提供佈局指導。
具體來說,這種方法透過教師模型來引導風格化影像生成的過程:在每一個去噪步驟中,用教師模型生成的注意力圖替代原本風格化影像的注意力圖,從而確保影像的空間結構特徵穩定並且可以實現跨風格圖一致。
在實驗中,可以觀察到兩個重要現象:
首先,相較於替換交叉注意力圖,用自注意力圖進行替換能夠更好地穩定影像佈局,並且保證了在跨風格影像生成過程中佈局的一致性;
其次,自注意力圖的替換隻需要在去噪的初期進行,若教師模型的影響延續過長,則可能會導致風格特徵的喪失。
基於風格影像的無分類器生成引導(Style-CFG)
在風格遷移中,當參考風格影像融合了多種不同的風格元素(如卡通風格與樹葉紋理或夜景元素的結合)時,往往會出現風格模糊的問題。
這種情況下,現有的方法往往難以有效區分和控制不同風格元素,導致生成的影像中風格混雜,無法精確突出所需的特定風格特徵。
為了應對這一挑戰,研究人員借鑑了擴散模型中常用的無分類器引導(CFG)技術,提出了基於風格的無分類器引導(Style-Based Classifier-Free Guidance, SCFG)。該方法透過對多種風格元素進行選擇性控制,允許使用者明確指定需要強調的風格特徵,並有效過濾掉不相關或衝突的元素,從而實現更精確的風格遷移。
舉例來說,若參考影像中包含卡通風格與落葉的元素,Style-CFG可以確保最終生成的影像僅保留卡通風格,同時去除落葉部分,避免風格元素的衝突和模糊,提供了一種靈活且可控的風格遷移機制,使得影像生成過程中的風格調整更加精準、符合使用者需求。
實驗結果
實驗結果表明,StyleStudio模型能夠在多個方面超越現有的風格遷移技術:在文字對齊方面,StyleStudio能夠精確捕捉文字中指定的風格屬性,如顏色資訊,確保生成影像忠實於文字提示。在影像穩定性方面,模型有效避免了內容洩漏和佈局不穩定等問題。
針對複雜的文字條件,StyleStudio同樣展現出了強大的處理能力,能夠在細緻的文字描述下實現精確的風格和內容融合。
StyleStudio中提出的基於風格影像的無分類器生成引導(Style-Based Classifier-Free Guidance,SCFG)也經過了充分的實驗驗證,透過一系列實驗評估了該方法的有效性,並展示了相對於傳統的無分類器指導方法的顯著優勢。
定量實驗與使用者調研實驗表明,StyleStudio在多項指標上超越了傳統方法,展現了其強大的通用性和穩健性。
結論與展望
StyleStudio的提出代表了文字驅動風格遷移技術的一次重要進步,尤其在文字控制能力、風格選擇性遷移和影像生成穩定性等方面取得了顯著的技術突破。該方法不僅在學術領域具有重要價值,也為數字藝術創作、廣告設計等行業提供了強大的技術支援。
更為重要的是,StyleStudio能夠在無需額外訓練的條件下直接應用,極大地降低了使用門檻,並已在多個風格遷移任務中取得優異成績。
參考資料:
https://arxiv.org/abs/2412.08503

相關文章