南洋理工&普渡大學提出CFG-Zero*:在FlowMatching模型中實現更穩健的無分類器引導方法

本篇論文是由南洋理工大學 S-Lab 與普渡大學提出的無分類引導新正規化,支援所有 Flow Matching 的生成模型。目前已被整合至 Diffusers 與 ComfyUI。
  • 論文標題:CFG-Zero*: Improved Classifier-Free Guidance for Flow Matching Models
  • 論文地址:https://arxiv.org/abs/2503.18886
  • 專案主頁:https://weichenfan.github.io/webpage-cfg-zero-star/
  • 程式碼倉庫:https://github.com/WeichenFan/CFG-Zero-star
隨著生成式 AI 的快速發展,文字生成影像與影片的擴散模型(Diffusion Models)已成為計算機視覺領域的研究與應用熱點。
近年來,Flow Matching 作為一種更具可解釋性、收斂速度更快的生成正規化,正在逐步取代傳統的基於隨機微分方程(SDE)的擴散方法,成為主流模型(如 Lumina-Next、Stable Diffusion 3/3.5、Wan2.1 等)中的核心方案。
然而,在這一技術迭代過程中,一個關鍵問題依然存在:如何在推理階段更好地引導生成過程,使模型輸出更加符合使用者提供的文字描述。
Classifier-Free Guidance(CFG)是當前廣泛採用的引導策略,但其引導路徑在模型尚未充分訓練或估計誤差較大時,容易導致樣本偏離真實分佈,甚至引入不必要的偽影或結構崩塌。
對此,南洋理工大學 S-Lab 與普渡大學的研究者聯合提出了創新方法——CFG-Zero*,針對傳統 CFG 在 Flow Matching 框架下的結構性誤差進行了理論分析,並設計了兩項輕量級但效果顯著的改進機制,使生成影像/影片在細節保真度、文字對齊性與穩定性上全面提升。

研究動機:CFG 為何失效?

傳統的 CFG 策略透過對有條件與無條件預測結果進行插值來實現引導。然而在 Flow Matching 模型中,推理過程是透過解常微分方程(ODE)進行的,其每一步依賴於前一步的速度估計。
當模型訓練不足時,初始階段的速度往往較為不準確,而 CFG 此時的引導反而會將樣本推向錯誤軌跡。研究者在高斯混合分佈的可控實驗中發現,CFG 在初始步的引導效果甚至不如「靜止不動」,即設速度為 0。

方法介紹

研究者提出了 CFG-Zero*,並引入以下兩項關鍵創新:
1.最佳化縮放因子(Optimized Scale):在每個時間步中動態計算有條件速度與無條件速度的內積比值,從而調整 CFG 中無條件項的強度,避免「過度引導」導致的誤差。
2.零初始化(Zero-init):將 ODE 求解器的前 K 步速度置為零(預設 K=1),跳過模型最不可靠的預測階段,有效降低初始誤差傳播。
這兩項策略可無縫整合至現有的 CFG 推理流程中,幾乎不引入額外計算開銷。下面我們具體介紹該方法的細節:

最佳化縮放因子

首先,CFG 的目標是能夠估計出一個修正的速度,能夠儘可能接近真實速度:
為了提升引導的精度,研究者引入了一個修正因子 s:
基於此可以建立最佳化的目標:
代入化簡可以得到:
求解最優值為:
因此新的 CFG 形式為:

零初始化

研究者在 2D 多元高斯分佈上進行進一步定量分析,可以求解得到擴散過程中每一步的最優速度的 closed-form:
基於此,他們在訓練了一個模型,並分析訓練不同輪數下模型的誤差,如下圖所示。

研究者發現在訓練早期階段,無分類引導得到的速度誤差較大,甚至不如將速度設定為 0:
他們進一步在高維情況下驗證了這一觀察,如下圖所示。
研究者對比原始 CFG 與僅使用零初始化的 CFG,發現隨著模型的收斂,零初始化的收益逐漸變小,在 160 輪訓練後出現拐點,與多元高斯實驗結果吻合。

實驗結果

研究者在多個任務與主流模型上驗證了 CFG-Zero* 的有效性,涵蓋了文字生成影像(Text-to-Image)與文字生成影片(Text-to-Video)兩大方向。
在影像生成任務中,研究團隊選用了 Lumina-Next、SD3、SD3.5、Flux 等當前 SOTA 模型進行對比實驗,結果顯示 CFG-Zero* 在 Aesthetic Score 與 CLIP Score 兩項核心指標上均優於原始 CFG。
例如在 Stable Diffusion 3.5 上,美學分有明顯提高,不僅影像美感更強,而且語義一致性更好。在 T2I-CompBench 評測中,CFG-Zero* 在色彩、紋理、形狀等多個維度均取得更優表現,特別適用於需要精準表達複雜語義的生成任務。
在影片生成任務中,研究者將 CFG-Zero* 整合到 Wan2.1 模型中,評估標準採用 VBench 基準套件。結果表明,改進後的模型在 Aesthetic Quality、Imaging Quality、Motion Smoothness 等方面均有所提升,呈現出更連貫、結構更穩定的影片內容。CFG-Zero* 有效減少了影像跳變與不自然的位移問題。

實際測試

CFG-Zero* 在開源社群中實現了快速落地。目前,該方法已正式整合至 ComfyUI 與 Diffusers 官方庫,並被納入影片生成模型 Wan2.1GP 的推理流程。藉助這些整合,普通開發者與創作者也能輕鬆體驗該方法帶來的畫質與文字對齊提升。
該方法可以用於圖生影片。我們使用官方的 repo 用這張測試圖:
輸入 prompt:「Summer beach vacation style. A white cat wearing sunglasses lounges confidently on a surfboard, gently bobbing with the ocean waves under the bright sun. The cat exudes a cool, laid-back attitude. After a moment, it casually reaches into a small bag, pulls out a cigarette, and lights it. A thin stream of smoke drifts into the salty breeze as the cat takes a slow drag, maintaining its nonchalant pose beneath the clear blue sky.」
得到的影片如下:(第一個為原始 CFG 生成的,第二個為 CFG-Zero* 生成的),效果還是比較明顯,值得嘗試。
該方法對 Wan2.1 文生影片同樣適用:(圖 1 為原始 CFG,圖 2 為 CFG-Zero*)
使用的 Prompt:「A cat walks on the grass, realistic.」
該方法同時相容 LoRA: 
使用的 LoRA 為:https://civitai.com/models/46080?modelVersionId=1473682
Prompt:「Death Stranding Style. A solitary figure in a futuristic suit with a large, intricate backpack stands on a grassy cliff, gazing at a vast, mist-covered landscape composed of rugged mountains and low valleys beneath a rainy, overcast sky. Raindrops streak softly through the air, and puddles glisten on the uneven ground. Above the horizon, an ethereal, upside-down rainbow arcs downward through the gray clouds — its surreal, inverted shape adding an otherworldly touch to the haunting scene. A soft glow from distant structures illuminates the depth of the valley, enhancing the mysterious atmosphere. The contrast between the rain-soaked greenery and jagged rocky terrain adds texture and detail, amplifying the sense of solitude, exploration, and the anticipation of unknown adventures beyond the horizon.」
該方法對最強文生圖模型 Flux 同樣支援:
使用的 Prompt:「a tiny astronaut hatching from an egg on the moon.」
該方法實現也比較簡單,作者在附錄中直接附上了程式碼,如下圖:
© THE END 
轉載請聯絡本公眾號獲得授權
投稿或尋求報道:[email protected]


相關文章