
新智元報道
新智元報道
編輯:LRST
【新智元導讀】CFG-Zero*是由南洋理工大學S-Lab 與普渡大學提出的無分類引導新正規化,支援所有Flow-Matching的生成模型,目前已被整合至Diffusers與ComfyUI
隨著生成式AI的快速發展,文字生成影像與影片的擴散模型(Diffusion Models)已成為計算機視覺領域的研究與應用熱點。
近年來,Flow Matching作為一種更具可解釋性、收斂速度更快的生成正規化,正在逐步取代傳統的基於隨機微分方程(SDE)的擴散方法,成為主流模型(如Lumina-Next、Stable Diffusion 3/3.5、Wan2.1等)中的核心方案。
然而,在這一技術迭代過程中,一個關鍵問題依然沒有被解決:如何在推理階段更好地引導生成過程,使模型輸出更加符合使用者提供的文字描述。
Classifier-Free Guidance(CFG)是當前廣泛採用的引導策略,但其引導路徑在模型尚未充分訓練或估計誤差較大時,容易導致樣本偏離真實分佈,甚至引入不必要的偽影或結構崩塌。
對此,南洋理工大學S-Lab與普渡大學的研究者聯合提出了創新方法——CFG-Zero⋆,針對傳統CFG在Flow Matching框架下的結構性誤差進行了理論分析,並設計了兩項輕量級但效果顯著的改進機制,使生成影像/影片在細節保真度、文字對齊性與穩定性上全面提升。

專案主頁:https://weichenfan.github.io/webpage-cfg-zero-star/
程式碼倉庫:https://github.com/WeichenFan/CFG-Zero-star
論文地址:https://arxiv.org/abs/2503.18886


CFG為何失效?
傳統的CFG策略透過對有條件與無條件預測結果進行插值來實現引導,然而在Flow Matching模型中,推理過程是透過解常微分方程(ODE)進行的,其每一步依賴於前一步的速度估計。
當模型訓練不足時,初始階段的速度往往較為不準確,而CFG此時的引導反而會將樣本推向錯誤軌跡。研究者在高斯混合分佈的可控實驗中發現,CFG在初始步的引導效果甚至不如「靜止不動」,即設速度為0。

CFG-Zero⋆
研究者提出了CFG-Zero⋆,並引入以下兩項關鍵創新:
-
最佳化縮放因子(Optimized Scale):在每個時間步中動態計算有條件速度與無條件速度的內積比值,從而調整CFG中無條件項的強度,避免「過度引導」導致的誤差。
-
零初始化(Zero-init):將ODE求解器的前K步速度置為零(預設K=1),跳過模型最不可靠的預測階段,有效降低初始誤差傳播。
這兩項策略可無縫整合至現有的CFG推理流程中,幾乎不引入額外計算開銷。

首先CFG的目標是能夠估計出一個修正的速度,能夠儘可能的接近真實速度:

為了提升引導的精度,研究者引入了一個修正因子s:

基於此可以建立最佳化的目標:

代入化簡可以得到:

求解最優值為

因此新的CFG形式為:


零初始化
研究者在2D多元高斯分佈上進行進一步定量分析,可以求解得到擴散過程中每一步的最優速度的closed-form:

基於此可以訓練出一個模型,下圖展現了模型在不同訓練輪數下的誤差。

研究者發現在訓練早期階段,無分類引導得到的速度誤差較大,甚至不如將速度設定為0:

進一步在高緯情況下驗證了這一觀察,如下表所示。

研究者對比原始CFG,與僅使用零初始化的CFG,發現隨著模型的收斂,零初始化的收益逐漸變小,在160輪訓練後出現拐點,與多元高斯實驗結果吻合。

實驗結果
研究者在多個任務與主流模型上驗證了CFG-Zero⋆的有效性,涵蓋了文字生成影像(Text-to-Image)與文字生成影片(Text-to-Video)兩大方向。
在影像生成任務中,研究團隊選用了Lumina-Next、SD3、SD3.5、Flux等當前SOTA模型進行對比實驗,結果顯示CFG-Zero⋆在Aesthetic Score與CLIP Score兩項核心指標上均優於原始CFG。
例如在Stable Diffusion 3.5上,美學分有明顯提高,不僅影像美感更強,而且語義一致性更好。在T2I-CompBench評測中,CFG-Zero⋆在色彩、紋理、形狀等多個維度均取得更優表現,特別適用於需要精準表達複雜語義的生成任務。

在影片生成任務中,研究者將CFG-Zero⋆整合到Wan2.1模型中,評估標準採用VBench基準套件。
結果表明,改進後的模型在Aesthetic Quality、Imaging Quality、Motion Smoothness等方面均有所提升,呈現出更連貫、結構更穩定的影片內容,有效減少了影像跳變與不自然的位移問題。

實際測試
CFG-Zero⋆在開源社群中實現了快速落地。目前,該方法已正式整合至ComfyUI與Diffusers官方庫,並被納入影片生成模型Wan2.1GP的推理流程。藉助這些整合,普通開發者與創作者也能輕鬆體驗該方法帶來的畫質與文字對齊提升。
該方法可以用於圖生影片,使用官方的repo用這張測試圖:

prompt:Summer beach vacation style. A white cat wearing sunglasses lounges confidently on a surfboard, gently bobbing with the ocean waves under the bright sun. The cat exudes a cool, laid-back attitude. After a moment, it casually reaches into a small bag, pulls out a cigarette, and lights it. A thin stream of smoke drifts into the salty breeze as the cat takes a slow drag, maintaining its nonchalant pose beneath the clear blue sky.
得到的影片如下:(第一個為原始CFG生成的,第二個為CFG-Zero*生成的),效果還是比較明顯,值得嘗試。


該方法對wan2.1 文生影片同樣適用:(圖1為原始CFG,圖2為CFG-Zero*)
Prompt:A cat walks on the grass, realistic.


該方法同時相容LoRA:https://civitai.com/models/46080?modelVersionId=1473682
Prompt:Death Stranding Style. A solitary figure in a futuristic suit with a large, intricate backpack stands on a grassy cliff, gazing at a vast, mist-covered landscape composed of rugged mountains and low valleys beneath a rainy, overcast sky. Raindrops streak softly through the air, and puddles glisten on the uneven ground. Above the horizon, an ethereal, upside-down rainbow arcs downward through the gray clouds — its surreal, inverted shape adding an otherworldly touch to the haunting scene. A soft glow from distant structures illuminates the depth of the valley, enhancing the mysterious atmosphere. The contrast between the rain-soaked greenery and jagged rocky terrain adds texture and detail, amplifying the sense of solitude, exploration, and the anticipation of unknown adventures beyond the horizon.

該方法對最強文生圖模型Flux同樣支援:
Prompt:a tiny astronaut hatching from an egg on the moon.


該方法實現也比較簡單,作者在附錄中直接附上了程式碼,如下圖:


總結
該工作在幾乎不引入額外計算量的情況下,提出了一種更好的無分類器引導正規化,對所有的流匹配模型都適用,是一種「無痛」漲點方法。
從視覺效果來看,最佳化縮放因子會提升圖片/影片很多細節,但是不會修正語義資訊,零初始化會對整體有比較大的修改,讓圖片更自然,影片的運動更合理與流暢,但目前該方法只適用於流匹配模型,如何將該方法泛化至其他型別的擴散模型可能是比較有價值的研究方向。
參考資料:
https://weichenfan.github.io/webpage-cfg-zero-star/
