模型崩潰自救指南:5行程式碼實現TTA魯棒性飛躍,天大×騰訊開源COME方案

研究背景
機器學習模型在諸多領域已經取得了顯著的成功,例如影像識別、自然語言處理和自動駕駛等。然而,許多機器學習演算法依賴於一個限制性極強的假設,即訓練資料和測試資料的分佈是相似的。
這一假設在現實場景中往往難以成立,例如由於環境變化、感測器差異或資料採集條件的不同,測試資料分佈可能與訓練資料分佈存在顯著差異,導致模型效能下降。
測試時適應方法(Test-time Adaptation, TTA)旨在透過在測試階段調整模型來減輕資料分佈差異帶來的負面影響。熵最小化(EM)已被證明是現有測試時自適應(TTA)方法中簡單而有效的基石,絕大多數的現有方法都基於熵最小化這一無監督訊號展開。
傳統的熵最小化(EM)方法雖然簡單高效,但存在嚴重缺陷:
1. 過度自信問題:EM 強制模型對所有測試樣本輸出低熵預測,導致對錯誤分類或異常樣本的置信度過高。
2. 模型崩潰風險:在不可靠樣本上持續最佳化熵,可能使模型引數漂移至無效解,效能急劇下降。
如上圖所示,我們研究了熵最小化(Entropy Minimization, EM)在 TTA 場景下對兩種代表性方法的影響,即 Tent(Wang et al., 2021)和 SAR(Niu et al., 2023)。
左圖中可見,在逐個 epoch 的 TTA 過程中,Tent 方法和 SAR 方法都會持續地增強預測的信心,max softmax probability 值持續走高,出現模型過度自信預測的情況。
中圖中可見,從第 200 個 epoch 開始,在模型過度自信預測的同時,模型出現了預測準確率大幅下降的情況,我們把這種情況稱作模型崩潰;從右圖中的假陽性率的走勢也可以看出,在模型過度自信預測的同時,模型幾乎喪失了分類預測的能力。
ICLR 2025 上發表的論文 COME: Test-time adaption by Conservatively Minimizing Entropy 提出了一種保守的熵最小化方法,能夠解決熵最小化導致的模型崩潰問題。
論文標題:
COME: Test-time adaption by Conservatively Minimizing Entropy
收錄會議:
ICLR 2025
論文連結:
https://arxiv.org/abs/2410.10894
GitHub連結:
https://github.com/BlueWhaleLab/COME
COME 的核心創新在於顯式建模預測不確定性,並透過自適應正則化防止過度自信。具體方法如下。
2.1 基於主觀邏輯的不確定性建模(解決過度自信問題)
問題:傳統 softmax 輸出無法區分“不確定”和“錯誤”的預測,導致模型對異常樣本依然高置信度。
方法:引入主觀邏輯(Subjective Logic),將模型輸出轉換為 Dirichlet 分佈,生成:
  • 類別置信量(belief mass):對每個類別的支援證據。
  • 不確定性量(uncertainty mass):反映模型對當前樣本的總體不確定性。
效果:模型可以明確表達“我不知道”,避免對不可靠樣本強行給出高置信度預測。
2.2 保守熵最小化目標(解決模型崩潰問題)
問題:直接最小化熵會迫使模型對所有樣本降低不確定性,包括噪聲和離群值。
方法:最佳化主觀意見的熵(而非 softmax 熵),並約束不確定性質量不偏離預訓練模型的初始估計:
2.3 自適應 Logit 約束(實現高效正則化)
問題:直接約束不確定性需要儲存預訓練模型狀態,增加計算開銷。
方法:透過凍結 Logit 範數(即 )間接控制不確定性:
效果:無需額外儲存,單次前向傳播即可實現穩定最佳化,滿足 TTA 的即時性要求。
COME 無需修改模型架構或訓練策略,僅需幾行程式碼即可嵌入現有 TTA 方法,是一種輕量級、模型無關的解決方案。
實驗結果
我們在 Imagenet-C(level 5)資料集上進行了對比試驗
COME 在多種複雜場景中均顯著優於傳統方法:
標準 TTA(ImageNet-C):
  • COME 是一種對熵最小化的改進,直接用於基於熵最小化的方法上,均能顯著提高模型預測能力。
  • 在 Snow 噪聲(Level 5)下,分類準確率提升 47.9%(Tent+COME vs. Tent)。
  • 在 15 類混合損壞資料上,平均準確率提升 9.0%(SAR+COME vs. SAR)。
開放世界 TTA(含異常樣本):
  • 在開放世界的實驗設定下,模型會遇到 outliers 資料,在這種設定下 COME 也能對原方法有顯著提升。
  • 假陽性率(FPR)降低 14.5%(NINCO 資料集),顯著減少對離群樣本的誤判。
終身學習TTA(持續分佈變化):在動態資料流中,COME 也能夠保持穩定效能。
計算效率:相比不使用 COME 的原方法相比,COME 僅增加 <1% 的推理耗時,適合即時部署。
總結
COME 透過顯式不確定性建模自適應熵最佳化,解決了 TTA 中的兩大核心問題:
1. 過度自信 → 透過 Dirichlet 分佈量化不確定性,避免對噪聲樣本盲目自信。
2. 模型崩潰 → 約束不確定性質量,防止最佳化過程破壞預訓練知識。
程式碼已開源,歡迎訪問 GitHub 探索如何用 5 行程式碼提升您的 TTA 模型魯棒性!
https://github.com/BlueWhalelLab/COME
更多閱讀
#投 稿 通 道#
 讓你的文字被更多人看到 
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。 
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析科研心得競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝 稿件基本要求:
• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標註 
• 稿件建議以 markdown 格式撰寫,文中配圖以附件形式傳送,要求圖片清晰,無版權問題
• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬 投稿通道:
• 投稿郵箱:[email protected] 
• 來稿請備註即時聯絡方式(微信),以便我們在稿件選用的第一時間聯絡作者
• 您也可以直接新增小編微信(pwbot02)快速投稿,備註:姓名-投稿
△長按新增PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜尋「PaperWeekly」
點選「關注」訂閱我們的專欄吧
·


相關文章