
還在使用傳統的熵最小化作為模型自訓練的目標?還在為緩慢降低且不穩定的模型不確定性而擔憂?
來自北京大學與香港中文大學的最新研究,提出 ReCAP 框架,成功打破了 Entropy 在 Test-Time Training 的效能瓶頸,在多個場景和資料集挑戰中全面超越當前的熵最小化方法,幾乎零成本提升在下游任務的泛化效能!

前言:“自信”過頭了?模型陷入熵最小化陷阱!
測試時訓練(Test-Time Training/Adaptation)已然成為模型訓練後在測試階段微調的最重要方法之一,極大程度上增強了模型在下游應對不同下游任務的泛化能力。當前最常見的方法是熵最小化策略,以求讓模型擴大自己輸出的置信度。
然而,在複雜多變的測試條件下,熵最小化開始暴露出致命缺陷:模型往往對單一樣本盲目“自信”,而忽視了其周圍樣本的預測一致性。這種區域性預測的不穩定性會導致熵最佳化方向之間相互衝突,擾亂模型收斂過程,最終適得其反。
因此,我們迫切需要一種新的目標函式——它不僅能有效降低模型不確定性,更應能協調區域性樣本間的預測穩定性。

論文標題:
Beyond Entropy: Region Confidence Proxy for Wild Test-Time Adaptation
論文作者:
Zixuan Hu, Yichun Hu, Xiaotong Li, Shixiang Tang, Ling-Yu Duan
所屬機構:
School of Computer Science, Peking University, Peng Cheng Laboratory, The Chinese University of Hong Kong
收錄會議:
ICML 2025
開源地址:
https://github.com/hzcar/ReCAP
論文連結:
https://arxiv.org/abs/2505.20704
聯絡方式:

區域置信度:熵最小化背後的“隱形變數”是區域性一致性
在深入分析現有方法侷限性的基礎上,來自北京大學與香港中文大學的研究團隊提出了全新框架 ReCAP(Region Confidence Adaptive Proxy),以更加精準的方式刻畫模型預測中的不確定性與穩定性之間的內在聯絡。
熵最小化的核心思想是透過引導預測機率向主要的類別集中收斂,其有效性很大程度上依賴於區域性一致性,也就是附近的點應該有相似的預測機率。在分佈偏移較複雜或者資料有限的場景中,區域性不一致現象非常普遍,此時熵最小化反而會成為效能崩潰的罪魁禍首。

為此,團隊引入了區域置信度(Region Confidence)的全新定義。它不再聚焦於單一樣本的置信度提升,而是在其區域性區域內同時衡量整體熵水平與一致性程度,具體形式如下:
對於樣本 和其一個區域性區域 , 在 上的區域置信度 (Region Confidence) 定義為:

第一項熵損失函式代表了最佳化方向與區域目標之間的偏差,保留了熵最小化擴大置信度的思想。
第二項與中心點預測分佈的 KL 散度代表了局部區域內不一致預測機率的方差,鼓勵模型在區域性區域內保持一致性。
研究團隊在此採用積分,意味著理論可以在無限樣本上整合損失項。

高效代理:ReCAP最佳化區域置信度幾乎零成本
為了將“區域置信度”這一理論目標落地為可高效最佳化的形式,研究團隊設計了兩項關鍵技術創新:
區域機率建模機制:將特徵空間中的區域性區域視為一個高斯分佈,動態建模預測機率的變化趨勢,提取區域內的語義不確定性。
有限-無限近似理論推導:創新性地提出“區域置信代理損失”,無需取樣、無額外前向傳播,即可高效近似原始最佳化目標中難以計算的熵積分和KL散度項,大幅提升最佳化效率。
具體來說,給定一個特徵 及其區域性區域 ,該區域性區域服從高斯分佈 ,研究團隊證明了兩個重要結論:
整個分佈上的熵損失期望具有上界:

輸出機率與中心機率之間的 KL 散度的期望值具有上界:

因此只需要最小化 和 即可,此運算開銷幾乎可以忽略不計。
在樣本過濾時,使用區域熵 來識別可靠的樣本參與最佳化:

分母表示加權項, 表示區域熵的閾值, 是超引數。


ReCAP:重塑測試時訓練正規化的“加速引擎”
研究團隊重磅推出的 ReCAP 框架,不僅給出了熵最小化訓練困難的理論分析,也給出了區域內模型預測不確定性的度量方法。
更關鍵的是,ReCAP 擁有極強的模組相容性與方法泛化性:它無需改變原有網路結構,可無縫整合到主流的 TTT 框架中,以替換原有的熵目標函式,輕鬆提升效能。
文章對多種資料偏移,多種測試場景做了綜合實驗分析,均取得顯著的效能提升:

相較於傳統熵最小化方法,ReCAP 在多個關鍵維度上實現突破:
1. 強魯棒性:資料限制和複雜偏移下更高效:在多種場景和資料集下,ReCAP 均顯著優於現有SOTA方法,帶來 2~5 個百分點的效能提升。
2. 強相容性:幾行程式碼替代原有熵目標:ReCAP 可直接作為 drop-in 替代模組,嵌入到各種框架中,無需任何結構或訓練流程修改,即可取得增益。
3. 高效率:近零成本、無冗餘操作的理論最佳化路徑:藉助推匯出的上界代理損失,ReCAP 無需使用如擴散模型、資料增強、生成式補全等昂貴操作,顯著降低測試時訓練成本,適合部署在邊緣裝置和工業環境中。

結語:在更多場景和任務中積極探索區域置信度的效果
ReCAP 框架的提出是對測試時訓練目標函式設計的一次重新審視與正規化突破。它不僅揭示了傳統熵最小化方法在複雜環境下的侷限性,更透過區域置信代理最佳化,兼顧了不確定性抑制與區域性預測穩定性,實現了理論優雅、實踐高效的完美結合。
當前,ReCAP 已在影像分類領域多個高強度擾動資料集(如 ImageNet-C、ImageNet-R、VisDA)上展現出顯著優勢。而我們相信,這只是一個開始——
1. 在目標檢測、語義分割、影片理解等任務中,區域性區域一致性同樣扮演著關鍵角色;
2. 在 3D 視覺、醫學影像、工業缺陷檢測等現實場景中,資料稀缺性與分佈偏移問題尤為突出,ReCAP 的無監督適應潛力亟待釋放;
3. 在更大尺度、更高複雜度的模型體系中,ReCAP 所倡導的“區域視角”,或許正是提升穩健性與可解釋性的關鍵。
研究團隊也將持續開源和完善相關工具鏈,歡迎更多研究者和工程團隊將“區域置信”理念擴充套件到更多測試時適應應用中,共同推動更穩健、更通用的視覺模型構建路徑。
更多閱讀

#投 稿 通 道#
讓你的文字被更多人看到
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝 稿件基本要求:
• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標註
• 稿件建議以 markdown 格式撰寫,文中配圖以附件形式傳送,要求圖片清晰,無版權問題
• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬 投稿通道:
• 投稿郵箱:[email protected]
• 來稿請備註即時聯絡方式(微信),以便我們在稿件選用的第一時間聯絡作者
• 您也可以直接新增小編微信(pwbot02)快速投稿,備註:姓名-投稿

△長按新增PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜尋「PaperWeekly」
點選「關注」訂閱我們的專欄吧
·
