
本文為大家介紹上海科技大學 YesAI Lab 在 CVPR 2025 上入選 Highlight 的工作。本研究針對視覺語言模型提示學習中的帶噪標籤問題,提出了一種新的魯棒提示學習方法 NLPrompt。
該研究發現在提示學習場景中使用平均絕對誤差(MAE)損失能顯著提高模型在噪聲資料集上的魯棒性。利用特徵學習理論,本文從理論上證明了 PromptMAE 策略能夠有效減少噪聲樣本的影響,增強模型的魯棒性。
此外,該研究還提出了基於提示的最優傳輸資料淨化方法 PromptOT,透過最佳化傳輸矩陣,精確地將資料集劃分為乾淨和帶噪的子集。
NLPrompt 使用 PromptMAE 和 PromptOT 來處理噪聲標籤,融合了 CE 損失和 MAE 損失的優勢。NLPrompt 充分利用了視覺語言基礎模型的豐富表達能力和精準對齊能力,為存在噪聲標籤的魯棒提示學習提供了一種簡單有效的解決方案。
上海科技大學資訊學院 2023 級博士生潘比康和 2024 級碩士生李群為論文共同第一作者,石野教授為通訊作者。

論文標題:
NLPrompt: Noise-Label Prompt Learning for Vision-Language Models
論文連結:
https://arxiv.org/abs/2412.01256
程式碼連結:
https://github.com/qunovo/NLPrompt

研究背景
視覺語言基礎模型的出現,如CLIP,徹底改變了影像及其文字描述的表示方式,使得兩種模態在同一潛在空間內實現精準對齊。
由於手工提示的敏感性,提示學習已成為微調視覺語言模型的關鍵方法。提示學習透過反向傳播更新可學習的文字提示,由於涉及的引數數量相對較少,通常只有幾千個,因此提供了一種輕量級的解決方案,使模型能夠迅速適配特定任務。
然而,在實際應用中,資料集的標籤並非準確無誤的。標籤錯誤是常見的問題。在大規模資料採集過程中,由於人工標註的失誤、自動標註工具的不準確、或者資料本身的模糊性,都會導致部分標籤錯誤。例如,一張“貓”的影像被標註為”狗“。而錯誤的標籤會嚴重干擾模型的效能。
先前的研究表明提示學習對帶噪的標籤具有一定的彈性。儘管如此,在噪聲條件下采用交叉熵(CE)損失訓練時,模型仍容易過擬合錯誤標籤,從而影響模型最終的預測效果。因此,增強噪聲環境中提示學習的魯棒性仍然是一個關鍵問題。

研究方法
本文提出的 NLPrompt 主要由兩大模組構成——PromptMAE 和 PromptOT。
PromptMAE:魯棒損失的創新應用與理論分析
在噪聲標籤學習領域,平均絕對誤差(MAE)已被確定為傳統訓練正規化中的一種魯棒損失函式。然而,MAE 在訓練過程中往往存在收斂速度慢和效能差的問題,這使得它很少被用作噪聲標籤學習中的分類損失。
然而,我們的研究發現了一個有趣的現象:在提示學習中,相比於傳統的交叉熵(CE)損失,採用 MAE 損失(PromptMAE)能顯著提高模型的魯棒性,保證模型在高噪聲環境下依然保持較高的準確率。
如圖 1 所示,我們在不同的噪聲水平下比較了 CE 損失和 MAE 損失對 CoOp 方法效能的影響。
實驗結果表明,隨著資料集噪聲水平的增加,使用CE損失的模型效能顯著下降,而MAE損失在噪聲資料集上更具魯棒性。即使在大量噪聲存在的情況下,MAE 損失也能保持出色的準確性和較快的收斂性。

為了深入理解 PromptMAE 的魯棒性,我們引入了特徵學習理論,該理論將潛在特徵分為任務相關和任務無關兩部分。透過對基於梯度下降訓練過程中這兩類特徵的動態最佳化進行分析,我們可以獲得關於模型收斂和泛化的重要見解。
結果表明,當任務相關特徵占主導地位時,可以實現魯棒的提示學習。我們的分析表明,PromptMAE可以有效抑制噪聲樣本的影響,從而增強視覺語言模型提示學習的魯棒性。
PromptOT:基於最優傳輸的資料淨化
在噪聲標籤學習領域,一種常見的策略是利用樣本選擇技術對資料集進行清洗,以提升模型在噪聲條件下的表現。例如,傳統的基於最優傳輸(OT)的樣本選擇方法利用隨機初始化的原型來計算從影像特徵到這些原型的最優傳輸矩陣,將特徵和原型之間的相似性作為成本矩陣。
然而,由於這些方法最初並非為提示學習而設計的,因此它們的直接適用性可能會受到限制。為此,我們的目標是充分利用視覺語言基礎模型中的豐富表達能力和精確對齊特性,從而改進資料淨化過程。

本文提出了一種基於提示的最優傳輸資料淨化方法 PromptOT,PromptOT 利用文字特徵作為傳輸矩陣的原型,旨在增強視覺語言基礎模型中提示學習的魯棒性。NLPrompt 演算法透過 PromptOT 將帶噪資料集劃分為“乾淨”和“帶噪”的子集來促進穩健的提示學習。
考慮到交叉熵(CE)損失在乾淨資料集上通常優於 MAE,我們應用 CE 損失來訓練乾淨子集以保證高精度,應用 MAE 損失來訓練帶噪子集以增強魯棒性。
這種雙重策略在 PromptOT 的支援下,有效融合了 CE 損失和 MAE 損失的優勢,在不同的噪聲條件下協調了 CE 和 MAE 損失的強度,從而提升了模型的整體效能。
傳統的基於 OT 的偽標籤方法從隨機初始化原型開始,然後根據影像和這些原型之間的相似性推匯出偽標籤。然而,在視覺語言模型的提示學習中,潛在空間是對齊的,PromptOT 利用提示輸入文字編碼器生成的文字特徵替換隨機初始化的原型。這些文字特徵中嵌入的豐富語義資訊為原型初始化提供了堅實的基礎。
具體來說,OT 問題涉及基於給定的成本矩陣求解傳輸矩陣,同時保持邊緣分佈不變。計算原型和影像特徵之間的相似性,並將得到的相似性矩陣的負對數用作成本矩陣。由於邊緣分佈約束,OT 矩陣的每一列被歸一化後得到影像的偽標籤。
NLPrompt 中的具體計算過程為:
對於影像數量為 的資料集,我們首先使用 CLIP 的預訓練影像編碼器來生成影像特徵矩陣 ,其中 表示潛在空間的維度。
此外,給定資料集的類別集合,我們生成與這些類別相對應的提示,並將提示傳遞給 CLIP 的預訓練文字編碼器,以建立文字特徵矩陣 ,其中 是類別的數量。
接下來,我們計算相似度矩陣 。將該相似性矩陣的負對數用作 OT 問題中的成本矩陣,樣本和類別均為均勻的邊緣分佈。要解決的 OT 問題如下:

其中 表示一個維度為 的全為 1 的向量。根據該公式利用 Sinkhorn 演算法求解出最優傳輸矩陣 ,然後我們對 的每一列採用 Argmax 運算以找到最大值求解出偽標籤:

利用 PromptOT 生成的偽標籤 和資料集的帶噪標籤 將資料集淨化為兩個子集:乾淨資料集 和有噪聲資料集 ,定義如下:

在資料劃分後,NLPrompt 分別對兩個子集採用不同的損失函式進行訓練,對乾淨子集採用 CE 損失以實現高效能,對噪聲子集採用 MAE 損失以增強魯棒性,以綜合利用 CE 損失 MAE 損失的優勢。NLPrompt 的綜合損失為:

其中 表示目標標籤, 表示第 個樣本的輸出相似度。
NLPrompt 利用 OT 巧妙地協調了 CE 和 MAE 損失的優勢,同時充分利用了視覺語言基礎模型在提示學習方面的潛力。首先,我們利用提示學習的文字表示作為強大的初始原型,從而保持全域性標籤的一致性,區別於其它基於預測的方法。
此外,NLPrompt 透過對資料集進行淨化,使得在對噪聲樣本訓練時能夠充分利用 MAE 的魯棒性,而不是對所有樣本統一採用相同的損失函式。這種靈活的策略不僅大大增強了模型在噪聲環境下的魯棒性,也使得我們能夠更好地整合 CE 和 MAE 的優勢,從而整體提升模型效能。

實驗結果
對於合成的帶噪資料集,在不同的噪聲強度下,影像分類任務的準確率如下表所示,驗證了 NLPrompt 在處理提示學習中的噪聲標籤問題上具有有效性和優越性。

在真實世界的帶噪資料集 Food101N 上的結果如下表所示,NLPrompt 優於所有的基準方法。

NLPrompt 的泛化性
NLPrompt 不僅對 CoOp 有效,還可以擴充套件到其它提示調優方法上,如 VPT,MaPLe,PromptSRC,這些方法都是 CoOp 的後續方法。在 EuroSAT 資料集上的實驗結果如下表所示,NLPrompt 顯著提升了各種提示學習方法在面對噪聲標籤問題時的魯棒性,驗證了 NLPrompt 具有強大的泛化能力。

消融實驗
為了評估 NLPrompt 各個組成部分的有效性,我們在 Flowers102 資料集上進行了消融實驗。為了驗證 OT 的有效性,我們設計了兩組實驗:一組不使用 OT 進行資料淨化,另一組使用 OT 進行資料淨化。具體的實驗設計如下:
(a)對所有資料採用交叉熵損失;
(b)對所有資料採用平均絕對誤差損失;
(c)使用隨機初始化的原型代替 CLIP 文字特徵作為初始化原型;
(d)去除噪聲資料,僅對乾淨資料採用交叉熵損失;
(e)去除乾淨資料,僅對噪聲資料採用平均絕對誤差損失。
實驗結果如下表所示,其中平均結果表明(b)優於(a),驗證了我們的 PromptMAE 的有效性。此外,平均結果表明(d)優於(a),(e)優於(b),進一步驗證了 PromptOT 在資料淨化過程中的有效性。
此外,(c)和 NLPrompt 之間的比較突出了文字特徵初始化在我們的方法中的重要性。在所有方法中,NLPrompt 實現了最佳效能,與其他基線方法相比有了顯著改進,進一步驗證了 NLPrompt 各個組成部分的有效性。


結論
在這項研究中,我們透過引入 PromptMAE 和 PromptOT,有效解決了視覺語言基礎模型提示學習中噪聲標籤這一關鍵挑戰。
儘管在傳統的噪聲標籤場景中採用 MAE 損失較為少見,但我們的研究發現,將 MAE 損失應用於提示學習,能夠顯著增強模型的魯棒性並保持高精度。透過特徵學習理論,我們闡明瞭MAE損失如何有效抑制噪聲樣本的影響,從而提升整體魯棒性。
此外,本文引入了基於提示的 OT 資料淨化方法 PromptOT,能夠將帶噪資料集準確地劃分為乾淨資料和噪聲資料子集。在 NLPrompt 中,我們對乾淨資料採用交叉熵損失,對噪聲資料採用 MAE 損失,這種差異化的策略展示了一種簡單且強大的魯棒提示學習方法。
在各種噪聲場景下進行的大量實驗證實了該方法在效能上的顯著提升。NLPrompt 充分利用了視覺語言模型的豐富表達能力和精準對齊能力,為提升現實場景中提示學習的魯棒性提供了一個前景廣闊的解決方案。
更多閱讀

#投 稿 通 道#
讓你的文字被更多人看到
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝 稿件基本要求:
• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標註
• 稿件建議以 markdown 格式撰寫,文中配圖以附件形式傳送,要求圖片清晰,無版權問題
• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬 投稿通道:
• 投稿郵箱:[email protected]
• 來稿請備註即時聯絡方式(微信),以便我們在稿件選用的第一時間聯絡作者
• 您也可以直接新增小編微信(pwbot02)快速投稿,備註:姓名-投稿

△長按新增PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜尋「PaperWeekly」
點選「關注」訂閱我們的專欄吧
·
