
近日北京大學聯合華中科技大學、亞馬遜公司釋出了一項最新的研究成果:TCPA(Token Coordinated Prompt Attention for Visual Prompting),即一種即插即用的 token 協同提示注意力,透過為不同 token 動態匹配不同提示進行注意力互動,以 3% 的計算開銷,提升高效微調方法對多樣化鑑別性資訊的提取能力。
本文的第一作者為北京大學碩士生劉子宸,本文的通訊作者為北京大學王選計算機研究所研究員、助理教授周嘉歡。
目前該研究已被人工智慧頂會 ICML 2025 正式接收,相關程式碼已開源。

論文標題:
Token Coordinated Prompt Attention is Needed for Visual Prompting
論文連結:
https://arxiv.org/abs/2505.02406
程式碼連結:
https://github.com/zhoujiahuan1991/ICML2025-TCPA
接收會議:
ICML 2025 (CCF A類)
作者單位:
北京大學王選計算機研究所,華中科技大學人工智慧與自動化學院,亞馬遜公司
當前視覺提示學習在高效微調預訓練視覺模型中展現出廣泛潛力,但現有方法普遍忽視 token 間的功能差異,導致特徵表達同質、判別能力受限。
針對這一問題,北京大學研究團隊提出 Token Coordinated Prompt Attention(TCPA),透過引入差異化的提示互動機制,有效提升特徵的多樣性與表達能力。
作為一種即插即用的通用模組,TCPA 在多個主流測試基準上均取得了一致的效能提升,展現出出色的泛化能力與引數效率,為視覺提示學習提供了新的特徵建模思路。

技術背景:視覺提示學習中統一提示機制限制模型表達能力
近年來,預訓練-微調策略已成為深度學習的重要正規化,推動了計算機視覺領域的發展。但隨著模型和資料規模激增,該策略面臨儲存和計算成本高昂的挑戰。
為此,視覺提示學習作為一種高效適配方法,透過在視覺 Transformer 中引入少量可學習提示,無需更新原模型引數,實現預訓練模型在下游任務的高效遷移。
現有視覺提示方法主要有兩類:一種是在輸入層新增提示,引導模型關注關鍵區域;另一種是在 Transformer 各層引入提示 token,持續增強特徵提取。
儘管成效顯著,這些方法通常對所有 token 採用相同提示,忽視了 CLS token 與影像 token 功能及判別資訊的差異,導致不同 token 關注的區域趨同,限制了視覺 Transformer 的表達能力。


方法簡介:Token協同提示注意力,促進多樣化鑑別性資訊提取
為解決上述問題,本文提出了一種即插即用的模組—— token 協同提示注意力(Token Coordinated Prompt Attention,TCPA)。
該模組為不同 token 分配具針對性的協同提示,實現更精細的基於注意力的互動,使每個提示都能在判別性與完整性資訊的提取中發揮作用。
2.1 CLS和Image Token間的協同注意力
考慮到 CLS token 用於聚合全域性資訊,而影像 token 側重於區域性特徵提取,我們設計了專門對應 CLS token 和影像 token 的 CLS 提示與影像提示,並在 Transformer 的注意力模組中分別與其獨立互動,從而提升所提取特徵的判別能力。
2.2 不同Image Token間的協同注意力
由於不同影像 token 對應的影像區域各異、所需提取的資訊不同,我們進一步將 CLS 提示與影像提示分別擴充套件為 CLS 提示池和影像提示池,每個池中包含多個提示。系統可為每個 token 自動分配最合適的協同提示,進而提升特徵中的判別資訊多樣性。


實驗結果
在 HTA 測試基準上的結果顯示,在引入 TCPA 後,DAMVP 在十個資料集上的整體平均效能提升了 1.4%。
類似的效能增益也在其他方法中得到驗證:VP+TCPA 在十個資料集上提升 0.9%–2.8%,VPT+TCPA 提升0.2%–2.2%,AutoVP+TCPA 提升 0.6%–3.1%,VFPT+TCPA 也獲得了 0.5%–2.0% 的效能提升。
這一效果主要得益於 TCPA 對 CLS token 與影像 token 在功能角色和注意力機制中差異的顯式建模,使得提示的使用更加精細化,從而更充分地學習下游任務相關知識,並提升判別資訊的提取能力,最終有效推動模型效能提升。


應用價值
本工作提出的 TCPA 具備以下幾方面的重要應用價值:
-
輕量可插拔,部署友好:無需更改原有模型結構,能夠靈活集成於主流視覺提示框架中,降低了實際部署成本;
-
資源友好,適合邊緣裝置:透過提升特徵判別力、減少冗餘互動,有效降低計算與儲存開銷,適合資源受限的裝置與應用環境;
-
具備工程推廣潛力:對已有提示方法進行增強,易於在工業界模型遷移與快速部署中落地實施。

未來展望
面向未來,TCPA 模組在以下幾個方向具有廣闊的研究與拓展空間:
-
拓展至多模態任務:可進一步應用於圖文匹配、視覺問答等跨模態場景,增強不同模態間的語義對齊;
-
融合引數高效化技術:探索與 LoRA、提示壓縮等技術的結合,在保證效能的同時進一步減小模型體積;
-
向通用視覺學習拓展:未來可將該機制推廣至開放域識別與增量學習任務,推動視覺提示學習朝著更智慧、更高效的方向發展。
更多閱讀

#投 稿 通 道#
讓你的文字被更多人看到
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝 稿件基本要求:
• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標註
• 稿件建議以 markdown 格式撰寫,文中配圖以附件形式傳送,要求圖片清晰,無版權問題
• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬 投稿通道:
• 投稿郵箱:[email protected]
• 來稿請備註即時聯絡方式(微信),以便我們在稿件選用的第一時間聯絡作者
• 您也可以直接新增小編微信(pwbot02)快速投稿,備註:姓名-投稿

△長按新增PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜尋「PaperWeekly」
點選「關注」訂閱我們的專欄吧
·
