WWW2025|資料洪流→資料精煉:北理工等提出高效文字行人檢索新正規化

任務背景以及 Motivation
隨著深度視覺-語言預訓練的飛速發展,文字驅動的行人檢索(Text-based Person Search)已成為公共安全與智慧監控領域的熱門方向。
然而,現有方法為了解決隱私保護和繁瑣的人工標註,往往在大規模合成數據集進行預訓練與微調。儘管理論上合成數據的數量是無限的仍面臨兩大核心挑戰:
(1)資料冗餘:海量合成的行人影像文字對雖可無限擴增,但噪聲多、對齊差,使效能提升邊際效益遞減;
(2)訓練龐大:全模型預訓練+微調引數量超兩億,訓練時長長、算力負擔重。
針對上述難題,北京理工大學、澳門大學與新加坡國立大學研究團隊聯合提出 Filtering-WoRA 正規化,首次從“資料精煉+輕量微調”雙輪發力,實現無需全量訓練的高效行人檢索:
論文標題:
From Data Deluge to Data Curation: A Filtering-WoRA Paradigm for Efficient Text-based Person Search
論文連結:
https://dl.acm.org/doi/10.1145/3696410.3714788
專案主頁:
https://github.com/JT-Sun/Filtering-WoRA
主要創新
雙階段資料過濾:基於 BLIP-2 跨模態檢索能力,先在 1.51M 合成數據集 MALS 的影像文字對上按相似度 ­top50 剔除了 21% 噪聲,構建 1.19M 的 Filtered-MALS 資料集用於預訓練;再在 CUHK-PEDES 資料集真實對上剔除 10%,得到更純淨的微調集。
Weighted Low-Rank Adaptation(WoRA):為了減少模型引數並提高計算速度,我們選擇凍結部分預訓練中的權重,透過最佳化在自適應過程中發生變化的秩分解矩陣,間接訓練神經網路中的一些密集層。
在 LoRA 低秩分解基礎上引入可學習標量 α、β,同時調控預訓練權重與低秩增量的幅度與方向,以便於修改權重矩陣和秩分解矩陣。
核心技術解析
▲ 框架概述
Filtering-WoRA 正規化:首先應用我們的資料過濾方法得到過濾後的訓練影像-文字對。然後,我們根據關鍵詞將文字擴充為屬性文字。我們透過影像編碼器、文字編碼器和交叉編碼器提取相應的特徵訓練文字-影像匹配和屬性-影像匹配任務總共六個損失目標。
由於影像編碼器消耗了大部分的 GPU 記憶體和時間。因此在影像編碼器之中我們應用了 WoRA 方法,將預訓練的權重分解為幅度和方向分量,並在 LoRA 的基礎上同時新增 alpha 和 beat 兩個可學習引數,從而達到更新幅度和方向分量。
框架的核心技術主要集中在兩個方面:
1. 兩階段資料過濾(Filtering)
問題:海量合成的行人影像文字資料集存在冗餘和噪聲。
方案:構建兩階段資料過濾架構,在預訓練和微調階段分別提取每對圖文的自相似度與干擾相似度,基於特點閾值保留高質量行人影像文字對,提升信噪比。
▲ 資料過濾過程
我們首先使用 Blip-2 從輸入的影像文字對(I,T)和干擾文字 TC(CUHK-PEDES)中提取特徵。接下來,我們計算相似度並對結果進行相應的排序,最終生成過濾後的資料集。
資料過濾的視覺化。影像左側部分顯示了經過我們的篩選策略後保留的高質量影像及其對應的紅色文字描述,而右側的人物影像則表示被過濾掉的低質量影像文字對,這些文字對超過了閾值。
效果:在預訓練階段,從 MALS 資料集中篩選出 79% 高質量資料;在微調階段,從 CUHK – PEDES 資料集中篩選出 90% 高質量資料,有效去除噪聲資料,提升資料質量和訓練效率。
2. 加權低秩適配(WoRA)
問題:TBPS 透過大規模合成數據集的預訓練-微調正規化存在計算成本高,訓練引數過多的情況。
方案:受 LoRA 和 DoRA 啟發,引入新的可學習引數 α 和 β,透過調整預訓練權重的幅度和方向進行高效微調。下面是 WoRA 的公式表達:
LoRA、DoRA 和我們提出的 WoRA 的直觀比較,我們只需要小幅度的 BA 變化即可達到所需效果。
我們在 WoRA 中應用了兩個可學習引數,即 α 和 β,它們可以有效地調整向量,並提供更好的靈活性。
效果:相比 LoRA 和 DoRA,WoRA 學習效能更優,雖訓練時間略長,但提升效果明顯,且空間複雜度與 DoRA 相同。WoRA 僅更新極少引數,即可靈活實現正/負相關與幅度微調,大幅縮減微調開銷。
實驗結果
我們的 Filtering-WoRA 方法與最近方法的效能和引數比較。可以看到我們的方法在保持模型 Recall@1 效能的同時大大縮減了模型引數。
1. 定量結果:
下面是應用我們的 Filtering-WoRA 正規化在三個資料集 CUHK-PEDES,RSTPReid,和 ICFG-PEDES 上面取得的定量結果:
檢索效能:CUHK-PEDES Recall@1 75.42%→76.38%(↑0.96%),mAP 66.61%→67.22%(↑0.61%)在 RSTPReid 與 ICFG-PEDES 同樣取得或超越現有 SOTA 水平。
與 APTM 方法在 CUHK-PEDES、RSTPReid 和 ICFG-PEDES 資料集上的召回率 @1 和 mAP 結果進行了比較。同時,我們還比較了模型的資料量、引數(M)和 Flops(G)。
2. 訓練效率:預訓練 + 微調總時長由 23h 降至 18h,節省 19.82%;
3. 資源消耗:引數量 214M → 127M(↓41%),FLOPs 38G → 23G(↓39%);
4. 視覺化:
使用我們的方法進行文字查詢的定性人物搜尋結果,根據匹配機率從左到右按降序排列。綠色框中的影像為正確匹配,紅色框中的影像為錯誤匹配。綠色文字表示我們的結果匹配成功。
總結與未來方向
Filtering-WoRA 打破大規模合成與全模型微調的瓶頸,實現了更少資料 + 更少引數 + 更高精度的行人檢索新正規化。未來可繼續探索:
  • 動態閾值選擇策略,實現對不同資料分佈的自適應過濾;
  • 擴充套件其他大規模預訓練-微調任務,如屬性識別、姿態估計、結合大模型等。
更多閱讀
#投 稿 通 道#
 讓你的文字被更多人看到 
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。 
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析科研心得競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝 稿件基本要求:
• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標註 
• 稿件建議以 markdown 格式撰寫,文中配圖以附件形式傳送,要求圖片清晰,無版權問題
• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬 投稿通道:
• 投稿郵箱:[email protected] 
• 來稿請備註即時聯絡方式(微信),以便我們在稿件選用的第一時間聯絡作者
• 您也可以直接新增小編微信(pwbot02)快速投稿,備註:姓名-投稿
△長按新增PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜尋「PaperWeekly」
點選「關注」訂閱我們的專欄吧
·


相關文章