ICCV2025|騰訊優圖實驗室8篇論文入選!AIGC、多模態和人臉等方向

點選下方卡片,關注“CVer”公眾號

AI/CV重磅乾貨,第一時間送達
點選進入—>【頂會/頂刊】投稿交流群

新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球可以獲得最新頂會/頂刊上的論文idea入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!

來源:騰訊優圖實驗室
近日,第20ICCV國際計算機視覺大會(The 20th IEEE/CVF International Conference on Computer Vision (ICCV 2025))公佈了論文錄用結果。ICCV作為計算機視覺領域的頂級學術會議,每兩年舉辦一次,與國際計算機視覺與模式識別會議(CVPR)、歐洲計算機視覺國際會議(ECCV)並稱為計算機視覺領域的三大頂級會議,具有極高的學術影響力。ICCV 2025 將於 10  19日至 25 日在美國夏威夷舉行。
ICCV 2025大會共收到11239份有效投稿,刷新歷史記錄,經過嚴格評審,最終僅接受2698篇論文,錄用率為24%今年,騰訊優圖實驗室共有8篇論文入選ICCV 2025,內容涵蓋風格化人臉識別、AI生成影像檢測、多模態大語言模型等方向,展現了優圖實驗室在人工智慧領域的技術能力與創新突破。
以下為入選論文摘要:
1
Stylized -Face:用於風格化人臉識別的資料集
Stylized-Face: A Million-level Stylized Face Dataset for Face Recognition
Zhengyuan Peng(上海交通大學/優圖實習生),Jianqing Xu,Yuge Huang,Jinkun Hao(上海交通大學), Shouhong Ding,Zhizhong Zhang(上海交通大學), Xin Tan(上海交通大學),Lizhuang Ma(上海交通大學)
風格化人臉識別的任務是識別不同風格領域(例如動漫、繪畫、賽博朋克風格)中具有相同 ID 的生成人臉。這一新興領域在生成影像治理中扮演著至關重要的角色,其主要目標是:識別風格化人臉的 ID 資訊,以檢測潛在的肖像權侵權行為。儘管風格化人臉識別至關重要,但由於缺乏大規模、風格多樣化的資料集,其發展一直受到阻礙。為了彌補這一缺陷,我們推出了 Stylized-Face 資料集,這是第一個專門為風格化人臉識別設計的資料集。Stylized-Face資料集包含 460 萬張影像,涵蓋 6.2 萬個 ID,旨在提升模型在風格化人臉識別任務中的表現。為了確保如此大規模的資料質量,我們實施了一套半自動化的大規模資料清理流程。基於 Stylized-Face 資料集,我們建立了三個基準測試集,用於評估識別模型在不同場景下的魯棒性和泛化能力,包括分佈內效能、跨方法泛化和跨風格泛化,以應對風格化人臉識別的關鍵挑戰。實驗結果表明,在 Stylized-Face 資料集上訓練的模型在風格化人臉識別效能(FAR=1e-4  TAR 提升 15.9%)和泛化能力(跨方法泛化時 FAR=1e-3  TAR 提升 13.3%)方面均取得了顯著提升。
2
AIGI-Holmes:基於多模態大語言模型的可解釋及可泛化的AI生成影像檢測
AIGI-Holmes: Towards Explainable and Generalizable AI-Generated Image  Detection via Multimodal Large Language Models
Ziyin Zhou(廈門大學/優圖實習生),Yunpeng Luo,Yuanchen Wu,Ke Sun(廈門大學),Jiayi Ji(廈門大學),Ke Yan,Shouhong Ding,Xiaoshuai Sun(廈門大學),Yunsheng Wu,Rongrong Ji(廈門大學)
隨著AI生成內容(AIGC)技術的飛速發展,高度逼真的AI生成影像(AIGI)被廣泛濫用,用於傳播虛假資訊,嚴重威脅公共資訊安全。儘管現有的AI生成影像檢測技術普遍效果良好,但仍存在兩大關鍵缺陷:一是缺乏可被人工驗證的解釋依據;二是對新一代基於多模態大模型自迴歸正規化生成的影像存在可能的泛化能力不足問題。為應對這些挑戰,本文構建了大規模綜合資料集 Holmes-Set。該資料集包含兩個核心部分:提供AI影像判定解釋的指令微調資料集 Holmes-SFTSet,以及用於人類對齊偏好的資料集 Holmes-DPOSet。在資料標註方面,本文創新性地提出了“多專家評審機制”。該機制透過結構化多模態大語言模型(MLLM)的解釋來增強資料生成,並採用跨模型評估、專家缺陷過濾與人類偏好修正相結合的方式實現嚴格的質量管控。同時,本文提出了一個名為 Holmes Pipeline 的三階段訓練框架:首先進行視覺專家預訓練,其次進行監督微調(SFT),最後進行直接偏好最佳化(DPO)。該框架旨在使多模態大語言模型(MLLM)適配AI生成影像檢測任務,生成兼具可驗證性和人類認知對齊的解釋,最終訓練出 AIGI-Holmes 模型。在推理階段,本文還引入了協同解碼策略,融合視覺專家模型的感知能力與MLLM的語義推理能力,以進一步增強模型在新資料上的泛化能力。在三大基準測試上進行的廣泛實驗,充分驗證了 AIGI-Holmes 模型的有效性。
3
Fuse Before Transfer: 面向異構蒸餾的知識融合演算法
Fuse Before Transfer: Knowledge Fusion for Heterogeneous Distillation
Guopeng Li(武漢大學/優圖實習生), Qiang Wang,Ke Yan,Shouhong Ding,Yuan Gao(武漢大學),Gui-Song Xia(武漢大學)
當前大多數知識蒸餾(KD)方法受限於TeacherStudent的結構,往往在同構模型中表現優異,而在異構網路之間效果較差。在實際應用中,跨結構知識蒸餾(CAKD)可以將任意結構Teacher的知識遷移至指定的Student,從而顯著提升知識蒸餾的潛力與靈活性。然而,異構模型間固有的歸納偏置差異會導致顯著的特徵鴻溝,這給CAKD帶來了巨大挑戰。為此,我們提出在Teacher知識遷移前進行異構知識融合。該融合機制透過直接整合師生模型的卷積模組、注意力模組和MLP模組來統一異構模型的歸納偏置。進一步研究發現,異構特徵呈現空間分佈異質性,傳統逐畫素MSE損失有效性不足。因此,我們提出採用空間不敏感的InfoNCE損失,在空間平滑處理後進行特徵對齊。本方法在CIFAR-100ImageNet-1K資料集上,針對CNNViTMLP的同構模型及任意異構組合進行了全面評估。蒸餾模型效能提升顯著,在CIFAR-100上最高增益達11.47%,在ImageNet-1K上達3.67%
4
UniCombine:基於擴散模型的統一多條件控制生成演算法
UniCombine: Unified Multi-Conditional Combination with Diffusion Transformer
Haoxuan Wang*(復旦/優圖實習生),Jinlong Peng*,Qingdong He,Hao Yang(上交),Ying Jin(復旦),Jiafu Wu,Xiaobin Hu,Yanjie Pan(復旦), Zhenye Gan,Mingmin Chi(復旦), Bo Peng(上海海洋大學),Yabiao Wang
隨著擴散模型在影像生成領域的快速發展,對更強大且靈活的可控框架的需求日益增長。儘管現有方法能夠超越文字提示進行引導生成,但如何有效結合多種條件輸入並保持對所有條件的一致性仍然是一個未解決的挑戰。為此,我們提出了UniCombine,一種基於DiT的多條件可控生成框架,能夠處理包括但不限於文字提示、空間對映和主體影像在內的任意條件組合。具體而言,我們引入了一種新穎的條件MMDiT注意力機制,並結合可訓練的LoRA模組,構建了training-freetraining-based兩種版本。此外,我們構建並了首個針對多條件組合式生成任務設計的資料集SubjectSpatial200K,涵蓋了主體驅動和空間對齊條件。大量多條件生成的實驗結果表明,我們的方法具有出色的通用性和強大的能力,達到了最先進的效能水平。
論文連結:
https://arxiv.org/pdf/2503.09277
5
LLaVA-KD:一種蒸餾多模態大語言模型的框架
LLaVA-KD: A Framework of Distilling Multimodal Large Language Models
Yuxuan Cai*(華科/優圖實習生),Jiangning Zhang*,Haoyang He(浙大),Xinwei He (華農),Ao Tong (華科),Zhenye Gan,Chengjie Wang(共同通訊),Xuezhucun(浙大),Yong Liu(浙大),Xiang Bai(華科)
大語言模型(LLMs)的成功推動了多模態大語言模型(MLLMs)的發展,旨在實現視覺與語言的統一理解。然而,大規模多模態大語言模型($l$-MLLMs)不斷攀升的模型規模和計算複雜度,限制了其在資源受限場景中的應用。儘管小規模多模態大語言模型($s$-MLLMs)旨在降低計算成本,但其效能往往出現顯著下降。
為緩解這一矛盾,我們提出了創新的LLaVA-KD框架,實現知識從$l$-MLLMs$s$-MLLMs的高效遷移。具體而言:
– **多模態蒸餾(MDist**:跨視覺和語言模態遷移教師模型的魯棒表徵
– **關係蒸餾(RDist**:遷移教師模型捕捉視覺標記間關係的能力
此外,我們設計了三階段訓練正規化以充分釋放蒸餾策略的潛力:
1. **蒸餾預訓練**:強化$s$-MLLMs中視覺語言表徵的對齊
2. **監督微調**:賦予$s$-MLLMs多模態理解能力
3. **蒸餾微調**:精調$s$-MLLMs的知識表徵
該方法在保持模型架構不變的前提下,顯著提升了$s$-MLLMs的效能。大量實驗與消融研究驗證了各元件的有效性。
論文連結:
https://arxiv.org/abs/2410.16236
6
基於對抗增強的掌紋識別的演算法
Unified Adversarial Augmentation for Improving Palmprint Recognition
Jianlong Jin*(合肥工業大學/優圖實習生),Chenglong Zhao*,Ruixin Zhang,Sheng Shang(合肥工業大學/優圖實習生),Yang Zhao(合肥工業大學),Jun Wang(微信支付33號實驗室),Jingyun Zhang(微信支付33號實驗室),Shouhong Ding,Wei Jia(合肥工業大學),Yunsheng Wu
當前掌紋識別模型在受限資料集上表現優異,但在處理存在幾何形變和紋理退化的挑戰性掌紋樣本時仍存在顯著侷限。資料增強技術雖被廣泛採用以提升模型泛化能力,但現有增強方法難以在保持身份一致性的同時生成具有掌紋特異性的多樣化樣本,導致效能提升有限。為此,我們提出一個統一的對抗性增強框架:首先採用對抗訓練正規化進行掌紋識別,透過融入識別網路的反饋來最佳化生成具有挑戰性的增強樣本;其次同步增強幾何形變與紋理變異,具體採用空間變換模組和新型身份保持模組,在維持身份一致性的前提下合成具有豐富紋理變化的掌紋影像;進一步提出動態取樣策略以實現更高效的對抗增強。大量實驗表明,該方法在挑戰性和受限掌紋資料集上均展現出優越效能。
7
從增強到理解:基於語義一致的暗光視覺通用理解增強方法
From Enhancement to Understanding: Build a Generalized Bridge for Low-light Vision via Semantically Consistent Unsupervised Fine-tuning
Sen Wang*(華東師範大學/優圖實習生),Shao Zeng*,Tianjun Gu(華東師範大學),Zhizhong Zhang(華東師範大學),Ruixin Zhang,Shouhong Ding,Jingyun Zhang(微信支付33號實驗室),Jun Wang(微信支付33號實驗室),Xin Tan(華東師範大學),Yuan Xie(華東師範大學),Lizhuang Ma(華東師範大學)
暗光視覺任務中通常將low-level增強和high-level視覺理解分開處理。暗光增強任務旨在提升影像質量以輔助下游任務,但現有方法只依賴物理或幾何先驗,限制了其泛化能力。同時,現有方法的評估主要關注視覺質量,而忽略了下游任務的表現。而暗光視覺理解任務受到標註資料稀缺的限制,通常使用特定任務的域適應方法,缺乏可擴充套件性。為了解決這些挑戰,我們構建了暗光增強與理解之間的通用橋樑,稱為通用理解增強,旨在同時提高方法的泛化能力和可擴充套件性。為了應對暗光退化的多樣化成因,我們利用預訓練生成擴散模型對影像進行最佳化,實現零樣本的泛化效能。在此基礎上,我們提出了語義一致的無監督微調方法。具體而言,為克服文字提示的侷限性,我們引入了一種感知光照的影像提示用於顯式引導影像生成,並提出了一種迴圈注意力介面卡以最大化其語義潛力。為緩解無監督訓練中語義退化的問題,我們進一步提出了“影像描述一致性”和“反射一致性”策略,以學習高階語義和影像級的空間語義。大量實驗證明,我們的方法能夠在影像質量增強和通用理解增強(包括分類、檢測和分割任務)任務中均超過現有方法,達到最先進的效能水平。
8
OracleFusion:基於語義結構視覺化輔助理解甲骨文
OracleFusion: Assisting the Decipherment of Oracle Bone Script with Structurally Constrained Semantic Typography
Caoshuo Li(廈大/優圖實習生),Zengmao Ding(安陽師院),Xiaobin Hu,Bang Li(安陽師院),Donghao Luo,AndyPianWu(數字文化實驗室),Chaoyang Wang(數字文化實驗室),Chengjie Wang,Taisong Jin(廈大),SevenShu(數字文化實驗室),Yunsheng Wu,Yongge Liu(安陽師院),Rongrong Ji(廈大)
甲骨文是最早的古代語言之一,蘊含著古代文明的文化記錄。儘管已發現約 4,500 個甲骨文字元,但只有約 1,600 個被破譯。其餘未破譯的字元結構複雜、意象抽象,對解讀構成重大挑戰。為了應對這些挑戰,本文提出了一種新穎的兩階段語義排版框架 OracleFusion 。在第一階段,該方法利用具有增強空間感知推理 (SAR) 的多模態大型語言模型 (MLLM) 來分析甲骨文字元的字形結構並對關鍵部件進行視覺定位。在第二階段,我們引入甲骨文結構向量融合 ( SOVF ),結合字形結構約束和字形維持約束,以確保準確生成語義豐富的向量字型。這種方法保持了字形結構的客觀完整性,提供了視覺增強的表示,以幫助專家破譯甲骨文。大量的定性和定量實驗表明,OracleFusion 在語義、視覺吸引力和字形維護方面均超越了最先進的基線模型,顯著提升了可讀性和美觀度。此外,OracleFusion 還能為未見的甲骨文字元提供專家級的洞察,使其成為推進甲骨文釋讀的有效工具。
論文連結:
https://arxiv.org/abs/2506.21101

何愷明在MIT授課的課件PPT下載
在CVer公眾號後臺回覆:何愷明,即可下載本課程的所有566頁課件PPT!趕緊學起來!

ICCV 2025 論文和程式碼下載

在CVer公眾號後臺回覆:ICCV2025,即可下載ICCV 2025論文和程式碼開源的論文合

CVPR 2025 論文和程式碼下載

在CVer公眾號後臺回覆:CVPR2025,即可下載CVPR 2025論文和程式碼開源的論文合集
CV垂直方向和論文投稿交流群成立
掃描下方二維碼,或者新增微訊號:CVer2233,即可新增CVer小助手微信,便可申請加入CVer-垂直方向和論文投稿微信交流群。另外其他垂直方向已涵蓋:目標檢測、影像分割、目標跟蹤、人臉檢測&識別、OCR、姿態估計、超解析度、SLAM、醫療影像、Re-ID、GAN、NAS、深度估計、自動駕駛、強化學習、車道線檢測、模型剪枝&壓縮、去噪、去霧、去雨、風格遷移、遙感影像、行為識別、影片理解、影像融合、影像檢索、論文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要備註:研究方向+地點+學校/公司+暱稱(如Mamba、多模態學習或者論文投稿+上海+上交+卡卡),根據格式備註,可更快被透過且邀請進群

▲掃碼或加微訊號: CVer2233,進交流群
CVer計算機視覺(知識星球)人數破萬!如果你想要了解最新最快最好的CV/DL/AI論文、實戰專案、行業前沿、從入門到精通學習教程等資料,一定要掃描下方二維碼,加入CVer知識星球!最強助力你的科研和工作!

掃碼加入星球學習
▲點選上方卡片,關注CVer公眾號
整理不易,請點贊和在看


相關文章