AI/CV重磅乾貨,第一時間送達
點選進入—>【頂會/頂刊】投稿交流群
AI/CV重磅乾貨,第一時間送達
點選進入—>【頂會/頂刊】投稿交流群
新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球!可以獲得最新頂會/頂刊上的論文idea和入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!
新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球!可以獲得最新頂會/頂刊上的論文idea和入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!
來源:西安電子科技大學IPIU智慧感知與影像理解


近日,第20屆ICCV國際計算機視覺大會(The 20th IEEE/CVF International Conference on Computer Vision (ICCV 2025))公佈了論文接收結果,實驗室共有10篇論文被ICCV 2025錄用,第一作者分別是何佩博士(導師:焦李成教授),吳兆陽博士生(導師:劉芳教授),緱雪健碩士生(導師:劉芳教授),王鑫碩士生(導師:緱水平教授),閔聿寬博士生(導師:鄧成教授),朱宜航博士生(導師:鄧成教授),慕晨宇碩士生(導師:鄧成教授,楊二昆副教授),石光輝博士生(導師:梁雪峰教授),杜瑞琦博士生(導師:唐旭教授)及馮明濤副教授。論文簡要介紹如下:

論文1
論文題目:Domain-aware Category-level Geometry Learning Segmentation for 3D Point Clouds
論文作者:何佩,李玲玲,焦李成,尚榮華,劉芳,王爽,劉旭,馬文萍
作者單位:西安電子科技大學
論文概述:三維場景分割中的域泛化是將模型部署到未知環境的關鍵挑戰。當前的方法透過增強點雲的資料分佈來緩解領域偏移。然而,模型學習點雲中的全域性幾何模式,忽略了類別級的分佈和對齊。本文提出了一個類別級幾何學習框架,用於探索領域不變的幾何特徵,以實現域泛化的三維語義分割。具體而言,提出類別級幾何嵌入感知點雲特徵的細粒度幾何屬性,構建每個類別的幾何屬性,並將幾何嵌入與語義學習耦合。其次,提出幾何一致性學習模擬潛在的三維分佈並對齊類別級幾何嵌入,使模型關注幾何不變資訊,從而提高泛化能力。實驗結果驗證了所提出方法的有效性,與現有的域泛化三維場景分割方法相比,該方法具有競爭力的分割精度。

論文2
論文題目:Hierarchical Variational Test-Time Prompt Generation for Zero-Shot Generalization
論文作者:吳兆陽,劉芳,焦李成,李碩,李玲玲,劉旭,陳璞華,馬文萍
作者單位:西安電子科技大學
論文概述:現有的如 CLIP 這樣的視覺語言模型已經展現出強大的零樣本泛化能力,這使得它們能夠透過提示學習在各種下游任務中發揮作用。然而,現有的測試時提示調整方法(例如熵最小化)將文字和視覺提示視為固定的可學習引數,限制了它們對未知領域的適應性。為此,我們提出了分層變分測試時提示生成方法,其中文字和視覺提示均透過 Hyper Transformer 在推理時動態生成。這使得模型能夠為每種模態生成特定於資料的提示,從而顯著提升泛化能力。為了進一步解決模板敏感性和分佈偏移問題,我們引入了變分提示生成方法,利用變分推理來減輕不同提示模板和資料增強引入的偏差。此外,我們的分層變分提示生成方法在每一層上都對來自前一層的提示進行條件提示,從而使模型能夠捕捉更深層次的上下文依賴關係,並最佳化提示互動以實現穩健的自適應。在領域泛化基準上進行的大量實驗表明,我們的方法明顯優於現有的即時學習技術,在保持效率的同時實現了最先進的零樣本準確率。

論文3
論文題目:Knowledge-Guided Part Segmentation
論文作者:緱雪健,劉芳,焦李成,李碩,李玲玲,王浩,劉旭,陳璞花,馬文萍
作者單位:西安電子科技大學
論文概述:在現實世界中,物體及其各個組成部分不僅存在明顯的整體差異,還具有複雜而精細的結構關係。如何讓計算機像人類一樣理解和分割這些細粒度的部件,是計算機視覺領域的重要挑戰。傳統的語義分割方法大多關注於物體整體的粗粒度資訊,能夠較好地區分大範圍的物體區域,但在需要識別和分割物體內部具體部件時,常常表現出不足。現有方法往往將每個部件視為獨立的類別,忽視了部件之間的結構性聯絡以及與物體整體的關係,導致對複雜結構的理解不夠深入,無法滿足實際應用中對精細識別的需求。
針對這一問題,我們提出了一種知識引導的部件分割(KPS)新框架。該方法的核心思想是:像人類認知一樣,先整體把握物體類別,再深入分析其內部各部件之間的結構關係。具體來說,我們首先利用大語言模型自動抽取物體部件之間的結構知識,並將這些關係構建成知識圖譜。然後,透過結構知識引導模組,將知識圖譜中的結構資訊嵌入到分割模型的特徵表達中,從而為部件分割提供結構性指導。同時,我們還設計了粗粒度物體引導模組,用於捕捉和利用物體層面的整體區分特徵,進一步增強分割模型對不同物體類別的感知能力。透過將結構性知識與視覺特徵有機結合,我們的方法能夠更好地理解部件之間的關聯和物體的整體特徵,在複雜場景下實現更加準確和細緻的部件分割。

論文4
論文題目:TopicGeo: An Efficient Unified Framework for Geolocation
論文作者:王鑫,王新林,緱水平
作者單位:西安電子科技大學
論文概述:在小尺度的查詢影像與大量大尺度的地理參考影像之間建立空間對應關係的視覺地理定位技術已受到廣泛關注。現有方法通常採用“先檢索再匹配”的分離正規化,但該正規化存在計算效率低或精度受限的問題。為此,我們提出了一個統一的檢索匹配框架TopicGeo,透過三項關鍵創新實現查詢影像與參考影像的直接且精確匹配。首先我們將透過CLIP提示學習和語義蒸餾提取的文字物件語義(稱為Topic即主題)嵌入地理定位框架,以消除多時相遙感影像中類內與類間的分佈差異,同時提升處理效率。然後基於中心自適應標籤分配與離群點剔除機制作為聯合“檢索-匹配”最佳化策略,確保了任務一致的特徵學習與精確的空間對應關係。我們還引入了多層次的精細匹配流程,以進一步提升匹配的質量和數量。在大規模的合成與真實資料集上的評估表明,TopicGeo在檢索召回率和匹配精度方面均具有較好的效能,同時保持了良好的計算效率。

論文5
論文題目:Vision-Language Interactive Relation Mining for Open-Vocabulary Scene Graph Generation
論文作者:閔聿寬,楊木李,張瑾浩,王宇宣, 武阿明,鄧成
作者單位:西安電子科技大學
論文概述:為了促進場景理解在現實世界中的應用,開放詞彙場景圖生成(OV-SGG)近年來備受關注,旨在突破訓練過程中標註的有限關係類別的限制,並在推理過程中發現那些未知的關係。針對開放詞彙場景圖生成,一個可行的解決方案是利用包含豐富類別級內容的大規模預訓練視覺語言模型(VLM)來捕捉影像與文字之間的精確對應關係。然而,由於VLM缺乏二次關係感知知識,直接使用基礎資料集中的類別級對應關係無法充分表徵開放世界中的廣義關係。因此,設計一個有效的開放詞彙關係挖掘框架極具挑戰性且意義重大。為此,我們提出了一種基於OV-SGG的視覺語言互動關係挖掘模型(VL-IRM),該模型探索透過多模態互動學習廣義關係感知知識。具體來說,首先,為了增強關係文字與視覺內容的泛化能力,我們提出了一個關係生成模型,使文字模態能夠探索基於視覺內容的開放式關係。然後,我們利用視覺模態引導關係文字進行空間和語義擴充套件。該方法成功地將現有VLM應用於場景圖生成任務,並適應廣泛的關係類別。在多個數據集上的實驗表明,我們的方法具有較好的效能和實際應用價值。

論文6
論文題目:VGMamba: Attribute-to-Location Clue Reasoning for Quantity-Agnostic 3D Visual Grounding
論文作者:朱宜航,張瑾皓,王宇宣,武阿明,鄧成
作者單位:西安電子科技大學
論文概述:作為具身智慧的重要方向,三維視覺定位任務近年來廣受關注,其旨在識別與給定語言描述相匹配的三維物體。現有大多數方法採用兩階段流程,即先生成候選物體框,然後再根據與語言查詢的相關性篩選出目標物體。然而,當查詢語義複雜時,僅憑抽象的語言特徵難以精準定位對應物體,導致定位效能下降。通常,人類在定位特定物體時,往往會綜合利用物體屬性和空間位置資訊兩類線索。受此啟發,本文提出一種新穎的屬性到位置線索推理機制,以提升三維視覺定位任務的精度。具體來說,我們設計了 VGMamba 網路,其由基於奇異值分解的屬性 Mamba、位置 Mamba 以及多模態融合 Mamba 三部分組成。該網路以三維點雲場景與語言查詢為輸入,首先對提取到的特徵進行 SVD 分解,然後透過滑動視窗操作捕獲物體的屬性特徵;接著利用位置 Mamba 提取空間位置資訊;最後透過多模態 Mamba 實現特徵融合,精準定位與查詢描述相符的目標物體。在多個公開資料集上的實驗證明,我們的方法具有較好的效能和實際應用價值。

論文7
論文題目:Meta-Learning Dynamic Center Distance: Hard Sample Mining for Learning with Noisy Labels
論文作者:慕晨宇,瞿依俊,閆傑熹,楊二昆,鄧成
作者單位:西安電子科技大學
論文概述:樣本選擇方法是一種廣泛採用的帶有噪聲標籤的學習策略,其中損失較小的樣本在訓練過程中被有效地視為乾淨的。然而,這個乾淨的集合經常被簡單的例子所主導,限制了模型對更具挑戰性的案例的有意義的暴露,並降低了它的表達能力。為了克服這一限制,我們引入了一種稱為動態中心距離(DCD)的新度量,它可以量化樣本難度,並提供關鍵補充損失值的資訊。與依賴於預測的方法不同,DCD是在特徵空間中作為樣本特徵和動態更新中心之間的距離計算的,透過提出的元學習框架建立。在捕獲基本資料模式的初步半監督訓練的基礎上,我們結合DCD來進一步細化分類損失,降低分類良好的示例的權重,並戰略性地將訓練集中在一組稀疏的硬例項上。這種策略防止簡單的例子支配分類器,從而導致更健壯的學習。跨多個基準資料集的廣泛實驗,包括合成和真實世界的噪聲設定,以及自然和醫學影像,一致地證明了我們的方法的有效性。

論文8
論文題目:Learning Separable Fine-Grained Representation via Dendrogram Construction from Coarse Labels for Fine-grained Visual Recognition
論文作者:石光輝,梁雪峰,李文傑,林笑宇
作者單位:西安電子科技大學
論文概述:在生物多樣性監測、物種保護等關鍵領域,細粒度視覺識別(FGVR)對區分高度相似的物種至關重要,但其廣泛應用卻受限於昂貴且耗時的精細標註。因此,從粗標籤中學習細粒度表徵以實現FGVR是一項具有挑戰性與價值的任務。早期的方法主要關注最小化細粒度類別類內方差,但忽視了細粒度類別之間的可分性,致使FGVR效能受限。後續研究採用自上而下的正規化,透過深度聚類增強可分性,但這些方法需要預定義細粒度類別的數量,無法適應類別動態變化的現實場景(如新物種發現)。據此,我們提出一種自下而上的學習正規化,透過迭代地合併相似的例項/聚類簇,構建層次化的樹狀圖,從最低階的例項中推斷出更高層次的語義,無需預定義類別數量。我們提出了BuCSFR方法,其包含自底向上構建(BuC)模組,該模組基於最小資訊損失準則構建樹狀圖;以及可分細粒度表徵(SFR)模組,該模組將樹狀圖節點視為偽標籤,來確保細粒度表徵的可分性。兩個模組基於期望最大化(EM)框架,相互促進,協同工作。該方法使模型能自適應動態變化的語義結構(如物種演化),在僅使用粗標籤條件下,實現無需先驗類別數量的可分離細粒度表徵學習,並在五個基準資料集上驗證了方法的有效性。

論文9
論文題目:Category-Specific Selective Feature Enhancement for Long-Tailed Multi-Label Image Classification
論文作者:杜瑞琦,唐旭,張向榮,馬晶晶
作者單位:西安電子科技大學
論文概述:由於現實世界中的多標籤資料普遍存在嚴重的標籤不平衡問題,長尾多標籤影像分類已成為計算機視覺領域的一個研究熱點。傳統觀點認為,深度神經網路的分類器更容易受到長尾分佈的影響,而特徵提取的主幹網路相對更為穩健。然而,我們從特徵學習的角度出發,發現主幹網路在應對樣本稀缺類別時雖然仍具備較強的區域定位能力,但喪失了相應類別的敏感性。基於這一觀察,我們提出了一種用於長尾多標籤影像分類的類別特異選擇性特徵增強模型。該方法首先利用主幹網路所保留的定位能力生成標籤相關的類啟用圖;隨後,引入一種漸進式注意力增強機制,按從頭部類別到中部類別再到尾部類別的順序逐步增強低置信度類別的響應;最後,基於最佳化後的類啟用圖提取判別性視覺特徵,並融合語義資訊完成分類任務。在兩個基準資料集上進行的大量實驗證明了我們方法在長尾多標籤場景下良好的泛化能力和分類表現。

特徵學習分析結果

方法流程圖
論文10
論文題目:Partially Matching Submap Helps: Uncertainty Modeling and Propagation for Text to Point Cloud Localization
論文作者:馮明濤,梅龍龍,武子傑,羅建橋,田豐豪,馮婕,董偉生,王耀南
作者單位:西安電子科技大學,湖南大學
論文概述:基於任務指令到城市級別的大規模點雲跨模態定位是未來人機協作中的關鍵視覺-語言任務。現有框架通常假設每個指令文字嚴格對應於區域三維地圖的中心區域,這限制了其在真實場景中的適用性。本研究針對現實噪聲場景的假設重新定義該任務,透過允許指令文字與區域三維地圖形成部分空間匹配對,放寬了一對一對齊的限制。為此,我們在精細位置迴歸中建模跨模態歧義性,透過引入表徵為高斯分佈的不確定性分數來緩解困難樣本的影響。此外,我們提出不確定性感知相似性度量函式,將不確定性傳播至區域三維場景識別階段,從而提升指令文字與區域三維場景地圖的相似性評估質量,該方法不僅能促使模型學習三維場景判別性特徵,還能有效處理真實場景部分對齊樣本並增強任務協同性。在多個數據集上的實驗表明,我們的方法具有較好的效能和實際應用價值。


CVPR 2025 論文和程式碼下載
CVPR 2025 論文和程式碼下載
ECCV 2024 論文和程式碼下載
ECCV 2024 論文和程式碼下載
CV垂直方向和論文投稿交流群成立
一定要備註:研究方向+地點+學校/公司+暱稱(如Mamba、多模態學習或者論文投稿+上海+上交+卡卡),根據格式備註,可更快被透過且邀請進群
▲掃碼或加微訊號: CVer2233,進交流群
CVer計算機視覺(知識星球)人數破萬!如果你想要了解最新最快最好的CV/DL/AI論文、實戰專案、行業前沿、從入門到精通學習教程等資料,一定要掃描下方二維碼,加入CVer知識星球!最強助力你的科研和工作!
▲掃碼加入星球學習
▲點選上方卡片,關注CVer公眾號
整理不易,請點贊和在看

▲掃碼或加微訊號: CVer2233,進交流群
CVer計算機視覺(知識星球)人數破萬!如果你想要了解最新最快最好的CV/DL/AI論文、實戰專案、行業前沿、從入門到精通學習教程等資料,一定要掃描下方二維碼,加入CVer知識星球!最強助力你的科研和工作!

▲掃碼加入星球學習
▲點選上方卡片,關注CVer公眾號
整理不易,請點贊和在看
