點選下方卡片,關注“CVer”公眾號
點選下方卡片,關注“CVer”公眾號
AI/CV重磅乾貨,第一時間送達
AI/CV重磅乾貨,第一時間送達
新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球!可以獲得最新頂會/頂刊上的論文idea和CV從入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!
新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球!可以獲得最新頂會/頂刊上的論文idea和CV從入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!

轉載自:深空探測人工智慧實驗室

近日,ICCV 2025會議論文接收結果出爐!大會共收到了 11239份有效投稿,程式委員會推薦錄用 2699 篇論文,最終錄用率為24%。中國科學技術大學 DSAI Lab 團隊8篇論文被 ICCV 2025錄用,團隊針對深空探測資料稀缺、闇弱光照等挑戰下的可泛化場景感知技術需求,開展了 [三維場景開集分割、可泛化少樣本點雲分割、惡劣環境下二維語義分割、單域泛化目標檢測、影像與點雲配準、自監督點雲預訓練、基於ITOF相機的三維重建、語義感知三維重建」等方面的研究。以下是相關被錄用論文的簡要介紹。
論文題目:SAS: Segment Any 3D Scene with Integrated 2D Priors
作者:Zhuoyuan Li, Jiahao Lu, Jiacheng Deng, Hanzhi Chang, Lifan Wu, Yanzhe Liang, Tianzhu Zhang


簡介:三維模型的開放式詞彙能力越來越受到重視,因為傳統方法中使用固定類別訓練的模型無法識別複雜動態三維場景中未見的物體。在本文中,我們提出了一種簡單而有效的方法 SAS,用於整合多個二維模型的開放詞彙能力,並將其遷移到三維領域。具體來說,我們首先提出透過文字進行模型對齊,以文字為橋樑將不同的二維模型對映到同一嵌入空間。然後,我們提出了無註釋模型能力構建,利用擴散模型明確量化二維模型識別不同類別的能力。然後,在構建模型能力的指導下,融合來自不同二維模型的點雲特徵。最後,透過特徵提煉將整合的二維開放詞彙能力轉移到三維領域。在多個數據集(包括 ScanNet v2、Matterport3D 和 nuScenes)中,SAS 的表現優於之前的方法,同時其通用性在下游任務(如高斯分割和例項分割)中得到了進一步驗證。
論文題目:Generalized Few-Shot Point Cloud Segmentation via LLM-Assisted Hyper-Relation Matching
作者:Zhaoyang Li, Yuan Wang, Guoxin Xiong, Wangkai Li, Yuwen Pan, Tianzhu Zhang

簡介:可泛化少樣本點雲分割(Generalized Few-Shot Point Cloud Segmentation, GFS-3DSeg)任務旨在僅有少量類別標註樣本的條件下,同時對點雲中的基礎類別和新類別進行分割,突破傳統少樣本方法僅限於新類別的限制。然而,現有方法在泛化到新類別時存在顯著效能瓶頸,主要源於兩個核心挑戰:其一,新類別樣本稀缺導致原型特徵不具代表性,難以支撐魯棒的分類;其二,點雲中類間形狀相似性強,在匹配過程中容易發生跨類混淆。這些挑戰使得傳統的原型匹配方法在GFS-3DSeg設定下效果不佳。針對上述問題,本文提出一個統一的解決方案——LLM輔助的超關係匹配框架(LLM-Assisted Hyper-Relation Matching, LARM),同時最佳化原型表徵與匹配策略,顯著提升跨類別泛化能力。具體而言,LARM在表徵階段引入大語言模型輔助模組,透過LLM生成多樣化的類別文字描述,結合CLIP獲得語義特徵,與視覺特徵進行多模態融合,從而構建更魯棒的新類別原型,並透過“文字引導的元特徵選擇”機制藉助基礎類隱含模式進一步增強表示力。在匹配階段,LARM提出超關係匹配策略,用點與多類別原型之間的排序分佈來替代傳統的點對原型一一比較,建模類別間結構關係,從而顯著降低匹配過程對類間形態相似的敏感性。在S3DIS與ScanNet等多個跨域少樣本點雲分割基準上,LARM均取得優於現有方法的表現,在新類別上的提升尤為顯著,驗證了所提框架在特徵泛化與匹配穩健性方面的有效性。
論文題目:Exploring Weather-aware Aggregation and Adaptation for Semantic Segmentation under Adverse Conditions
作者:Yuwen Pan、Rui Sun、Wangkai Li、Tianzhu Zhang



簡介:在惡劣環境下進行語義分割對於實現可靠的視覺感知至關重要。然而,此類極端天氣場景常常伴隨著低對比度和可見度下降等影像失真問題,導致傳統分割模型的效能大幅下降。此外,這類環境下標註資料的稀缺性也使得直接訓練適應性強的模型變得十分困難。為此,研究者提出了無監督域適應(Unsupervised Domain Adaptation, UDA)方法,旨在將來自標註齊全的源域(正常天氣)的知識遷移到無標註的目標域(惡劣天氣)。然而,現有方法在實際應用中仍面臨諸多挑戰,主要包括缺乏天氣感知能力以及特徵異質性問題。許多模型無法充分考慮不同天氣條件所呈現出的獨特特徵,同時源域與目標域之間存在顯著的特徵分佈差異,進一步加劇了遷移學習的難度。為了解決上述問題,我們提出了一種新穎的天氣感知聚合與適應網路,充分利用天氣特徵知識,實現不同天氣條件下的特徵同質化,從而增強場景感知能力。具體而言,我們引入了幅值提示聚合機制,從傅立葉頻域中提取與天氣變化密切相關的關鍵資訊,以捕捉不同天氣下的典型特徵。同時,我們設計了天氣異質性適應模組,用於緩解不同天氣條件間的跨域特徵差異,實現多樣環境下的特徵對齊與統一。在多個具有挑戰性的基準資料集上進行的大量實驗結果表明,本方法在惡劣天氣條件下的語義分割任務中均取得了穩定且顯著的效能提升。
論文題目:Diffusion-based Source-biased Model for Single Domain Generalized Object Detection
作者:Han Jiang, Wenfei Yang, Tianzhu Zhang, Yongdong Zhang

簡介:單域泛化目標檢測旨在基於單個源域訓練目標檢測器,並將其泛化到任何未見過的域。儘管現有的基於資料增強的方法取得了令人鼓舞的結果,但它們忽略了多個增強域之間的域差異,這限制了目標檢測器的效能。為了解決這些問題,我們提出了一種新穎的基於擴散的框架,稱為 SDG-DiffDet,以減輕域差距對目標檢測器的影響。所提出的 SDG-DiffDet 包含一個記憶引導擴散模組和一個源引導去噪模組。具體而言,在記憶引導擴散模組中,我們設計了特徵統計記憶,從區域性部分挖掘多樣化的風格資訊以增強源特徵。增強後的特徵進一步在擴散過程中充當噪聲,使模型能夠捕捉實際域分佈之間的分佈差異。在源引導去噪模組中,我們設計了一個文字引導條件,以促進在去噪過程中從任何未見過的分佈到源分佈的分佈轉移。透過結合這兩個模組,我們的 SDG-DiffDet 設計有效地在統一的擴散框架內對特徵增強和目標到源的分佈轉移進行建模,從而提升了在未知領域中的檢測效能。大量實驗表明,所提出的 SDG-DiffDet 在兩個具有挑戰性的場景中均達到了最先進的效能。
論文題目:CA-I2P: Channel-Adaptive Registration Network with Global Optimal Selection
作者:Zhixin Cheng, Jiacheng Deng, Xinjun Li, Xiaotian Yin, Bohao Liao, Baoqun Yin, Wenfei Yang, Tianzhu Zhang




簡介:影像與點雲配準旨在確定從點雲到相機座標系的剛性變換,涉及影像和點雲的跨模態匹配,隨後透過姿態估計器計算旋轉和平移矩陣。這種配準對於3D重建、SLAM以及視覺定位等任務至關重要。然而,影像是密集的2D網格,而點雲是稀疏且不規則的3D資料,2D編碼器得到的影像特徵與3D編碼器得到的點雲特徵存在顯著的域差異,而這種域差異在通道維度如何縮減是跨模態配準領域尚未解決的挑戰。在本文中,我們提出了具有全域性最優選擇的通道自適應配準網路CA-I2P,旨在在模態內和模態間對通道維度的影像點雲特徵進行增強過濾。具體來說,我們針對兩個關鍵問題進行了創新設計:1)對影像和點雲在通道層面進行增強篩選,提升對於匹配區域的表徵能力 和 2)全域性最佳化影像點雲選取過程,減小跨模態多對一的錯誤對應。針對特徵增強問題,我們設計了通道自適應調節模組(Channel Adaptive Adjustment Module, CAA),在模態內透過差異化設計增強影像和點雲特徵的通道表達,在模態間基於協方差掩蔽融合原始與增強特徵,以同時提升匹配性與保持特徵獨立性。針對選取最佳化問題,我們提出了全域性最優選擇模組(Global Optimal Selection Module, GOS),以全域性視角引入最優傳輸機制替代原先基於餘弦相似度的 Top-k 匹配策略,為每個點分配偽標籤進行線上最佳化,從而有效緩解多對一錯誤匹配,提升影像點雲配準的準確性與魯棒性。在兩個資料集的實驗結果表明,我們的方法有效提升了影像與點雲的配準精度和魯棒性,並具有良好的泛化能力。
論文題目:StruMamba3D: Exploring Structural Mamba for Self-supervised Point Cloud Representation Learning
作者:Chuxin Wang, Yixin Zha, Wenfei Yang, Tianzhu Zhang

簡介:近期,Mamba系列方法透過引入狀態空間模型(State Space Model, SSM)在點雲表示學習任務中表現出色,依靠其高效的上下文建模能力與線性複雜度,取得了令人矚目的成果。然而,現有方法仍面臨兩個關鍵挑戰:其一,SSM在處理過程中破壞了點雲原有的三維鄰接關係;其二,在處理長序列輸入時,模型難以保持穩定的記憶能力,影響了下游任務的效能表現。為了解決上述問題,本文提出了一種新穎的自監督點雲表示學習正規化——StruMamba3D。如下圖所示,StruMamba3D具備以下三大優勢。第一,本文設計了空間狀態(Spatial States),並將其作為代理用於保持點與點之間的空間依賴。第二,結合狀態更新機制與輕量級卷積模組,加強了空間狀態之間的結構建模能力。第三,我們引入序列長度自適應策略,有效緩解了Mamba模型在遷移到不同輸入長度下的效能波動問題。據我們所知,這是首個系統性引入空間結構建模與長度適應機制的Mamba變體,成功將結構建模能力與狀態空間優勢結合。在四個典型點雲下游任務中,StruMamba3D均取得了顯著優於現有方法的效果,並在ModelNet40和ScanObjectNN兩個資料集上分別達到了95.1%與92.75%的最新最優效能,且無需使用投票策略。
論文題目:Learning Neural Scene Representation from iToF Imaging
作者:Wenjie Chang, Hanzhi Chang, Yueyi Zhang, Wenfei Yang, Tianzhu Zhang



簡介:間接飛行時間(Indirect Time-of-Flight,iToF)相機因其高性價比和易用性,在 3D 感知領域廣受歡迎。它們透過發射調製紅外訊號並處理接收訊號來生成振幅和相點陣圖像,並利用調製頻率計算深度。然而,獲得的深度資料常受到多路徑干擾、低信噪比和深度纏繞等因素引起的噪聲困擾。受神經場景表示在多檢視 RGB 影像 3D 建模方面最新進展的啟發,我們提出了一種利用該方法從有噪聲的 iToF 資料重建 3D 表示的方案。我們的方法利用了振幅圖和相點陣圖的多檢視一致性,透過平均所有輸入檢視的資訊來生成準確的場景表示。考慮到紅外照明的影響,我們提出了一種基於符號距離函式的振幅圖新渲染方案,並引入了一個神經照明函式來模擬主動照明引起的外觀變化。我們還結合了相位引導取樣策略和纏繞感知相位到深度損失,以利用原始相位資訊並減輕深度纏繞。此外,我們增加了噪聲權重損失,以防止過度平滑嘈雜的多檢視測量資訊。在合成和真實世界資料集上進行的實驗表明,我們提出的方法優於最先進的技術。
論文題目:ObjectGS: Object-aware Scene Reconstruction and Scene Understanding via Gaussian Splatting
作者:Ruijie Zhu, Mulin Yu, Linning Xu, Lihan Jiang, Yixuan Li, Tianzhu Zhang, Jiangmiao Pang, Bo Dai




簡介:三維高斯潑濺以其高保真重建和即時新穎檢視合成而受到研究者的大量關注。然而,三維高斯缺乏語義理解,限制了其物件級感知。在本研究中,我們提出了 ObjectGS,一個將 3D 場景重建與語義理解統一起來的物件感知框架。ObjectGS 沒有將場景視為一個統一的整體,而是將單個物件建模為區域性錨點,這些錨點生成神經高斯分佈並共享物件 ID,從而實現精確的物件級重建。在訓練過程中,我們會動態地增加或修剪這些錨點並最佳化其特徵,同時使用帶有分類損失的獨熱ID編碼來強制執行明確的語義約束。我們透過大量實驗表明,ObjectGS 不僅在開放詞彙和全景分割任務上的表現優於最先進的方法,而且還能與網格提取和場景編輯等應用程式無縫整合。
ICCV 2025 論文和程式碼下載
ICCV 2025 論文和程式碼下載
CVPR 2025 論文和程式碼下載
CVPR 2025 論文和程式碼下載
CV垂直方向和論文投稿交流群成立
一定要備註:研究方向+地點+學校/公司+暱稱(如Mamba、多模態學習或者論文投稿+上海+上交+卡卡),根據格式備註,可更快被透過且邀請進群
▲掃碼或加微訊號: CVer2233,進交流群
CVer計算機視覺(知識星球)人數破萬!如果你想要了解最新最快最好的CV/DL/AI論文、實戰專案、行業前沿、從入門到精通學習教程等資料,一定要掃描下方二維碼,加入CVer知識星球!最強助力你的科研和工作!
▲掃碼加入星球學習
▲點選上方卡片,關注CVer公眾號
整理不易,請點贊和在看

▲掃碼或加微訊號: CVer2233,進交流群
CVer計算機視覺(知識星球)人數破萬!如果你想要了解最新最快最好的CV/DL/AI論文、實戰專案、行業前沿、從入門到精通學習教程等資料,一定要掃描下方二維碼,加入CVer知識星球!最強助力你的科研和工作!

▲掃碼加入星球學習
▲點選上方卡片,關注CVer公眾號
整理不易,請點贊和在看
