點選下方卡片,關注“CVer”公眾號
AI/CV重磅乾貨,第一時間送達
AI/CV重磅乾貨,第一時間送達
新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球!可以獲得最新頂會/頂刊上的論文idea和入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!
新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球!可以獲得最新頂會/頂刊上的論文idea和入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!

轉載自:華中科技大學VLRLab實驗室
第20屆ICCV國際計算機視覺大會論文錄用結果近日揭曉,華中科技大學VLRLab實驗室共11篇論文被ICCV 2025錄用。
ICCV,英文全稱International Conference on Computer Vision,中文全稱國際計算機視覺大會,這個會議是由IEEE主辦的全球最高級別學術會議,每兩年在世界範圍內召開一次,在業內具有極高的評價。ICCV 2025將於2025年10月19日-10月23日在美國夏威夷舉辦,ICCV 2025 共有11239 份投稿,錄用2698篇,錄取率為24%。實驗室錄用論文簡要介紹如下(按第一作者姓氏首字母排序):
Part1
LLaVA-KD: A Framework of Distilling Multimodal Large Language Models
簡介:大語言模型(LLMs)的成功推動了多模態大模型(MLLMs)在視覺與語言統一理解方面的發展。然而,大規模多模態模型(l-MLLMs)日益增長的模型規模與計算複雜度,限制了其在資源受限場景中的應用。儘管小規模多模態模型(s-MLLMs)能夠降低計算開銷,但往往面臨效能下降的問題。為緩解這一限制,本文提出了一種新穎的LLaVA-KD框架,將l-MLLMs的知識遷移到s-MLLMs。具體而言,我們引入了多模態蒸餾(MDist)以傳遞教師模型在視覺和語言模態下的魯棒表徵,以及關係蒸餾(RDist)以傳遞教師模型捕捉視覺token間關係的能力。此外,本文提出了三階段訓練方案,以充分發揮所提蒸餾策略的潛力:1)蒸餾預訓練,增強s-MLLMs中視覺-語言表徵的對齊;2)有監督微調,賦予s-MLLMs多模態理解能力;3)蒸餾微調,進一步最佳化s-MLLM的知識。我們的方法在不改變模型結構的前提下,顯著提升了s-MLLMs的效能。大量實驗和消融研究驗證了各個元件的有效性。
該論文第一作者是博士生蔡雨萱,指導老師:白翔、何新衛,其他合作者:張江寧,何昊陽,童奧,甘振業,汪鋮傑,薛竹村,劉勇。

Part2
ORION: A Holistic End-to-End Autonomous Driving Framework by Vision-Language Instructed Action Generation
簡介:受限於因果推理能力有限,端到端(E2E)自動駕駛方法在閉環評估中仍然難以做出正確的決策。目前的方法試圖藉助視覺 – 語言模型(VLMs)強大的理解和推理能力來解決這一困境。然而,由於VLM推理空間的語義特徵和動作空間中純粹數值表示之間存在差距,導致很少有適用於E2E方法的VLMs能在閉環評估中表現出色。為解決這一問題,本文提出了ORION,透過視覺-語言指導的動作生成實現端到端自動駕駛框架。ORION結合了QT-Former來提取場景資訊,大型語言模型(LLM)用於駕駛場景推理,生成式規劃器用於精確軌跡預測。ORION進一步使推理空間和動作空間對齊,以實現視覺問答(VQA)和規劃任務的統一端到端最佳化。本文的方法在Bench2Drive資料集上實現了卓越的閉環效能,駕駛得分為77.74,成功率為54.62%,相較於最先進的(SOTA)方法,分別以14.28的駕駛得分和19.61%的成功率的巨大優勢領先。
該論文第一作者是碩士生付好宇,指導老師:白翔,其他合作者:張點堃、趙宗闖、梁定康。

Part3
Multi-scenario Overlapping Text Segmentation with Depth Awareness
簡介:在OCR研究領域,重疊文字對文字相關感知任務構成顯著挑戰,現有研究多侷限於文件場景,難以適用於多場景需求。為此,本文提出多場景重疊文字分割新任務,構建覆蓋印刷文字、藝術設計等多場景的資料集,並設計分層訓練資料合成策略HSOT,以模擬多樣化重疊模式。同時,基於深度圖能提供三維空間相對位置關係的洞察,提出深度引導解碼器,透過融合影像與深度特徵捕捉複雜重疊互動。實驗表明,該模型在多場景重疊文字分割中表現優異,有效提升了模型對重疊文字的理解與分割能力,為解決多場景重疊文字問題提供了新思路。
該論文第一作者是碩士生劉洋,指導老師:劉禹良、白翔,其他合作者:謝旭東。

Part4
LIRA: Inferring Segmentation in Large Multi-modal Models with Local Interleaved Region Assistance
簡介:在多模態理解與分割任務中,當前多模態大模型仍面臨兩大挑戰:目標分割不準確與描述內容幻覺。為此,本文提出LIRA框架,基於視覺理解與畫素級分割之間的互補關係,透過兩個關鍵元件提升模型效能:(1)語義增強特徵提取器(SEFE),融合高層語義與畫素特徵,顯著提升了屬性推理與分割精度;(2)區域性交錯視覺耦合機制(ILVC),結合分割區域提取區域性特徵並生成對應描述,實現區域級顯式監督,緩解幻覺問題。實驗證明,LIRA在分割與理解任務中均取得了SOTA效能,為多模態模型的語義對齊與精細分割提供了新正規化。
該論文第一作者是碩士生李長,指導老師:劉禹良、白翔,其他合作者:楊彪、張朔、馬智寅、尹亮、鄧菱兒。

Part5
Describe, Adapt and Combine: Empowering CLIP Encoders for Open-set 3D Object Retrieval
簡介:本文聚焦於3D模型檢索領域的前沿問題,提出了一種基於大規模預訓練模型CLIP的輕量級適配框架——DAC,旨在解決開放場景下3D物件檢索中的類別泛化難題。當前的開放集3D物件檢索方法通常依賴複雜的多模態輸入(如點雲、體素等)進行匹配與檢索,而DAC則充分挖掘CLIP在自然影像上的強大表徵能力,僅以多視角影像作為輸入,並透過低秩適應(LoRA)策略進行高效微調。該過程僅需少量已知類別即可完成適配,顯著提升了檢索精度的同時也保證了方法的輕量化與實用性。同時為避免微調過程中對已知類別的過擬合,DAC引入了可學習且與輸入無關的加性偏置(additive bias),從而在提升已知類檢索效能的同時,有效保留模型對未知類別的泛化能力。此外,DAC進一步引入文字模態以輔助檢索。具體而言,DAC藉助多模態大模型為每個3D物件生成文字描述。這些描述提供了豐富的語義屬性資訊,顯著增強了模型對未知類別的識別與特徵匹配能力。
該論文第一作者是碩士生王之川,指導老師:何新衛、白翔、王玉龍,其他合作者:劉哲、俞睿、柏松。

Part6
AnimateAnyMesh: A Feed-Forward 4D Foundation Model for Text-Driven Universal Mesh Animation
簡介:本文提出了AnimateAnyMesh,首個通用mesh驅動的4D前饋模型,在效率和驅動效果上遠遠超過了目前的單場景最佳化/多階段方法,能夠對於任意輸入mesh,在幾秒內透過使用者給定的驅動指令生成高度逼真的動態物體/場景。AnimateAnyMesh主要由兩部分構成:負責頂點軌跡壓縮的DyMeshVAE和負責軌跡分佈學習的Text-to-Trajectory Rectified Flow Model。前者透過形狀/軌跡解耦,以及論文提出的一種拓撲感知的注意力機制,和動靜協同編碼,實現了變長mesh軌跡的高質量壓縮和重建;後者基於MMDiT構建了基於形狀和文字共同監督的軌跡分佈學習網路,並採用基於Rectified Flow的訓練/推理策略學習軌跡特徵的後驗分佈。另外,由於目前動態mesh資料集的缺失,文中提出了包含超過4M動態mesh序列的資料集DyMesh資料集。結合以上資料和方法,AnimateAnyMesh在人物、動物、植物、組合物體甚至場景上都能夠實現逼真的驅動效果,在效率上更是大大超越了現有的方法,為mesh animation提供了新的正規化。
該論文第一作者是博士生吳子傑,指導老師:白翔,其他合作者:於超輝,王帆。

Part7
Part7
DocThinker: Explainable Multimodal Large Language Models with Rule-based Reinforcement Learning for Document Understanding
簡介:多模態大語言模型在文件理解中表現出色,然而,其推理過程仍主要處於黑箱狀態,難以確保其在法律、金融和醫療等高風險領域的可靠性與可信度。現有基於固定思維鏈和監督微調的方法存在災難性遺忘和泛化能力差的問題。本文提出DocThinker,一種基於規則的強化學習框架,在推理時動態最佳化策略,能夠生成可解釋的中間結果,包括推理步驟、改述的問題、感興趣區域和最終答案。透過引入多目標獎勵函式與KL約束,提升了模型的適應性與可解釋性。
該論文第一作者是博士生余文文,指導老師:白翔、劉禹良,其他合作者:楊志博。

Part8
ReCamMaster: Camera-Controlled Generative Rendering from A Single Video
簡介:本文提出了條件影片生成模型ReCamMaster,該模型能將輸入影片按照新指定的相機軌跡進行重新運鏡。使用者只需提供任意影片並設定新的拍攝路徑,即可實現影片的重新運鏡。其技術創新在於充分利用影片生成基座模型的通用能力,並創新性地設計了條件影片注入機制,使模型在保持基礎效能的同時能夠深入理解場景內容,從而精準合成符合預設軌跡的運鏡效果。實驗證明該方案顯著超越現有方法,並展現出卓越的泛化效能。研究團隊同時釋出了高品質的多機位同步拍攝資料集MultiCamVideo-Dataset,並開源了相關程式碼與資料
該論文第一作者是博士生白健弘,指導老師:夏孟涵,胡浩基,白翔,其他合作者:付瀟,王鑫濤,牟聯瑞,曹晉文,劉佐珠,萬鵬飛,張迪

Part9
Towards Comprehensive Lecture Slides Understanding: Large-scale Dataset and Effective Method
簡介:在線上教育領域,講座幻燈片作為核心教學資源,對學習效果具有重要影響,但目前對於幻燈片的理解研究仍存在不足,尤其是缺乏大規模資料集和綜合性的理解任務。為此,本文提出了一個新的研究方向,構建了包含15個領域、25,542場講座和370,078張幻燈片的LecSlides-370K資料集,並設計了講座總結和講座問答(QA)兩項任務,以從不同角度促進對幻燈片的理解。同時,針對幻燈片內部複雜文字關係對理解邏輯的阻礙問題,我們提出了一種名為SlideParser的新方法,透過預測幻燈片內文字關係並增強相關文字之間的注意力,提升幻燈片的理解效果。實驗結果表明,該方法在幻燈片理解任務中表現出色,有效提高了幻燈片理解的準確性和效率,為線上教育中幻燈片理解的研究提供了新的思路和方法。
該論文第一作者是碩士生張恩銘,指導老師:朱盈盈、白翔、劉禹良,其他合作者:黎宇哲。

Part10
Training-free Geometric Image Editing on Diffusion Models
簡介:近年來,隨著高保真影像生成技術的重大突破,可控影像生成成為計算機視覺領域的研究熱點,其核心目標是實現影像的精準互動式修改。本文聚焦於極具挑戰性的影像幾何編輯任務,旨在對影像中的物體進行精準重定位、重定向及形狀變換,同時維持場景的視覺一致性。現有基於拖拽互動的編輯方法多采用單階段最佳化策略,雖在中小尺度變換中表現良好,但難以處理大尺度或複雜三維幾何變換。其核心挑戰源於三大耦合任務的相互制約:(1)精確的物體幾何變換,(2)高質量的源區域內容修復,(3)目標區域與場景的一致性融合。針對以上挑戰,本文創新性地提出了影像幾何編輯框架FreeFine,透過任務解耦與模組創新,構建了支援二維、三維場景統一的無訓練最佳化編輯框架,為複雜幾何變換提供了高效解決方案。
該論文第一作者是本科生朱翰紳,指導老師:白翔、朱臻,其他合作者:張凱樂。

Part11
HERMES: A Unified Self-Driving World Model for Simultaneous 3D Scene Understanding and Generation
簡介:本文介紹了一個名為 HERMES 的統一駕駛世界模型(DWM),旨在同時實現三維場景理解和未來場景生成,以解決現有駕駛世界模型僅限於場景生成而缺乏場景理解能力的侷限性 。HERMES 透過整合鳥瞰圖(BEV)表示來融合多視角空間資訊,並引入世界查詢機制,將世界知識透過大語言模型(LLM)中的因果注意力融入 BEV 特徵,有效彌合了理解與生成任務之間的鴻溝。該模型在 nuScenes 和 OmniDrive-nuScenes 資料集上達到了最先進的效能,將生成誤差降低了 32.4% ,並在理解任務中將 CIDEr 指標提高了 8.0%。
該論文第一作者是本科生周鑫,指導老師:白翔,其他合作者:梁定康,塗思凡,陳習武,丁宜康,趙恆爽。

CVPR 2025 論文和程式碼下載
CVPR 2025 論文和程式碼下載
ECCV 2024 論文和程式碼下載
ECCV 2024 論文和程式碼下載
CV垂直方向和論文投稿交流群成立
一定要備註:研究方向+地點+學校/公司+暱稱(如Mamba、多模態學習或者論文投稿+上海+上交+卡卡),根據格式備註,可更快被透過且邀請進群
▲掃碼或加微訊號: CVer2233,進交流群
CVer計算機視覺(知識星球)人數破萬!如果你想要了解最新最快最好的CV/DL/AI論文、實戰專案、行業前沿、從入門到精通學習教程等資料,一定要掃描下方二維碼,加入CVer知識星球!最強助力你的科研和工作!
▲掃碼加入星球學習
▲點選上方卡片,關注CVer公眾號
整理不易,請點贊和在看

▲掃碼或加微訊號: CVer2233,進交流群
CVer計算機視覺(知識星球)人數破萬!如果你想要了解最新最快最好的CV/DL/AI論文、實戰專案、行業前沿、從入門到精通學習教程等資料,一定要掃描下方二維碼,加入CVer知識星球!最強助力你的科研和工作!

▲掃碼加入星球學習
▲點選上方卡片,關注CVer公眾號
整理不易,請點贊和在看
