CVPR2025美圖5篇論文入選!

點選下方卡片,關注“CVer”公眾號

AI/CV重磅乾貨,第一時間送達

2025年,計算機視覺領域三大頂級會議之一的CVPR(國際計算機視覺與模式識別會議)投稿量再次重新整理紀錄,超過13000篇工作進入評審流程,錄用比例僅為22.1%,相較去年再次下降1.5%。
美圖旗下美圖影像研究院(MT Lab)聯合清華大學、新加坡國立大學、北京理工大學、北京交通大學等知名高校釋出的5篇論文入選CVPR 2025,均聚焦於影像編輯領域,分佈在生成式AI、互動式分割、3D重建三個方面。在研發方面的突破代表美圖在核心視覺領域競爭力的持續提升,AI助推下美圖產品力持續提升,也帶動了更高的使用者粘性和付費意願,深度結合前沿技術與探索可落地的實用價值,成為美圖成功在影像與設計領域打造AI產品的重要驅動力。
從技術路徑來看,突破主要體現在以下3個方面:
(1)精細化策略設計:透過結合精細化策略(如基於點選的互動式分割方法NTClick、兩階段細化框架SAM-REF)顯著提高互動分割的效率與精度,同時大幅降低使用者操作複雜度。
(2)垂類場景下基於擴散模型的框架創新:結合特定編碼器,提升生成任務質量,以及基於多工訓練框架,提升結構穩定性和風格一致性。
(3)外推視角的高質量合成:基於增強檢視先驗引導的方案,成功實現高保真的3D重建。
其中GlyphMastero、MTADiffusion屬於生成式類任務,這不僅是CVPR最熱門的前沿方向之一,美圖近年來在該方向上也屢獲突破,圍繞生成式AI推出的多項功能與多款產品吸引了海內外大量使用者,旗下美顏相機近期憑藉AI換裝功能,成功登頂多國應用商店總榜第一。          
NTClick、SAM-REF關注互動分割工作,透過使用者簡單互動指導的精確引導影像分割,互動分割在複雜場景下能夠顯著提升分割效果和可靠性,在美圖面向電商設計、影像編輯與處理、人像美化等功能的AI產品中有廣泛應用,憑藉在互動分割方面的領先優勢,也帶動旗下產品美圖設計室的亮眼表現。根據美圖最新財報資料顯示,這款被稱為“電商人必備的AI設計工具“2024年單產品收入約2億元,按年同比翻倍,是美圖有史以來收入增長最快的產品。
EVPGS則是3D重建方面成果,受益於深度學習的驅動,尤其是高斯潑濺(Gaussian Splatting)的興起,3D重建在新視角生成、增強現實(AR)、3D內容生成、虛擬數字人等領域應用需求激增,在多個行業展現出強大的潛力。
GlyphMastero:高質量場景文字編輯的創新方法          
針對場景的文字編輯任務,既要求保證文字內容符合使用者編輯需求,還要求保持風格一致性和視覺協調性。研究人員發現,現有方法往往使用預訓練的OCR模型提取特徵,但它們未能捕捉文字結構的層次性,即從單個筆畫到筆畫間的互動,再到整體字元結構間的互動,最後到字元與文字行間的互動,這就導致在處理複雜字元(如中文)時容易產生扭曲或難以辨認的結果。
對此,美圖影像研究院(MT Lab)的研究人員提出專為場景文字編輯設計的字形編碼器GlyphMastero,旨在解決當前擴散模型在文字生成任務中面臨的質量挑戰。

GlyphMastero核心由字形注意力模組(Glyph Attention Module)和特徵金字塔網路(FPN)兩大部分組成。

GlyphMastero方法整體架構
字形注意力模組(Glyph Attention Module)
透過創新的字形注意力模組,建模並捕捉區域性單個字元的筆畫關係以及字元間的全域性排布。該模組不僅對區域性細節進行編碼,還實現了字元與全域性文字行之間的跨層次互動。

特徵金字塔網路(FPN)
GlyphMastero還實現了一個特徵金字塔網路(FPN),能夠在全域性層面融合多尺度OCR骨幹(Backbone)特徵,確保在保留字元細節特徵的同時,又能夠捕捉全域性風格,並將最終生成的字形用於指導擴散模型對文字的生成和修復。
基於跨層次和多尺度融合,GlyphMastero可以獲得更細粒度的字形特徵,從而實現對場景文字生成過程的精確控制。
實驗結果表明,與最先進的多語言場景文字編輯基準相比,GlyphMastero在句子準確率上提高了18.02%,同時將文字區域風格相似度距離(FID)降低了53.28%,這表明生成文字實現了更加自然且高融合度的視覺風格。

實驗結果
對比結果顯示,在海報、街景和廣告圖等場景下,GlyphMastero 能夠生成與原圖風格高度契合的文字,無論是字型粗細、色調還是透視關係,都比之前的SOTA方法更為自然和精細。

對比結果
目前GlyphMastero已落地美圖旗下產品美圖秀秀的無痕改字功能,為使用者提供輕鬆便捷的改字型驗。
美圖秀秀無痕改字效果
MTADiffusion:語義增強的區域性編輯方法
影像區域性修復(Image Inpainting)提供了一個無需PS或其它影像處理工具,就可以輕鬆進行改圖的全新方式,大大降低使用難度,使用者只需要使用塗抹或者框選工具,選定想要修改的區域性Mask區域,輸入Prompt就能夠在指定區域生成想要的影像。但現有的Inpainting模型,常常在語義對齊、結構一致性和風格匹配方面表現不佳,比如生成內容不符合使用者輸入的文字描述,或是修復區域的細節缺乏準確性,光照、顏色或紋理與原圖也容易存在差異,影響整體視覺一致性。
針對以上問題,美圖影像研究院(MT Lab)的研究人員提出了一種圖文對齊的Inpainting訓練框架——MTADiffusion,MTADiffusion先使用分割模型提取出物體的mask,再透過多模態大模型對影像區域性區域生成詳細的文字標註,這種圖文對齊的訓練資料構造方式有效提升了模型的語義理解能力。

為了最佳化生成物體的結構合理性,MTADiffusion使用了多工訓練策略,將影像去噪任務(Inpainting)作為主任務,進行噪聲預測,將聯合邊緣預測任務(Edge Prediction)作為輔助任務,用於最佳化物體結構。此外,MTADiffusion還提出了基於Gram矩陣的風格損失,以提升生成圖片的風格一致性。

MTADiffusion整體框架

基於MTADiffusion方法,影像區域性修復模型在BrushBench和EditBench上的效果都有明顯提升,同時這些通用的策略也可以適配不同的基礎模型。

在BrushBench上的對比效果  

在EditBench上的對比效果   

目前,MTADiffusion已落地美圖旗下AI素材生成器WHEE,實現輕鬆高效的一站式改圖。此外,開發者目前也可透過美圖AI開放平臺整合區域性重繪能力,賦能更多創意場景。
WHEE的AI改圖效果
NTClick:基於噪聲容忍點選的精細互動式分割方法
互動式影像分割(Interactive Segmentation)旨在透過儘可能高效的使用者輸入,預測物體的精確Mask,該技術廣泛應用於資料標註、影像編輯等領域,其中“點選”憑藉其高效與靈活性,逐漸成為互動分割中最主流的互動形式之一。但隨著目標物件複雜性和細節的增加,基於前背景點選的互動方式的優勢逐漸減弱,因為在處理細小或複雜的目標區域時,準確點選對於精確定位的需求會大大降低互動效率,同時使用者和裝置友好性都非常有限。
為了解決這個問題,美圖影像研究院(MT Lab)的研究人員提出了一種基於點選的互動式分割方法——NTClick,大幅降低了對精確點選的依賴,支援使用者在處理複雜目標時,能憑藉目標區域附近的粗略點選,預測精準的Mask。

NTClick 提出了一種全新的互動形式:噪聲容忍點選,這是一種在選擇細節區域時不需要使用者精確定位的點選方式。NTClick透過一個兩階段網路來實現對於粗糙互動的理解以及細節區域的精修:
第一階段:Explicit Coarse Perception (ECP) 顯式粗糙感知網路:
該階段透過一個用於初步估計的顯式粗略感知網路,在低解析度下對使用者的點選進行理解,並且預測出一個初步的估計結果-FBU Map。受到摳圖技術中三元圖的啟發,FBU map將影像分為三類區域——前景、背景和不確定區域。其中,不確定區域通常對應細小或邊緣模糊的部分,為後續精細化處理提供指導。
第二階段:High Resolution Refinement (HRR) 高解析度精修網路:
該階段將 ECP 得到的FBU Map進行上取樣,並與原始 RGB 影像拼接,輸入到高解析度精修網路中。HRR 網路專注於細粒度區域的畫素級分類,透過稀疏網格注意力機制和近鄰注意力機制的組合,在計算開銷可控的前提下,在高解析度下進行精細化感知,實現對微小結構(如植物細枝、精細雕塑等)的精準分割,輸出最終的預測結果。

NTClick 兩階段架構
在包含精細目標的DIS5K等多個數據集上的實驗結果顯示,NTClick擁有明顯更高的感知精度,並且在越複雜的場景下優勢越明顯。這表明,NTClick不僅保持了高效且使用者友好的互動方式,在分割精度上也顯著超過了現有方法。
實驗結果
視覺化結果也顯示 ,NTClick 在處理細小目標(如首飾、線繩)時,相比傳統方法具有更清晰的邊界和更高的分割精度,同時使用者的互動負擔明顯降低。
對比結果
近年來美圖在分割演算法上屢獲突破,友好的互動方式疊加強大演算法泛化能力,持續提升場景覆蓋率與分割精細度,而對場景的理解深度與對使用者體驗的極致追求,也助力智慧摳圖這個垂類場景一躍成為美圖設計室的王牌功能。
美圖設計室智慧摳圖效果
SAM-REF:高精度場景下的互動式分割
互動式分割當前有兩種主流方法,FocalClick、SimpleClick等早期融合(Early fusion)方法,這是現有專家模型所採用的方法,這類方法在編碼階段就將影像和使用者提示進行結合以定位目標區域, 但該方法基於使用者的多次互動操作,需要對影像進行多次複雜計算,會導致較高的延遲。
相反的,Segment Anything Model (SAM)、InterFormer等後期融合(Late fusion)方法,能夠一次性提取影像的全域性特徵編碼,並在解碼階段將其與使用者互動進行結合,避免了冗餘的影像特徵提取,大大提高了效率。其中SAM 是具有里程碑意義的通用分割模型,儘管它具備高效性和強大的泛化能力,但由於採用晚期融合策略,限制了SAM直接從提示區域提取詳細資訊的能力,導致其在目標邊緣細節處理上存在不足。例如,對於細小物體或紋理複雜的場景,SAM 往往會出現邊界模糊或區域性資訊缺失的問題。
為了解決這一問題,美圖影像研究院(MT Lab)的研究人員提出了兩階段細化框架——SAM-REF,能夠在維持SAM執行效率的同時,提升 SAM的互動式分割能力,尤其是在高精度場景下。

SAM-REF在後期融合的基礎上,引入了輕量級細化器(Refiner),從而在保持效率的同時,提升SAM在高精度場景下互動式分割能力,其核心結構包括:
全域性融合細化器(Global Fusion Refiner, GFR):
該模組專注於捕獲整個物件的詳細資訊,透過輕量特徵提取,結合SAM的Embeds中的語義資訊,利用影像和提示重引導來補充高頻細節。
區域性融合細化器(Local Fusion Refiner, LFR)
該模組對目標區域進行區域性裁剪,並對區域性細節進行精細化處理,避免對整個影像進行重複計算,提高計算效率。
動態選擇機制(Dynamic Selector, DS)
透過分析目標區域的誤差率,自適應選擇 GFR 處理的全域性特徵,或者 LFR 處理的區域性細節,以達到最佳分割效果。

SAM-REF核心架構
實驗結果顯示,SAM-REF在NoC90上相較於基線方法(如SAM和FocSAM)提升了16.3%,在NoF95減少了13.3%,同時Latency僅有早期融合方法(如FocalClick)的16.5%。可以看出,SAM-REF 在分割精度上有明顯提升,且計算成本僅增加 0.003 秒/幀,基本維持了 SAM 的高效性。
視覺化結果也顯示,相較於SAM,SAM-REF在具有挑戰性的場景中能更有效地識別纖細的結構,並能夠在持續點選互動中提升分割精度。

SAM-REF的視覺化結果
結合在互動分割領域的能力提升,美圖旗下美圖設計室為使用者帶來簡單、高效、精準的智慧摳圖體驗,使用者無需精準點選,就能輕鬆調整選區。無論是人像、商品、複雜背景甚至髮絲細節等難處理元素,分割質量都更加穩定,無需專業技能就可以獲得高質量摳圖。
美圖設計室互動分割效果
EVPGS:基於3D高斯潑濺的外推視角合成
新檢視合成(Novel View Synthesis, NVS)旨在生成與輸入影像不同視角的新影像,但傳統方法(如 NeRF、3D Gaussian Splatting)依賴於“數量較多”且“分佈均勻”的訓練視角來保證重建質量。
針對”數量較多“的要求,一些研究已經探索了極少視角(三張甚至更少)的三維重建方法。然而,在許多實際應用場景中,“分佈均勻”卻難以實現。例如,當用戶手持手機繞物體或某個場景拍攝一圈時,往往能獲得幾十甚至上百張訓練影像,但這些影像的視角通常集中在同一水平面上,缺少豐富的角度變化。
在這樣的情況下,若嘗試從俯視視角或仰視視角合成新影像,重建質量會顯著下降。如下圖所示,當拍攝的訓練資料僅包含藍色標記的水平視角時,嘗試從紅色標記的視角進行影像合成,結果往往出現嚴重的失真問題。
為應對此類實際應用挑戰,美圖影像研究院(MT Lab)的研究人員提出了基於增強檢視先驗引導的外推檢視合成方案——EVPGS,解決高斯潑濺(Gaussian Splatting) 在外推視角下的失真問題,有效提升合成質量。

EVPGS的核心思想是在訓練過程中得到外推視角的先驗資訊,應用視角增強策略來監督GS模型的訓練。 EVPGS可以生成可靠的視角先驗,稱之為增強視角先驗(Enhanced View Priors),整個過程採用由粗到細(coarse-to-fine)的方式,對視角先驗進行偽影去除和外觀最佳化。
EVPGS技術實現路徑分為三個階段:
預訓練階段:
該階段選用RaDe-GS作為Backbone,僅使用訓練視角作為監督進行預訓練。EVPGS可以支援不同的GS方法作為Backbone,均能在外推視角合成任務中取得顯著的效果提升。
粗最佳化階段:
該階段選用Stable Diffusion 2.1模型對外推視角先驗進行偽影去除,再使用預訓練階段得到的物體Mesh渲染的深度圖,對GS模型直接渲染的深度圖進行監督,二者分別從外觀和幾何兩個維度對預訓練模型進行正則化,有效提升了外推視角先驗的表現。
細最佳化階段:
該階段採用幾何重投影方法,從訓練視角中尋找外推視角先驗的對應畫素值,並將其作為外推視角先驗的畫素。然而,該過程受到視角差異帶來的遮擋和光照變化的影響,可能導致投影結果不準確。因此,該階段還引入了遮擋檢測策略與視角融合策略,有效緩解上述問題的影響,生成更加可靠的增強視角先驗,用於監督 GS 模型的訓練。
EVPGS訓練方案
實驗結果顯示,在平均約30° 的外推角度下,相比於基於高斯潑濺的系列方法(3DGS、2DGS、GOF等),EVPGS 的細節保真度顯著提高,紋理重建更清晰,無明顯偽影。這也證明EVPGS可以接入到不同的GS Backbone中,並取得顯著的效果提升,以RaDe-GS作為Backbone,在外推視角合成任務中達到了業界最佳效果。

實驗結果
視覺化結果顯示,EVPGS比起Baseline有更少的偽影,能夠恢復更多高頻率的紋理和文字細節。

視覺化結果
美圖3D重建方案效果
此外,EVPGS主要針對物體場景的重建,但將其在室外場景資料集(Mip-NeRF360)上進行測試時,發現依舊可以取得不錯的效果,這也進一步證明了EVPGS在外推視角合成任務的場景可擴充套件性。

EVPGS在室外場景資料集的實驗結果
AI驅動產品創新超出想象
根據美圖3月18日釋出的最新財報資料顯示,2024年度美圖總收入33.4億元,同比增長23.9%。已連續六年實現淨利潤正增長。在AI技術的驅動下,美圖旗下影像與設計產品的全球付費訂閱使用者數快速增長,月活躍使用者數規模持續擴大,AI成為美圖這一年財報的關鍵詞。深度佈局AI應用,聚焦垂直場景下的需求痛點,發力影像設計領域的生產力工具,打出產品差異化,成為這家老牌公司獲得“重生”的不二法寶。
AI帶來的助力對美圖來說或許仍處於早期階段,但與此同時,AI應用的全球化競爭也將愈演愈烈。在這場“必爭之戰”中,美圖秉持的理念是用AI技術打造世界級的產品,更好去服務生活場景與生產力產品使用者的垂直需求,而如何藉助AI進一步鞏固在影像與設計領域的技術護城河,或將是接下來值得關注的焦點。
整理不易,請點贊和在看


相關文章