
本文由南洋理工大學和商湯科技聯合完成。第一作者楊沛青為南洋理工大學 MMLab@NTU 在讀博士生,在 CVPR、NeurIPS、IJCV 等國際頂級會議與期刊上發表多篇研究成果。專案負責作者為該校研究助理教授周尚辰和校長講席教授呂建勤。
影片人物摳像技術在電影、遊戲、短影片製作和即時影片通訊中具有廣泛的應用價值,但面對複雜背景和多目標干擾時,如何實現一套兼顧髮絲級細節精度及分割級語義穩定的影片摳圖系統,始終是個挑戰。
來自南洋理工大學 S-Lab 與商湯科技的研究團隊最新提出了一個高效、穩定、實用的影片摳圖新方法 ——MatAnyone。與傳統無輔助方法不同,MatAnyone 提出一種基於記憶傳播的「目標指定型」影片摳像方法:只需在第一幀透過人物遮罩指定摳像目標,即可在整個影片中實現穩定、高質量的目標提取。


-
論文標題:MatAnyone: Stable Video Matting with Consistent Memory Propagation
-
論文連結:https://arxiv.org/abs/2501.14677
-
影片:https://youtu.be/oih0Zk-UW18
-
程式碼:https://github.com/pq-yang/MatAnyone
-
網頁:https://pq-yang.github.io/projects/MatAnyone/
MatAnyone 一經發布在社交媒體上獲得了大眾的討論和關注,其核心亮點總結如下:
-
快速摳圖,目標可控
僅需首幀目標指定,無需額外輔助資訊,支援靈活定義摳圖物件,滿足多場景需求。
-
穩定跟蹤,全程不抖
創新 “區域自適應記憶融合” 機制,有效保持目標一致性,實現長影片中的穩定人像跟蹤。
-
細節出眾,髮絲級還原
融合真實分割資料與高質量新資料集,邊界處理自然平滑,摳圖效果更貼近真實。

「目標指定型」:更貼近真實使用場景
目前主流的影片摳圖方法根據 “除輸入影片外是否有其他輔助輸入” 這一條件可以分為兩類:
-
無輔助型方法(如 RVM):使用者只需上傳輸入影片即可。
-
輔助引導型方法(如 MaGGIe):除輸入影片外,使用者需透過如三分掩膜(trimap)或分割掩膜(segmentation mask)等方式在一幀或多幀指定摳像目標。
無輔助型方法雖然方便,但是由於主體目標不明確,在真實使用場景中容易出現影響實際使用的錯摳、漏摳等現象。
-
【場景一】前景存在多個主要人物:在實際應用中,很可能出現的需求是單獨摳出其中特定一位,合成到另外場景中製作影片,無輔助型方法不能實現目標的指定,導致輸出的結果無法直接投入使用。
-
【場景二】背景存在混淆人物:即使前景只存在一位主體人物,背景中來來往往的行人往往會 “混淆視聽”,尤其是行人路過前景人物時,無輔助型方法往往會把背景行人的肢體也一併摳出,使輸出結果不夠準確乾淨。
因此,為了讓影片摳像技術能被更好地使用,MatAnyone 選擇了輔助引導型的設定,並專注解決的是這樣一個場景:
「設定主角,其他交給模型」:給定目標人物在第一幀的掩膜,後續的摳像自動鎖定目標完成。無需逐幀修正,準確、自然、連貫地摳出整段影片。
這種設定既兼顧使用者可控性,又具有更強的實用性和魯棒性,是當前影片編輯領域最具潛力的落地方案之一。

面向「影片摳圖」任務:記憶傳播與訓練策略的新正規化
任務對比:「影片摳圖」比「影片分割」更難一層
雖然 “目標指定型” 的任務設定在影片目標分割(Video Object Segmentation, VOS)中已經被廣泛研究,通常被稱為 “半監督” 分割(即只給第一幀的掩膜),但影片摳圖(Video Matting, VM)的難度卻更進一步。
在 VOS 中,模型的任務為“是 / 否為目標前景” 的二值判斷題;而在 VM 中,基於這個語義判斷,模型還需預測目標前景在每個畫素點上的 “透明度(alpha)”—— 這不僅要求核心區域的語義精準,更要求邊界細節的提取(如髮絲、衣角的半透明過渡)。

MatAnyone 正是在這一背景下提出了面向影片摳圖任務的全新記憶傳播與訓練策略,在達到分割級語義穩定的基礎上進一步實現了髮絲級細節精度。

1. 一致性記憶傳播機制:Matting 專屬的 “記憶力”
相比靜態影像摳圖,影片摳圖面臨更大的挑戰,不僅需要逐幀生成高質量的透明通道( alpha matte),還必須確保前後幀之間的時序一致性,否則就會出現閃爍、跳變等明顯視覺問題。為此,MatAnyone 借鑑影片分割中的記憶機制,在此基礎上提出了專為影片摳圖設計的一致性記憶傳播機制(Consistent Memory Propagation)。
區域自適應融合記憶(Region-Adaptive Fusion)
模型會在每一幀中預測哪些區域與上一幀差異較大(如身體邊緣),哪些區域變化很小(如身體主幹),並分別處理:
-
對於變化幅度較大的區域(通常出現在目標邊緣,如頭髮、衣襬),模型更依賴當前幀從記憶庫中檢索到的記憶資訊;
-
而對變化較小的區域(如身體內部),則更多保留上一幀的記憶資訊,避免重複建模,減少誤差傳播。
邊界細節增強,核心區域穩定
這種區域感知式的資訊融合方式,在訓練階段引導模型更專注於細節邊界,在推理階段則提升了語義穩定性與時間一致性。尤其在複雜背景或人物互動頻繁的場景下,MatAnyone 能夠穩準地識別目標、摳出清晰自然的邊緣效果,極大提升了影片摳圖的可用性與觀感質量。

2. 共頭監督策略:讓分割資料 “真正為摳圖所用”
一直以來,「影片摳圖」的一個核心難點始終是真實訓練資料的缺失。相較於「影片分割」在真實資料上的標註成本,「影片摳圖」所需要的帶透明度標註的資料格外昂貴,這限制了模型在穩定性與泛化能力上的進一步提升。
在真實透明度資料稀缺的背景下,Video Matting 模型往往會引入大量真實分割資料進行輔助訓練,以提升模型在複雜環境中的穩定性和泛化能力。
-
傳統做法通常採用 “平行預測頭” 結構:在輸出層增加一個僅用於訓練階段的分割頭,用於分割資料的監督,而摳圖主頭則僅由合成摳圖資料驅動。
這種結構雖然能一定程度引入語義資訊對摳圖頭的監督,但其不直接的監督方式導致語義資訊在特徵傳播過程中被稀釋,無法充分發揮分割資料對提升穩定性的優勢。
-
MatAnyone 提出了結構創新的 “共頭監督策略”:拋棄 “平行預測頭”,直接將真實分割資料引入摳圖主頭進行訓練,讓所有資料來源在同一個通道上對模型進行統一監督。
這種方式極大提高了語義資訊的共享效率,也最大程度地利用了真實分割資料對透明通道預測的泛化性和穩定性的提升。
具體操作上:
-
在核心區域,使用分割掩膜進行逐畫素監督,確保模型對語義結構的穩定理解;
-
在邊界區域,引入改進版的 DDC 損失(Scaled DDC Loss),即便分割資料沒有 alpha 標籤,也能透過影像結構引導模型生成過渡自然的邊緣。
這一策略的核心優勢在於:讓分割資料 “真正服務於摳圖任務本身”,而非僅僅提供輔助訊號。
3. 自建高質資料集:訓練更穩,評估更難
高質量的資料始終是訓練穩定、泛化強的影片摳圖模型的基礎。針對現有資料集在規模、細節和多樣性上的不足,MatAnyone 團隊自建了兩套關鍵資料資源:
-
VM800 訓練集:相較於主流的 VideoMatte240K,VM800 的規模翻倍,覆蓋更多髮型、服飾和運動狀態,在核心區域和邊界區域的質量都顯著提升,有效增強了模型在摳圖任務中的魯棒性;
-
YouTubeMatte 測試集:相較於主流的 VideoMatte240K 測試集,我們構建了一個前景更加多樣的測試集,並且在合成前後景的過程中進行了和諧化的後處理,使其更加貼近真實分佈,有效提高了該測試集的難度。
這兩套資料集為 MatAnyone 提供了紮實的訓練基礎與更貼近真實世界的驗證標準,在推動模型效能提升的同時,也為未來影片摳圖研究提供了更具挑戰性的新 benchmark。

多場景適用性:靈活應對多類應用場景
MatAnyone 在模型設計與推理機制上的靈活性,使其具備良好的任務泛化能力,能夠適配多種實際影片處理場景(更多例子請移步主頁):
通用影片摳圖(General Matting):適用於短影片剪輯、直播背景替換、電影 / 廣告 / 遊戲後期等常見場景,僅需第一幀提供目標掩膜,後續幀即可自動完成穩定摳圖,具備邊界清晰、背景乾淨、跨幀一致性強的優勢。
例項摳圖(Instance Matting):面對多人物或複雜背景的影片內容,MatAnyone 支援透過第一幀掩膜指定目標物件,進行後續穩定追蹤與摳圖,有效避免目標混淆或漂移,適合虛擬人剪輯、人物聚焦等例項級編輯任務。
推理階段增強(Iterative Refinement):對於高精度場景,如廣告製作、影視後期等,MatAnyone 提供可選的首幀迭代最佳化機制,透過多輪推理精細化第一幀 alpha matte,從而進一步提升整段影片的細節還原與邊界自然度。
實驗結果:領先的細節質量與時序穩定
為了系統評估 MatAnyone 在影片摳圖任務中的綜合表現,我們從定性與定量兩個角度進行了對比實驗,結果顯示 MatAnyone 在精度、穩定性與視覺質量等多個維度均優於現有主流無輔助型及輔助引導型方法。
定性評估(Qualitative)
在真實影片案例中,我們展示了 MatAnyone 與現有方法 RVM、FTP-VM、MaGGIe 的視覺化對比。結果表明,MatAnyone 能夠更準確地提取目標人物輪廓,尤其是在人物動作劇烈或背景複雜的情況下,依然能保持頭髮、邊緣衣物等細節的清晰度,並有效避免背景穿透與邊界斷裂等常見問題。同時,它也具備更強的例項區分能力,即使畫面中存在多個顯著人物,也能準確鎖定目標物件並保持一致跟蹤。


定量評估(Quantitative)
在合成數據集 VideoMatte 和自建的 YouTubeMatte 上,我們使用五個關鍵指標對各方法進行全面評估:
-
MAD(Mean Absolute Difference)與 MSE(Mean Squared Error)用於衡量語義準確性;
-
Grad(Gradient)用於細節銳利度評估;
-
Conn(Connectivity)代表整體視覺連貫性;
-
dtSSD 則衡量跨幀間的時序一致性。
如 Table 1 所示,MatAnyone 在高、低解析度的所有資料集上均取得最低的 MAD 和 dtSSD,表現出極高的語義穩定性與時間一致性;同時在 Conn 指標上也位居首位,驗證了其在整體觀感和邊緣處理上的領先表現。

總結與展望
MatAnyone 是一套面向真實使用場景的人像影片摳圖系統,專注於在僅提供首幀目標的前提下,實現語義穩定且邊界精細的影片級摳圖。根據「影片摳圖」任務的特性,它引入了區域自適應的記憶融合機制,在保持語義穩定性的同時,精細提取了頭髮等細節區域。藉助新構建的 VM800 高質量資料集與全新的訓練策略,MatAnyone 顯著提升了在複雜背景下的摳圖穩定性。
面對真實訓練資料的制約,「影片摳圖」任務仍然像是在 “戴著鐐銬跳舞”,當前的效果雖有顯著突破,但仍有廣闊的提升空間。未來,我們團隊將繼續探索更高效的訓練策略、更泛化的資料構建方式,以及更通用的記憶建模機制,推動影片摳圖技術在真實世界中實現更強魯棒性與更廣應用性。
© THE END
轉載請聯絡本公眾號獲得授權
投稿或尋求報道:[email protected]