

論文標題:
Unified Domain Adaptive Semantic Segmentation
第一作者:
張哲(東北大學)
通訊作者:
柴天佑、吳高昌
合作作者:
張敬、朱霞天、陶大程
合作單位:
東北大學、武漢大學、英國薩里大學、新加坡南洋理工大學
專案主頁:
https://github.com/ZHE-SAPI/UDASS

導語:從無監督域適應任務挑戰到統一突破
1.1 任務背景
在語義分割領域,無監督領域自適應(Unsupervised Domain Adaptive Semantic Segmentation,UDA-SS)旨在將有標籤的源域知識遷移到無標籤的目標域。隨著資料規模和多樣性的迅速提升,該任務日益重要。
目前主流研究集中於影像 UDA-SS,而影片 UDA-SS 近年來也開始受到關注。然而,兩者的研究路徑幾乎完全割裂,存在如下挑戰:
(a)研究割裂:影像與影片任務各自為政,導致方法碎片化、認知零散;
(b)方法難遷移:影像方法無法有效遷移到影片,影片方法無法泛化至影像;
(c)知識利用低效:兩類任務間經驗難以共享,降低整體研究效率。
1.2 核心突破
本文首次提出統一處理影像與影片 UDA-SS 的框架,透過統一特徵空間建模和統一訓練路徑,有效解決上述割裂與低效問題。
為此,我們設計了全新機制 QuadMix(四向混合),構建連續、穩健、豐富的中間域表示,從而大幅縮小跨域差異。並進一步引入光流引導的時空聚合模組,用於細粒度特徵的分佈對齊。
統一不是簡單地“通用化”,而是一種深入語義建模的能力提升。QuadMix 作為橋樑,不僅使影像和影片任務共享表徵基礎,更透過可擴充套件的路徑結構,有望實現跨模態、跨場景的泛化能力,從而為未來多模態感知系統奠定了正規化基礎。

▲ 圖1. 相較於分別研究影像和影片的 無監督域適應語義分割(UDA-SS),我們提出了統一研究二者的研究框架。

方法詳解:從四向混合到時空對齊
我們將影像視為無時間依賴的影片特例,提出統一建模影像與影片的視覺感知領域自適應語義分割新正規化。
2.1 QuadMix:首創四向混合機制,跨域特徵更穩定
我們在顯式特徵空間中同時引入以下四種混合路徑:
(a)S → S:源域內部混合;
(b) T → T:目標域內部混合;
(c)T →(S → S):目標域融合到源內部混合中;
(d)S →(T → T):源域融合到目標內部混合中。
這種設計不僅打破了傳統一階/雙向 Mixup 的限制,更是首次在特徵空間中引入交叉式路徑結構,最大限度地提升了域內連續性與語義對齊能力。實驗表明,四向混合路徑在 t-SNE 視覺化中呈現更緊緻、更均衡的分佈,顯著提升了遷移穩定性與泛化魯棒性。

▲ 圖2. 不同領域混合正規化的對比。與現有方法相比(存在如域內不連續性,特徵泛化性差,以及特徵分佈不一致問題),我們提出的 QuadMix 方法在空間(時間)維度的畫素級與特徵級上,同時對域內混合和跨域混合進行了泛化與增強。其中符號“*”表示樣本模板。

▲ 圖3. 所提出的 QuadMix 用於 UDA-SS 的整體框架概覽。影像領域自適應語義分割(Image UDA-SS)遵循一條並行流程,唯一的區別在於不包含時間線索,如圖中虛線所示。
(i)圖(a):QuadMix 包含四條全面的域內/跨域混合路徑,在時空畫素層與特徵層上橋接域間差異。畫素級混合作用於相鄰幀、光流和標籤/偽標籤,旨在迭代生成兩個增強的跨域中間域:T→(S→S)和 S→(T→T)。
這些中間域克服了源域 S 與目標域 T 內部的非連續性,並展現出更具泛化性的特徵,從而有效彌合域間差異。此外,在 quad-mixed 域之間進行的特徵級混合,有助於緩解因不同影片上下文導致的特徵不一致問題。
(ii)圖(b):光流引導的時空特徵聚合模組將跨域影片特徵壓縮至一個緊湊的類別感知空間中,有效最小化類內差異,並提升類間判別能力,從而增強目標域的語義表徵能力。
(iii)整個訓練過程是端到端的。在圖(c)中,目標域測試階段需要輸入相鄰幀堆疊的序列和光流 。
2.2 類別感知 Patch 模板生成
QuadMix 的混合質量高度依賴於 Patch 模板的生成機制。為此,我們創新性地引入“線上類別感知 Patch 模板”機制:
(a)針對影像和影片,分別提取語義一致的類別區域作為模板;
(b)在每個訓練迭代中自適應更新,避免固定模板帶來的標籤漂移問題;
(c)Patch 模板不僅包含畫素,還包括偽標籤和光流資訊,覆蓋影像+影片兩個維度;
這些模板為每個 iteration 中 QuadMix 路徑構建提供高質量輸入,確保跨域混合具備一致的語義表徵。

▲ 圖4. 展示了在影片 UDA-SS 中,QuadMix 的多種混合策略示例:(a)為源域 S 和目標域 T 的原始樣本(QuadMix 之前);(b) 顯示了源模板 S*(如人物、騎手)與目標模板 T*(如交通標誌、天空);(c)展示了域內混合路徑 S→S 與 T→T 的結果;(d)展示了進一步的跨域混合路徑 S→(T→T)與 T→(S→S),即 QuadMix 後的結果。這些混合策略分別作用於影片幀、光流與標籤/偽標籤。需要特別說明的是,每一輪訓練中所需的 Patch 模板均透過線上機制根據前一輪(n−1)自適應生成。請放大檢視細節。
2.3 畫素級 + 特徵級雙層混合
輸入級混合解決影像構成層次的差異,特徵級混合則進一步對語義表徵層進行融合與對齊。
(a)輸入級 QuadMix:透過 Hadamard 運算疊加幀、標籤與光流模板;
(b)特徵級 QuadMix:構建共享類別掩碼區域,在特徵圖中動態拼接並共享表示;
我們還使用輕量化的 1×1 卷積模組實現特徵融合,從而減少語義漂移區域,提高模型魯棒性,並有效降低了計算成本。

時空聚合機制:讓影片特徵對齊更加細粒度
與影像不同,影片資料包含時序資訊,如何充分利用時間結構進行語義對齊,是提升影片 UDA 效能的關鍵。
本文提出的“光流引導的時空聚合模組”,圍繞三個維度展開:
3.1 光流引導的偽標籤傳播
(a)使用 ACCEL 網路結構獲取光流;
(b)將光流用於偽標籤 warp 操作,獲得跨幀偽標籤;
(c)保證語義一致性與時序魯棒性;
該模組顯著提高了偽標籤在影片中的質量,為後續聚合與對齊奠定基礎。
3.2 類別感知的空間聚合
(a)按類別構建特徵子空間;
(b)對每類特徵進行平均聚合,獲得“類別代表向量”;
(c)使用該向量進行空間重構,提升類別判別力;
3.2 時間維度的資訊聚合
(a)多幀空間聚合結果透過資訊熵加權方式融合;
(b)構建時序一致的語義表示;
最終,整個模組實現類別–空間–時間三重維度的精細化特徵對齊,為目標域提供了堅實的泛化支援。

▲ 圖5. 展示了用於領域對齊的光流引導時空特徵聚合過程,其中 表示前一時間步, 表示目標幀的時間聚合權重。 表示從前一時間步 透過光流引導 warp 得到的幀特徵,其中 “→” 表示沿時間維度的 warp 方向。

實驗驗證:全面評估四大資料集,全面領先
我們在四個經典的 UDA-SS benchmark 上進行了嚴格驗證,涵蓋影像與影片兩大類任務:

具體實驗結果如下:
4.1 影片域適應語義分割任務


4.2 影像域適應語義分割任務


在各種任務上,我們的方法均顯著超過現有 SOTA 方法,如 DACS、ProDA、DAFormer、SAC、CMOM 等。
其中最引人注目的是:在 SYNTHIA-Seq → Cityscapes-Seq 影片遷移任務上,我們使用 Vision Transformer 架構(QuadMix ViT)實現了 67.2 的 mIoU,刷新歷史最好結果,領先前 SOTA(PAT、TPL-SFC)近 12 個百分點。
此外,在 GTAV → Cityscapes 影像遷移任務中,QuadMix 實現 66.8 的 mIoU,超過 DAFormer、SePiCo 等先進方法,展現統一方法在影像上的強大適應能力。
4.3 消融實驗

4.4 視覺化結果分析

▲ 圖6. 來自 Cityscapes-Seq 驗證集的三個連續幀的定性結果。結果展示順序如下:目標影像、真實標籤、僅源域模型的語義分割結果、DA-VSN [16]、TPS [17]、CMOM [2] 以及本文提出的方法。我們的方法在分割精度上表現最佳,邊緣更平滑、細節更精細。請放大檢視細節。
更多視覺化結果請參考影片 demo:
4.5 特徵空間分佈TSNE分析

▲ 圖7. 展示了不同混合正規化在 t-SNE 空間中的視覺化效果,分別以 sign(第一行)和 pole(第二行)兩個類別為例。子圖(a)到(e)的實驗設定對應表 VI 中的消融實驗編號:Exp.ID 0*、ID 6、ID 1、ID 3 和 ID 12。請注意,子圖(b)、(d)和(e)中的點數相同。子圖(b)展示的是域內混合(intra-mixed)後的特徵嵌入,呈現出較為連續的分佈;而子圖(e)展示的 四向混合(quad-mixed) 域則表現出更具泛化性的特徵分佈,而非聚集式的形式。這種分佈更有效地緩解了域內不連續性問題,並更好地實現知識遷移中的細粒度特徵分佈拉近。

理論支援 + 可復現性 + 工業可落地性
5.1 理論支撐
QuadMix 的有效性不僅體現在效能指標上,還獲得了充分的理論與視覺化支撐:
(a)使用 t-SNE 對比 QuadMix 與傳統 Mixup 的特徵分佈,發現 QuadMix 特徵分佈更均勻、類別邊界更清晰;
(b)透過類別交叉視覺化,展示 quad-mixed 域具備更強的語義一致性與邊界準確性;
5.2 可復現性
(a)所有實驗已開源:https://github.com/ZHE-SAPI/UDASS
(b)支援主流框架(PyTorch)和多種分割 backbone(CNN/ViT)
(c)訓練指令碼、預處理流程、模型引數均一鍵呼叫
5.3 工業部署潛力
由於 QuadMix 可以不依賴 offline warm-up 模型和固定偽標籤生成器,具備如下優勢:
(a)易於部署到邊緣裝置或即時影片處理系統;
(b)可無縫整合至現有工業語義分割 pipeline;
(c)支援城市感知、AR導航、智慧製造等多種場景;

未來研究:從統一分割邁向跨模態感知新方向
我們認為,統一研究影片和影像 UDASS 不是融合的終點,而是跨模態泛化的起點。QuadMix 所提出的“四向混合”不僅服務於影像與影片的統一語義分割,更提供了未來跨模態建模的結構性正規化:
(a)可推廣至圖文融合(Image-Text UDA)、點雲+影像聯合建模(Multi-Sensor Fusion);
(b)可用於大模型預訓練中的中間域設計,如 Diffusion 模型資料生成最佳化;
(c)甚至可拓展到 Reinforcement Learning 場景中的策略遷移與經驗對齊;
整體而言:QuadMix 代表的是從資料空間結構建模出發,構建統一泛化表示的全新路徑。
歡迎關注團隊主頁、程式碼倉庫,或聯絡作者學術交流!
更多閱讀

#投 稿 通 道#
讓你的文字被更多人看到
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝 稿件基本要求:
• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標註
• 稿件建議以 markdown 格式撰寫,文中配圖以附件形式傳送,要求圖片清晰,無版權問題
• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬 投稿通道:
• 投稿郵箱:[email protected]
• 來稿請備註即時聯絡方式(微信),以便我們在稿件選用的第一時間聯絡作者
• 您也可以直接新增小編微信(pwbot02)快速投稿,備註:姓名-投稿

△長按新增PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜尋「PaperWeekly」
點選「關注」訂閱我們的專欄吧
·
