點選下方卡片,關注“CVer”公眾號
AI/CV重磅乾貨,第一時間送達
AI/CV重磅乾貨,第一時間送達
新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球!可以獲得最新頂會/頂刊上的論文idea和CV從入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!
新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球!可以獲得最新頂會/頂刊上的論文idea和CV從入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!

轉載自:AI學演算法

在 Segment Anything 模型 (SAM) 之上,SAM 2 透過記憶bank 機制進一步擴充套件了其從影像到影片輸入的能力,並獲得了與以往方法相比的卓越效能,使其成為影片分割任務的基礎模型。在本文中,我們旨在使 SAM 2 更加高效,甚至可以在移動裝置上執行,同時保持可比的效能。儘管有許多工作優化了 SAM 以獲得更好的效率,但我們發現它們對 SAM 2 來說是不夠的,因為它們都集中於壓縮影像編碼器,而我們的基準測試表明,新引入的記憶注意力塊也是延遲瓶頸。
基於這一觀察,我們提出 EdgeTAM,它利用一種創新的 2D 空間感知器來降低計算成本。具體來說,所提出的 2D 空間感知器使用一種輕量級 Transformer 來編碼密集儲存的幀級別記憶,該 Transformer 包含一組可學習的查詢。鑑於影片分割是一個密集預測任務,我們發現保持記憶的空間結構對於將查詢分成全域性級別和片級別組至關重要。我們還提出了一種蒸餾流水線,進一步提高了效能,而無需推理開銷。結果,EdgeTAM 在 DAVIS 2017、MOSE、SA-V val 和 SA-V test 上分別實現了 87.7、70.0、72.3 和 71.7 J &F,同時在 iPhone 15 Pro Max 上以 16 FPS 執行。
1. 引言
Segment Anything Model (SAM) [31] 是第一個可提示影像分割的基礎模型。 各種研究表明它在零樣本泛化和遷移學習方面具有卓越的能力 [8, 39, 55, 70]。 在 SAM 之上,最近,SAM 2 [48] 擴充套件了原始 SAM,以處理影像和影片輸入,並具有記憶銀行機制,並使用新的大規模多粒度影片跟蹤資料集 (SA-V) 進行訓練。

儘管 SAM 2 在與以前的影片物件分割 (VOS) 模型相比取得了驚人的效能,並允許更廣泛的使用者提示,但作為伺服器端的基礎模型,它對裝置端推理效率不高。例如,最小的 SAM 2 變體在 iPhone 15 Pro Max 1 上僅執行速度約為 1 FPS。 此外,現有的方法 [71, 83, 86],這些方法優化了 SAM 以獲得更好的效率,僅考慮了其影像編碼器,因為掩碼解碼器非常輕量級。 然而,如圖 2 所示,這對於 SAM 2 來說是不夠的,即使將影像編碼器替換為更緊湊的視覺支架,例如 ViT-Tiny [58] 和 RepViT [64],由於 SAM 2 中引入的計算量大的記憶體注意力塊,延遲並沒有得到顯著改善。
尤其是,SAM 2 使用記憶體編碼器對過去幀進行編碼,這些幀級別記憶體與物件級別指標(從掩碼解碼器獲得)一起構成記憶體銀行。 然後,這些與當前幀的特徵透過記憶體注意力塊融合。 由於這些記憶體被密集編碼,因此在當前幀特徵和記憶體特徵之間進行跨注意力時,會產生巨大的矩陣乘法。 因此,儘管記憶體注意力塊的引數數量相對較少,但記憶體注意力的計算複雜度對於裝置端推理來說是不可承受的。 Fig. 2 進一步證明了這一假設,其中減少記憶體注意力塊的數量幾乎線性地降低了總解碼延遲,並且在每個記憶體注意力塊中,刪除跨注意力提供了最大的速度提升。

為了使這種基於影片的跟蹤模型在裝置上執行,在EdgeTAM中,我們關注如何利用影片中的冗餘資訊。為了在實踐中實現這一點,我們提出在執行記憶注意力之前壓縮原始幀級別的資訊。我們首先使用樸素的空間池化,並觀察到效能顯著下降,尤其是在使用低容量的骨幹網路時。為了緩解這個問題,我們轉向基於學習的壓縮器,如Perceiver [29, 30],它使用一組小固定的學習查詢來總結密集特徵圖。然而,即使是樸素地將Perceiver納入其中,也導致效能嚴重下降。我們假設,作為一種密集預測任務,影片分割需要保留記憶銀行的空間結構,而樸素的Perceiver則會丟棄這種結構。
鑑於這些觀察結果,我們提出了一種創新的輕量級模組,該模組壓縮了幀級別的記憶體特徵圖,同時保留了二維空間結構,名為 2D Spatial Perceiver。具體來說,我們將可學習的查詢分為兩組,其中一組的功能類似於原始 Perceiver,即每個查詢都對輸入特徵執行全域性注意力並輸出一個向量作為幀級別的總結。在另一組中,查詢具有二維先驗,即每個查詢僅負責壓縮一個非重疊的區域性區域,因此輸出同時保持空間結構並減少總的 token 數量。作為外掛模組,2D Spatial Perceiver 可以與 SAM 2 的任何變體整合,並且透過 8 倍的速度加快記憶體注意力,同時具有可比的效能。例如,使用 RepViT-M1 [64] 作為骨幹網路和兩個記憶體注意力塊時,利用 2D Spatial Perceiver 在 iPhone 上可以獲得 16 FPS,這比基線快 6.4 倍,並且在具有挑戰性的 SA-V val 集中甚至超過它,達到 0.9 I&F。
除了架構改進之外,我們還進一步提出了一種蒸餾流水線,將強大的教師模型 SAM 2 的知識轉移到我們的學生模型中,從而在不增加推理開銷的情況下提高準確率。具體而言,SAM 2 的訓練過程分為兩個階段,首先,模型使用 SA-1B [31] 中的可提示影像分割任務進行訓練,同時斷開與記憶體相關的模組,然後在第二階段,模型包含所有模組,使用可提示影片分割任務在 SA-1B 和 SA-V [48] 資料集上進行訓練。我們發現,在兩個階段,從原始 SAM 2 的影像編碼器中對齊特徵有益於效能。此外,我們還對教師 SAM 2 和我們的學生模型之間的記憶體注意力輸出進行對齊,以便除了影像編碼器之外,與記憶體相關的模組也可以從 SAM 2 教師那裡接收監督訊號。結果,透過提出的蒸餾流水線,我們在 SA-V val 和測試集上分別將 提高了 1.3 和 3.3。
匯聚起來,我們提出了一種名為 EdgeTAM(邊緣裝置上的 Track Anything 模型),它採用 2D 空間感知器以提高效率,並採用知識蒸餾以提高準確性。我們的貢獻可以總結如下:
• 透過全面的基準測試,我們發現延遲瓶頸在於記憶體注意力模組。 • 鑑於延遲分析,我們提出了一種2D空間感知器,它顯著降低了記憶體注意力計算成本,同時具有可與任何SAM 2變體相媲美的效能,可以與任何SAM 2變體整合。
• 我們實驗了一個蒸餾流水線,該流水線在影像和影片分割階段都與原始 SAM 2 進行特徵級對齊,觀察到在推斷期間沒有額外成本的情況下,效能有所提高。
• The resulting EdgeTAM 可以以 16 FPS 在 iPhone 上執行,這明顯比現有的影片物件分割模型更快,並且與之前的最先進方法相當或優於。 我們的知識表明,它是第一個在裝置上執行的,用於統一分割和跟蹤任務的模型。
2. 相關工作
**影片物件分割 (VOS)**。VOS 任務的目標是,給定第一幀的地面真實 (GT) 物件分割掩碼,在影片後續幀中跟蹤和預測物件掩碼。線上學習方法 [4, 7, 26, 38, 40, 41, 45, 46, 49, 52, 61, 69] 將該任務表述為一個半監督學習問題,在測試期間,模型會使用第一幀的 GT 掩碼進行微調。然而,這項工作通常會遭受推理效率低、對輸入敏感以及難以隨著大量訓練資料進行擴充套件的問題。為了避免測試期間的訓練,離線訓練的模型提出利用模板匹配 [10, 27, 43, 62, 74, 75, 77, 79] 或記憶銀行 [34, 44] 來跟蹤標註和預測幀中的身份資訊。在網路架構方面,一些工作採用迴圈神經網路進行空間-時間編碼 [32, 33, 60, 72],而最近,基於 Transformer 的模型 [3, 11, 12, 14, 19, 32, 51, 66, 68, 76, 78, 80, 84] 表現更好。
**Segment Anything Model (SAM)**。SAM [31] 定義了一個新的基於提示的分割任務,其中使用者提示可以是點、框和掩碼。SAM 2 [48] 將任務擴充套件到影片輸入,即提示式影片分割 (PVS)。與 VOS 不同,使用者可以在任意幀和多個時間步長提供標註,並使用 SAM 提示的任何組合,使 VOS 成為 PVS 的一個特殊情況。SAM 和 SAM 2 都遵循相同的元架構,即影像編碼器和基於提示的掩碼解碼器,但為了捕捉時間資訊,SAM 2 補充了一個記憶銀行機制。得益於在各種大型資料集上的訓練,SA-1B [31] 和 SAV [48],SAM 在通用感知和下游任務方面表現出色 [8, 9, 39, 55, 70, 81]。為了使 SAM 更加高效且更適合低容量裝置,一些工作 [63, 71, 83, 85, 86] 建議將其影像編碼器壓縮為更緊湊的視覺支架,並採用知識蒸餾和/或掩碼影像預訓練。然而,透過我們的基準測試,我們發現,除了影像編碼器之外,SAM 2 中新引入的與記憶相關的模組也是速度瓶頸;因此,替換影像編碼器已經不再足夠。因此,我們提出了一種新的外掛模組來加速記憶融合以解決該問題,並結合了為影片輸入而設計的蒸餾管道。
3. 方法論
在這一部分,我們首先簡要介紹 Segment Anything 模型 2 (SAM 2),我們的模型基於它。然後,我們分別提出我們的架構級改進和知識蒸餾流程。
3.1. 預備:SAM 2
總體而言,SAM 2 由四個元件組成,包括影像編碼器 、掩碼解碼器 、記憶體編碼器 和記憶體注意力 ,前兩者幾乎與原始 SAM 相同,僅區別在於兩者之間的跳躍連線。 尤其是, 是一種分層骨幹網路 Hiera [50],它輸出具有三個不同步距的特徵圖,分別為 4、8 和 16,分別表示為 。
其中, 是當前的幀輸入。然後, 與來自前 幀的記憶特徵 融合,透過記憶注意力 進行融合。記憶注意力本質上是 Transformer [59] 塊的堆疊。在這種設定中, 作為查詢,而記憶特徵,沿著時間維度連線,提供鍵和值:
其中, 是基於記憶的影像特徵。接下來,掩碼解碼器 編碼使用者提示,並根據提示嵌入 和影像特徵 解碼掩碼預測 :
最後, 和 被融合並使用記憶體編碼器 編碼,然後以先進先出 (FIFO) 的方式排入記憶體銀行:
3.2. EdgeTAM
Na¨ıve Adaptations. 如圖 3 所示,SAM 2 的元架構緊隨 SAM 之後,其影像編碼器是引數和計算方面最重的元件。雖然新引入的與記憶體相關的模組只佔總引數的一小部分,但我們的基準測試 (圖 2) 表明,記憶體注意力也是一個延遲瓶頸。因此,為了追求更高的效率,一種樸素的技術是使用緊湊的骨幹網路替換影像編碼器,並減少記憶體注意力塊的數量。為此,我們遵循 EdgeSAM [86] 的做法,選擇 RepViT-M1 [64] 作為骨幹網路,並將記憶體注意力從 4 個塊減少到 2 個塊。然而,在移動裝置上部署時,推理吞吐量仍然令人滿意,僅為 2.5 FPS (在 iPhone 15 Pro Max 上)。

Taking a closer look, we observe that each memory feature has the same size as the image feature RC×H×W , where C = 64, H = W = 64 denote channels, height and width respectively. With frames in the memory bank, the computational complexity of memory attention becomes , which translates to a huge matrix multiplication that mobile devices with limited scale of parallelism perform inefficiently. While is already relatively small compared to other VOS methods, reducing it will lead to the degradation of temporal consistency and occlusion handling. On the other hand, videos are known to be information redundant. Thus, we propose to summarize the memory spatially before performing memory attention. Global Perceiver. Inspired by Perceiver [29, 30], we encode each memory feature with a stack of attention modules to compress the densely stored memories into a small set of vectors , where is the number of learnable latents and Specifically, we denote the latents as and perform single-head cross attention (CA) between and , followed by self attention (SA) as follows:
和 分別表示 CA 中查詢、鍵和值的投影。 是中間特徵, 表示位置嵌入 [53]。在這裡,每個潛在的表示可以全域性地關注記憶特徵並將其總結為一個向量。雖然全域性感知器引入了可忽略的推理成本,但它將記憶注意力的複雜度降低到 。然而,儘管在全域性感知器的輸入中添加了位置嵌入,但生成的壓縮記憶僅包含隱式的空間資訊,因為輸出沒有保持其空間結構。同時,作為密集預測任務,影片物件分割需要更明確的位置資訊 [48] 和區域性特徵 [51]。因此,我們進一步提出了一種 2D 空間感知器用於此目的。
2D 空間感知器。與全域性感知器類似,2D 空間感知器共享相同的網路架構和引數。然而,我們為可學習的潛在變數 分配了空間先驗,並限制每個潛在變數僅關注區域性視窗。具體而言,我們執行視窗分割 [36] 將記憶特徵圖分割為 個非重疊的塊,並將位置嵌入 從輸入移動到輸出 :
不同的 Global 和 2D 空間感知器設計鼓勵不同的行為,其中全域性潛在變數 具有一定的冗餘性(多個潛在變數關注相同的輸入)並且可以動態分佈在整個影像上,而 2D 潛在變數 則被迫處理區域性區域。兩者都具有總結特徵的良好優點。因此,我們透過沿空間維度進行展平並沿展平維度進行連線來組合它們。請注意,我們的實現堆疊了 Eq. 5 和 Eq. 6 中的塊兩次。總而言之,在應用所提出的模組時,記憶體注意力複雜性從 減少到 。在實踐中,我們控制速度提升比例約為 倍,即 ,以便記憶體注意力中的自注意力塊和交叉注意力塊具有相似的複雜度。

3.3. 蒸餾流水線
如圖 4 所示,SAM 2 的訓練流程可以分為影像分割預訓練階段 和影片分割訓練階段 。先前的方法 [71, 83, 86] 表明,在 上進行知識蒸餾有助於提高影像的效能。在此,我們將這一思想擴充套件到影片領域,並將蒸餾損失作為輔助損失,這意味著在訓練過程中也同時實施了任務特定的損失。
特別是, 中,我們採用與任務相關的損失函式 ,與 SAM 相同(包括用於掩碼預測的 Dice loss [54] 和 focal loss [35] 以及用於掩碼置信度預測的 L1 loss),同時,我們使用 MSE loss 將影像編碼器特徵圖 ( 在 Eq. 1 中) 在教師模型和學生模型之間對齊。預訓練損失 可以表示為:
其中, 是從方程 1 和方程 3 獲得的掩碼預測。由於缺乏記憶體銀行,因此省略方程 2,。這裡,、、 和 分別表示真實標籤、損失權重、教師和學生影像編碼器特徵。
最後,在第 階段,任務特定的損失包括一個額外的 BCE 損失用於遮擋預測。 此外,為了讓學生的記憶相關模組從教師那裡獲得監督,除了 ,我們添加了另一個 MSE 損失 來對齊教師和學生 ( 和 ) (Eq. 2)。 最終的總損失變為:
使用 和 作為損失權重。
4.實驗證明
4.1. 實施細節
訓練。一般來說,EdgeTAM的訓練過程遵循SAM 2。我們將輸入解析度設定為。在影像分割預訓練階段,我們使用SA-1B資料集進行訓練,共2個epoch,批大小為128。我們使用AdamW [37] 作為最佳化器 (),並將學習率設定為,並使用倒數平方根排程器 [82]。我們對L2梯度進行截斷,值為0.1,並將權重衰減設定為0.1。骰子、焦點、IoU和的損失權重分別為20、1、1和1。對於每個訓練樣本,最多允許64個物件,並迭代地新增7個修正點。在這一階段,僅進行水平隨機翻轉的資料增強。對於影片分割訓練,我們使用SA-V,即SA-1B的10%隨機抽樣子集,包括DAVIS、MOSE和YTVOS,進行訓練130K次迭代,批大小為256。大多數配置遵循前一階段,除了影像編碼器學習率等於,其他部分學習率等於,並使用餘弦排程器。骰子的損失平衡因子為20和1,焦點、IoU、遮擋、和的平衡因子分別為1、1、1和1。每個影片樣本包含8幀,幾乎有3個物件,並使用水平翻轉、顏色抖動、仿射和灰度變換進行增強。
漸進式微調,使用更長的訓練樣本。 類似於 SAM 2.1,我們對訓練好的 EdgeTAM 模型進行微調,使用 16 幀序列。 在微調過程中,我們凍結影像編碼器,不進行蒸餾。 訓練集與影片分割訓練階段相同,但總迭代次數減少到原始計劃的 1/3。 此外,由於 EdgeTAM 的 VRAM 消耗量遠低於 SAM 2,我們能夠使用 32 幀的訓練樣本,按照相同的計劃對 16 幀模型進行進一步微調。 請注意,記憶體銀行大小保持不變,只有訓練樣本變長,因此推理成本不變。


Model. 預設情況下,我們使用在 ImageNet 上預訓練的 RepViT-M1 [64] 作為影像編碼器。我們還嘗試使用在 ImageNet 上預訓練的 ViT-Tiny [58],並使用 MAE [24]。記憶體注意力塊的數量為 2,並且為全域性感知器和 2D 空間感知器分配了 256 個可學習的潛在空間。幀級別記憶和物件指標的記憶體銀行大小分別為 7 和 16,遵循 SAM 2。全域性感知器和 2D 空間感知器的位置嵌入是正弦,分別是 2DRoPE [53]。我們使用 SAM2-HieraB 作為教師,並使用公開可用的 checkpoint3。
4.2. 資料集
訓練。我們使用 SA-1B [31]、SA-V [48]、DAVIS [47]、MOSE [18] 和 YTVOS [73] 資料集進行訓練。SA-1B 包含 1100 萬張影像,帶有 110 億個 mask 標註,具有多種粒度(在部分級別和物件級別)。SA-1B 中影像的平均解析度為 畫素。到目前為止,它是可用的最大的資料集,用於影像分割任務。SA-V 遵循 SA-1B 的標準,並收集了 190.9 萬個 masklet 標註,涵蓋 50.9 萬個影片,平均時長為 14 秒,室內/室外場景比例為 ,並重取樣到 24 FPS。請注意,標註幀率是 6 FPS。此外,從 155 個影片中的 293 個 masklet 和從 150 個影片中的 278 個 masklet 作為 SA-V 的 val/test 分割集保留,這些影片是手動選擇的,以關注具有快速運動、複雜遮擋和消失的困難情況。
評估。我們的評估可以分為三個設定:(1) 提示式影片分割 (PVS),使用者可以點選影片中的任意幀以指示感興趣的物件;(2) 任何分割 (SA),與 PVS 相同但適用於影像;(3) 半監督影片物件分割 (VOS),在推理過程中,第一幀上的真實掩碼可用。對於影片任務,我們報告 [47] 和 [73] 作為指標,對於影像,我們使用 mIoU。
對於PVS,我們使用零樣本協議在9個數據集(包括線上和離線模式)中進行評估。對於SA,我們在SA-23 [31] 上進行評估,該資料集由23個開源資料集(包括影片(每個幀被視為影像)和影像領域)組成。最後,對於VOS,我們提供了在流行的DAVIS 2017 [47]、MOSE [18] 和 YouTubeVOS [73] val集以及具有挑戰性的SA-V val/test集 [48]上的效能。
表 2. VOS 任務上的效能。我們報告了 YTVOS 的 值和“其他資料集”的 值。在 A100 上獲得的 FPS 是使用 torch compile 獲得的。請注意,對於 SAM 2、SAM 2.1 和 EdgeTAM,我們使用相同的模型評估所有資料集。

表 3. 試驗消融研究。(a) 每項擬議元件的有效性。

(b) 2D Perceiver 的潛在值分配。

4.3. 提示式影片分割 (PVS)
EdgeTAM 的一個關鍵特性是它遵循 SAM 2 的相同元架構,這使得它能夠使用各種使用者輸入在任何幀上進行可提示的影片分割。如圖 5 所示,我們遵循了與 SAM 2 相同的線上和離線 PVS 設定,這模擬了真實世界中的使用者互動。離線模式允許多次回放,僅在出現較大錯誤的幀上新增修正點,而線上模式僅在單次前向傳遞中註釋幀。與 和 Cuite 相比,EdgeTAM 在所有設定下均有顯著優勢。此外,由於以端到端方式進行訓練並使用 SAM 2 教師進行蒸餾,因此隨著標註幀數量的增加,差距越來越大。此外,即使與原始 SAM 2 相比,EdgeTAM 也能實現可比結果,儘管它在尺寸和速度方面明顯更小更快。
4.4. Segment Anything (SA)
Both SAM 2 和 EdgeTAM 可以作為具有分離記憶體模組的影像分割模型執行。如圖 1 所示,EdgeTAM 在與 SAM 和 SAM 2 相比,尤其是在具有更多輸入點的情況下,可以實現可比的 mIoU 效能。例如,在五個輸入點的情況下,EdgeTAM 甚至超過了專門用於影像分割的 SAM-H (81.7 v.s. 81.3)。請注意,我們的 EdgeTAM 沒有使用 SAM 2 和 SAM 2.1 使用的內部資料集進行訓練。 鑑於其即時速度,EdgeTAM 可作為影像和影片的統一本地分割模型使用。

4.5. 影片物件分割 (VOS)
While EdgeTAM 僅使用 SA-V 和 SA1B 資料集進行訓練,如表 2 所示,在 MOSE、DAVIS 和 YTVOS 上,它與或超過了在這些資料集上訓練的以往最先進的 VOS 模型。這表明 EdgeTAM 在零樣本設定下的魯棒性。更重要的是,在裝置上部署多個模型,每個模型針對某些型別的資料,在實踐中不可行。
此外,由於在 SA-V 上進行訓練,EdgeTAM 在 SA-V val 和 test 上超越了所有其同類產品,僅次於 SAM 2 和 SAM 2.1。請注意,SA-V val/test 中的掩碼具有不同的粒度,而其他資料集的掩碼則在物件級別。這表明 EdgeTAM 的靈活性。此外,為了速度基準測試,我們的主要目標是在邊緣裝置上進行推理,我們觀察到,即使使用 torch 編譯,EdgeTAM 的流式多處理器利用率仍然相對較低。透過 Torch profile,我們發現,在高階 GPU 上,CPU(CUDA 核心啟動)成為 EdgeTAM 的瓶頸。因此,我們鼓勵關注邊緣裝置延遲,而 EdgeTAM 旨在為此服務。
4.6. 試驗結果分析
對於所有消融研究,我們使用原始訓練計劃的 1/3 (43k 步) 進行訓練。如圖 3(a) 所示,我們首先消融了每個擬議元件的有效性。在表中,我們將基線設定為具有兩個記憶注意力塊的 RepViTM1,並將其與僅使用降取樣空間記憶而不是使用 2D Perceiver 進行比較。實驗表明,2D Spatial Perceiver 比基線和 平均池化更快速、更準確 (0.4 到 2.7 個更好)。此外,擬議的蒸餾流水線透過 1.3 和 3.3 進一步改善了 SA-V val 和測試集上的 。然後,在圖 3(b) 中,我們改變了全域性和 2D 潛在變數的數量,並發現使用兩者可以獲得最佳效能和加速。請注意,使用 2D 潛在變數以 6.3 倍的速度加速了基線,同時具有更好的效能。圖 3(c) 顯示了在不同影像編碼器組合和記憶注意力塊的數量中使用 2D Perceiver。我們選擇使用兩個記憶注意力塊的 RepViT-M1 以獲得最佳權衡。最後,在圖 3(d) 中,我們研究了在 2D Perceiver 網路中使用自注意力的方法。這裡的動機是,由於每個 2D 潛在變數都關注一個沒有與其他 2D 潛在變數重疊的區域性區域,因此引入自注意力塊將鼓勵 2D 潛在變數之間的通訊,從而產生更好的特徵。我們的結果驗證了這一假設。
4.7. 質性結果
在圖 6 中,我們比較了 EdgeTAM 和 SAM 2 在 YouTubeVOS val 資料集上的視覺化結果。我們選取了兩個具有代表性的例子,一個包含來自同一類別的多個例項聚集在一起,另一個包含快速移動的物體和大量失真。對於第一個例子,EdgeTAM 的結果與 SAM 2 相似,並且在整個片段中保持了每個例項的身份。然而,在第二個例子中,我們觀察到 EdgeTAM 陷入了一個典型的失敗案例,即跟蹤粒度可能始終跟隨 SAM 2。在該例子中,EdgeTAM 沒有將鳥的腳包含在預測的掩碼中,因為在之前的幀中,腳不可見。
表格 4. 在使用不同提示的半監督 VOS 評估下,在 17 個影片資料集上的零樣本準確率。對於所有提示型別,標註僅在第一幀提供。 †:當真實掩碼可用時,SAM 不用於 XMem 和 Cuite。

5. 結論
在本文中,我們發現 SAM 2 的延遲瓶頸在於記憶體注意力模組,並提出 EdgeTAM 以減少跨注意力帶來的高開銷,同時最大限度地減少效能下降。具體來說,我們提出 2D Spatial Perceiver,用於將密集儲存的幀級別記憶編碼為更小的 token 集合,同時保留其 2D 空間結構,這對密集預測任務至關重要。作為外掛模組,2D Spatial Perceiver 可以應用於任何 SAM 2 變體。此外,我們還將 SAM 中用於影像分割的知識蒸餾流程擴充套件到影片領域,進一步提高了 EdgeTAM 的效能,而無需推理時間成本。我們的實驗表明,EdgeTAM 很好地保留了 SAM 2 的能力,在 PVS、VOS 和 SA 任務中。更重要的是,它比 SAM 2 快 倍,並且在 iPhone 15 Pro Max 上可以達到 16 FPS。
A. 影片物件分割 (VOS)
在我們的主要提交中,我們遵循標準半監督影片物件分割協議,其中在推理過程中,第一幀上的 ground-truth masks 可用。在表 4 中,我們遵循 SAM 2 [48],而不是提供第一幀上的 masks,而是使用第一幀上的點選或框提示感興趣的物件。由於 和 CuteDo 不支援這些提示,我們使用 SAM [31] 將提示轉換為 masks。我們評估在 17 個零樣本資料集上,包括 EndoVis 2018 [2]、ESD [28]、LVOSv2 [25]、LV-VIS [65]、UVO [67]、VOST [56]、PUMaVOS [3]、Virtual KITTI 2 [6]、VIPSeg [42]、Wildfires [57]、VISOR [16]、FBMS [5]、Ego-Exo4D [22]、Cityscapes [15]、Lindenthal Camera [23]、HT1080WT Cells [21] 和 Drosophila Heart [20]。
在本次評估套件中,除了1鍵設定之外,EdgeTAM 優於強大的基線,包括 和 Cute,提高了 2 到 5 個百分點。與 SAM 2 和 SAM 2.1 相比,EdgeTAM 仍然保持了可比的效能,尤其是在更準確的提示中,例如5-點選和地面真值掩碼。
B. 實施細節
我們通常遵循原始 SAM 2 訓練超引數用於影像分割預訓練 [31] 和影片分割訓練 [48]。在此,我們僅強調差異,完整的訓練細節在表 5 中顯示。首先,我們不使用 drop path 或層級衰減在影像編碼器中。其次,我們的影像預訓練階段採用 128 批次大小和總共 175K 訓練步數。在影片訓練階段,我們減少每張影像的最大掩碼數量,從 64 降低到 32。更重要的是,我們沒有在 SAM 2 Internal 資料集上進行訓練,因此總訓練步數從 300K 減少到 130K。最後,我們的訓練包括在兩個階段都採用蒸餾損失。
C. 速度基準
在表 2 中,我們提供了在伺服器 GPU(NVIDIA A100 和 V100)和移動 NPU(iPhone 15 Pro Max)上的吞吐量 FPS。V100 的基準測試是從每篇單獨的論文中收集的,我們自己使用另外兩個硬體進行基準測試。特別是為了最佳化吞吐量,在 A100 上,我們使用 torch 編譯所有模型。對於移動 NPU,我們使用 coremltools [1] 將模型轉換為 CoreML 格式,並使用 XCode 的效能報告工具在 iOS 18.1 上在 iPhone 15 Pro Max 上進行基準測試。請注意,EdgeTAM 與 SAM 2 的加速比在 A100 上不如在 iPhone 上明顯。為了瞭解根本原因,我們在 A100 上監控了兩個模型的流式多處理器 (SM) 利用率,發現即使使用 torch 編譯,EdgeTAM 的 SM 使用率只有 且推理受 CPU 和 IO 限制。我們認為這是因為高階伺服器 GPU(如 A100)擁有大量的並行可執行單元 (EU),而 EdgeTAM 的尺寸很小,因此無法同時佔用所有 EU。然而,EdgeTAM 的設計目標是邊緣裝置,如手機,我們在這裡看到了與 SAM 2 相比 的加速。
表 5. 邊緣TAM 影像分割預訓練和影片分割訓練的超引數和詳細資訊。


參考資料:
[1] EdgeTAM- On-Device Track Anything Model
何愷明在MIT授課的課件PPT下載
何愷明在MIT授課的課件PPT下載
CVPR 2025 論文和程式碼下載
CVPR 2025 論文和程式碼下載
ECCV 2024 論文和程式碼下載
ECCV 2024 論文和程式碼下載
CV垂直方向和論文投稿交流群成立
一定要備註:研究方向+地點+學校/公司+暱稱(如Mamba、多模態學習或者論文投稿+上海+上交+卡卡),根據格式備註,可更快被透過且邀請進群
▲掃碼或加微訊號: CVer2233,進交流群
CVer計算機視覺(知識星球)來了!想要了解最新最快最好的CV/DL/AI論文速遞、優質實戰專案、AI行業前沿、從入門到精通學習教程等資料,歡迎掃描下方二維碼,加入CVer計算機視覺(知識星球),已彙集上萬人!
▲掃碼加入星球學習
▲點選上方卡片,關注CVer公眾號
整理不易,請點贊和在看

▲掃碼或加微訊號: CVer2233,進交流群
CVer計算機視覺(知識星球)來了!想要了解最新最快最好的CV/DL/AI論文速遞、優質實戰專案、AI行業前沿、從入門到精通學習教程等資料,歡迎掃描下方二維碼,加入CVer計算機視覺(知識星球),已彙集上萬人!

▲掃碼加入星球學習
▲點選上方卡片,關注CVer公眾號
整理不易,請點贊和在看
