描述一切!英偉達新作DAM:影像和影片詳細描述,拿下7個基準SOTA!

點選下方卡片,關注“CVer”公眾號

AI/CV重磅乾貨,第一時間送達

新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球可以獲得最新頂會/頂刊上的論文ideaCV從入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!

轉載自:機器之心

影像描述(image captioning)生成一直是計算機視覺和自然語言處理領域面臨的長期挑戰,因為它涉及理解和用自然語言描述視覺內容。
雖然近期的視覺語言模型 (VLM) 在影像級描述生成方面取得了令人矚目的成果,但如何為影像中的特定區域生成詳細準確的描述仍然是一個懸而未決的問題。
這一挑戰在影片領域尤為突出,因為模型必須額外捕捉動態視覺內容,例如人類動作、物體運動以及人與物體的互動。
為了解決上述問題,來自英偉達、UC 伯克利等機構的研究者推出了「描述一切模型」 (DAM,Describe Anything Model)。這是一個強大的多模態大語言模型,可以生成影像或影片中特定區域的詳細描述。使用者可以使用點、框、塗鴉或蒙版來指定區域,DAM 將提供這些區域豐富的上下文描述。

  • 論文標題: Describe Anything: Detailed Localized Image and Video Captioning 
  • 論文地址:https://arxiv.org/pdf/2504.16072
  • 論文主頁:https://describe-anything.github.io/
我們先來看效果。
DAM 對影片中指定物件的描述:「一頭身披深棕色皮毛、臀部有一塊淺色斑塊的母牛,正以一系列動作展現其姿態。起初,母牛略微低著頭,展現出平靜的神態。隨著畫面的推進,母牛開始向前移動,雙腿舒展,步態穩健而有節奏。其尾端有簇毛,每走一步都會輕輕擺動,為其動作增添一絲流暢感。母牛的身體基本保持直立,背部略微拱起,展現出一種放鬆的姿態。結實而輪廓分明的雙腿,帶著母牛堅定地向前邁進。在整個畫面中,母牛保持著均勻的步伐,動作流暢而從容,展現出一種寧靜沉穩的氣質。」
「一隻淺棕色皮毛、面部稍深的猴子在一系列動態動作中被捕捉到。最初,它似乎用右手伸進一個容器中,手裡拿著一塊黃色的食物。猴子的姿勢稍微前傾,表明它在與食物互動時的專注和意圖。隨著動作的進行,猴子將食物靠近嘴邊,用雙手操作。它的面部表情顯示出專注和享受,眼睛半閉。猴子的身體輕微移動,保持平衡,繼續進食。在整個過程中,猴子的動作流暢而有目的,展示了它的靈巧和敏捷。最後的畫面描繪了猴子用雙手拿著食物,將其靠近臉部,然後稍微降低,可能準備再咬一口。」
DAM 對圖片的描述「一隻白色的貓,有著淺橙色的耳朵和粉紅色的鼻子。這隻貓表情放鬆,眼睛微微閉合,身上覆蓋著柔軟的白色毛髮。」

機器之心也上手測試了一下,看起來是滑鼠指到哪個物件,該物件就會被自動分割,最後我們選擇了拉布拉多幼犬,模型回答的快且準確,
測試地址:https://huggingface.co/spaces/nvidia/describe-anything-model-demo
詳細區域性描述
DLC(Detailed Localized Captioning)與傳統影像描述不同,傳統影像描述對整個場景的總結比較粗略,而 DLC 則更深入地挖掘使用者指定區域的細微細節。其目標不僅是捕捉物件的名稱或類別,還包括微妙的屬性,如紋理、顏色圖案、形狀、特點以及任何視覺上獨特的特徵。

不僅是圖片,DLC 可以自然地擴充套件到影片領域,描述特定區域的外觀和上下文如何隨時間變化。達到這種目的,模型必須跨幀跟蹤目標,捕捉不斷變化的屬性、互動和細微的變化。
DAM 比較擅長生成影像和影片中物體的詳細描述。透過平衡焦點區域的清晰度和全域性上下文,該模型可以突出細微的特徵(例如複雜的圖案或變化的紋理),這遠遠超出了一般影像級描述所能提供的範圍。

使用者還可以引導模型生成不同細節和風格的描述。無論是簡短的摘要,還是冗長複雜的敘述,模型都能調整輸出。這種靈活性使其適用於各種用例,從快速標記任務到深入的專家分析。

除了生成描述之外, DAM 模型無需額外的訓練資料即可回答有關特定區域的問題。例如使用者可以詢問該區域的屬性,模型會利用其對區域性區域的理解,提供準確的、基於上下文的答案。

方法介紹
為了解決指定區域特徵中細節丟失問題,本文提出了 DAM,該模型既保留了區域性細節也保留了全域性上下文。DAM 透過兩個關鍵創新實現這一點:
1)焦點提示(focal prompt),它對感興趣區域進行編碼;
2)區域性視覺骨幹網路(localized vision backbone),它確保精確定位的同時整合全域性上下文。
這些元件使 DAM 能夠生成詳細準確的描述,即使是對於複雜場景中的小物體。

具體而言:
焦點提示,可以提供完整影像和目標區域的放大檢視。這種方法確保模型能夠捕捉精細細節,同時保留全域性背景。最終呈現的描述細緻準確,既能反映全域性,又能捕捉細微之處。

區域性視覺主幹網路,引入了一個整合全域性特徵和區域性特徵的區域性視覺主幹網路。影像和掩碼在空間上對齊,門控交叉注意力層將區域性細節線索與全域性上下文融合。此外,新引數初始化為零,從而保留預訓練的能力。這種設計能夠產生更豐富、更具有上下文感知能力的描述。

此外,由於現有的資料集缺乏詳細的區域性化描述,該研究設計了一個兩階段流程。
  • 首先,他們使用視覺語言模型(VLM)將資料集中的簡短類別標籤擴充套件為豐富的描述。
  • 其次,在未標記的影像上應用自訓練,作為一種半監督學習方法,並使用 DAM 模型生成和最佳化新的描述。
這種可擴充套件的方法可以在不依賴大量人工註釋的情況下構建大型、高質量的訓練資料集。

實驗及結果
DAM 在區域性影像與影片描述任務中表現卓越,能夠支援多粒度輸出(包括關鍵詞、短語及詳細描述),並在 7 個領域內基準測試和零樣本基準測試中均達到 SOTA。
在 object-level LVIS  和 part-level PACO 資料集上進行測試,本文方法取得了最佳效能。

在表 4 中的 Ref-L4 基準測試中,本文方法在基於短語言的描述指標上平均比之前的最好方法相對提高了 33.4% ,在基於長語言的描述指標上平均比之前的最好方法相對提高了 13.1%。

如表 5 所示,DAM 顯著優於現有的通用和基於特定區域的 VLM。

在表 6 中, DAM 在 HC-STVG 上比之前的最佳成績相對提升了 19.8%。在表 7 中, DAM 在零樣本和域內設定中均超越了之前的最佳成績。

瞭解更多內容,請參考原論文。
何愷明在MIT授課的課件PPT下載
在CVer公眾號後臺回覆:何愷明,即可下載本課程的所有566頁課件PPT!趕緊學起來!

CVPR 2025 論文和程式碼下載

在CVer公眾號後臺回覆:CVPR2025,即可下載CVPR 2025論文和程式碼開源的論文合集

ECCV 2024 論文和程式碼下載

在CVer公眾號後臺回覆:ECCV2024,即可下載ECCV 2024論文和程式碼開源的論文合集
CV垂直方向和論文投稿交流群成立
掃描下方二維碼,或者新增微訊號:CVer2233,即可新增CVer小助手微信,便可申請加入CVer-垂直方向和論文投稿微信交流群。另外其他垂直方向已涵蓋:目標檢測、影像分割、目標跟蹤、人臉檢測&識別、OCR、姿態估計、超解析度、SLAM、醫療影像、Re-ID、GAN、NAS、深度估計、自動駕駛、強化學習、車道線檢測、模型剪枝&壓縮、去噪、去霧、去雨、風格遷移、遙感影像、行為識別、影片理解、影像融合、影像檢索、論文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要備註:研究方向+地點+學校/公司+暱稱(如Mamba、多模態學習或者論文投稿+上海+上交+卡卡),根據格式備註,可更快被透過且邀請進群

▲掃碼或加微訊號: CVer2233,進交流群
CVer計算機視覺(知識星球)來了!想要了解最新最快最好的CV/DL/AI論文速遞、優質實戰專案、AI行業前沿、從入門到精通學習教程等資料,歡迎掃描下方二維碼,加入CVer計算機視覺(知識星球),已彙集上萬人!

掃碼加入星球學習
▲點選上方卡片,關注CVer公眾號
整理不易,請點贊和在看


相關文章