IDEA研究院 投稿
量子位 | 公眾號 QbitAI
AI能看懂細節了!
IDEA研究院釋出基於多模態大語言模型的目標檢測模型DINO-XSeek。
結合視覺與語言理解,只需透過自然語言描述,DINO-XSeek 就能精準定位複雜場景中的目標。
比如這張圖。
消防員手持噴水槍,站在執行任務的消防車雲梯上。
結果它能精準識別出來這個正在工作的消防員。
在人來人往的米蘭大教堂前,找到個有金色頭髮的人~
結果也精準識別出來了。

基於 IDEA研究院 DINO-X 統一視覺模型,DINO-XSeek 在精準感知能力的基礎上,融合了多模態大語言模型的推理與理解能力。
它的核心突破在於,不僅能識別名詞層級的目標(如“女孩”),還能聯合解析形容詞(如“紅色上衣”)和介詞(如“站在旁邊”),真正讓 AI 看懂細節。
無論是“穿紅色上衣的女孩”還是“站在白衣男生旁邊的她”,DINO-XSeek 都能準確檢測。
AI能看懂細節了:目標檢測+多模態語言理解
傳統目標檢測模型雖然在目標感知上表現優異,但缺乏對複雜語言的理解能力。大語言模型在文字理解方面突出,卻在精確目標定位上存在短板。
為了解決這一矛盾,DINO-XSeek 參考ChatRex的模型架構,採用了一種檢索式框架。
即先使用開集目標檢測模型 DINO-X 檢測影像中的所有物體,並生成候選目標的邊界框。
然後,大語言模型根據指代表達,從檢測出的目標集合中檢索最相關的物件,而非直接預測座標。

△DINO-XSeek 模型概覽圖。其主要有三部分組成,包括提取視覺token的視覺編碼器、提取物體token的目標檢測模型,以及提取文字token的tokenizer。三種token一起送入LLM中,進行物體索引預測。
現有主流方法,往往僅針對單例項進行訓練和推理,難以應對現實世界中一條指代描述對應多個目標的情況。
這一設計避免了傳統MLLM在檢測任務上的泛化難題,使得 DINO-XSeek 能精準處理多例項指代任務。
透過自然語言描述,DINO-XSeek 可以推理出待檢測目標的屬性(如顏色、大小、姿勢、穿著等)、方位(如朝向、距離、深度等)或者(物品之間或與環境的)互動關係,從而實現精準的目標定位。DINO-XSeek 實現了指代表達理解(Referring Expression Comprehension, REC)。REC 是計算機視覺與自然語言理解交叉領域的核心任務,旨在透過自然語言描述精準定點陣圖像中的目標物件。DINO-XSeek 透過多模態融合和高階語義推理,為 REC 任務提供了更強大的解決方案。

△DINO-XSeek 識別結果。在工業製造與質檢、安防等行業應用潛力廣泛。
與主流目標檢測模型以物體為核心不同,DINO-XSeek 以“理解物體屬性及關係”為核心,不再孤立地關注物體本身,而是專注於物體相關的處理邏輯。
具體而言,以人類學習為例,以物體為核心的模型更像是幼兒啟蒙階段對物體的認知,如幼兒會辨認道路的“車”。隨著見識(即資料)增長,部分高階的認知能夠進一步識別物體基礎的屬性以及關係,如“紅色的車”、“前面的車”、“大的車”、“貨車”,但仍舊難以理解“正在執行任務的消防車”之類的更復雜的描述。
相比之下,DINO-XSeek 則像是一位學生,已經建立起知識儲備和對事務邏輯的理解,能夠對“正在執行任務的消防車的雲梯上拿著噴水槍的消防員”這樣複雜的描述進行正確的辨認,而不是簡單地標記“消防車”或“消防員”,真正實現了近似人類對複雜場景的理解能力。
以“理解物體屬性及關係”為切入點意味著,DINO-XSeek 將能夠根據使用者輸入的業務處理邏輯來完成相關的目標檢測任務,降低在實際生產應用中,使用者基於視覺模型進行二次處理的後置開發成本。
舉個例子,在當前的工廠流水線中,企業在使用視覺模型檢測出零部件存在缺陷以後,需要進一步對缺陷進行分類,如劃痕、裂紋、尺寸偏差等,並統計各種缺陷的出現頻率和分佈情況,為生產工藝的改進提供資料支援。
而DINO-XSeek為生產工藝智慧化提供了更多想象。比如透過使用 DINO-XSeek 精準區分出“劃痕過多的零部件”、“帶裂紋的零部件”或者“尺寸不合格的零部件”,企業便可以實現零部件缺陷的檢測和分類工作全自動化,無需再像之前一樣投入巨大的資源對零部件缺陷進行進一步分類和統計。
安全合規檢測:識別「未佩戴護目鏡的操作員」「進入危險區域的工人」,觸發語音警告。

△DINO-XSeek識別結果。提示詞:The worker not wearing a safety helmet(沒有戴安全帽的工人)

△DINO-XSeek識別結果。提示詞:The worker under the steel bars(在鋼筋下面的工人)
質量檢測:針對流水線上生產的零部件或最終成品,自動識別並分類各種缺陷(如劃痕、裂紋、尺寸偏差),為工藝改進提供更精準的資料參考。

△DINO-XSeek識別結果。提示詞:abnormal light(異常光線)
智慧家居與生活
危險行為識別:在家庭場景中自動識別老人意外摔倒等高風險狀況,及時通知看護人員或發出緊急警告。

△提示詞:The person who fell(摔倒的人)
農業與食品
農作物檢測:根據發育程度對農作物進行分類,或識別腐壞、病蟲害侵染的果實,有效提升種植和收穫效率。

△提示詞:Bad apple(壞蘋果)
自動駕駛
道路場景識別:對車載攝像頭拍攝的道路影像進行標註,識別出道路、交通標誌、車道線、行人、其他車輛等目標,幫助自動駕駛汽車理解周圍環境,做出正確的行駛決策。

△DINO-XSeek識別結果。提示詞:The road sign pointing to Soral(指向Soral的路標)
障礙物檢測:及時標註出影像中的障礙物,如路邊的障礙物、突然出現的動物等,使自動駕駛系統能夠提前做出制動或避讓等操作,保障行車安全。

△DINO-XSeek識別結果。提示詞:Tree on the road(路上的樹)
關於新模型就介紹到這裡,歡迎大家體驗~
論文連結:
官網: https://deepdataspace.com/
Blog:https://deepdataspace.com/blog/dino-xseek
官網: https://deepdataspace.com/
Blog:https://deepdataspace.com/blog/dino-xseek
學術投稿請於工作日發郵件到:
標題註明【投稿】,告訴我們:
你是誰,從哪來,投稿內容
附上論文/專案主頁連結,以及聯絡方式哦
我們會(儘量)及時回覆你

一鍵關注
點亮星標
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!