
©作者 | 彭巖松
單位 | 中國科學技術大學博士生
研究方向 | 即時目標檢測

引言
在當前內卷嚴重的即時目標檢測(Real-time Object Detection)領域,效能與效率始終是難以平衡的核心問題。絕大多數現有的 SOTA 方法僅依賴於更先進的模組替換或訓練策略,導致效能逐漸趨於飽和。
為了打破這一瓶頸,來自中科大的研究團隊提出了 D-FINE,重新定義了邊界框迴歸任務。
不同於傳統的固定座標預測,D-FINE 創新了兩種方法:細粒度分佈最佳化(FDR)和全域性最優定位自蒸餾(GO-LSD)。透過將回歸任務轉化為細粒度的分佈最佳化任務,D-FINE 不僅顯著簡化了最佳化難度,還能夠更精確地建模每條邊界的不確定性。
此外,D-FINE 將定位知識(Localization Knowledge)融入到模型輸出,透過高效的自蒸餾策略在各層共享這些知識,因而在不增加額外訓練成本的前提下,實現了效能的進一步顯著提升。

論文標題:
D-FINE: Redefine Regression Task of DETRs as Fine-grained Distribution Refinement
論文地址:
https://arxiv.org/abs/2410.13842
專案地址:
https://github.com/Peterande/D-FINE
憑藉這些創新,D-FINE 在 COCO 資料集上以 78 FPS 的速度取得了 59.3% 的平均精度(AP),遠超 YOLOv10、YOLO11、RT-DETR v1/v2/v3 及 LW-DETR 等競爭對手,成為即時目標檢測領域新的領跑者。目前,D-FINE 的所有程式碼、權重以及工具已開源,包含了詳細的預訓練教程和自定義資料集處理指南。
研究團隊分別使用 D-FINE 和 YOLO11 對 YouTube 上的一段複雜街景影片進行了目標檢測。儘管存在逆光、虛化模糊和密集遮擋等不利因素,D-FINE-X 依然成功檢測出幾乎所有目標,包括揹包、腳踏車和訊號燈等難以察覺的小目標,其置信度、以及模糊邊緣的定位準確度明顯高於 YOLO11x。

細粒度分佈最佳化(FDR)
FDR(Fine-grained Distribution Refinement)將檢測框的生成過程分解為:
1. 初始框預測:與傳統 DETR 方法類似,D-FINE 的解碼器會在第一層將 Object Queries 轉換為若干個初始邊界框。這些邊界框只用於初始化,不需要特別精確。
2. 細粒度的分佈最佳化:與傳統方法不同,D-FINE 的解碼層不會直接預測新的邊界框,而是基於初始邊界框生成四組機率分佈,並透過逐層最佳化對其進行調整。這些機率分佈本質上是檢測框的一種「細粒度中間表徵」。D-FINE 可以透過微調這些表徵,不同幅度地獨立調整各邊緣。
具體流程如圖所示:

將邊界框迴歸任務重新定義為 FDR 有以下優點:
1. 過程簡化:在傳統 L1 損失和 IoU 損失進行最佳化的基礎上,模型還透過標籤和預測結果之間的「殘差」進一步約束這些中間態的機率分佈。這使得每個解碼層能夠更有效地關注當前的定位誤差。隨著層數增加,最佳化的目標變得更加簡單,從而簡化了整體的最佳化過程。
2. 對複雜場景的魯棒性更強:FDR 中機率的高低本質上反應了模型對邊界微調的自信程度。這使得 D-FINE 能夠在不同網路深度下對每條邊的不確定性獨立建模,從而使模型真正地理解定位的好壞。在遮擋、運動模糊和低光照等複雜的實際場景下,D-FINE 表現出了更強的魯棒性,相比直接回歸四個固定值的方法要更為穩健。
3. 靈活的最佳化機制:D-FINE 透過加權求和將機率分佈轉化為最終的邊界框偏移值。指數型加權函式 W (n) 保證了能夠在初始框準確時進行細微調整,在必要時提供大幅度修正。
4. 可擴充套件性:FDR 透過將回歸任務定義為同分類任務一致的機率分佈預測問題,這使得目標檢測模型可以更好地受益於知識蒸餾、多工學習和分佈最佳化等更多領域的創新,從而更有效地適應和整合新的技術,突破傳統方法的侷限。

全域性最優定位自蒸餾機制 GO-LSD
GO-LSD(Global Optimal Localization Self-Distillation)可以將知識蒸餾無痛應用到 FDR 框架檢測器。
基於 FDR 框架的目標檢測器既可以實現知識傳遞,又可以保持一致的最佳化目標。
新任諾貝爾物理學獎得主 Geoffrey Hinton 在《Distilling the Knowledge in a Neural Network》一文中提到:機率即 「知識」。FDR 將機率分佈變成了網路輸出,並搭載了定位知識(Localization Knowledge)。因此,僅計算 KL 散度損失就能將這些「知識」從深層傳遞到淺層。
由於 FDR 架構中每一個解碼層都共享一個共同目標,即減少初始邊界框與真實邊界框之間的殘差。因此最後一層生成的精確機率分佈可以作為前面每一層的最終目標,並透過蒸餾引導前幾層。
由於 FDR 架構中每一個解碼層都共享一個共同目標:減少初始邊界框與真實邊界框之間的殘差;因此最後一層生成的精確機率分佈可以作為前面每一層的最終目標,並透過蒸餾引導前幾層。
研究團隊在 FDR 的框架上進一步提出了全域性最優定位自蒸餾 GO-LSD,在網路層間實現了定位知識蒸餾,進一步擴充套件了 D-FINE 的能力,具體流程如圖:

FDR 與 GO-LSD 產生了一種雙贏的「合力」:隨著訓練的進行,最後一層的預測將變得越來越準確,其生成的軟標籤也能夠更好地幫助前幾層提高預測準確性。反過來,前幾層將更快地定位到準確位置。這相當於深層的最佳化任務得到了簡化,從而進一步提高了整體準確性。

實驗結果

在 COCO 資料集上,D-FINE-L 和 D-FINE-X 分別以 8.07 ms(124 FPS)和 12.89 ms(78 FPS)的時延取得了 54.0% 和 55.8% 的 AP,遠超其餘所有即時目標檢測器,打敗了 YOLOv10(53.2%,54.4%)、YOLO11(53.4%,54.7%)及 RT-DETRv2(53.4%,54.6%)。
在 Objects365 上進行了簡單的有監督預訓練後,D-FINE 的準確率達到了 59.3% AP。在 paperwithcode 網站的 Real-Time Object Detection on MS COCO benchmark 上,D-FINE 的速度和效能都遠超其他方法,取得了 Top1 的成績。
相比 baseline RT-DETR,D-FINE-L 和 D-FINE-X 大幅降低了引數量和計算複雜度。在推理速度顯著提升的同時,分別取得了 1.8% 和 3.2% 的顯著效能提升。

更輕量化的 D-FINE-S 和 D-FINE-M 在 T4 GPU 上分別以 3.49 ms(287 FPS)和 5.62 ms(178 FPS)的時延下取得了 48.5% 和 52.3% 的 AP,超過 YOLOv10(46.3%,51.1%)、YOLO11(46.6%,51.2%)及 RT-DETRv2(48.1%,49.9%)。預訓練後,D-FINE-S 和 D-FINE-M 分別取得了 50.7% 和 55.1% 的 AP。

雖然 FDR 和 GO-LSD 能夠顯著提高效能,但不會直接讓網路更快或更輕。為了解決這個問題,研究團隊對 DETR 架構進行了輕量化處理。這些調整不可避免地讓效能有所下降,但 D-FINE 方法最終實現了速度、引數、計算量與效能的平衡。
下表展示了從 baseline 到 D-FINE 的逐步修改過程。每一步都含展示了模型在 AP 、引數量、時延以及 FLOPs 上的變化。

研究團隊對一系列非即時的 DETR 檢測模型應用了 FDR 和 GO-LSD。實驗證明,在幾乎沒有額外引數量和算力的情況下,最高提升了 5.3% 的 AP,證明了方法的魯棒性和泛化性。
根據消融實驗,含有 FDR 的檢測器和原始檢測器在速度、引數量和計算複雜度上幾乎沒有區別,可以實現無縫替換。

研究團隊分析了訓練成本,發現額外的時間和視訊記憶體消耗主要來自生成用於監督分佈的 FGL Loss 標籤。透過對 D-FINE 進行的進一步最佳化,這些額外的訓練時間和視訊記憶體佔用被控制在 6% 和 2% 以內,對整體影響很小。


D-FINE 預測的視覺化
以下是 D-FINE 在各種複雜檢測場景中的預測結果。這些場景包括遮擋、低光照、運動模糊、景深效果和密集場景。可以看出,面對這些具有挑戰性的場景,D-FINE 能夠產生準確的定位結果。

下圖展示了第一層和最後一層的預測結果、對應四條邊的分佈、以及加權後的分佈。可以看出,預測框的定位會隨著分佈的最佳化而變得更加精準。



總結和侷限
D-FINE 將邊界框迴歸轉化為逐層最佳化的機率分佈預測,顯著提升了模型在多工場景中的相容性。D-FINE 為目標檢測模型的設計提供了一條新思路,後續可以考慮進一步挖掘 D-FINE 在跨任務學習和模型輕量化方面的潛力。
D-FINE 也有一些侷限:相比於大模型,D-FINE 的輕量化版本對於效能提升不太明顯。這可能是因為淺層解碼器的預測精度不高,無法有效將定位資訊傳遞給前幾層。
未來的研究可以考慮在提高輕量化模型定位能力的同時,避免增加推理延遲。一種思路是繼續改進架構設計,嘗試在訓練時引入額外的異構解碼層,在推理時丟棄這些層,保持模型的輕量化。如果訓練資源足夠,還可以直接用大模型對小模型進行蒸餾,而不是依賴自蒸餾。

思考和展望
2024 年,即時目標檢測領域經歷了多次版本迭代,YOLO 系列先後推出了 YOLOv9、YOLOv10,以及 YOLO11。而 DETR 系列則在 RT-DETR 之後,陸續推出了 LW-DETR、RT-DETRv2 和 RT-DETRv3。
這兩類模型的重要突破,實質上得益於相互借鑑和融合。RT-DETR 引入了 YOLO 的 RepNCSP 模組,以替代冗餘的多尺度自注意力層,透過重新設計輕量化的混合編碼器,實現了即時 DETR;而 YOLOv10 借鑑了 DETR 的匹配策略,透過訓練額外的一對一檢測頭,對密集 anchor 預測進行自動篩選,避免了 NMS 後處理,顯著提升了速度。
此外,YOLOv10 和 YOLO11 也引入了自注意力機制,進一步增強了大尺度目標的檢測效能。
儘管這些改進取得了顯著的效果,但社群對未來的發展方向產生了疑問:在兩類模型趨於一致的背景下,即時目標檢測的下一步將如何發展?可以預見,在目標檢測這一競爭激烈的領域,繼續進行模組替換的收益將逐漸減少,可能很快遇到瓶頸。
而基於傳統框架的訓練策略改進,或許對一些舊的網路(如常用的 Deformable DETR)有效,但應用於最新的 SOTA 網路時,往往難以取得明顯的提升,甚至可能產生負面影響。特別是對於計算資源有限的小型團隊,即使是精妙的訓練策略,若缺乏大規模的超引數搜尋,也難以取得預期的效果。
D-FINE 的出現,為目標檢測帶來了全新的思路。透過引入 FDR 和 GO-LSD,D-FINE 重新定義了目標檢測中的邊界框迴歸任務。這種創新有望突破當前的瓶頸,為即時目標檢測領域提供新的發展方向。
D-FINE 的作者均來自中國科學技術大學。第一作者為中科大在讀博士生彭巖松(https://scholar.google.com/citations?user=CTidez8AAAAJ&hl=zh-CN),其研究方向為即時目標檢測以及神經形態視覺,已在 AAAI、ICCV、CVPR 等國際頂級會議上以第一作者身份發表多篇論文。
本文由吳楓教授、孫曉豔教授和張越一副研究員共同指導,其他作者包括中科大博士生李和倍及碩士生吳沛熹。
更多閱讀




#投 稿 通 道#
讓你的文字被更多人看到
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝 稿件基本要求:
• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標註
• 稿件建議以 markdown 格式撰寫,文中配圖以附件形式傳送,要求圖片清晰,無版權問題
• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬 投稿通道:
• 投稿郵箱:[email protected]
• 來稿請備註即時聯絡方式(微信),以便我們在稿件選用的第一時間聯絡作者
• 您也可以直接新增小編微信(pwbot02)快速投稿,備註:姓名-投稿

△長按新增PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜尋「PaperWeekly」
