SimDINO團隊 投稿
量子位 | 公眾號 QbitAI
最新開源的視覺預訓練方法,馬毅團隊、微軟研究院、UC伯克利等聯合出品!
SimDINO和SimDINOv2,透過編位元速率正則化簡化DINO和DINOv2模型訓練流程得到的兩個最新模型。

在目前視覺預訓練領域,DINO和DINOv2是最強視覺模型梯隊選手,也是目前最常用的方法。在多模態大模型火熱的當下,DINOv2也經常被用作VLM中的視覺編碼器提供視覺特徵。
此外,圖靈獎得主、Meta首席AI科學家楊立昆團隊近期關於世界模型的工作,也基於DINOv2而來。
(當然了,DINO模型本身就是四年前Meta AI團隊提出的)
但DINO系列目前仍然需要基於非常複雜的工程方法來實現。
而SimDINO透過去除DINO中複雜的後處理步驟等,解決了DINO系列的訓練難題。
更令人驚喜的是,簡化後的模型不僅訓練更容易,效能反而更強。

或許這就是“簡單即是美”的設計理念在深度學習中的重要價值?(手動狗頭)
馬毅表示:
我們不是在修補DINO,而是在重新發現視覺表示學習的本質規律。
核心方法:化繁為簡
自監督學習(Self-Supervised Learning,SSL)在處理大規模未標記影像資料方面取得了顯著進展。
在CV領域,DINO系列模型堪稱自監督學習的標杆選手。
這個無需人工標註就能從海量影像中自主學習特徵的模型,不僅在下游任務中屢創佳績,更成為多模態大模型視覺編碼器的標配。
但是,DINO系列模型的強能力,伴隨著「需要被精心呵護」:
-
需要精心設計的溫度排程策略(溫度引數τ要精確到小數點後三位)
-
依賴複雜的中心化-銳化操作(堪比精密儀器的校準流程)
-
必須搭配高維原型投影層(特徵維度動輒破萬)
這些“保命裝置”雖然能防止模型陷入特徵崩潰,卻讓訓練過程變成了超引數調優的噩夢。並且當研究人員嘗試改進模型架構或適配新領域時,往往牽一髮而動全身,稍有不慎就會讓整個系統停擺。
為了解決這些問題,SimDINO和SimDINOv2模型閃亮登場~
透過引入編位元速率正則化,簡化訓練流程,提高模型的魯棒性和效能。
這倆模型的核心思想,是透過編位元速率正則化防止表示崩潰,從而去除原始DINO和DINOv2訓練流程中許多經驗性設計元件。
具體方法包括:
-
移除經驗性元件:刪除權重歸一化的線性層、平衡操作(如中心化、銳化)以及各種超引數(如溫度排程、中心化動量)等。
-
引入編位元速率正則化:在損失函式中新增一個簡單的編位元速率正則化項,以防止表示崩潰。
SimDINO和SimDINOv2模型的主要創新點除了上述2種方法外,還有一點,即簡化的訓練流程。
透過上述2種具體方法的改進,SimDINO和SimDINOv2的訓練流程更加簡潔,減少了對超引數的依賴,提高了訓練的穩定性和效率。
引入編位元速率正則化,訓練更穩定、效能更強
回顧自監督對比學習“同類相聚,異類相斥”的原始出發點,研究團隊發現,DINO中許多複雜設計(如輸出層高維投影、教師網路輸出中心化-銳化操作、溫度調節等)都是在間接地利用負樣本資訊來防止模型習得的表示“崩潰”。
而SimDINO系列研究團隊提出這一需求,可以轉而使用馬毅提出的資料編位元速率失真估計方法(可參考MCR2等系列工作),採用顯示度量模型表徵的質量作為正則化項。

基於這一發現,研究人員提出了一個解決方案:
引入編位元速率(coding rate)正則化,透過在損失函式中新增一個顯式的編位元速率正則項來避免表示崩潰。
這個簡單的改動就能替代原本複雜的設計,將訓練流程向簡約靠近。
而簡化的模型訓練流程可以帶來幾個關鍵優勢,即「更清晰的最佳化目標、更少的元件依賴、更容易的理論分析、更好的可擴充套件性」。
具體而言,SimDINO保留了DINO模型的EMA自蒸餾方案和多檢視資料增強方法,但在對比學習方案上進行了修改。
拋棄輸出層高維原型投影+交叉熵多分類,直接使用歐幾里得距離/餘弦相似度比較學生網路(student network)和教師網路(teacher network)生成的特徵。
加入編位元速率正則化項促使模型學習到更具區分性的表示,移除教師網路輸出中心化-銳化操作、溫度調節等避免表示崩潰的技巧。
透過引入編位元速率正則化,SimDINO能夠有效防止特徵崩潰,確保學習到的資訊具有較大的資訊熵,從而提高模型的泛化能力。

SimDINOv2 則進一步將DINOv2 引入的 iBOT機制進行替換。
它直接使用餘弦相似度監督掩碼區域token與教師網路表示間的對齊,而Sinkhorn-Knopp centering、KoLeo正則化等複雜設計也被簡化移除。

相比於原版DINO, SimDINO的訓練流程更為簡潔,去除了許多繁瑣的元件和超引數,降低了模型訓練的複雜度,使得研究人員和工程師更容易理解和實現這些模型。
從實驗角度看,這一系列操作可以讓模型訓練更穩定,效能也更強。
各種評估均優於DINO系列
為了驗證SimDINO和SimDINOv2的有效性,研究團隊在多個數據集和任務上進行了廣泛的實驗評估,包括影像分類、目標檢測、語義分割以及影片物件分割。
實驗結果表明,SimDINO系列在計算效率、訓練穩定性和下游任務效能上均優於DINO系列。
ImageNet-1K影像分類
SimDINO和SimDINOv2在ImageNet-1K上進行了評估,包括k-NN 分類和線性評估(linear probing)。
還與DINO、DINOv2進行了對比。

COCO val2017無監督目標檢測與例項分割
在目標檢測任務中,研究團隊採用MaskCut作為基礎檢測框架,並在COCO val2017資料集上進行了評估。
具體來說,主要對比了AP50、AP75和AP三個指標:

ADE20K語義分割和DAVIS-2017影片物件分割
在語義分割任務上,研究團隊採用linear head並在ADE20K資料集上進行了評估。
這個任務上主要對比了 mIoU(平均交併比)和 mAcc(平均畫素精度)。

特別要提到的是,SimDINO還在DAVIS-2017上進行了評估,包括 (J&F)m、Jm和Fm三個標準指標。
結果顯示,它在定性的特徵視覺化分析上也展現出了DINO系列工作中表現突出的語義表達能力湧現現象。
與此同時,SimDINO和SimDINOv2對超引數和資料的變化更穩健了。

其它
此外,專案論文中透過理論分析,提出了一個關於SimDINO超引數選擇的理論:
如何平衡編位元速率正則化項和距離項的梯度範數。
透過理論推導,作者給出了一個關於超引數γ的選擇方法,使得兩個項的梯度範數在最佳化過程中保持平衡。
下圖顯示的是在SimDINO和DINO下訓練 ViT-B/16的訓練動態。
X軸表示訓練週期(epochs),Y軸表示在ImageNet-1K上的k-NN評估效能。

其中,左圖顯示的是兩個模型均在ImageNet-1K資料集上訓練。
為更好地展示最佳化過程,研究團隊省略了早期訓練階段的資料。
右圖顯示的是兩個模型均在 COCO train2017 資料集(大約是 ImageNet-1K的1/10)上訓練。
作為一個驗證實驗,該結果表明SimDINO需要更少的超引數調優,並且最佳化過程更加簡單。
研究團隊
SimDINO系列由多所學校與機構的研究者共同完成,包括UC伯克利、憶生科技、微軟研究院、香港大學等。
一作是UC伯克利三年級博士生吳梓陽,導師是馬毅。
他主要研究方向為表徵學習與多模態學習,致力於透過數學與統計理論構建高效、可解釋的深度學習模型。
此前,吳梓陽本碩均就讀於康奈爾大學。

在論文最後,SimDINO研究團隊進一步提出和建議了SimDINO的幾個潛在改進方向:
-
在SimDINO框架基礎上進一步探索不需要自蒸餾最佳化的自監督目標。
-
簡化後的框架為自監督學習的理論分析提供了更好的切入點。
-
將”顯式化隱式設計選擇”的正規化推廣到其他框架,啟發並探索其他模型的簡化改進方法。
論文地址:https://arxiv.org/abs/2502.10385
專案主頁:https://robinwu218.github.io/SimDINO
GitHub:https://github.com/RobinWu218/SimDINO
專案主頁:https://robinwu218.github.io/SimDINO
GitHub:https://github.com/RobinWu218/SimDINO
學術投稿請於工作日發郵件到:
標題註明【投稿】,告訴我們:
你是誰,從哪來,投稿內容
附上論文/專案主頁連結,以及聯絡方式哦
我們會(儘量)及時回覆你

一鍵關注 👇 點亮星標
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!