谷歌重磅新作SigLIP2：重新整理各種視覺多模態任務SOTA！

點選下方卡片，關注“CVer”公眾號

AI/CV重磅乾貨，第一時間送達

點選進入—>【頂會/頂刊】投稿交流群

新增微訊號：CVer2233，小助手會拉你進群！

掃描下方二維碼，加入CVer學術星球！可以獲得最新頂會/頂刊上的論文idea和CV從入門到精通資料，及最前沿應用！發論文/搞科研/漲薪，強烈推薦！

轉載自：數源AI

論文名：SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features

論文：https://arxiv.org/pdf/2502.14786

開原始碼：

https://github.com/google-research/big_vision/tree/main/big_vision/configs/proj/image_text/README_siglip2.md

導讀

由CLIP和ALIGN開創的在十億級資料集上訓練的對比式影像-文字嵌入模型，已成為對視覺資料進行高階語義理解的主流方法。這些模型能夠實現細粒度的零樣本分類，其質量可與監督方法相媲美，並能實現高效的文字到影像和影像到文字的檢索。此外，當它們與大語言模型（LLM）結合構建視覺-語言模型（VLM）時，能夠帶來出色的視覺-語言理解能力。

簡介

我們推出了SigLIP 2，這是一系列基於原始SigLIP的成功經驗構建的新型多語言視覺-語言編碼器。在第二次迭代中，我們將原始的影像-文字訓練目標與幾種先前獨立開發的技術相結合，形成了一個統一的方法——這包括基於字幕的預訓練、自監督損失（自蒸餾、掩碼預測）和線上資料篩選。透過這些改進，SigLIP 2模型在所有模型規模下的核心能力方面都優於其SigLIP對應模型，包括零樣本分類、影像-文字檢索，以及為視覺-語言模型（VLM）提取視覺表示時的遷移效能。此外，新的訓練方法在定位和密集預測任務上帶來了顯著的改進。我們還訓練了支援多種解析度並保留輸入原始縱橫比的變體。最後，我們在更具多樣性的資料混合上進行訓練，其中包括去偏技術，從而實現了更好的多語言理解和更高的公平性。為了讓使用者能夠在推理成本和效能之間進行權衡，我們釋出了四種大小的模型檢查點：ViT – B（8600萬引數）、L（3.03億引數）、So400m（4億引數）和g（10億引數）。

方法與模型

我們將原始的SigLIP訓練方法[71]與基於解碼器的預訓練方法[60, 62]相結合，此外還採用瞭如DINO系列工作[9, 47]中的自蒸餾和掩碼預測方法（總體情況見圖1）。使用語言解碼器對影像編碼器進行預訓練以實現影像描述和指代表達理解，已被證明可以提高光學字元識別（OCR）能力和定位能力[62]，而自蒸餾和掩碼預測則能為密集預測任務、零樣本分類和檢索提供更好的特徵[38, 45]。與在一次執行中結合所有這些技術不同，我們採用以下分階段的方法，以管理與SigLIP訓練相比的計算和記憶體開銷。

圖1 | SigLIP 2在SigLIP [71]的Sigmoid損失基礎上，增加了來自 [62]的基於影像描述的預訓練，以及來自SILC [45]和TIPS [38]的自蒸餾和掩碼預測（在訓練的最後20%階段）。對於某些變體，該方法還包括使用資料篩選進行微調[61]，或適應原生寬高比和可變序列長度[6, 12]。

除了訓練一組模型，並在扭曲寬高比的情況下將每個模型分別適配到不同解析度之外，我們還訓練了一些變體模型，這些模型在處理影像時能像NaViT [12]一樣在很大程度上保留其原始寬高比，並像FlexiViT [6]一樣支援不同的序列長度。我們將這種變體稱為NaFlex，詳見2.4.2節。

最後，為了提高最小模型的質量，我們按照文獻[61]的方法，透過主動樣本選擇進行隱式蒸餾來微調這些模型。

1. 架構、訓練資料、最佳化器

在架構方面，我們採用了SigLIP [71]的架構，以便現有使用者可以簡單地替換編碼器權重。具體來說，固定解析度的變體依賴於帶有學習型位置嵌入的標準ViT架構 [15]。我們對影像塔和文字塔使用相同的架構，但g大小的視覺編碼器與So400m大小 [1]的文字編碼器配對。視覺和文字表示使用MAP頭（注意力池化）[69]進行池化。我們將文字長度設定為64，並使用詞彙量為256k的多語言Gemma分詞器 [22]，在分詞前將文字轉換為小寫。

我們使用WebLI資料集 [10]，其中包含100億張影像和120億條替代文字，涵蓋109種語言。為了在英語和多語言視覺 – 語言基準測試的質量之間取得良好平衡，我們按照文獻[49]的建議，將訓練影像 – 文字對的混合比例設定為90%來自英語網頁，其餘10%來自非英語網頁。我們進一步應用文獻[2]中的過濾技術，以減輕在表示和與敏感屬性關聯方面的資料偏差。

除非另有說明，我們使用Adam最佳化器，學習率為，解耦權重衰減為 [37]，並將梯度裁剪到範數為1。我們將批次大小設定為，並使用帶有個熱身步驟的餘弦排程，總共訓練400億個樣本。我們的模型使用全分片資料並行策略（FSDP [72]）在多達2048個TPUv5e晶片 [24]上進行訓練。

2. 使用Sigmoid損失函式和解碼器進行訓練

在預訓練的第一步，我們將SigLIP [71]與LocCa [62]相結合，簡單地將這兩種損失函式以相同的權重相加。與依賴對比損失函式的CLIP [50]不同，SigLIP透過將小批次中的每個影像嵌入與每個文字嵌入相結合，建立二元分類問題，並透過邏輯迴歸（Sigmoid損失函式）訓練這些嵌入，以對匹配和不匹配的對進行分類。我們使用原始實現，具體細節請參考[71]。

對於LocCa，我們將一個帶有交叉注意力機制的標準Transformer解碼器連線到未池化的視覺編碼器表示（在應用MAP頭之前）。除了新增交叉注意力層並將層數減少一半之外，解碼器的結構與文字編碼器相同。除了影像字幕生成之外，LocCa還進行自動指代表達預測和基於區域的字幕生成訓練。前者相當於為描述特定影像區域的字幕預測邊界框座標，而後者則是在給定邊界框座標的情況下預測特定區域的字幕。區域 – 字幕對的標註是透過首先從替代文字中提取n – 元語法，然後使用[41]中的方法進行開放詞彙檢測自動完成的。此外，我們使用[10]中固定的物件類別集，而不是n – 元語法。對於每個示例，解碼器被訓練來預測所有三個目標（相當於解碼器進行三次前向傳播）。字幕生成目標有50%的機率使用並行預測[60]，即所有字幕標記從掩碼標記並行預測，不使用因果注意力掩碼。更多細節請參考[62]。最後，為了減少由於大詞彙量導致的記憶體消耗，我們實現瞭解碼器損失函式的分塊版本。

對於所有模型規模，我們將視覺編碼器的補丁大小設定為16，影像解析度設定為256（導致影像表示序列長度為256）。最後，我們注意到解碼器在這裡僅用於表示學習，並非模型釋出的一部分。

3. 使用自蒸餾和掩碼預測進行訓練

遵循SILC [45]和TIPS [38]的方法，我們在2.2節描述的訓練設定基礎上，增加了帶有自蒸餾和掩碼預測損失函式的區域性到全域性對應學習，以改善（未池化）特徵表示的區域性語義。這種表示通常用於密集預測任務，如分割、深度估計等。具體來說，我們在2.2節描述的損失函式中添加了兩項，詳細內容如下。

第一項損失是來自文獻[45]的區域性到全域性一致性損失，在該損失中，視覺編碼器作為學生網路，它獲取訓練影像的部分（區域性）檢視，並被訓練以匹配從完整影像得到的教師網路的表徵。這個輔助匹配任務是在一個由單獨的多層感知機（MLP）頭計算得到的高維特徵空間中執行的。正如文獻中常見的那樣，教師網路的引數是學生網路引數在前幾次迭代中的指數移動平均（EMA）。我們採用一個全域性（教師）檢視和8個區域性（學生）檢視，其他方面遵循文獻[45]中的資料增強、損失函式和超引數設定。

第二項損失是來自文獻[38]的掩碼預測目標。我們用掩碼標記替換學生網路中50%的嵌入影像塊，並訓練學生網路在掩碼位置匹配教師網路的特徵。該損失的定義與第一項（一致性損失）相同，但應用於每個影像塊的特徵，而不是池化後的影像級表徵。此外，學生網路和教師網路看到的是相同的全域性檢視（學生網路存在掩碼操作）。

我們在訓練完成80%時加入這些損失，用學生網路的引數初始化教師網路，並隨機初始化其餘的額外引數（頭、掩碼標記和相應的最佳化器引數）。我們使用原始影像來計算上一節中的SigLIP和LocCa損失，並在額外的增強檢視上應用這些額外的損失。這樣做是為了確保資料增強不會像文獻[45]所建議的那樣對影像 – 文字對齊產生負面影響。第一項和第二項損失的權重分別設定為1和0.25。此外，為了平衡模型在全域性/語義任務和密集任務上的質量，對於B、L、So400m和g模型大小，我們分別以0.25、0.5、1.0和0.5的係數對這兩項損失進行重新加權。

4. 適應不同解析度

4.1. 固定解析度變體

為了在多個解析度下獲得固定解析度的檢查點，我們在訓練進行到95%時恢復檢查點（序列長度為256，影像塊大小為16），將位置嵌入調整為目標序列長度（在某些情況下，使用文獻[6]中的偽逆（PI）調整策略將影像塊嵌入從大小16調整為14），並在目標解析度下使用所有損失繼續訓練。我們選擇這種方法是因為常見的以較小學習率微調最終檢查點且不進行權重衰減的策略[71]在所有模型大小和解析度下都沒有取得良好的效果。

4.2. 可變縱橫比和解析度（NaFlex）

NaFlex結合了FlexiViT [6]和NaViT [12]的思想，前者即使用單個視覺Transformer（ViT）模型支援多個預定義的序列長度，後者是指以影像的原始縱橫比處理影像。這使得能夠以適當的解析度處理不同型別的影像，例如使用更高的解析度處理文件影像，同時最大程度減少縱橫比失真對某些推理任務（如光學字元識別（OCR））的影響。

給定一個影像塊大小和目標序列長度，NaFlex首先對輸入影像進行調整大小，使調整後的高度和寬度是影像塊大小的倍數，同時1) 儘可能減小縱橫比失真，2) 生成的序列長度最多為所需的目標序列長度。調整後寬度和高度的失真分別最多為（影像塊大小 – 1）/寬度和（影像塊大小 – 1）/高度，對於常見的解析度和縱橫比，這種失真往往較小。請注意，NaViT也會產生相同型別的失真。調整大小後，影像被分割成一系列影像塊，並新增影像塊座標以及包含填充資訊的掩碼（以處理實際序列長度小於目標長度的情況）。

為了使用ViT處理不同的序列長度（和縱橫比），我們對學習到的位置嵌入進行雙線性調整大小（使用抗鋸齒），以適應調整大小後的輸入影像的目標非方形影像塊網格。我們將學習到的位置嵌入的長度設定為256，假設調整大小前的影像塊網格為16 × 16。當調整大小後的序列長度小於目標序列長度時，注意力層（包括最大後驗（MAP）頭）會被掩碼，以忽略額外的填充標記。

對於固定解析度的適配變體，我們從第2.2節所述設定下訓練的預設檢查點開始，即不保持縱橫比地將影像調整為，得到序列長度為256。我們選取訓練完成90%時的檢查點，然後切換到保持縱橫比的調整大小方式，併為每個小批次從中均勻取樣一個序列長度。同時，我們將對應最後10%訓練的學習率排程拉伸3.75倍，以確保每個解析度都有足夠多的樣本進行訓練。對於最大的序列長度，我們進一步將批次大小減半，並將訓練步數加倍，以避免記憶體不足錯誤。

為了使實現和計算複雜度可控，我們不應用第2.3節中的自蒸餾和掩碼預測方法。

5. 透過主動資料篩選進行蒸餾

為了使最小的固定解析度模型（ViT – B/16和ViT – B/32）效能最大化，我們在一個短的微調階段從教師（參考）模型中蒸餾知識。我們將學習率降至，去除權重衰減，並僅使用Sigmoid影像 – 文字損失繼續對這些模型進行額外4B個示例的訓練。在此階段，我們使用文獻[61]中提出的ACID方法進行隱式的“透過資料進行蒸餾”。簡而言之，在每個訓練步驟中，教師模型和當前學習模型用於根據示例的“可學習性”[42]對其進行評分。然後使用這些分數從一個更大的超級批次[16]中聯合選擇一個大小為的最優批次。在這裡，我們選擇過濾比例為0.5（即超級批次大小為64k）的資料，以平衡篩選帶來的收益和訓練計算量。對於B/32模型，我們發現使用0.75的過濾比例所帶來的額外成本是值得的。

我們注意到文獻[61]的作者建議，使用ACED（一種將ACID與顯式Softmax蒸餾相結合的方法，使用在更多樣化資料上訓練的第二個教師模型）可實現最佳效能。然而，在這裡我們提出了一種調整ACID的方法，無需顯式蒸餾即可獲得這些益處，從而節省大量計算資源。具體來說，我們沒有使用兩個單獨的教師模型，而是採用一個在多樣化資料上訓練的強大教師模型（在這種情況下，即SigLIP 2 So400m模型），並在文獻[16]中的高質量篩選資料集上對其進行個示例的微調。然後，我們如上文所述，在ACID方法中使用這個微調後的教師模型。由於這個教師模型融合了預訓練中概念的多樣化知識和高質量資料（來自篩選資料集）的知識，僅ACID的隱式蒸餾就足以獲得ACED的益處。

實驗與結果

1. 零樣本分類與檢索

在表1中，我們報告了SigLIP 2以及基線模型在常見零樣本分類（ImageNet [13]、ObjectNet [4]、ImageNet-v2 [53]、ImageNet ReaL [5]）和影像 – 文字檢索基準測試中的效能。儘管與基線模型（除mSigLIP [71]外）不同，SigLIP 2支援多種語言，但它在所有測試中都比SigLIP和其他（開放權重）基線模型表現更好。請注意，在這些基準測試中最接近SigLIP 2的DFN [19]，使用在ImageNet、COCO和Flickr（即表1中的主要基準資料集）上微調的網路作為過濾器來提高資料質量。由於蒸餾（第2.5節），SigLIP 2相對於基線模型的改進在B尺寸模型中尤為顯著。此外，我們觀察到了隨影像解析度和模型大小變化的常見縮放趨勢。

圖2 | SigLIP、SigLIP 2和mSigLIP在Crossmodal – 3600 [58]上的每種語言的影像 – 文字檢索效能。儘管SigLIP 2在英語視覺 – 語言任務上的表現明顯更好（表1），但其效能幾乎與mSigLIP（在多語言資料上訓練的SigLIP）相當。

表1和圖2進一步展示了在涵蓋36種語言的Crossmodal – 3600（XM3600）[58]上的多語言檢索效能。SigLIP 2的召回率大幅超過SigLIP，僅略微落後於mSigLIP，而mSigLIP在以英語為主的基準測試中的表現又遠不如SigLIP和SigLIP 2。

1.1. NaFlex變體

圖3比較了固定解析度正方形寬高比（標準）的SigLIP 2與保持寬高比的NaFlex變體（所有序列長度使用一個檢查點）隨序列長度的變化情況。除了上一節列出的檢索基準外，我們還增加了一系列專注於OCR/文件/螢幕的影像 – 文字基準，即TextCaps [55]、Hier – Text [36]、SciCap [26]和Screen2Words [63]。在這些檢索基準中的大多數上，NaFlex變體的表現優於標準變體，特別是對於小序列長度（因此解析度也較低）的情況，這類情況往往更容易受到寬高比失真的影響。在主要基於自然影像的基準上，標準B尺寸變體的表現優於NaFlex，這可能得益於蒸餾步驟，而對於So400m架構，兩者表現相當。這很值得注意，因為標準變體也受益於自蒸餾階段（第2.3節）。

圖3 | 比較NaFlex（每個模型大小有一個支援原生縱橫比和可變序列長度/解析度的檢查點）和標準方形輸入的SigLIP 2變體（每個序列長度/解析度使用單獨的檢查點）。軸上標註的序列長度對應於NaFlex的訓練序列長度。NaFlex在訓練解析度之間的插值效果相當好，但外推效果不佳（未展示）。

2. SigLIP 2作為視覺語言模型（VLM）的視覺編碼器

像CLIP和SigLIP這樣的視覺編碼器的一個常見用例是為視覺語言模型（VLM）提取視覺表徵 [3, 7, 32, 35, 39, 48, 59]。常見的正規化是將預訓練的視覺編碼器與預訓練的大語言模型（LLM）相結合，並在豐富的視覺語言任務混合資料集上進行多模態訓練。為了評估SigLIP 2在此應用中的效能，我們開發了一個類似於PaliGemma 2 [56]的方案。具體來說，我們將SigLIP 2視覺編碼器及其基線模型與Gemma 2 2B大語言模型 [23]相結合，並在來自 [7, 56]的第一階段訓練混合資料集中的5000萬個示例上訓練大語言模型，這些示例涉及影像描述、OCR、基於上下文的影像描述、視覺問答、目標檢測和例項分割（後4個任務的標註是機器生成的，詳情見 [7, 第3.2.5節]）。我們保持視覺編碼器凍結（這對質量基本上沒有影響 [7, 第5.4節]），並縮短訓練時間以反映典型的開放模型用例。然後，使用 [56]中的遷移設定，在廣泛的下游任務上對得到的視覺語言模型進行微調。為了瞭解輸入解析度的影響，我們在解析度為224或256（分別對應於塊大小為14和16的模型，以提取256個影像標記）以及的條件下進行實驗，但與 [7, 56]不同的是，我們在384畫素解析度下重複第一階段的訓練，而不是從變體開始。

圖4 | 在使用凍結的視覺編碼器對Gemma 2大語言模型進行5000萬步訓練（PaliGemma [7]的第一階段），然後在各個資料集上對視覺語言模型進行微調（PaliGemma的第三階段）後，不同視覺編碼器的比較。對於不同的模型大小和解析度，SigLIP 2的表現優於SigLIP和AIMv2 [20]。資料與表6相同。

圖4展示了每個資料集微調後的結果。總體而言，在不同解析度和模型大小下，SigLIP 2明顯優於SigLIP。對於L大小的視覺編碼器，SigLIP 2也優於最近釋出的AIMv2模型 [20]。圖4中的資料也可在表6中找到。

3. 密集預測任務

3.1. 語義分割、深度估計、表面法線估計

我們採用文獻[38]中的評估協議，在涵蓋語義分割、單目深度估計和表面法線估計的六個基準測試上，使用線性層或DPT解碼器 [52] 探究凍結的SigLIP 2表徵（有關協議和超引數的詳細資訊，請參閱文獻[38，第4.1節]）。注意，我們進行了一項（必要的）更改：原方法將分類標記(CLS token)連線到每個影像塊特徵向量上，而我們使用的是最大後驗(MAP)頭而非分類標記，因此我們連線的是最大後驗頭的輸出嵌入。表2中的結果表明，SigLIP 2的表現優於之前的幾種開放的CLIP風格視覺編碼器，包括SigLIP，且往往領先幅度顯著。

3.2. 開放詞彙分割

開放詞彙分割旨在開發能夠分割固定訓練詞彙之外任何新類別的模型。在這裡，我們評估SigLIP 2在這項任務上的效能。我們使用Cat-Seg [11]作為框架，並按照[45]中提出的方法比較不同模型的效能。我們在包含172個類別的COCO-Stuff-164k [8]資料集上訓練Cat-Seg，然後在具有不同詞彙表的各種代表性資料集上進行測試：包含847或150個類別的ADE20k [73, 74]（A-847/A-150）、Pascal Context（PC-459/PC-59）[43]和Pascal VOC（VOC-20/VOC-21）[17]。結果見表3。我們觀察到，L/16版本的SigLIP 2在效能上優於SigLIP，甚至超過了大得多的OpenCLIP G/14模型[27]。

4. 定位任務

4.1. 指代表達理解

為了探究SigLIP 2在不同RefCOCO變體上的指代表達理解能力，我們採用了[62]中的評估協議。我們透過交叉注意力將一個6層的Transformer解碼器連線到未池化的、凍結的視覺編碼器表示上，並在所有RefCOCO變體的混合資料集上從頭開始訓練它（詳情見[62]）。表5中的結果顯示，在不同解析度和模型大小下，SigLIP 2的效能大幅優於SigLIP、CLIP以及透過影像字幕預訓練（Cap）的模型。這可以歸因於基於解碼器的預訓練，如第2.2節所述。SigLIP 2僅在效能上遜於LocCa，我們推測這可能是因為SigLIP 2是在多語言資料上進行預訓練的。另一方面，LocCa僅在英文網站的文字上進行訓練。最後，請注意，正如在中觀察到的那樣，我們預計在使用預訓練的解碼器時會有顯著的效能提升。

4.2. 開放詞彙檢測

OWL – ViT [40]是一種將CLIP風格的視覺 – 語言模型應用於開放詞彙檢測的常用方法。在這裡，我們將這種方法應用於SigLIP和SigLIP 2模型，並嚴格遵循[40]中的資料和最佳化器配置。表4中的結果顯示，在兩個常用基準資料集COCO [34]和LVIS [25]上，SigLIP 2的效能優於SigLIP。在LVIS稀有類別上，相對改進最為明顯。此外，這裡的結果比[40]中的結果更好，這可能是因為[40]使用的是CLIP而不是SigLIP。

5. 文化多樣性與公平性

除了與前代模型相比，SigLIP 2在模型質量上有所提升外，它在兩個方面也更具包容性。首先，我們遵循[49]的建議，採用包含英語和多語言資料的訓練混合資料來增強文化多樣性。其次，為了解決訓練資料中潛在的社會偏見問題，我們整合了[2]中的資料去偏技術。這些技術用於減輕一階統計量（如性別代表性差異）和二階統計量（如性別與職業之間的偏見關聯）中的偏差。接下來，我們展示評估結果。

文化多樣性為了評估文化多樣性，我們報告了使用美元街資料集（Dollar Street）[54]、地理多樣性資料集（GeoDE）[51]和谷歌地標資料集v2（GLDv2）[65]的零樣本分類準確率結果。我們還納入瞭如文獻[49]所提出的，使用美元街資料集和地理多樣性資料集的10樣本地理定位。對於美元街資料集的零樣本評估，我們採用了文獻[54]中概述的方法，將資料集中的96個主題對映到相應的ImageNet類別。這一過程為我們的分析得到了一個包含張影像的子集。

圖5展示了一組代表性結果（完整結果見附錄C）。我們觀察到，在相同的模型大小和解析度下，與SigLIP相比，SigLIP 2在這些指標上有所提升，並且在地理定位任務中的提升尤為顯著。例如，地理多樣性資料集（區域）的10樣本地理定位準確率從256畫素下SigLIP L/16的36.2%提高到了SigLIP 2的44.4%。同樣，在相同模型下，美元街資料集的零樣本準確率從52.1%提高到了55.2%。

公平性在公平性方面，我們報告了兩個指標。第一個是文獻[2]中定義的“表徵偏差”，它衡量模型將隨機物件（如汽車）與特定性別群體關聯的傾向。如圖6所示，SigLIP 2明顯優於SigLIP。SigLIP 2：具有改進的語義理解、定位和密集特徵的多語言視覺 – 語言編碼器例如，256畫素下的SigLIP L/16的表徵偏差約為35.5%，這意味著它超過85.5%的時間更傾向於將隨機影像與“男性”而非“女性”關聯，而相同大小和解析度的SigLIP 2的表徵偏差僅為7.3%。此外，與文獻[2]早期的研究結果一致，較大的模型往往比較小的模型表現出更小的表徵偏差。

我們還按照[49]的方法，分別按收入水平研究了Dollar Street零樣本結果，按地理區域研究了GeoDE結果。然而，在這種情況下，當比較大小和解析度匹配的SigLIP和SigLIP 2模型時，我們只觀察到非常小的優勢，甚至沒有優勢（表9中展示了一些結果）。

總結

在這項工作中，我們推出了SigLIP 2，這是一系列基於SigLIP的成功經驗構建的開放權重多語言視覺 – 語言編碼器。透過結合基於解碼器的預訓練、自監督損失和主動資料篩選等技術，SigLIP 2在零樣本分類、作為視覺語言模型（VLM）中的視覺編碼器的遷移效能以及定位和密集預測任務方面取得了顯著改進。此外，由於在多語言資料上進行訓練並應用去偏濾波器，SigLIP 2在不同文化的資料上實現了更均衡的質量。最後，NaFlex變體使模型能夠透過單個模型檢查點支援多種解析度，同時保留原始影像的寬高比。我們希望我們釋出的SigLIP 2能在開源社群中催生許多令人興奮的應用。

何愷明在MIT授課的課件PPT下載

在CVer公眾號後臺回覆：何愷明，即可下載本課程的所有566頁課件PPT！趕緊學起來！

ECCV 2024 論文和程式碼下載

在CVer公眾號後臺回覆：ECCV2024，即可下載ECCV 2024論文和程式碼開源的論文合集

CVPR 2024 論文和程式碼下載

在CVer公眾號後臺回覆：CVPR2024，即可下載CVPR 2024論文和程式碼開源的論文合集

CV垂直方向和論文投稿交流群成立

掃描下方二維碼，或者新增微訊號：CVer2233，即可新增CVer小助手微信，便可申請加入CVer-垂直方向和論文投稿微信交流群。另外其他垂直方向已涵蓋：目標檢測、影像分割、目標跟蹤、人臉檢測&識別、OCR、姿態估計、超解析度、SLAM、醫療影像、Re-ID、GAN、NAS、深度估計、自動駕駛、強化學習、車道線檢測、模型剪枝&壓縮、去噪、去霧、去雨、風格遷移、遙感影像、行為識別、影片理解、影像融合、影像檢索、論文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。

一定要備註：研究方向+地點+學校/公司+暱稱（如Mamba、多模態學習或者論文投稿+上海+上交+卡卡），根據格式備註，可更快被透過且邀請進群