ICCV2025|UV-CoT:無監督視覺推理新突破!偏好最佳化重塑影像級思維鏈

點選下方卡片,關注“CVer”公眾號

AI/CV重磅乾貨,第一時間送達

新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球可以獲得最新頂會/頂刊上的論文idea入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!

來源:機器之心
本文第一作者是來自南洋理工大學的博士生趙克森,主要研究方向為 Reinforcement Learning in MLLMs. 該論文已被 ICCV 2025 錄用。
隨著文字領域中思維鏈(Chain-of-Thought,CoT)推理機制的成功應用,研究者開始將該方法引入視覺理解任務,以提升模型的推理能力和可解釋性。
然而,現有模型侷限於文字級別的思維鏈推理,且處理影像的粒度固定,難以根據語義線索動態關注影像中的關鍵區域。針對上述問題,本文提出 UV-CoT(Unsupervised Visual Chain-of-Thought),一種無監督視覺思維鏈推理新框架
該方法以「關鍵區域→推理過程」的人類視覺理解方式為參考(如下圖所示),設計了無監督的資料生成與偏好最佳化機制,動態聚焦關鍵區域,實現細粒度推理,顯著提升了模型的空間感知與圖文推理能力。
  • 論文標題:Unsupervised Visual Chain-of-Thought Reasoning via Preference Optimization
  • 論文連結:https://arxiv.org/abs/2504.18397
  • 專案地址:https://kesenzhao.github.io/my_project/projects/UV-CoT.html
  • 程式碼倉庫:https://github.com/kesenzhao/UV-CoT
  • 開源模型: https://huggingface.co/papers/2504.18397
背景:有監督訓練
需要高昂的人工成本
現有方法採用有監督微調(Supervised Fine-Tuning, SFT)策略訓練模型,使用大量有標籤的思維鏈推理資料,由人工標註關鍵區域及其推理過程。這類方法面臨以下挑戰:
(1)人工標註成本高,擴充套件性差:標註關鍵影像區域和推理路徑需要耗費大量人力和時間,尤其在複雜視覺語義理解任務中,難以適應多工或大規模場景。
(2)訓練訊號單一,泛化能力有限: SFT 僅利用人工標註的「正樣本」(正確區域及回答),忽略其他潛在合理或不合理的區域與推理路徑,導致模型在未知場景下的泛化能力不足。
UV-CoT 設計了一套自動化的偏好資料生成與評估流程,結合改進的偏好最佳化演算法 Score-DPO(sDPO),在不依賴人工標註的前提下,透過偏好評分排序引導模型實現無監督影像級思維鏈學習(如下圖所示)。
貢獻一:無監督偏好資料生成與評估
UV-CoT 利用目標模型

和評估模型

,為影像 – 問題對生成多樣化的中間推理響應,並透過偏好評分構建偏好資料集。主要步驟如演算法 1 所述: 

  • 響應生成:在每個推理時間步 t,使用目標模型 

     透過隨機種子生成 n 個多樣化的響應(包括邊界框和中間推理結果)。

  • 響應評估:評估模型 

     綜合考慮所選區域的得分 

      及對後續回答的影響 

  • 偏好對構建:從響應中隨機選擇 k 個偏好對(偏好和非偏好思維鏈),形成偏好資料集。
  • 響應選擇:保留最高評分的響應鏈,用於下一時間步的推理。
    透過動態生成偏好資料,UV-CoT 減少了對高質量標註資料的依賴,能夠在無監督資料條件下實現影像級思維鏈推理。

貢獻二: sDPO 與迭代學習
UV-CoT 使用改進的直接偏好最佳化(DPO)演算法 sDPO,透過引入偏好分數差異最佳化影像級思維鏈推理,並採用迭代學習策略動態適應模型輸出分佈。
sDPO 損失函式如下:
相比標準 DPO,sDPO 透過 

 引入偏好分數的差異,量化偏好和非偏好響應之間的強度,提升對關鍵影像區域的影響建模。

迭代學習 (如演算法 2):將資料集分為 m 個子集,迭代 m 次,每次使用當前模型

生成偏好資料 D_i,並用 sDPO 最佳化得到下一模型 

。 透過動態更新偏好資料,緩解訓練資料與模型生成分佈的差異,增強訓練魯棒性。

實驗亮點
顯著效能提升(表 1):在六大基準上,優於有監督的思維鏈模型 Visual-CoT-7B,遠超目標模型 LLaVA-1.5-7B 和其他無思維鏈模型。
泛化能力強,易於拓展(表 2):在零樣本設定下,UV-CoT 平均提升 2.5%,新增額外無標註資料後,平均提升達 5.1%。 
勝任高解析度場景(表 3):在 V* Bench 上,UV-CoT 平均得分 0.402,平均提升 5.5%,尤其在 OCR 任務中提升 8.4%。
不依賴評估模型,邊界框生成質量高(表 5):UV-CoT 透過自評估(目標模型作為評估器)表現仍遠超目標模型 LLaVA-1.5-7B(+4.8%),接近 12B 模型 OmniLMM-12B(-0.2%)。將 UV-CoT 生成的邊界框應用於 OmniLMM-12B 和 LLaVA-1.5-7B 輔助推理,效能分別提升 7.3% 和 4.7%。
偏好資料與思維鏈推理視覺化
結語
UV-CoT 提出了一種創新的無監督視覺思維鏈推理框架,透過自動化的資料生成與對比評估機制,成功擺脫了對人工標註的依賴,實現了關鍵影像區域的自動識別與推理最佳化。該方法為高效、可擴充套件的多模態推理提供了新思路,為未來無監督視覺理解研究奠定了堅實基礎。

何愷明在MIT授課的課件PPT下載
在CVer公眾號後臺回覆:何愷明,即可下載本課程的所有566頁課件PPT!趕緊學起來!

ICCV 2025 論文和程式碼下載

在CVer公眾號後臺回覆:ICCV2025,即可下載ICCV 2025論文和程式碼開源的論文合

CVPR 2025 論文和程式碼下載

在CVer公眾號後臺回覆:CVPR2025,即可下載CVPR 2025論文和程式碼開源的論文合集

CV垂直方向和論文投稿交流群成立
掃描下方二維碼,或者新增微訊號:CVer2233,即可新增CVer小助手微信,便可申請加入CVer-垂直方向和論文投稿微信交流群。另外其他垂直方向已涵蓋:目標檢測、影像分割、目標跟蹤、人臉檢測&識別、OCR、姿態估計、超解析度、SLAM、醫療影像、Re-ID、GAN、NAS、深度估計、自動駕駛、強化學習、車道線檢測、模型剪枝&壓縮、去噪、去霧、去雨、風格遷移、遙感影像、行為識別、影片理解、影像融合、影像檢索、論文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要備註:研究方向+地點+學校/公司+暱稱(如Mamba、多模態學習或者論文投稿+上海+上交+卡卡),根據格式備註,可更快被透過且邀請進群

▲掃碼或加微訊號: CVer2233,進交流群
CVer計算機視覺(知識星球)人數破萬!如果你想要了解最新最快最好的CV/DL/AI論文、實戰專案、行業前沿、從入門到精通學習教程等資料,一定要掃描下方二維碼,加入CVer知識星球!最強助力你的科研和工作!

掃碼加入星球學習
▲點選上方卡片,關注CVer公眾號
整理不易,請點贊和在看


相關文章