點選下方卡片,關注“CVer”公眾號
AI/CV重磅乾貨,第一時間送達
AI/CV重磅乾貨,第一時間送達
新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球!可以獲得最新頂會/頂刊上的論文idea和入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!
新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球!可以獲得最新頂會/頂刊上的論文idea和入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!

來源:機器之心
本文第一作者是來自南洋理工大學的博士生趙克森,主要研究方向為 Reinforcement Learning in MLLMs. 該論文已被 ICCV 2025 錄用。
隨著文字領域中思維鏈(Chain-of-Thought,CoT)推理機制的成功應用,研究者開始將該方法引入視覺理解任務,以提升模型的推理能力和可解釋性。
然而,現有模型侷限於文字級別的思維鏈推理,且處理影像的粒度固定,難以根據語義線索動態關注影像中的關鍵區域。針對上述問題,本文提出 UV-CoT(Unsupervised Visual Chain-of-Thought),一種無監督視覺思維鏈推理新框架。
該方法以「關鍵區域→推理過程」的人類視覺理解方式為參考(如下圖所示),設計了無監督的資料生成與偏好最佳化機制,動態聚焦關鍵區域,實現細粒度推理,顯著提升了模型的空間感知與圖文推理能力。


-
論文標題:Unsupervised Visual Chain-of-Thought Reasoning via Preference Optimization
-
論文連結:https://arxiv.org/abs/2504.18397
-
專案地址:https://kesenzhao.github.io/my_project/projects/UV-CoT.html
-
程式碼倉庫:https://github.com/kesenzhao/UV-CoT
-
開源模型: https://huggingface.co/papers/2504.18397
背景:有監督訓練
需要高昂的人工成本
現有方法採用有監督微調(Supervised Fine-Tuning, SFT)策略訓練模型,使用大量有標籤的思維鏈推理資料,由人工標註關鍵區域及其推理過程。這類方法面臨以下挑戰:
(1)人工標註成本高,擴充套件性差:標註關鍵影像區域和推理路徑需要耗費大量人力和時間,尤其在複雜視覺語義理解任務中,難以適應多工或大規模場景。
(2)訓練訊號單一,泛化能力有限: SFT 僅利用人工標註的「正樣本」(正確區域及回答),忽略其他潛在合理或不合理的區域與推理路徑,導致模型在未知場景下的泛化能力不足。
UV-CoT 設計了一套自動化的偏好資料生成與評估流程,結合改進的偏好最佳化演算法 Score-DPO(sDPO),在不依賴人工標註的前提下,透過偏好評分排序引導模型實現無監督影像級思維鏈學習(如下圖所示)。

貢獻一:無監督偏好資料生成與評估
UV-CoT 利用目標模型
和評估模型
,為影像 – 問題對生成多樣化的中間推理響應,並透過偏好評分構建偏好資料集。主要步驟如演算法 1 所述:


-
響應生成:在每個推理時間步 t,使用目標模型
透過隨機種子生成 n 個多樣化的響應(包括邊界框和中間推理結果)。
-
響應評估:評估模型
綜合考慮所選區域的得分

-
偏好對構建:從響應中隨機選擇 k 個偏好對(偏好和非偏好思維鏈),形成偏好資料集。
-
響應選擇:保留最高評分的響應鏈,用於下一時間步的推理。透過動態生成偏好資料,UV-CoT 減少了對高質量標註資料的依賴,能夠在無監督資料條件下實現影像級思維鏈推理。

貢獻二: sDPO 與迭代學習
UV-CoT 使用改進的直接偏好最佳化(DPO)演算法 sDPO,透過引入偏好分數差異最佳化影像級思維鏈推理,並採用迭代學習策略動態適應模型輸出分佈。
sDPO 損失函式如下:

相比標準 DPO,sDPO 透過

引入偏好分數的差異,量化偏好和非偏好響應之間的強度,提升對關鍵影像區域的影響建模。
迭代學習 (如演算法 2):將資料集分為 m 個子集,迭代 m 次,每次使用當前模型
生成偏好資料 D_i,並用 sDPO 最佳化得到下一模型
。 透過動態更新偏好資料,緩解訓練資料與模型生成分佈的差異,增強訓練魯棒性。



實驗亮點
顯著效能提升(表 1):在六大基準上,優於有監督的思維鏈模型 Visual-CoT-7B,遠超目標模型 LLaVA-1.5-7B 和其他無思維鏈模型。
泛化能力強,易於拓展(表 2):在零樣本設定下,UV-CoT 平均提升 2.5%,新增額外無標註資料後,平均提升達 5.1%。
勝任高解析度場景(表 3):在 V* Bench 上,UV-CoT 平均得分 0.402,平均提升 5.5%,尤其在 OCR 任務中提升 8.4%。



不依賴評估模型,邊界框生成質量高(表 5):UV-CoT 透過自評估(目標模型作為評估器)表現仍遠超目標模型 LLaVA-1.5-7B(+4.8%),接近 12B 模型 OmniLMM-12B(-0.2%)。將 UV-CoT 生成的邊界框應用於 OmniLMM-12B 和 LLaVA-1.5-7B 輔助推理,效能分別提升 7.3% 和 4.7%。

偏好資料與思維鏈推理視覺化:


結語
UV-CoT 提出了一種創新的無監督視覺思維鏈推理框架,透過自動化的資料生成與對比評估機制,成功擺脫了對人工標註的依賴,實現了關鍵影像區域的自動識別與推理最佳化。該方法為高效、可擴充套件的多模態推理提供了新思路,為未來無監督視覺理解研究奠定了堅實基礎。
ICCV 2025 論文和程式碼下載
在CVer公眾號後臺回覆:ICCV2025,即可下載ICCV 2025論文和程式碼開源的論文合
CVPR 2025 論文和程式碼下載
在CVer公眾號後臺回覆:CVPR2025,即可下載CVPR 2025論文和程式碼開源的論文合集
ICCV 2025 論文和程式碼下載
ICCV 2025 論文和程式碼下載
CVPR 2025 論文和程式碼下載
CVPR 2025 論文和程式碼下載
CV垂直方向和論文投稿交流群成立
一定要備註:研究方向+地點+學校/公司+暱稱(如Mamba、多模態學習或者論文投稿+上海+上交+卡卡),根據格式備註,可更快被透過且邀請進群
▲掃碼或加微訊號: CVer2233,進交流群
CVer計算機視覺(知識星球)人數破萬!如果你想要了解最新最快最好的CV/DL/AI論文、實戰專案、行業前沿、從入門到精通學習教程等資料,一定要掃描下方二維碼,加入CVer知識星球!最強助力你的科研和工作!
▲掃碼加入星球學習
▲點選上方卡片,關注CVer公眾號
整理不易,請點贊和在看

▲掃碼或加微訊號: CVer2233,進交流群
CVer計算機視覺(知識星球)人數破萬!如果你想要了解最新最快最好的CV/DL/AI論文、實戰專案、行業前沿、從入門到精通學習教程等資料,一定要掃描下方二維碼,加入CVer知識星球!最強助力你的科研和工作!

▲掃碼加入星球學習
▲點選上方卡片,關注CVer公眾號
整理不易,請點贊和在看
