DeepSeek、OpenAI、Kimi視覺推理哪家強?港中文釋出全新推理基準MME-COT

©PaperWeekly 原創 · 作者 | 姜東志
單位 | 香港中文大學MMLab
研究方向 | 多模態大語言模型
論文地址:
https://arxiv.org/pdf/2502.09621
主頁地址:
https://mmecot.github.io
程式碼地址:
https://github.com/CaraJ7/MME-CoT
資料集地址:
https://huggingface.co/datasets/CaraJ/MME-CoT
背景
大語言模型(LLMs)中鏈式思維(Chain-of-Thought, CoT)的出現展示了超強的推理能力,這一點在最近的 OpenAI o1 和 DeepSeek-R1 中都得到了充分體現。然而,這一能力能多大程度地幫助視覺推理,並且我們又應該如何細粒度地評估視覺推理呢?
為此,來自港中文 MMLab 的研究者們提出了 MME-CoT。這是一個全面且專門用於評估 LMMs 中視覺推理能力的 Benchmark,包括了數學、科學、OCR、邏輯、時空和通用場景。
MME-CoT 與之前的 LMM 的 Benchmark 最大的區別在於,提出了一個嚴格且多方面的評估框架,細粒度地研究視覺 CoT 的不同方面,評估其推理的質量、魯棒性和效率。
各種最新推出的 LMM,包括 Kimi k1.5,GPT-4o,QVQ 等等都在 MME-CoT 上進行了測試。同時,研究者們還把圖片轉成 caption 之後測試了最近爆火的 DeepSeek-R1 以及 o3-mini。
根據實驗結果,文章中得到了如下有價值的結論:
1. CoT質量:Kimi k1.5 > DeepSeek-R1 >> o3-mini
CoT魯棒性:o3-mini > Kimi k1.5 > DeepSeek-R1
CoT效率:o3-mini > Kimi k1.5 > DeepSeek-R1
值得一提的是,DeepSeek-R1 的文字推理能力非常出眾。僅僅使用圖片的 caption 就可以在 precision 上超過真實看到圖片的 GPT-4o。最後的 CoT 質量也與 GPT-4o 僅有 1.9% 之差。
2. 其次,反思能力的引入顯著提升了 CoT 質量,所有具備反思能力的 LMM 都實現了較高的 CoT 質量表現。例如 QVQ 達到了 62.0% 的 F1 分數,大幅超過 Qwen2-VL-72B 6.8%。而 Kimi k1.5 更是超越 GPT-4o 達到最佳質量。
3. 在魯棒性方面,我們發現大多數早期模型在感知任務中都受到 CoT 的負面影響,表現出有害的過度思考行為,其中最顯著的案例是 InternVL2.5-8B,在感知任務中應用 CoT 後效能下降了 6.8%,這嚴重製約了將 CoT 推理作為預設操作的可行性。
4. 最後,關於 CoT 效率,我們觀察到輸出長 CoT 的模型普遍存在步驟的相關性不足的問題。模型容易被影像內容分散注意力,過度關注影像而忽視了對題目的解答,尤其是在處理通用場景、時空和 OCR 任務時。實驗結果顯示,約 30% 到 40% 的反思步驟未能有效協助問題解答,這暴露出當前模型反思能力的重要缺陷。
測評指標設計與資料組成
目前絕大多數的 LMM 的 Benchmark 都只評估最終答案的正確性,忽視了 LMM 整個的 CoT 的推理過程。為了能全面地瞭解視覺 CoT 的各個屬性,研究者們提出了三個不同的評估方向,每個方向致力於回答一個關鍵的問題:
1. CoT 的質量:每個 CoT 步驟是否有用且準確,不存在幻覺?
只評估回答的結果忽略了模型透過錯誤的邏輯或隨機猜測得出正確答案的情況。這往往造成了模型推理能力被誇大的假象。為了深入研究推理過程,研究者們引入了兩個可解釋的指標來評估 CoT 的質量:
  • 召回率(Recall):評估模型的回答有多少能與正確解題的必要步驟匹配。這個指標是用來量化推理的步驟是否能對於得到正確答案有幫助,以及推理鏈是否完整。匹配的過程由 GPT-4o 完成。
  • 精確率(Precision):評估模型回答的每一步的準確程度來考查模型的幻覺以及邏輯的準確性。為了評估這一指標,研究者們首先使用 GPT-4o 將模型的回覆切分成不同型別的步驟:背景知識、圖片描述以及邏輯推理。然後繼續對圖片描述以及邏輯推理步驟判定每步是否正確。
2. CoT 的魯棒性:CoT 是否干擾感知任務,它在多大程度上增強了推理任務?
現有研究主要關注 CoT 對推理任務帶來的效能改進,卻往往忽視了 CoT 是否會無意中破壞模型對於僅需要感知的任務的能力。
隨著 o1 以及 R1 的爆火,CoT 逐漸已成為模型的預設的推理策略。然而,模型無法提前預知使用者提出的問題型別,也不確定使用 CoT 來回答是否比直接給出答案會有更高的準確率。
因此,在目前的時間點上,CoT 在不同型別任務下的魯棒性變得格外重要。為了衡量魯棒性,MME-CoT 包括了兩個任務類別:感知任務和推理任務,以及兩種不同的 Prompt形式:要求模型直接回答(answer directly)以及 CoT 回答(think step by step)。
  • 穩定性(Stability):檢查 CoT 是否對模型在感知任務上的表現產生負面影響
  • 有效性(Efficacy):檢查 CoT 是否真的幫助模型提高在複雜推理任務上的表現
3. CoT 的效率:使用 CoT 的推理效率是怎麼樣的?
最近的 o1 類模型透過採用超長的 CoT 和反思步驟而取得了非常好的效果。這提出了一個關鍵的權衡問題:這種方法是否在準確性和計算成本之間取得了最佳平衡?為了研究這一點,研究者們首次對 LMMs 中 CoT 的效率進行研究,使用了兩個關鍵指標評估效率:
  • 相關比例(Relevance Rate):評估模型回答中與解決問題有關的比例。
  • 反思質量(Reflection Quality):分析每個反思步驟是否更正了推理中的錯誤或者從新的角度驗證了目前結論的正確性。
4. MME-CoT測試集
與純文字推理問題不同,額外的視覺輸入顯著豐富了視覺推理問題的範圍。有了影像輸入,模型需要根據當前的推理進度頻繁檢視影像以獲取相關資訊。描述感興趣的影像區域成為了思維鏈(CoT)過程中的關鍵部分。因此,除了需要嚴格邏輯的複雜問題外,通用場景中的許多問題也構成了具有挑戰性的推理問題。
考慮到這一點,MME-CoT 測試集構建起了一個覆蓋專業領域與常識場景的全景視覺推理評估體系,共包括 6 大領域以及 17 個子類。為了保持對推理過程的關注,研究者們排除了需要複雜領域特定定理或專業知識的問題。
MME-CoT 中分為感知任務以及推理任務,現有的 Benchmark 往往混淆這兩類任務,使得這兩類經常出現在相同類別中。為了解決這個問題,研究者們首先使用 GPT-4o 以及 Qwen2-VL 來進行預判,透過對比直接作答與 CoT 作答的表現差異,初步劃分這兩種不同型別的任務。接著,專業的標註團隊逐題稽核,確保分類的準確性。
為了便於 CoT 的評估,標註團隊為所有推理問題都給出了必要的推理步驟的 Ground Truth 標註。對於多解的問題,標註者被要求給出了每種可能的解法。最後,MME-CoT 得到了 1130 道精選的問題以及 3865 個關鍵步驟標註。
實驗分析與結論
研究者們在 MME-CoT Benchmark 上測評了 13 個現有的 LMM 以及 2 個最先進的具有超強推理能力的 LLM:DeepSeek-R1 以及 o3-mini。對於 LLM,研究者們將圖片轉化為詳細的 caption 之後再輸入到模型。
實驗結果如下:
基於測評,還得到了如下的發現與結論:
1. 長 CoT 不一定涵蓋關鍵步驟
儘管長思維鏈模型具有更高的精確率,但每個步驟的資訊量並不能得到保證。我們觀察到 GPT-4o、QVQ 和 Virgo 之間的召回率的趨勢和它們最終能否正確解答推理任務的表現(即在使用 CoT 的 prompt 時,模型在推理任務的最終答案准確率,對應表格中的 CoT Reasoning 列)不一致。
具體來說,雖然 Virgo 和 QVQ 在僅評估最終答案的正確性上都優於 GPT-4o,但它們在召回率上落後。這表明長 CoT 模型有時會在跳過中間步驟的情況下得出正確答案,這與 CoT 本身奉行的 Think step by step 的原則相矛盾,值得進一步研究。
2. 更多引數使模型更好地掌握推理能力
我們發現引數量更大的模型往往獲得更高的有效性 (Efficacy) 分數。這種模式在 LLaVA-OV、InternVL2.5-MPO 和 Qwen2-VL 中都很明顯。例如,雖然 Qwen2-VL-7B 在將 CoT 應用於推理任務時顯示出 4.8% 的效能下降,但其更大的對應模型 Qwen2-VL-72B 展示出 2.4% 的改進。
這種差異表明,在相同的訓練正規化下,具有更多引數的模型能夠更好地掌握推理能力。
3. 模型的反思的錯誤涵蓋多種型別
四種主要錯誤型別是:
  • 無效反思:模型得出錯誤結論,在反思時,繼續做出錯誤的調整。這是最常見的錯誤型別,也是最頻繁出現的。
  • 不完整:模型提出新的分析方法但未執行它們,僅停留在初始想法階段。模型的反思只是在空想。
  • 重複:模型重述先前的內容或方法,沒有引入新的見解。
  • 干擾:模型最初達到正確結論,但反思卻引入了錯誤。
理解和消除反思中的這些錯誤對於提高 LMM 的推理效率以及可靠性是至關重要的。
展望未來,MME-CoT 不僅為評估 LMM 的推理能力提供了系統化的基準,更為該領域的研究指明瞭關鍵發展方向。透過揭示現有模型在推理質量、魯棒性和計算效率等方面的不足,這項工作為後續研究奠定了重要基礎。這些發現將推動 LMM 實現更強大以及可靠的視覺推理能力。
更多閱讀
#投 稿 通 道#
 讓你的文字被更多人看到 
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。 
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析科研心得競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝 稿件基本要求:
• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標註 
• 稿件建議以 markdown 格式撰寫,文中配圖以附件形式傳送,要求圖片清晰,無版權問題
• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬 投稿通道:
• 投稿郵箱:[email protected] 
• 來稿請備註即時聯絡方式(微信),以便我們在稿件選用的第一時間聯絡作者
• 您也可以直接新增小編微信(pwbot02)快速投稿,備註:姓名-投稿
△長按新增PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜尋「PaperWeekly」
點選「關注」訂閱我們的專欄吧
·
·
·

相關文章