姜東志 投稿
量子位 | 公眾號 QbitAI
OpenAI o1和DeepSeek-R1靠鏈式思維(Chain-of-Thought, CoT)展示了超強的推理能力,但這一能力能多大程度地幫助視覺推理,又應該如何細粒度地評估視覺推理呢?
為此,來自港中文MMLab的研究者們提出了MME-CoT。

這是一個全面且專門用於評估LMMs中視覺推理能力的Benchmark,包括了數學、科學、OCR、邏輯、時空和通用場景。
MME-CoT與之前的LMM的Benchmark最大的區別在於,提出了一個嚴格且多方面的評估框架,細粒度地研究視覺CoT的不同方面,評估其推理的質量、魯棒性和效率。

各種最新推出的LMM,包括Kimi k1.5, GPT-4o, QVQ等等都在MME-CoT上進行了測試。同時,研究者們還把圖片轉成caption之後測試了最近爆火的DeepSeek-R1以及o3-mini。
基於實驗結果,文章中得到了很有價值的結論:
-
CoT質量:Kimi k1.5 > DeepSeek-R1 >> o3-mini
-
CoT魯棒性:o3-mini > Kimi k1.5 > DeepSeek-R1
-
CoT效率:o3-mini > Kimi k1.5 > DeepSeek-R1
值得一提的是,DeepSeek-R1的文字推理能力非常出眾。僅僅使用圖片的caption就可以在precision上超過真實看到圖片的GPT-4o。最後的CoT質量也與GPT-4o僅有1.9%之差。
其次,反思能力的引入顯著提升了CoT質量,所有具備反思能力的LMM都實現了較高的CoT質量表現。例如QVQ達到了62.0%的F1分數,大幅超過Qwen2-VL-72B 6.8%。而Kimi k1.5更是超越GPT-4o達到最佳質量。
在魯棒性方面,團隊發現大多數早期模型在感知任務中都受到CoT的負面影響,表現出有害的過度思考行為,其中最顯著的案例是InternVL2.5-8B,在感知任務中應用CoT後效能下降了6.8%,這嚴重製約了將CoT推理作為預設操作的可行性。
最後,關於CoT效率,團隊觀察到輸出長CoT的模型普遍存在步驟的相關性不足的問題。模型容易被影像內容分散注意力,過度關注影像而忽視了對題目的解答,尤其是在處理通用場景、時空和OCR任務時。實驗結果顯示,約30%到40%的反思步驟未能有效協助問題解答,這暴露出當前模型反思能力的重要缺陷。
測評指標設計與資料組成
目前絕大多數的LMM的Benchmark都只評估最終答案的正確性,忽視了LMM整個的CoT的推理過程。為了能全面地瞭解視覺CoT的各個屬性,研究者們提出了三個不同的評估方向,每個方向致力於回答一個關鍵的問題:
1、CoT的質量:每個CoT步驟是否有用且準確,不存在幻覺?

只評估回答的結果忽略了模型透過錯誤的邏輯或隨機猜測得出正確答案的情況。這往往造成了模型推理能力被誇大的假象。為了深入研究推理過程,研究者們引入了兩個可解釋的指標來評估CoT的質量:
-
召回率 (Recall):評估模型的回答有多少能與正確解題的必要步驟匹配。這個指標是用來量化推理的步驟是否能對於得到正確答案有幫助,以及推理鏈是否完整。匹配的過程由GPT-4o完成。
-
精確率 (Precision):評估模型回答的每一步的準確程度來考查模型的幻覺以及邏輯的準確性。為了評估這一指標,研究者們首先使用GPT-4o將模型的回覆切分成不同型別的步驟:背景知識、圖片描述以及邏輯推理。然後繼續對圖片描述以及邏輯推理步驟判定每步是否正確。

2、CoT的魯棒性:CoT是否干擾感知任務,它在多大程度上增強了推理任務?

現有研究主要關注CoT對推理任務帶來的效能改進,卻往往忽視了CoT是否會無意中破壞模型對於僅需要感知的任務的能力。隨著o1以及R1的爆火,CoT逐漸已成為模型的預設的推理策略。然而,模型無法提前預知使用者提出的問題型別,也不確定使用CoT來回答是否比直接給出答案會有更高的準確率。因此,在目前的時間點上,CoT在不同型別任務下的魯棒性變得格外重要。為了衡量魯棒性,MME-CoT包括了兩個任務類別:感知任務和推理任務,以及兩種不同的Prompt形式:要求模型直接回答(answer directly)以及CoT回答(think step by step)。
-
穩定性 (Stability):檢查CoT是否對模型在感知任務上的表現產生負面影響
-
有效性 (Efficacy):檢查CoT是否真的幫助模型提高在複雜推理任務上的表現
3、CoT的效率:使用CoT的推理效率是怎麼樣的?

最近的o1類模型透過採用超長的CoT和反思步驟而取得了非常好的效果。這提出了一個關鍵的權衡問題:這種方法是否在準確性和計算成本之間取得了最佳平衡?為了研究這一點,研究者們首次對LMMs中CoT的效率進行研究,使用了兩個關鍵指標評估效率:
-
相關比例 (Relevance Rate):評估模型回答中與解決問題有關的比例。
-
反思質量 (Reflection Quality):分析每個反思步驟是否更正了推理中的錯誤或者從新的角度驗證了目前結論的正確性。
4、MME-CoT測試集
與純文字推理問題不同,額外的視覺輸入顯著豐富了視覺推理問題的範圍。有了影像輸入,模型需要根據當前的推理進度頻繁檢視影像以獲取相關資訊。描述感興趣的影像區域成為了思維鏈(CoT)過程中的關鍵部分。因此,除了需要嚴格邏輯的複雜問題外,通用場景中的許多問題也構成了具有挑戰性的推理問題。
考慮到這一點,MME-CoT測試集構建起了一個覆蓋專業領域與常識場景的全景視覺推理評估體系,共包括6大領域以及17個子類。為了保持對推理過程的關注,研究者們排除了需要複雜領域特定定理或專業知識的問題。
MME-CoT中分為感知任務以及推理任務,現有的Benchmark往往混淆這兩類任務,使得這兩類經常出現在相同類別中。為了解決這個問題,研究者們首先使用GPT-4o以及Qwen2-VL來進行預判,透過對比直接作答與CoT作答的表現差異,初步劃分這兩種不同型別的任務。接著,專業的標註團隊逐題稽核,確保分類的準確性。
為了便於CoT的評估,標註團隊為所有推理問題都給出了必要的推理步驟的Ground Truth標註。對於多解的問題,標註者被要求給出了每種可能的解法。最後,MME-CoT得到了1130道精選的問題以及3865個關鍵步驟標註。

實驗分析與結論
研究者們在MME-CoT Benchmark上測評了13個現有的LMM以及2個最先進的具有超強推理能力的LLM:DeepSeek-R1以及o3-mini。對於LLM,研究者們將圖片轉化為詳細的caption之後再輸入到模型。
實驗結果如下:


基於測評,還得到了如下的發現與結論:
1. 長CoT不一定涵蓋關鍵步驟
儘管長思維鏈模型具有更高的精確率,但每個步驟的資訊量並不能得到保證。團隊觀察到GPT-4o、QVQ和Virgo之間的召回率的趨勢和它們最終能否正確解答推理任務的表現(即在使用CoT的prompt時,模型在推理任務的最終答案准確率,對應表格中的CoT Reasoning列)不一致。具體來說,雖然Virgo和QVQ在僅評估最終答案的正確性上都優於GPT-4o,但它們在召回率上落後。這表明長CoT模型有時會在跳過中間步驟的情況下得出正確答案,這與CoT本身奉行的Think step by step的原則相矛盾,值得進一步研究。
2. 更多引數使模型更好地掌握推理能力
團隊發現引數量更大的模型往往獲得更高的有效性(Efficacy)分數。這種模式在LLaVA-OV、InternVL2.5-MPO和Qwen2-VL中都很明顯。例如,雖然Qwen2-VL-7B在將CoT應用於推理任務時顯示出4.8%的效能下降,但其更大的對應模型Qwen2-VL-72B展示出2.4%的改進。這種差異表明,在相同的訓練正規化下,具有更多引數的模型能夠更好地掌握推理能力。這一發現也某種程度上驗證了R1論文中的關鍵發現:同等訓練setting下,更大引數量的模型往往能更好地學習到推理的能力。
3. 模型的反思的錯誤涵蓋多種型別

四種主要錯誤型別是:
-
無效反思:模型得出錯誤結論,在反思時,繼續做出錯誤的調整。這是最常見的錯誤型別,也是最頻繁出現的。
-
不完整:模型提出新的分析方法但未執行它們,僅停留在初始想法階段。模型的反思只是在空想。
-
重複:模型重述先前的內容或方法,沒有引入新的見解。
-
干擾:模型最初達到正確結論,但反思卻引入了錯誤。
理解和消除反思中的這些錯誤對於提高LMM的推理效率以及可靠性是至關重要的。
展望未來,MME-CoT不僅為評估LMM的推理能力提供了系統化的基準,更為該領域的研究指明瞭關鍵發展方向。透過揭示現有模型在推理質量、魯棒性和計算效率等方面的不足,這項工作為後續研究奠定了重要基礎。這些發現將推動LMM實現更強大以及可靠的視覺推理能力。
論文:https://arxiv.org/pdf/2502.09621
主頁:https://mmecot.github.io
程式碼:https://github.com/CaraJ7/MME-CoT
資料集:https://huggingface.co/datasets/CaraJ/MME-CoT
投稿請工作日發郵件到:
標題註明【投稿】,告訴我們:
你是誰,從哪來,投稿內容
附上論文/專案主頁連結,以及聯絡方式哦
我們會(儘量)及時回覆你

一鍵關注 👇 點亮星標
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!