多模態數學推理新突破:多樣化視角讓模型“開竅”!

MLNLP社群是國內外知名的機器學習與自然語言處理社群,受眾覆蓋國內外NLP碩博生、高校老師以及企業研究人員。
社群的願景是促進國內外自然語言處理,機器學習學術界、產業界和廣大愛好者之間的交流和進步,特別是初學者同學們的進步。
論文地址:
https://arxiv.org/pdf/2507.02804
論文標題:
Multimodal Mathematical Reasoning with Diverse Solving Perspective
一句話理解:
本文是關於多模態數學推理的研究,旨在透過引入多樣化的解題視角和反思性監督來提升大型多模態語言模型(MLLMs)在數學推理任務中的表現。以下是文章的主要內容概述:

研究背景與動機

大型語言模型(LLMs)的發展:近年來,LLMs在推理任務中表現出色,尤其是在數學領域。然而,現有的多模態LLMs(MLLMs)在處理需要視覺理解的複雜數學問題時,仍落後於一些封閉原始碼的模型(如GPT-4V和Gemini)。
現有方法的侷限性:現有的MLLMs通常依賴一對一的影像-文字對和單一解題監督,忽略了多樣化的推理視角和內部反思。這限制了模型在多模態數學推理中的表現。
研究目標與方法
MathV-DP資料集:作者提出了一個新的資料集MathV-DP,該資料集為每個影像-問題對提供了多種多樣化的解題路徑,以豐富推理監督。
Qwen-VL-DP模型:基於Qwen-VL模型,作者提出了Qwen-VL-DP,透過監督學習微調和基於規則的強化學習(GRPO)進行增強。GRPO是一種規則基礎的強化學習方法,結合了正確性判別和多樣性感知的獎勵函式。
多樣化推理視角:該方法強調從多樣化的推理視角學習,並區分正確但不同的解題方法。
實驗與結果
實驗設定:作者在MathVista的minitest和Math-V基準測試上進行了廣泛的實驗,以評估Qwen-VL-DP模型的效能。
效能提升:實驗結果表明,Qwen-VL-DP在準確性和生成多樣性方面顯著優於之前的MLLMs。例如,在MathVista的minitest上,Qwen2.5-VL-DP的整體準確率達到了70.4%,比基礎模型Qwen2.5-VL-7B提高了2.2%。
生成多樣性:Qwen-VL-DP在生成多樣性方面也表現出色,其有效語義多樣性分數在不同生成響應數量下均高於基礎模型和其他變體。
結論
多樣化視角的重要性:透過從多個解題視角學習,模型能夠更好地理解和解決複雜的多模態數學問題。
監督學習與強化學習的結合:結合監督學習和基於規則的強化學習可以有效提升MLLMs的推理能力和生成多樣性。
資料集和模型的貢獻:MathV-DP資料集和Qwen-VL-DP模型為多模態數學推理領域提供了新的資源和方法,有助於推動相關研究的發展。
限制與未來工作
生成控制的挑戰:儘管模型能夠生成多樣化的解題方法,但無法明確控制單個生成響應的具體視角。未來的工作將致力於使模型能夠可控地生成預期的解題視角。
倫理宣告
資料許可與使用:文章中使用的模型和資料集均遵循相應的許可協議,旨在訓練和測試模型的多模態推理能力。
總的來說,這篇文章透過引入多樣化的解題視角和反思性監督,顯著提升了MLLMs在多模態數學推理任務中的表現,併為未來的研究提供了新的方向。

技術交流群邀請函

△長按新增小助手
掃描二維碼新增小助手微信
請備註:姓名-學校/公司-研究方向
(如:小張-哈工大-對話系統)
即可申請加入自然語言處理/Pytorch等技術交流群

關於我們

MLNLP 社群是由國內外機器學習與自然語言處理學者聯合構建的民間學術社群,目前已經發展為國內外知名的機器學習與自然語言處理社群,旨在促進機器學習,自然語言處理學術界、產業界和廣大愛好者之間的進步。
社群可以為相關從業者的深造、就業及研究等方面提供開放交流平臺。歡迎大家關注和加入我們。


相關文章