MLLM做數學題也會“走神”？南大&騰訊提出TVC，根治多模態長鏈推理的“視覺遺忘症”

當一個強大的多模態大模型（MLLM）在解決複雜的數學幾何問題時，你是否想過它會“走神”？

我們發現，在進行多步、長鏈條的推理時，即便是最先進的 MLLM，也會逐漸“忘記”最初給它的影像資訊，越來越依賴自己生成的文字，最終導致“一本正經地胡說八道”。我們稱這種現象為“視覺遺忘”（Visual Forgetting）。

為了解決這個棘手的難題，我們非常榮幸地宣佈，來自南京大學和騰訊的聯合研究成果《Mitigating Visual Forgetting via Take-along Visual Conditioning for Multi-modal Long CoT Reasoning》已被自然語言處理頂會 ACL 2025 接收。

在本文中，我們不僅首次系統性地揭示並量化了“視覺遺忘”現象，還提出了一種全新的解決方案——伴隨式視覺條件化（Take-along Visual Conditioning, TVC），顯著提升了 MLLM 在長鏈推理任務上的表現！

論文標題：

Mitigating Visual Forgetting via Take-along Visual Conditioning for Multi-modal Long CoT Reasoning

論文連結：

https://arxiv.org/abs/2503.13360

程式碼及資料集：

https://github.com/sun-hailong/TVC

問題的核心：AI如何“忘記”影像？

在純文字的長鏈推理（CoT）中，模型會不斷重複關鍵資訊（如“三角形 ABC”、“公式（1）”）來保持專注。但在多模態任務中，影像資訊通常只在推理的最開始輸入一次，之後便不再“露面”。隨著推理鏈條的拉長，模型對視覺資訊的注意力會急劇衰減。

我們做了一個大膽的實驗：在模型推理到一半時，悄悄把影像拿走。結果驚人地發現，在 MathVista 資料集上，模型的準確率僅下降了約 2%！

▲ 圖1：在推理的不同階段移除影像對模型效能的影響。曲線越平，說明模型對影像的依賴越低，遺忘越嚴重。

這有力地證明了，在推理的後半段，模型幾乎完全依賴於之前生成的文字，而忽略了至關重要的視覺證據。我們進一步透過視覺化注意力權重（如下圖），直觀地看到了模型注意力從影像（IMG）向文字（Response）的快速轉移。

▲ 圖2：模型注意力權重分佈圖，清晰展示了視覺注意力的衰減過程。

我們的解決方案：TVC-AI的“隨身視覺草稿本”

TVC（Take-along Visual Conditioning）正是為此而生。它不是一個複雜的全新架構，而是一套精巧的、動態的視覺資訊重注入機制，旨在模擬人類的這一認知行為。TVC 的核心思想可以分解為兩個協同工作的階段：訓練階段的“習慣養成”和推理階段的“學以致用”。

▲ 圖3：TVC 系統設計總覽

2.1 第一階段：訓練-教會模型“回頭看”的習慣（DVR）

要讓模型學會“回頭看”，我們必須在訓練資料中就為其創造這樣的場景。我們稱這個過程為動態視覺重確認（Dynamic Visual Reaffirmation, DVR）。

1. 打造高質量“教材”：長鏈推理資料策劃

首先，我們需要一份好的教材。我們整合了 MathV360K、Geo170K 等高質量學術資料集，透過我們精心設計的資料生成流水線（詳見後文），生成了大量包含完整、正確推理步驟的（影像，問題，長鏈回答）資料對。這份資料集是訓練的基礎。

2. 模擬“回頭看”場景：視覺內容注入（Visual Content Injection）

這是 DVR 的關鍵。在原始的長鏈推理資料中，模型是一口氣從頭推到尾的。為了打破這種慣性，我們進行了如下操作：

定位注入點：對於一條包含 L 步推理的長鏈條，我們在中間（例如 0.5L 處）或者隨機選擇多個自我反思（Self-reflection）的節點。這些節點通常是模型進行關鍵步驟轉換或檢查的地方。
手動注入視覺資訊：在這些節點上，我們“打斷”模型的推理，將原始的視覺特徵（Visual Embeddings）和一個橋接提示（Bridging Prompt）重新插入到推理上下文中。這個提示語就像在告訴模型：“等一下，讓我再看看圖確認一下。”
重新生成後續步驟：基於注入了視覺資訊的新上下文，我們讓模型重新生成後續的推理步驟，並確保其最終答案仍然正確。

透過在訓練資料中大量引入這種“中途看圖”的樣本，模型被迫學會在文字推理的同時，不斷地重新融合和利用視覺資訊。這就像一個學生在做題時，被老師反覆提醒要對照圖形，久而久之，就養成了“凡事看圖”的嚴謹習慣。

2.2 第二階段：推理-在實戰中靈活運用“回頭看”（PVC）

當模型訓練好後，在面對新的、未見過的問題時，如何自主地、高效地“回頭看”呢？這就是週期性視覺校準（Periodic Visual Calibration, PVC）發揮作用的時候。

在推理過程中，當模型生成到某個預設的、或由模型自身判斷需要反思的節點時，PVC 機制會被觸發，並執行一套行雲流水的“三步曲”：

1. 第一步：視覺資訊“打包”-令牌壓縮（Token Compression）

直接將原始的、高維的視覺令牌（通常有數百個）注入推理流，會帶來兩個問題：

計算開銷大：增加推理的計算負擔。
干擾文字連貫性：過多的視覺資訊可能會“沖淡”模型對已有文字上下文的記憶，導致思路中斷。

為了解決這個問題，我們首先使用平均池化（Average Pooling）對視覺令牌進行壓縮。例如，將原本 16×16=256 個令牌壓縮成 4×4=16 個。這個過程就像是將一張高畫質大圖，在保持核心空間佈局和語義的前提下，“打包”成一個輕量級的視覺摘要。

2. 第二步：為“新資訊”騰出空間 – 視覺快取重置（Visual Cache Reset）

現代大語言模型在生成文字時，會使用一種叫做 KV 快取（KV Cache）的機制來儲存之前生成內容的注意力資訊，以加速後續的生成。為了讓新注入的視覺資訊能被模型“看到”並給予足夠的重視，我們在此刻選擇性地重置與視覺相關的 KV 快取。

這相當於在模型的“工作記憶”中，為即將到來的視覺“草稿”騰出一塊乾淨的地方，確保它不會被舊的注意力資訊所淹沒。

3. 第三步：精準“投餵” – 重注入影像與提示

最後一步，我們將“打包”好的壓縮視覺令牌，連同一個橋接提示語（如 “[IMG TOKEN] Let me check the image again.”），一起新增到當前的生成提示（prompt）的最前端。

然後，模型會基於這個包含了最新視覺資訊的“增強版”提示，繼續進行後續的推理。這個過程確保了模型在每一個關鍵決策點，都能基於最準確、最及時的視覺證據來校準自己的思維路徑，從而有效避免因“視覺遺忘”而導致的錯誤累積。

總結一下 TVC 的精髓：

DVR（訓練時）：透過資料增強，教會模型在推理中途處理視覺資訊的能力，養成“回頭看”的習慣。
PVC（推理時）：建立一套高效、低干擾的機制，讓模型在實戰中能自主、靈活地運用這個習慣，週期性地用視覺資訊來校準推理。

透過這套“訓練習慣 + 推理應用”的組合拳，TVC成功地為多模態大模型在漫長的推理之旅中，提供了一個持續、可靠的視覺“錨”，讓它不再“忘本”，從而在複雜的視覺推理任務中表現得更加精準和魯棒。

高質量資料引擎：迭代式蒸餾與拒絕取樣

為了訓練出強大的長鏈推理能力，我們還設計了一套精密的資料生成流水線。我們採用迭代式蒸餾和拒絕取樣的策略，從強大的教師模型（如 QVQ-72B）中“榨取”出高質量的推理資料，並對資料進行動態截斷和反思詞修剪，確保了訓練資料的正確性、簡潔性和高效性。

▲ 圖4：TVC 的資料生成流水線

驚豔的效果：TVC表現如何？

我們在 MathVista, MathVerse 等五個主流的視覺推理基準上進行了全面評測。

結果顯示，TVC 取得了 SOTA（State-of-the-Art）效能！

效能飛躍：在應用了 TVC 後，Qwen2-VL-72B 模型在多個基準上效能大幅提升，平均分高出之前 SOTA 模型 3.4 個點。
全面有效：無論是在通用的視覺推理任務還是在專精的數學推理任務上，TVC 都展現出強大的效果和泛化能力。
小模型也強大：搭載 TVC 的 7B 模型，在某些任務上甚至能超越未最佳化的 72B 模型，證明了我們方法的普適性。

▲ 表1：TVC 在多個視覺推理基準上的 SOTA 表現

在下圖中，基礎模型因為沒有仔細看材質（rubber vs. metallic），算錯了數量。而 TVC 在推理過程中透過“回頭看圖”，精確識別了每個物體的材質，最終得出了正確答案。

▲ 圖5：TVC 糾錯案例，模型透過重新審檢視中物體的材質，修正了最初的錯誤答案。

總結與展望

“視覺遺忘”是阻礙多模態大模型邁向更高階認知能力的一大障礙。我們的工作不僅系統地揭示了這一問題，更提出了一個簡潔而有效的解決方案——TVC。

TVC 透過模擬人類“反覆看圖”的行為，為 MLLM 在長鏈推理中提供了持續的視覺“錨點”，顯著增強了其推理的準確性和魯棒性。

再次感謝大家對我們工作的關注！

我們已將專案主頁和程式碼開源，歡迎大家 Star、Fork、試用和交流！

論文連結：

https://arxiv.org/abs/2503.13360

程式碼及資料集：

https://github.com/sun-hailong/TVC

👉 點個“在看”，分享給更多對多模態推理感興趣的朋友吧！

更多閱讀

#投稿通道#

讓你的文字被更多人看到

如何才能讓更多的優質內容以更短路徑到達讀者群體，縮短讀者尋找優質內容的成本呢？答案就是：你不認識的人。

總有一些你不認識的人，知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑，促使不同背景、不同方向的學者和學術靈感相互碰撞，迸發出更多的可能性。

PaperWeekly 鼓勵高校實驗室或個人，在我們的平臺上分享各類優質內容，可以是最新論文解讀，也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個，讓知識真正流動起來。

📝 稿件基本要求：

• 文章確係個人原創作品，未曾在公開渠道發表，如為其他平臺已發表或待發表的文章，請明確標註

• 稿件建議以 markdown 格式撰寫，文中配圖以附件形式傳送，要求圖片清晰，無版權問題

• PaperWeekly 尊重原作者署名權，並將為每篇被採納的原創首發稿件，提供業內具有競爭力稿酬，具體依據文章閱讀量和文章質量階梯制結算

📬 投稿通道：

• 投稿郵箱：[email protected]

• 來稿請備註即時聯絡方式（微信），以便我們在稿件選用的第一時間聯絡作者

• 您也可以直接新增小編微信（pwbot02）快速投稿，備註：姓名-投稿

△長按新增PaperWeekly小編

🔍

現在，在「知乎」也能找到我們了

進入知乎首頁搜尋「PaperWeekly」

點選「關注」訂閱我們的專欄吧

dignews.cc

MLLM做數學題也會“走神”？南大&騰訊提出TVC，根治多模態長鏈推理的“視覺遺忘症”

相關文章

視覺強化微調！DeepSeekR1技術成功遷移到多模態領域，全面開源

科學家將DeepSeekR1技術遷移到多模態領域，最低只需10條資料就能提升模型效能

DeepSeekR1遷移多模態，已開源！

TVC真的失靈了嗎？倒也未必

ICLR2025|自動化所、曠視等提出Ross，多模態大模型的MAE時刻來了？

多模態推理相關工作速覽

對話蔚來：超級小內容時代，汽車TVC怎麼做？

Transformer已死？Mamba強的離譜！

多模態長文字理解測評首發：46款模型無一攻克128K難關

伊利牧場聯動楊迪扔下王炸，這部冰淇淋短劇真封神了