
當一個強大的多模態大模型(MLLM)在解決複雜的數學幾何問題時,你是否想過它會“走神”?
我們發現,在進行多步、長鏈條的推理時,即便是最先進的 MLLM,也會逐漸“忘記”最初給它的影像資訊,越來越依賴自己生成的文字,最終導致“一本正經地胡說八道”。我們稱這種現象為“視覺遺忘”(Visual Forgetting)。
為了解決這個棘手的難題,我們非常榮幸地宣佈,來自南京大學和騰訊的聯合研究成果《Mitigating Visual Forgetting via Take-along Visual Conditioning for Multi-modal Long CoT Reasoning》已被自然語言處理頂會 ACL 2025 接收。
在本文中,我們不僅首次系統性地揭示並量化了“視覺遺忘”現象,還提出了一種全新的解決方案——伴隨式視覺條件化(Take-along Visual Conditioning, TVC),顯著提升了 MLLM 在長鏈推理任務上的表現!

論文標題:
Mitigating Visual Forgetting via Take-along Visual Conditioning for Multi-modal Long CoT Reasoning
論文連結:
https://arxiv.org/abs/2503.13360
程式碼及資料集:
https://github.com/sun-hailong/TVC

問題的核心:AI如何“忘記”影像?
在純文字的長鏈推理(CoT)中,模型會不斷重複關鍵資訊(如“三角形 ABC”、“公式(1)”)來保持專注。但在多模態任務中,影像資訊通常只在推理的最開始輸入一次,之後便不再“露面”。隨著推理鏈條的拉長,模型對視覺資訊的注意力會急劇衰減。
我們做了一個大膽的實驗:在模型推理到一半時,悄悄把影像拿走。結果驚人地發現,在 MathVista 資料集上,模型的準確率僅下降了約 2%!

▲ 圖1:在推理的不同階段移除影像對模型效能的影響。曲線越平,說明模型對影像的依賴越低,遺忘越嚴重。
這有力地證明了,在推理的後半段,模型幾乎完全依賴於之前生成的文字,而忽略了至關重要的視覺證據。我們進一步透過視覺化注意力權重(如下圖),直觀地看到了模型注意力從影像(IMG)向文字(Response)的快速轉移。

▲ 圖2:模型注意力權重分佈圖,清晰展示了視覺注意力的衰減過程。

我們的解決方案:TVC-AI的“隨身視覺草稿本”
TVC(Take-along Visual Conditioning)正是為此而生。它不是一個複雜的全新架構,而是一套精巧的、動態的視覺資訊重注入機制,旨在模擬人類的這一認知行為。TVC 的核心思想可以分解為兩個協同工作的階段:訓練階段的“習慣養成”和推理階段的“學以致用”。

▲ 圖3:TVC 系統設計總覽
2.1 第一階段:訓練-教會模型“回頭看”的習慣(DVR)
要讓模型學會“回頭看”,我們必須在訓練資料中就為其創造這樣的場景。我們稱這個過程為動態視覺重確認(Dynamic Visual Reaffirmation, DVR)。
1. 打造高質量“教材”:長鏈推理資料策劃
首先,我們需要一份好的教材。我們整合了 MathV360K、Geo170K 等高質量學術資料集,透過我們精心設計的資料生成流水線(詳見後文),生成了大量包含完整、正確推理步驟的(影像,問題,長鏈回答)資料對。這份資料集是訓練的基礎。
2. 模擬“回頭看”場景:視覺內容注入(Visual Content Injection)
這是 DVR 的關鍵。在原始的長鏈推理資料中,模型是一口氣從頭推到尾的。為了打破這種慣性,我們進行了如下操作:
-
定位注入點:對於一條包含 L 步推理的長鏈條,我們在中間(例如 0.5L 處)或者隨機選擇多個自我反思(Self-reflection)的節點。這些節點通常是模型進行關鍵步驟轉換或檢查的地方。
-
手動注入視覺資訊:在這些節點上,我們“打斷”模型的推理,將原始的視覺特徵(Visual Embeddings)和一個橋接提示(Bridging Prompt)重新插入到推理上下文中。這個提示語就像在告訴模型:“等一下,讓我再看看圖確認一下。”
-
重新生成後續步驟:基於注入了視覺資訊的新上下文,我們讓模型重新生成後續的推理步驟,並確保其最終答案仍然正確。
透過在訓練資料中大量引入這種“中途看圖”的樣本,模型被迫學會在文字推理的同時,不斷地重新融合和利用視覺資訊。這就像一個學生在做題時,被老師反覆提醒要對照圖形,久而久之,就養成了“凡事看圖”的嚴謹習慣。
2.2 第二階段:推理-在實戰中靈活運用“回頭看”(PVC)
當模型訓練好後,在面對新的、未見過的問題時,如何自主地、高效地“回頭看”呢?這就是週期性視覺校準(Periodic Visual Calibration, PVC)發揮作用的時候。
在推理過程中,當模型生成到某個預設的、或由模型自身判斷需要反思的節點時,PVC 機制會被觸發,並執行一套行雲流水的“三步曲”:
1. 第一步:視覺資訊“打包”-令牌壓縮(Token Compression)
直接將原始的、高維的視覺令牌(通常有數百個)注入推理流,會帶來兩個問題:
-
計算開銷大:增加推理的計算負擔。
-
干擾文字連貫性:過多的視覺資訊可能會“沖淡”模型對已有文字上下文的記憶,導致思路中斷。
為了解決這個問題,我們首先使用平均池化(Average Pooling)對視覺令牌進行壓縮。例如,將原本 16×16=256 個令牌壓縮成 4×4=16 個。這個過程就像是將一張高畫質大圖,在保持核心空間佈局和語義的前提下,“打包”成一個輕量級的視覺摘要。
2. 第二步:為“新資訊”騰出空間 – 視覺快取重置(Visual Cache Reset)
現代大語言模型在生成文字時,會使用一種叫做 KV 快取(KV Cache)的機制來儲存之前生成內容的注意力資訊,以加速後續的生成。為了讓新注入的視覺資訊能被模型“看到”並給予足夠的重視,我們在此刻選擇性地重置與視覺相關的 KV 快取。
這相當於在模型的“工作記憶”中,為即將到來的視覺“草稿”騰出一塊乾淨的地方,確保它不會被舊的注意力資訊所淹沒。
3. 第三步:精準“投餵” – 重注入影像與提示
最後一步,我們將“打包”好的壓縮視覺令牌,連同一個橋接提示語(如 “[IMG TOKEN] Let me check the image again.”),一起新增到當前的生成提示(prompt)的最前端。
然後,模型會基於這個包含了最新視覺資訊的“增強版”提示,繼續進行後續的推理。這個過程確保了模型在每一個關鍵決策點,都能基於最準確、最及時的視覺證據來校準自己的思維路徑,從而有效避免因“視覺遺忘”而導致的錯誤累積。
總結一下 TVC 的精髓:
-
DVR(訓練時):透過資料增強,教會模型在推理中途處理視覺資訊的能力,養成“回頭看”的習慣。
-
PVC(推理時):建立一套高效、低干擾的機制,讓模型在實戰中能自主、靈活地運用這個習慣,週期性地用視覺資訊來校準推理。
透過這套“訓練習慣 + 推理應用”的組合拳,TVC成功地為多模態大模型在漫長的推理之旅中,提供了一個持續、可靠的視覺“錨”,讓它不再“忘本”,從而在複雜的視覺推理任務中表現得更加精準和魯棒。

高質量資料引擎:迭代式蒸餾與拒絕取樣
為了訓練出強大的長鏈推理能力,我們還設計了一套精密的資料生成流水線。我們採用迭代式蒸餾和拒絕取樣的策略,從強大的教師模型(如 QVQ-72B)中“榨取”出高質量的推理資料,並對資料進行動態截斷和反思詞修剪,確保了訓練資料的正確性、簡潔性和高效性。

▲ 圖4:TVC 的資料生成流水線

驚豔的效果:TVC表現如何?
我們在 MathVista, MathVerse 等五個主流的視覺推理基準上進行了全面評測。
結果顯示,TVC 取得了 SOTA(State-of-the-Art)效能!
-
效能飛躍:在應用了 TVC 後,Qwen2-VL-72B 模型在多個基準上效能大幅提升,平均分高出之前 SOTA 模型 3.4 個點。
-
全面有效:無論是在通用的視覺推理任務還是在專精的數學推理任務上,TVC 都展現出強大的效果和泛化能力。
-
小模型也強大:搭載 TVC 的 7B 模型,在某些任務上甚至能超越未最佳化的 72B 模型,證明了我們方法的普適性。

▲ 表1:TVC 在多個視覺推理基準上的 SOTA 表現
在下圖中,基礎模型因為沒有仔細看材質(rubber vs. metallic),算錯了數量。而 TVC 在推理過程中透過“回頭看圖”,精確識別了每個物體的材質,最終得出了正確答案。

▲ 圖5:TVC 糾錯案例,模型透過重新審檢視中物體的材質,修正了最初的錯誤答案。

總結與展望
“視覺遺忘”是阻礙多模態大模型邁向更高階認知能力的一大障礙。我們的工作不僅系統地揭示了這一問題,更提出了一個簡潔而有效的解決方案——TVC。
TVC 透過模擬人類“反覆看圖”的行為,為 MLLM 在長鏈推理中提供了持續的視覺“錨點”,顯著增強了其推理的準確性和魯棒性。
再次感謝大家對我們工作的關注!
我們已將專案主頁和程式碼開源,歡迎大家 Star、Fork、試用和交流!
論文連結:
https://arxiv.org/abs/2503.13360
程式碼及資料集:
https://github.com/sun-hailong/TVC
👉 點個“在看”,分享給更多對多模態推理感興趣的朋友吧!
更多閱讀

#投 稿 通 道#
讓你的文字被更多人看到
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝 稿件基本要求:
• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標註
• 稿件建議以 markdown 格式撰寫,文中配圖以附件形式傳送,要求圖片清晰,無版權問題
• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬 投稿通道:
• 投稿郵箱:[email protected]
• 來稿請備註即時聯絡方式(微信),以便我們在稿件選用的第一時間聯絡作者
• 您也可以直接新增小編微信(pwbot02)快速投稿,備註:姓名-投稿

△長按新增PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜尋「PaperWeekly」
點選「關注」訂閱我們的專欄吧
·
