OpenThinkIMG團隊 投稿量子位 | 公眾號 QbitAI
教AI學會使用工具,帶圖推理就能變得更強?!
港中文、微軟聯合8家單位推出OpenThinkIMG開源框架,這是一個專為提升AI視覺工具使用和推理能力而設計的一站式平臺。

眾所周知,我們人類在解決問題時,常常會藉助視覺工具:解幾何題時畫輔助線,分析圖表時用熒光筆標記。這些“動手”操作,極大地增強了我們的認知和推理能力。
因此,一旦將同款“動手操作”能力賦予AI,其推理能力也將大大提升。
不過問題是,雖然現在已經有很多強大的視覺工具(分割、檢測、OCR等),但讓AI真正學會如何以及何時智慧地使用這些工具,卻面臨巨大挑戰:
-
工具整合難:不同工具介面各異,想把它們整合到一個AI系統裡,費時費力。 -
訓練資料缺:教AI用工具,需要大量“示範操作”資料。這種資料怎麼來?質量如何保證? -
模型適應差:傳統方法訓練出的AI,往往只會“照本宣科”,遇到新情況就傻眼,缺乏靈活應變和自主學習的能力。
而OpenThinkIMG框架的出現正是為了解決上述問題,與此同時,團隊還公開了其核心的自適應工具使用訓練技術V-ToolRL。
下面具體來看。
OpenThinkIMG:為AI打造的“超級工具箱”
如框架圖所示,OpenThinkIMG集工具部署、資料生成、智慧體訓練於一體。

其核心特性如下:
第一,模組化視覺工具部署 (Tool Deployment)。
簡單來說,它提供標準化的視覺工具介面,無論是已有的成熟工具(如GroundingDINO, SAM, OCR等),還是你自己的新工具,都能輕鬆接入OpenThinkIMG的“工具箱”。
並且每個工具都可以作為獨立服務部署,互不干擾,方便管理和按需擴充套件。AI模型可以透過框架內的“工具控制器”按需呼叫。
第二,高效的智慧體訓練框架 (Training Framework)。
它不僅支援傳統的監督微調 (SFT),更集成了團隊創新的V-ToolRL (Visual Tool Reinforcement Learning) 演算法。
這一演算法讓AI透過強化學習,在與視覺工具的真實互動中,從錯誤中學習,自主探索和掌握最佳的工具使用策略。
具體而言,需要先透過SFT進行“理論學習”(冷啟動),然後透過V-ToolRL進行“上路實操”,根據任務完成情況獲得獎勵或懲罰,不斷最佳化策略。
第三,支援高質量訓練資料生成 (Scalable Trajectory Generation)。
為了給V-ToolRL提供優質的初始“教材”,OpenThinkIMG內建了一套團隊提出的高效、可擴充套件的視覺工具使用軌跡生成方法。
具體過程分為三步:
-
AI規劃師 (GPT-4o) 出馬:先讓大模型規劃出解決問題的初步工具步驟。 -
工具真實執行與記錄:呼叫OpenThinkIMG中的工具服務,實際執行規劃,並記錄下每一步的輸入輸出。 -
嚴格質檢與篩選:結合AI模型(如Qwen2-VL-72B)、規則和人工審查,層層把關,確保資料質量。
△
高質量視覺軌跡資料構建流程

透過OpenThinkIMG的這些核心能力,研究者和開發者可以更專注於模型演算法的創新,而不必在工具部署和資料準備上耗費過多精力。
OpenThinkIMG + V-ToolRL:表現超過GPT-4.1
團隊在具有挑戰性的圖表推理任務上,使用OpenThinkIMG框架訓練了基於V-ToolRL的智慧體。
如圖所示,V-ToolRL在ChartGemma測試集上的效能表現(基於OpenThinkIMG訓練)如下:
1、大幅超越SFT:基於一個2B的Qwen2-VL,經過V-ToolRL訓練後,準確率比單純SFT提升了28.83個百分點;
2、碾壓同類開源模型:V-ToolRL的表現平均超過了如Taco、CogCom等基於監督學習的工具使用基線12.7個百分點,而且團隊的模型引數量更小;
3、媲美頂尖模型:V-ToolRL的表現超過GPT-4.1,同時和Gemini達到持平的效果。

結果充分證明了OpenThinkIMG框架的強大支撐能力,以及V-ToolRL在學習自適應工具呼叫策略上的優越性。
那麼,V-ToolRL是如何在OpenThinkIMG中學習的呢?
透過OpenThinkIMG的訓練環境,團隊觀察到V-ToolRL智慧體展現出以下學習特性:(a) 工具呼叫更高效 (b) 推理更詳盡 (c) V-ToolRL 學習更快更好。



具體而言,隨著訓練的進行,模型平均呼叫的工具次數顯著下降,說明它學會了“好鋼用在刀刃上”,只在必要時才使用工具。
而且模型生成的答案(包括思考過程)長度增加了,表明它能夠進行更詳細、更深入的推理。
最後,V-ToolRL(集成了視覺工具的反饋)相比純文字的強化學習,學習速度更快,最終效果也更好,證明了“眼見為實”的重要性。
下圖展示了V-ToolRL在具體問題上的表現。面對複雜的圖表,V-ToolRL能夠:
-
餅圖分析 (上):透過ZoomInSubfigure放大關鍵區域,再用OCR精準讀取數值,最終正確計算出差異,而直接解讀的模型則容易出錯。
-
折線圖趨勢 (下):利用Point定位資料點,DrawVerticalLineByX輔助比較,準確找出趨勢相同的類別。
△
V-ToolRL (上側工具輔助) vs GPT-4.1 (下側直接解讀)

這些案例生動地展示了V-ToolRL如何透過結構化的工具呼叫,實現比直接視覺解讀更準確、更可解釋的推理。
小結一下,OpenThinkIMG框架的核心貢獻在於:
1、一個開放、強大的工具部署與訓練平臺:解決了工具整合和智慧體訓練的難題。
2、內建高效資料生成方法:為模型訓練提供高質量“燃料”。
3、V-ToolRL作為核心訓練演算法:使AI能夠真正學會自主、智慧地使用視覺工具。
團隊表示,OpenThinkIMG將為開發能夠真正“用影像思考”的下一代AI智慧體提供堅實的基礎設施。
未來,他們將繼續擴充套件OpenThinkIMG支援的工具和模型,探索更復雜的任務場景,並期待與社群共同推動這一激動人心的領域向前發展。
論文第一作者蘇肇辰為蘇州大學三年級研究生,香港科技大學準博士生,在NeurIPS、ACL等國際頂級會議上發表多篇研究成果。專案通訊作者為港中文成宇教授。
技術報告:https://arxiv.org/pdf/2505.08617GitHub倉庫:https://github.com/zhaochen0110/OpenThinkIMG資料集和模型:https://huggingface.co/collections/Warrieryes/openthinkimg-68244a63e97a24d9b7ffcde9
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!
— 完 —

🌟 點亮星標 🌟