想糾正LMM犯錯?沒用!NUS華人團隊:最強o1反饋修正率不到50%


新智元報道  

編輯:英智
【新智元導讀】LMM在人類反饋下表現如何?新加坡國立大學華人團隊提出InterFeedback框架,結果顯示,最先進的LMM透過人類反饋糾正結果的比例不到50%!
大規模多模態模型(Large Multimodal Models,LMM)在人類反饋下的表現如何?
這一問題對於利用LMM開發通用AI助手至關重要,現有的基準測試並未針對LMM與人類的互動智慧進行測試。
來自新加坡國立大學的華人團隊提出了InterFeedback,一個可應用任何LMM和資料集的互動式框架。
論文連結:https://arxiv.org/abs/2502.15027
在此基礎上,團隊引入了InterFeedback-Bench,用兩個具有代表性的資料集(MMMU-Pro和MathVerse)來評估互動智慧,並對10種不同的LMM進行測試。
InterFeedback-Bench旨在全面評估LMM:
1)互動式解決問題的能力;
2)解釋反饋以提升自身的能力。
評估結果表明,最先進的LMM透過人類反饋糾正結果的比例不到50%!
互動式過程可提升大多數LMM解決難題的效能,現有LMM在解釋和整合反饋方面表現欠佳。進行額外迭代不一定能得出正確的解決方案,高質量反饋至關重要。
人類在解決問題時,具有很強的適應性,能夠從反饋中不斷學習完善。同樣,先進的LMM也應該能從反饋中學習,提高解決問題的能力。
評估LMM互動智慧的關鍵挑戰在於自動模型測試,不同模型對相同查詢的響應不同,需要人類在每個對話輪次中提供定製化反饋。
InterFeedback框架設計原理
研究人員提出了InterFeedback,這是一個基於互動式問題解決的框架,透過GPT-4o等模型模擬人類反饋,讓LMM在動態的互動環境中進行測試和學習。
InterFeedback-Bench將帶有反饋的互動式問題解決過程,變成了一種數學模型,叫部分可觀測馬爾可夫決策過程(POMDP)。
透過狀態空間、觀測值、動作空間、轉移函式和獎勵函式等要素,精確地描述模型在互動過程中的行為和決策。
在實際應用中,當給定自然語言問題和輸入影像時,模型基於當前狀態獲取觀測值,生成自然語言回覆。獎勵函式透過精確匹配的方式判斷任務的正確性,為模型提供反饋訊號。

資料集構建

InterFeedback-Bench採用了兩個有挑戰性的資料集:MathVerse和MMMU-Pro。
MathVerse是一個視覺數學問題資料集,其中包含了各種需要結合影像和數學知識才能解決的問題。
MMMU-Pro則是綜合性的多模態基準測試,涵蓋了多個領域的專家級問題,包括科學、技術、工程和數學等。
透過巧妙地利用LMM(例如GPT-4o)來模擬人機互動,構建出具有針對性的測試資料集。
具體而言,透過選擇反饋提供模型M_p答對,而反饋接收模型M_r答錯的交集,確保反饋的相關性和可靠性。

InterFeedback框架

InterFeedback框架有兩個角色:反饋接收者M_r和反饋提供者M_p。
M_r是準備接受基準測試的LMM,如Qwen2-VL,M_p是當前最優的LMM,如GPT-4o,用於在每個時間步代替人類提供反饋。
當M_r模型生成輸出後,M_p會根據對映策略提供反饋,模型則根據反饋進行改進,如此迴圈,直到得到正確答案或達到預設的迭代次數。
在這個過程中,M_r根據當前的狀態和觀測資訊,生成相應的動作。M_p則根據模型的回答,提供反饋資訊,幫助模型改進自己的回答。
基於InterFeedback框架,團隊構建了InterFeedback-Bench基準測試。這個基準測試旨在全面評估LMM互動式問題解決和反饋學習的能力。

人類評估基準測試

除了自動基準測試,研究團隊還收集了InterFeedback-Human資料集,用於人工評估閉源模型。
與自動基準測試不同,InterFeedback-Human資料集的評估過程更注重人類的參與和反饋。使用者根據模型的回答,提供詳細的反饋資訊,包括問題的分析、正確的思路和答案等。
透過這種方式,可以更深入地瞭解模型在實際人機互動中的表現,以及它們理解和處理人類反饋的能力。
實驗結果與分析
研究人員設計了一系列實驗,在MathVerse和MMMU-Pro兩個具有代表性的資料集上,對多個開源LMM進行了全面評估。
用準確率和糾錯率來評估結果,糾錯率定義為所有錯誤樣本中被糾正答案的樣本所佔的百分比。N表示樣本總數,N_e表示錯誤樣本的數量,N_c表示已被糾正的樣本數量。
準確率和糾錯率可以用以下公式表示:

互動過程能提高效能

實驗結果表明,互動式過程對大多數LMM的效能提升有顯著的促進作用。
InterFeedback框架能使大多數模型從GPT-4o和Claude-3.5-Sonnet等提供的反饋中受益。
例如,即使是效能較弱的Fuyu-8B模型,透過GPT-4o的反饋也能糾正24.1%的錯誤樣本。這表明互動過程可以有效提高大多數LMM解決問題的能力。

難以透過反饋提升效能

儘管有先進模型提供的反饋,但大多數LMM仍難以糾正所有錯誤樣本。
以Qwen2-VL-7B和Molmo為例,Qwen2-VL-7B在MathVerse資料集上使用GPT-4o的反饋時,糾錯率為66.8%,但在MMMU-Pro資料集上僅為50.4%。
Molmo-7B在MathVerse和MMMU-Pro資料集上的糾錯率分別為55.1%和51.7%,其餘模型的糾錯率普遍低於50%。
即使有LMM提供的反饋,當前的模型在透過反饋提升自身效能方面仍存在較大困難。

準確率可能無法反映模型能力

實驗發現,準確率可能無法真實、全面地反映模型的實際能力。
例如,InternVL2-8B的準確率較高(38.1%),但其糾錯率僅為49.6%。而準確率較低(22.5%)的Qwen2-VL-7B在使用GPT-4o的反饋時,卻達到了最高的糾錯率66.8%。
在MMMU-Pro資料集上也有類似情況,LLaVA-OneVision-7B的準確率排名第二(47.1%),但其糾錯率僅為 31.7%,低於幾個準確率較低的模型。
這表明僅透過準確率評估模型,可能無法全面體現其真實能力。

反饋質量至關重要

令人驚訝的是,所有模型都能從簡單的二元(0/1)反饋中受益。
同時,研究發現反饋質量至關重要,低質量反饋對效能的損害比簡單的二元反饋更大。
在MathVerse資料集上,對於一些模型,使用次優模型(Gemini-1.5-Flash)提供的簡單二元反饋,其效果優於LMM生成的詳細反饋。

人工基準測試的分析

在對OpenAI-o1、GPT-4o、Gemini-2.0和Claude-3.5-Sonnet等閉源模型的人工評估中,Claude-3.5的平均準確率最高,達到了48.3%。
從糾正率結果分析來看,不同模型從人類反饋中獲益的輪次和程度存在明顯差異。
GPT-4o在第一輪反饋中能夠糾正41.9%的錯誤樣本,顯示出其對人類反饋的快速響應和學習能力。
Claude-3.5則在第二輪反饋中展現出強大的糾正效能,成功糾正了30.6%的錯誤樣本。在第三輪,由於提供了真實答案,所有LMM都能夠給出選擇正確答案的推理步驟。
此外,不同任務類別中被糾正樣本的分佈也有所不同。
視覺邏輯任務大多在前兩輪就能夠得到有效解決,而純文字數學任務和MMMU-Pro任務在前兩輪的糾正相對較少。
相比之下,純文字編碼任務和MathVerse任務在前兩輪也出現了一定比例的糾正,說明模型在這些領域具有一定的學習和改進能力。
參考資料:
https://huggingface.co/papers/2502.15027
https://arxiv.org/pdf/2502.15027

相關文章