點選下方卡片,關注“CVer”公眾號
AI/CV重磅乾貨,第一時間送達
AI/CV重磅乾貨,第一時間送達
新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球!可以獲得最新頂會/頂刊上的論文idea和CV從入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!
新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球!可以獲得最新頂會/頂刊上的論文idea和CV從入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!
轉載自:機器之心

文生圖 or 圖生文?不必糾結了!
人類大腦天然具備同時理解和創造視覺與語言資訊的能力。一個通用的多模態大語言模型(MLLM)理應復刻人類的理解和生成能力,即能夠自如地同時處理與生成各種模態內容,實現多模態互動,這也是向通用人工智慧(AGI)邁進的關鍵挑戰之一。最近爆火的新版 GPT4o 與 Gemini-2.0 在圖文互動這方向上也帶來了令人振奮的效果。
然而,當前大部分多模態大語言模型仍侷限於處理單一的影像或文字,特別是難以實現內容流暢一致的多模態交錯生成。而現實生活中,以設計、教育、內容創作等代表的任務,往往需要獲取圖文交錯的內容作為參考,這對模型的多模態生成能力提出了挑戰。

近日,上海人工智慧實驗室提出了首個面向開放式圖文交錯生成任務的綜合評測基準 OpenING,相關論文成果已被 CVPR2025 接收為 Oral。該基準包含:1)多樣化的真實圖文生成任務與高質量的標註資料;2)透過增強訓練得到的可靠裁判模型 IntJudge;3)對目前圖文交錯生成模型 / 統一理解生成模型進行的綜合評測、排名與分析。研究中的關鍵發現與結論能夠為下一代統一理解與生成的多模態大語言模型的研發提供了重要的啟發與指導。

-
論文標題:OpenING: A Comprehensive Benchmark for Judging Open-ended Interleaved Image-Text Generation
-
技術報告: https://arxiv.org/abs/2411.18499
-
專案主頁: https://opening-benchmark.github.io/
-
程式碼地址: https://github.com/LanceZPF/OpenING
OpenING 基準:更豐富、更真實、更全面
現有評測基準(如 OpenLEAF 和 InterleavedBench)存在規模小、主題多樣性不足、資料來源受限等問題,且因過於依賴開源資料集作為資料來源導致資料汙染的風險,難以滿足真實場景的應用需求。

為此,OpenING 應運而生!

OpenING 首次系統地構建了涵蓋 23 個現實領域、56 個具體任務的圖文交錯生成綜合評測基準,共計收集 5400 個真實場景下的圖文交錯例項。這些例項來源於旅行指南、產品設計、烹飪助手、創意頭腦風暴等日常高頻應用場景。

OpenING 特別設計了高效的標註工具 IntLabel,由超過 50 人的專業團隊嚴格把關,並透過精細化的標註流程確保了資料的一致性與真實性。OpenING 的資料劃分為開發集和測試集兩個部分,為 Judge 模型的訓練和評測分析提供了堅實的基礎。
強大評估模型 IntJudge:告別 GPT 偏見!
傳統基於 GPT 的評測模型(比如 GPT-as-a-Judge)容易受到模型本身偏見,傾向於給自家生成的內容更高的評分。另外此類評測模型因為受到潛在的資料洩露的影響,使得評測的準確性和穩定性存疑。為了獲得更加公平、精準、穩定的評測結果,OpenING 團隊自主研發了一款名為 IntJudge 的評估模型。
IntJudge 的訓練集採用了全新的人機協作標註方法 —Interleaved Arena,並在訓練過程利用一種參考增強生成 Reference-Augmented Generation(RAG)的資料增強策略。透過融合人類專家評估資料和自動生成的資料,該策略大幅提升評測模型的魯棒性和泛化能力。

具體來講,IntJudge 的訓練資料由兩部分組成:一是高質量對比資料 Interleaved Arena Data,這些資料透過對不同模型在 OpenING 開發集上生成的的圖文交錯內容進行人工判斷獲得;二是利用參考增強生成(RAG)技術構建的大規模增強資料 RAG Data,透過在每個 AB 對中認定以人工標註的金標準答案為參考的生成內容優於模型直接生成的內容。這種新穎的資料增強策略在極大豐富 IntJudge 模型訓練資料量的同時確保了評測模型在多種生成風格和場景下的穩定表現。
開放式問題的正確性通常難以直接判斷,為此 OpenING 採用了類 ELO 機制的相對評分策略。該策略透過取樣形成模型間的兩兩(AB Pair)對比,獲得對模型客觀效能評測的排行榜。這些客觀指標包括強制區分平局指標 FDT, 以及該指標在包括平局 w/ Tie 和不包括平局 w/o Tie 的兩種情況的指標。此外,OpenING 還提供多種額外評估指標, 包括基於 GPT-as-a-judge 的主觀評測。

憑藉創新的資料構建策略,IntJudge 與人類判斷的一致率達到 82.42%,相較於基於 GPT 系列的評測方法 IntJudge 顯著高出 11.34% . 此外,IntJudge 不僅適用於大規模自動化評測場景,還能夠作為 Reward Model 直接應用於 GRPO 等強化學習(RL)訓練,對多模態生成模型的效能和生成質量進行有效提升。IntJudge 訓練過程中構建的 Interleaved Arena 資料也為多模態生成領域的直接偏好最佳化(DPO)研究提供了寶貴資源,進一步啟發和促進該方向的深入探索。
模型生成效能大揭秘,與人類差距依然明顯!

基於 OpenING 的詳盡評測揭示了當前主流多模態模型的表現:
-
整合管道模型(如 GPT-4o+DALL・E-3 和 Gemini 1.5+Flux)得益於高效能基礎模型的協同,整體表現優於其它模型。其生成內容在圖文一致性與視覺質量方面均處領先地位。此外,這類交錯生成管道的效能很大程度上取決於影像生成模型的能力。與其它主流影像生成模型相比,Flux-dev 在與多種文字模型搭配使用時展現出顯著的效能提升
-
端到端模型(如 Anole、MiniGPT-5)具有統一的圖文生成模型架構,其簡潔的生成方式展現出了巨大的發展潛力。然而,目前此類模型在影像和文字生成的綜合能力上仍存在較大提升空間
-
文字生成方面,GPT 系列模型的質量已達到甚至超越人類水平,但在影像生成質量和真實性方面,所有模型的生成結果仍難以企及人工標註的自然影像。
透過詳細的誤差分析發現當前模型普遍存在諸如影像視覺質量差、連續生成的內容不一致、以及無法有效生成影像或文字等問題。這些發現為下一步模型最佳化指明瞭明確的研究方向。此外,研究團隊還針對不同型別模型(如 GPT-4o+DALL-E3、SEED-X、Anole 等)出現的具體問題進行了分析(例如事實性錯誤,文字或圖片、圖片風格不一致、生成效率不足等)並總結了問題出現的比例,為未來的方法最佳化提出了明確的路徑。

此外,在使用 OpenING 基準對近期釋出的新模型 GPT-4o-ImgGen 和 Gemini 2.0-Flash-ImgGen 和進行評測時,我們驚喜地發現他們在多個任務中展現出了較強的圖文理解能力,以及更為可靠的內容編輯與交錯生成能力。同時,我們也觀察到一些尚待解決的問題,例如 GPT-4o-ImgGen 對 prompt 中命令順序的高度依賴 (如需要指示模型先生成文字再生成影像)且生圖效率低,而 Gemini 2.0-Flash-ImgGen 無法在圖片中生成高準確度和可識別的文字等。





開放原始碼與資料,全社群共建
為了推動圖文交錯生成領域的進一步發展,OpenING 研究團隊已全面開源了完整的基準資料、IntJudge 評測模型及相關程式碼。
未來,OpenING 團隊還將繼續擴充套件資料規模與多樣性,進一步最佳化評測模型,並推動更接近真實應用場景的研究。團隊鼓勵更多研究者加入,共同推進這一前沿領域的研究。研究團隊相信,OpenING 將持續助力人工智慧在真實場景中的落地,讓機器真正具備與人類媲美的圖文互動能力。
何愷明在MIT授課的課件PPT下載
何愷明在MIT授課的課件PPT下載
CVPR 2025 論文和程式碼下載
CVPR 2025 論文和程式碼下載
ECCV 2024 論文和程式碼下載
ECCV 2024 論文和程式碼下載
CV垂直方向和論文投稿交流群成立
一定要備註:研究方向+地點+學校/公司+暱稱(如Mamba、多模態學習或者論文投稿+上海+上交+卡卡),根據格式備註,可更快被透過且邀請進群
▲掃碼或加微訊號: CVer2233,進交流群
CVer計算機視覺(知識星球)來了!想要了解最新最快最好的CV/DL/AI論文速遞、優質實戰專案、AI行業前沿、從入門到精通學習教程等資料,歡迎掃描下方二維碼,加入CVer計算機視覺(知識星球),已彙集上萬人!
▲掃碼加入星球學習
▲點選上方卡片,關注CVer公眾號
整理不易,請點贊和在看

▲掃碼或加微訊號: CVer2233,進交流群
CVer計算機視覺(知識星球)來了!想要了解最新最快最好的CV/DL/AI論文速遞、優質實戰專案、AI行業前沿、從入門到精通學習教程等資料,歡迎掃描下方二維碼,加入CVer計算機視覺(知識星球),已彙集上萬人!

▲掃碼加入星球學習
▲點選上方卡片,關注CVer公眾號
整理不易,請點贊和在看
