全新的TIIF-Bench基準帶你測試你的T2I模型是否真的看懂了你的prompt？

背景

隨著 GPT-4o 在影像生成任務上的橫空出世，以及越來越多采用自迴歸架構（auto-regressive architecture）的文字到影像（T2I）模型迅速發展，當前一代的生成模型在理解與執行使用者複雜指令（prompts）方面，已經實現了飛躍式突破✨。

如今的 T2I 模型不僅能識別多個屬性（如顏色、材質、風格等），還能處理帶有邏輯推理結構甚至複雜修辭的超長自然語言指令。

A square image containing a 4 row by 4 column grid containing 16 objects on a white background. Go from left to right, top to bottom. Here's the list:

1.a blue star；2.red triangle；3. green square；4.pink circle；5.orange hourglass；6.purple infinity sign；7.black and white polka dot bowtie；8.tiedye "42"；9. an orange cat wearing a black baseball cap；10.a map with a treasure chest；11. a pair of googly eyes；12.a thumbs up emoji；13. a pair of scissors；14.a blue and white giraffe；15.the word "OpenAI" written in cursive；16.a rainbow-colored lightning bolt

例如：GPT-4o生圖的官方例子，prompt涉及數百個單詞，以及非常複雜的屬性與位置關係組合

⚠️ 然而問題也隨之暴露：現有主流的 T2I Benchmark 明顯滯後，無法有效衡量這些強模型的真實能力。

💥 我們總結出當前 T2I 評測基準面臨的四大問題：

1️⃣ Prompt 設計簡化、結構單一：許多 benchmark 中的大多數prompt 長度極短，而且大多為模板化句式（如“a photo of a [object] with [attribute]”），難以反映真實使用場景中複雜需求的處理能力。

2️⃣ 語義多樣性嚴重不足：以 GenAI Bench 為例，其 prompt 集中度極高，只有不到 30% 的 prompts 是語義獨立的（semantic unique），導致模型評測分數逐漸“內卷收斂”，難以區分強模型和弱模型的能力差異。

3️⃣ 缺乏真實場景長指令：現實中，使用者往往會輸入多屬性、帶有條件關係和上下文邏輯的自然語言描述。而現有 benchmark 極少覆蓋這類“設計師風格”或“專業使用者需求”指令，導致模型訓練和評測脫節。

4️⃣ 評測方法粗糙且與人類直覺不符：目前大多數 benchmark 仍依賴 CLIP 相似度（CLIPScore 或類似變體）進行自動評測。這類評測手段僅能判斷“是否與文字概念大致對齊”，卻無法評估影像中每個細節是否精準反映使用者意圖（例如無法區分“a boy under a bee”和“a bee under a boy”），也無法體現人類真實偏好⚠️。

現有Bench的不足之處

Prompt 設計的不足：簡化、結構單一，語義多樣性與文法多樣性不足，且缺乏真實場景長指令：

長度偏短且固定（右圖）：常見bench中的絕大多數prompt都不大於30個單詞，這和現實場景中T2I模型所面對的prompt長度gap很大；

缺乏真實使用場景下的長指令（左下圖）：常見Bench的最長prompt也是較為簡單的句子，TIIF-Bench包含了許多從AIGC論壇上手工收集的複雜、真實使用者prompt；

語義重複性高（左上圖）：我們使用CLIP提取了不同Bench中所有prompts的文字語義特徵並計算了consine相似度，以0.85為threshold，發現GenAI Bench中只有不到30%的prompt是semantic unique的，Compbench++中只有不到60%，而TIIF-Bench中semantic unique prompts大於90%；

文法複雜度低（中間圖）：我們將不同Bench的所有prompts的CLIP文字語義特徵進行了t-SNE降維，TIIF-Bench的range範圍最大；

然而實驗表明：即使核心語義相同，不同長度的prompt對T2I model有很大影響：

現有的bench完全缺乏這一維度的考量！

評測方法的不足：粗糙且與人類直覺不符

目前大多數 benchmark 仍依賴 CLIP 相似度（CLIPScore 或類似變體）和其它一些專家模型進行自動評測：

然而CLIP無法評估影像中每個細節是否精準反映使用者意圖（例如無法區分“a boy under a bee”和“a bee under a boy”），也無法體現人類真實偏好⚠️。UNIDet等開集檢測模型則無法對現代T2I model生成的複雜影像進行有效檢測。

TIIF-Bench的構建

我們設計了一個多階段的 prompt 生成流程：

1️⃣ 概念池構建（Concept Pool Construction）

•首先對現有 benchmark 的 prompt 進行語義分組，藉助 GPT-4o 自動提取核心的“物體–屬性/關係”結構。

•最終我們構建了 10 個概念維度，並將其劃分為三大類：屬性類（Attribute）、關係類（Relation）和推理類（Reasoning），詳見：

2️⃣ 屬性組合（Attribute Composition）

•從上述概念池中取樣屬性組合，使用 GPT-4o 自動生成自然語言指令。我們設計了 36 個不同的組合模式，併為每種組合搭配了專屬的 meta-prompt 引導生成。

•組合策略分為：

￮Basic Following：只涉及同一類屬性的組合；

￮Advanced Following：跨類別組合，內容更復雜；

3️⃣ 新評測維度

•Text Rendering：衡量T2I模型生成複雜非自然紋理的能力！我們專門設計了新指標GNED來對其進行評測，難度歸類為Advanced Following；

•Style Control：衡量T2I模型整體的內容理解與控制能力！我們從手動AIGC社群挑選了10個最常用的風格，難度歸類為Advanced Following；

•Real World：衡量T2I模型的綜合能力！我們手動從AIGC社群篩選了100個受歡迎、內容複雜、有趣的設計師級別prompt，難度單獨歸類為Designer Level Following；

4️⃣ 長度擴充套件（Length Augmentation）

•為每條 prompt 自動生成一個長文字版本，透過 GPT-4o 進行語言豐富化和風格潤色，測試模型對不同語言複雜度指令的適應能力。

TIIF-Bench的評測流程

我們提出了一種基於屬性級問答匹配（Attribute-Specific QA Matching）的評測框架：

✅ 核心步驟：

1.概念抽取：從生成指令中提取出 N 個核心語義概念（如物體屬性、物體間關係、邏輯關係等）；

2.問題生成：由 GPT-4o 為每個概念自動生成一個二選一問句（Yes/No Question），如“這張圖中有紅色汽車嗎？”、“人是在汽車的左邊嗎？”；

3.答案匹配：將生成影像和所有問題一起輸入到多模態大模型（如 GPT-4o 或 QwenVL），獲取預測答案，並與標準答案進行比較；

4.評分計算：透過平均匹配準確率得出最終分數，避免了使用全 prompt 的語言偏見與幻覺。

🎨 特殊維度評測：

•Designer-Level Prompt：每條指令搭配人工制定的專屬問句，確保高可靠性。

•Text Rendering：使用OCR Recall和全新提出的指標 GNED（Global Normalized Edit Distance）：

￮用於衡量圖中文字與目標文字在字元層面的匹配度；

￮同時懲罰遺漏、冗餘、錯誤字形等問題；

￮相比 PNED 更穩定、魯棒，適用於任意文字長度與格式。

一些有趣的insights

我們將模型分為三類進行分析：

1️⃣ Diffusion 架構的開源模型

代表模型包括：SD 系列、FLUX.1 Dev、SANA 系列、PixArt 系列、Playground 系列等。

•整體表現：SD 3.5 在短指令上得分最高；而 FLUX.1 Dev 在長指令場景中表現最強，得益於其 MMDiT 架構和更大模型規模。

•文字生成（Text Rendering）：僅有 FLUX.1 Dev、SANA 系列、SD 系列部分版本支援文字生成。其中 FLUX.1 Dev 在短長指令下均表現穩定。

•風格控制（Style Control）：部分模型（如 Playground）在長 prompt 下風格生成質量反而更好，因為長指令提供了更多語義上下文；而 SD 3.5、PixArt-Sigma 等模型更依賴短標籤提示，長 prompt 會稀釋風格訊號。

•設計師級指令：這類 prompts 是最具挑戰性的維度，模型在該維度的排名通常也代表其綜合實力。

•對 prompt 長度的魯棒性：如 FLUX.1 Dev、SD 3.5、PixArt-Sigma 等表現穩定；而弱模型（如 SDXL、PixArt-Alpha）在長指令下明顯退化。T2I模型的指令理解能力與其綜合生成能力呈正相關！

2️⃣ 自迴歸（AR）架構的開源模型

代表模型包括：Janus-Pro、Infinity、Show-o 等

•整體表現：Janus-Pro 表現最佳，得益於其融合生成與理解的訓練策略。

•文字生成能力較弱，但 Janus-Pro 和 Show-o 可生成基本文字。

•風格控制能力強，對複雜風格語義理解更到位。

•視覺保真度略遜一籌，但在複雜邏輯理解、長 prompt 指令跟隨方面表現亮眼。

自迴歸T2I模型雖然在生成影像畫質方面表現一般，但是在理解指令方面表現優異

3️⃣ 閉源模型

包括：GPT-4o、DALL·E 3、MidJourney V6/V7、Flux.1 Pro 等

•GPT-4o 在所有維度遙遙領先，不僅影像質量極高，指令理解也最強，是唯一在複雜邏輯推理（如否定、比較等）任務上始終保持穩定的模型。

•文字渲染上，GPT-4o 成功率遠高於其他模型。

•風格控制與設計師指令執行能力方面也顯著優於所有閉源/開源對手。

•值得注意的是，Flux.1 Pro 的表現竟不如開源的 Flux.1 Dev，尤其是在長 prompt 情境下，閉源不一定優於開源！

🆚 與其他 Benchmark 對比

我們選取了四個開源模型（SD 3.5、SANA 1.5、PixArt-Sigma、Janus-Pro）和四個閉源模型（GPT-4o、DALL·E 3、MidJourney V6、Flux.1 Pro），在三個 Benchmark 上進行橫向評測：TIIF-Bench、CompBench++、GenAI Bench。

🔍 對比發現

•GenAI Bench 和 CompBench++ 中存在評分收斂、模型難以區分的問題，例如多個模型得分完全一樣。

•CompBench++ 中，專家模型打分與 GPT 打分存在顯著偏差。

•TIIF-Bench 在評測維度細緻度、模型區分能力方面更強，能夠穩定給出符合模型能力的排序。