全新的TIIF-Bench基準帶你測試你的T2I模型是否真的看懂了你的prompt?

背景
隨著 GPT-4o 在影像生成任務上的橫空出世,以及越來越多采用 自迴歸架構(auto-regressive architecture) 的文字到影像(T2I)模型迅速發展,當前一代的生成模型在理解與執行使用者複雜指令(prompts)方面,已經實現了飛躍式突破✨。
如今的 T2I 模型不僅能識別多個屬性(如顏色、材質、風格等),還能處理帶有 邏輯推理結構甚至複雜修辭的超長自然語言指令。
A square image containing a 4 row by 4 column grid containing 16 objects on a white background. Go from left to right, top to bottom. Here's the list:
1.a blue star;2.red triangle;3. green square;4.pink circle;5.orange hourglass;6.purple infinity sign;7.black and white polka dot bowtie;8.tiedye "42";9. an orange cat wearing a black baseball cap;10.a map with a treasure chest;11. a pair of googly eyes;12.a thumbs up emoji;13. a pair of scissors;14.a blue and white giraffe;15.the word "OpenAI" written in cursive;16.a rainbow-colored lightning bolt
例如:GPT-4o生圖的官方例子,prompt涉及數百個單詞,以及非常複雜的屬性與位置關係組合
⚠️ 然而問題也隨之暴露:現有主流的 T2I Benchmark 明顯滯後,無法有效衡量這些強模型的真實能力。
💥 我們總結出當前 T2I 評測基準面臨的四大問題:
1️⃣ Prompt 設計簡化、結構單一:許多 benchmark 中的大多數prompt 長度極短,而且大多為模板化句式(如“a photo of a [object] with [attribute]”),難以反映真實使用場景中複雜需求的處理能力。
2️⃣ 語義多樣性嚴重不足:以 GenAI Bench 為例,其 prompt 集中度極高,只有不到 30% 的 prompts 是語義獨立的(semantic unique),導致模型評測分數逐漸“內卷收斂”,難以區分強模型和弱模型的能力差異。
3️⃣ 缺乏真實場景長指令:現實中,使用者往往會輸入多屬性、帶有條件關係和上下文邏輯的自然語言描述。而現有 benchmark 極少覆蓋這類“設計師風格”或“專業使用者需求”指令,導致模型訓練和評測脫節。
4️⃣ 評測方法粗糙且與人類直覺不符:目前大多數 benchmark 仍依賴 CLIP 相似度(CLIPScore 或類似變體)進行自動評測。這類評測手段僅能判斷“是否與文字概念大致對齊”,卻無法評估影像中每個細節是否精準反映使用者意圖(例如無法區分“a boy under a bee”和“a bee under a boy”),也無法體現人類真實偏好⚠️。
現有Bench的不足之處
Prompt 設計的不足:簡化、結構單一,語義多樣性與文法多樣性不足,且缺乏真實場景長指令:
長度偏短且固定(右圖):常見bench中的絕大多數prompt都不大於30個單詞,這和現實場景中T2I模型所面對的prompt長度gap很大;
缺乏真實使用場景下的長指令(左下圖):常見Bench的最長prompt也是較為簡單的句子,TIIF-Bench包含了許多從AIGC論壇上手工收集的複雜、真實使用者prompt;
語義重複性高(左上圖):我們使用CLIP提取了不同Bench中所有prompts的文字語義特徵並計算了consine相似度,以0.85為threshold,發現GenAI Bench中只有不到30%的prompt是semantic unique的,Compbench++中只有不到60%,而TIIF-Bench中semantic unique prompts大於90%;
文法複雜度低(中間圖):我們將不同Bench的所有prompts的CLIP文字語義特徵進行了t-SNE降維,TIIF-Bench的range範圍最大;
然而實驗表明:即使核心語義相同,不同長度的prompt對T2I model有很大影響:
 現有的bench完全缺乏這一維度的考量!
評測方法的不足:粗糙且與人類直覺不符
目前大多數 benchmark 仍依賴 CLIP 相似度(CLIPScore 或類似變體)和其它一些專家模型進行自動評測:
然而CLIP無法評估影像中每個細節是否精準反映使用者意圖(例如無法區分“a boy under a bee”和“a bee under a boy”),也無法體現人類真實偏好⚠️。UNIDet等開集檢測模型則無法對現代T2I model生成的複雜影像進行有效檢測。
TIIF-Bench的構建
我們設計了一個 多階段的 prompt 生成流程
1️⃣ 概念池構建(Concept Pool Construction)
首先對現有 benchmark 的 prompt 進行語義分組,藉助 GPT-4o 自動提取核心的“物體–屬性/關係”結構。
最終我們構建了 10 個概念維度,並將其劃分為三大類:屬性類(Attribute)關係類(Relation) 和 推理類(Reasoning),詳見:

2️⃣ 屬性組合(Attribute Composition)
從上述概念池中取樣屬性組合,使用 GPT-4o 自動生成自然語言指令。我們設計了 36 個不同的組合模式,併為每種組合搭配了專屬的 meta-prompt 引導生成。
組合策略分為:
Basic Following:只涉及同一類屬性的組合;
Advanced Following:跨類別組合,內容更復雜;

3️⃣ 新評測維度
Text Rendering:衡量T2I模型生成複雜非自然紋理的能力!我們專門設計了新指標GNED來對其進行評測,難度歸類為Advanced Following;
Style Control:衡量T2I模型整體的內容理解與控制能力!我們從手動AIGC社群挑選了10個最常用的風格,難度歸類為Advanced Following;
Real World:衡量T2I模型的綜合能力!我們手動從AIGC社群篩選了100個受歡迎、內容複雜、有趣的設計師級別prompt,難度單獨歸類為Designer Level Following;
4️⃣ 長度擴充套件(Length Augmentation)
為每條 prompt 自動生成一個 長文字版本,透過 GPT-4o 進行語言豐富化和風格潤色,測試模型對不同語言複雜度指令的適應能力。
TIIF-Bench的評測流程
我們提出了一種基於 屬性級問答匹配(Attribute-Specific QA Matching) 的評測框架:
✅ 核心步驟:
1.概念抽取:             從生成指令中提取出 N 個核心語義概念(如物體屬性、物體間關係、邏輯關係等);
2.問題生成:             由 GPT-4o 為每個概念自動生成一個二選一問句(Yes/No Question),如“這張圖中有紅色汽車嗎?”、“人是在汽車的左邊嗎?”;
3.答案匹配:             將生成影像和所有問題一起輸入到多模態大模型(如 GPT-4o 或 QwenVL),獲取預測答案,並與標準答案進行比較;
4.評分計算:             透過平均匹配準確率得出最終分數,避免了使用全 prompt 的語言偏見與幻覺。
🎨 特殊維度評測:
Designer-Level Prompt:每條指令搭配人工制定的專屬問句,確保高可靠性。
Text Rendering:使用OCR Recall和全新提出的指標 GNED(Global Normalized Edit Distance)
用於衡量圖中文字與目標文字在字元層面的匹配度;
同時懲罰遺漏、冗餘、錯誤字形等問題;
相比 PNED 更穩定、魯棒,適用於任意文字長度與格式。
一些有趣的insights
我們將模型分為三類進行分析:
1️⃣ Diffusion 架構的開源模型
代表模型包括:SD 系列、FLUX.1 Dev、SANA 系列、PixArt 系列、Playground 系列等。
整體表現:SD 3.5 在短指令上得分最高;而 FLUX.1 Dev 在長指令場景中表現最強,得益於其 MMDiT 架構和更大模型規模。
文字生成(Text Rendering):僅有 FLUX.1 Dev、SANA 系列、SD 系列部分版本支援文字生成。其中 FLUX.1 Dev 在短長指令下均表現穩定。
風格控制(Style Control):部分模型(如 Playground)在長 prompt 下風格生成質量反而更好,因為長指令提供了更多語義上下文;而 SD 3.5、PixArt-Sigma 等模型更依賴短標籤提示,長 prompt 會稀釋風格訊號。
設計師級指令:這類 prompts 是最具挑戰性的維度,模型在該維度的排名通常也代表其綜合實力。
對 prompt 長度的魯棒性:如 FLUX.1 Dev、SD 3.5、PixArt-Sigma 等表現穩定;而弱模型(如 SDXL、PixArt-Alpha)在長指令下明顯退化。T2I模型的指令理解能力與其綜合生成能力呈正相關!
2️⃣ 自迴歸(AR)架構的開源模型
代表模型包括:Janus-Pro、Infinity、Show-o 等
整體表現:Janus-Pro 表現最佳,得益於其融合生成與理解的訓練策略。
文字生成能力較弱,但 Janus-Pro 和 Show-o 可生成基本文字。
風格控制能力強,對複雜風格語義理解更到位。
視覺保真度略遜一籌,但在複雜邏輯理解、長 prompt 指令跟隨方面表現亮眼。
自迴歸T2I模型雖然在生成影像畫質方面表現一般,但是在理解指令方面表現優異
3️⃣ 閉源模型
包括:GPT-4o、DALL·E 3、MidJourney V6/V7、Flux.1 Pro 等
GPT-4o 在所有維度遙遙領先,不僅影像質量極高,指令理解也最強,是唯一在複雜邏輯推理(如否定、比較等)任務上始終保持穩定的模型。
文字渲染上,GPT-4o 成功率遠高於其他模型。
風格控制與設計師指令執行能力方面也顯著優於所有閉源/開源對手。
值得注意的是,Flux.1 Pro 的表現竟不如開源的 Flux.1 Dev,尤其是在長 prompt 情境下,閉源不一定優於開源!
🆚 與其他 Benchmark 對比
我們選取了四個開源模型(SD 3.5、SANA 1.5、PixArt-Sigma、Janus-Pro)和四個閉源模型(GPT-4o、DALL·E 3、MidJourney V6、Flux.1 Pro),在三個 Benchmark 上進行橫向評測:TIIF-Bench、CompBench++、GenAI Bench
🔍 對比發現
GenAI Bench 和 CompBench++ 中存在評分收斂、模型難以區分的問題,例如多個模型得分完全一樣。
CompBench++ 中,專家模型打分與 GPT 打分存在顯著偏差
TIIF-Bench 在評測維度細緻度、模型區分能力方面更強,能夠穩定給出符合模型能力的排序。


相關文章