MLNLP社群是國內外知名的機器學習與自然語言處理社群，受眾覆蓋國內外NLP碩博生、高校老師以及企業研究人員。

社群的願景是促進國內外自然語言處理，機器學習學術界、產業界和廣大愛好者之間的交流和進步，特別是初學者同學們的進步。

來源 | 機器之心

本文第一作者密振興，香港科技大學計算機科學與技術學院人工智慧方向博士生，研究方向是多模態理解與生成，3D/4D 重建與生成，目前正在尋找工業界全職職位或實習職位。

自 Stable Diffusion、Flux 等擴散模型 (Diffusion models) 席捲影像生成領域以來，文字到影像的生成技術取得了長足進步。但它們往往只能根據精確的文字或圖片提示作圖，缺乏真正讀懂影像與文字、在多模態上下文中推理並創作的能力。能否讓模型像人類一樣真正讀懂影像與文字、完成多模態推理與創作，一直是學術界和工業界關注的熱門問題。

OpenAI 的 GPT-4o image generation 和 Google 的 Gemini Pro 用超大規模引數和海量資料，展示了強大的多模態推理與生成能力。但在學術與產業環境中算力和資料並不充裕時，用較少資料與計算資源實現類似的功能，依然是一道難題。

在頂級學術會議 ICML2025 上，香港科技大學聯合 Snap Research 提出了多模態理解與生成新方法：ThinkDiff。該方法僅需較少的圖文對和數小時訓練，就能讓擴散模型具備思考能力，使其在複雜的影像文字組合輸入下，完成推理式生成，為多模態理解與生成開闢了全新路徑。

Paper：I Think, Therefore I Diffuse: Enabling Multimodal In-Context Reasoning in Diffusion Models
Paper link：https://arxiv.org/abs/2502.10458
Github：https://github.com/MiZhenxing/ThinkDiff(in progress)
Project page：https://mizhenxing.github.io/ThinkDiff

ThinkDiff 演算法設計

ThinkDiff 這項工作的核心是將現有大規模的視覺語言模型 (VLM) 的推理能力遷移給擴散模型 (Diffusion model)。透過聯合 VLM 強大的多模態推理能力和 Diffusion 的高質量生成能力，使得最終的模型能夠真正理解影像與文字提示之間的邏輯關係，以此為基礎進行高質量的影像生成。

LLM 與 Diffusion 的共享特徵空間

最新的 Text-to-image 擴散模型如 Flux 和 Stable Diffusion 3 等，都開始使用大語言模型 (LLM) 例如 T5 的文字編碼器 (Encoder) 作為擴散模型的文字編碼器 (Text Encoder)。

在這種設計下，擴散模型裡的擴散解碼器 (Diffusion Decoder) 與 T5 解碼器 (LLM Decoder) 共享同一個輸入特徵空間。只要把 VLM 對影像和文字的推理對齊到該特徵空間，就能讓擴散模型繼承 VLM 的推理能力。

將 VLM 對齊到 LLM 解碼器

直接對齊 VLM 與擴散解碼器需要大量複雜資料和低效的 Diffusion 訓練，因此，ThinkDiff 透過一個代理任務，將 VLM 與 LLM 解碼器做視覺-語言訓練 (Vision-language Pretraining)。在將 VLM 與 LLM Decoder 對齊之後，由於共享空間的存在，VLM 就自然地與 Diffusion Decoder 對齊。

在訓練過程中，對於每個訓練樣本，ThinkDiff 將影像 + 文字輸入到 VLM，自迴歸 (Autoregressive) 地生成多模態特徵向量，再透過一個輕量級的對齊網路 (Aligner)，將這些特徵向量對映到 LLM 解碼器的輸入空間，去自迴歸地重建影像的文字描述，用交叉熵損失進行監督。

經過訓練的對齊網路 (Aligner)，可以有效地把 VLM 的多模態推理能力傳遞給了 LLM 解碼器。而在推理階段，只要用同樣的對齊網路，透過共享的特徵空間，就可以將 VLM 的多模態推理能力傳遞給擴散解碼器，使擴散模型具備多模態理解與生成能力。

網路結構核心設計

對齊 VLM 生成的 Token：傳統 Diffusion 在使用 LLM 時，是將 LLM 當做輸入文字的編碼器，將得到的特徵送入 Diffusion 生成畫素。而 VLM 的理解與推理能力，來自於它自迴歸生成的 tokens，而非編碼的輸入 tokens。因此在 ThinkDiff 中，我們選擇將 VLM (大型視覺-語言模型) 自迴歸生成的 tokens 的特徵對齊到擴散模型，使擴散解碼器能夠真正繼承 LVLM 的多模態推理能力。

掩碼訓練 (Masked Training)：為了避免對齊網路走捷徑，而非真正對齊特徵空間，ThinkDiff 在訓練階段對 VLM 輸出的 token 特徵使用隨機掩碼策略，隨機丟掉一部分特徵，讓對齊網路學會僅從不完整的多模態資訊中恢復語義。這種掩碼訓練使得對齊網路深度理解影像 + 文字，從而高效地將理解能力傳遞給擴散解碼器。

網路變體

依據使用的 VLM 的不同，ThinkDiff 有 ThinkDiff-LVLM 和 ThinkDiff-CLIP 兩種變體。ThinkDiff-LVLM 將大規模視覺語言模型 (LVLM) 對齊到 Diffusion，使得 Diffusion 繼承 LVLM 的多模態理解能力。ThinkDiff-CLIP 將 CLIP 對齊到 Diffusion，使得 Diffusion 擁有極強的文字影像組合能力。

實驗結果

多模態理解與生成定量結果

ThinkDiff-LVLM 在多模態理解與生成基準 CoBSAT 上，大幅領先現有方法，展現出高精度高質量的理解與生成能力。

以下是訓練資源的對比，與其他使用上百張 GPU 的方法相比，ThinkDiff-LVLM 僅使用 5 小時 × 4 × A100 GPU 的訓練，就達到了最優的效果。

多模態理解與生成圖片結果

ThinkDiff-LVLM 在 CoBSAT 上，能夠對輸入的多模態圖片與文字進行深度推理，並用高質量的圖片展現推理結果。

與 Gemini 的對比

ThinkDiff-LVLM 在日常圖片推理與生成任務上展現出與 Gemini 類似的能力。

Gemini：

Ours：

多模態組合生成結果

在輸入多張圖片時，ThinkDiff-CLIP 能夠合理地將多張輸入圖片組合成合理的輸出圖片。

多模態影片生成結果

將 ThinkDiff-CLIP 的擴散解碼器改成 Cogvideo 時，ThinkDiff-CLIP 能在不重新訓練的情況下，依據輸入的圖片和文字，生成高質量的影片。

總結

ThinkDiff 將多模態推理能力傳遞給擴散模型，創造出高質量的統一多模態理解與生成模型。它用極少的訓練資源和常見的資料，讓擴散模型具備了在多模態上下文中進行推理和創作的能力。在定量和定性實驗上，都優於現有的開源模型，並展現出與商業模型相當的潛力。無論是在科研領域還是工業應用，都對影像生成與理解技術做出重要貢獻。