探索多模態後訓練最優解：MiMo-VL穩健最佳化v.s.Seed-VL激進革命

在多模態大模型的效能競賽中，Post-training 正逐漸成為真正拉開差距的關鍵階段。架構趨同之下，MiMo-VL 與 Seed-VL 兩大系統在後訓練鏈條上的策略博弈，展現了當前業界對指令對齊、強化學習與獎勵建模的多種探索路徑。

本文圍繞 SFT、RLHF、獎勵模型範式等核心模組，系統對比兩者在資料構造、訓練目標、最佳化技巧等方面的具體實現，梳理其在構建大規模多模態能力過程中各自的技術落點與思路差異，助你洞察下一代多模態模型的後訓練演進趨勢。

模型架構

基本主流的框架在架構上基本沒有太大差別，ViT+MLP adater+LLM，主要的差別集中在兩點：

1. 要不要使用自己訓練的 ViT，MiMo-VL 使用了 Qwen2.5-ViT，而 Seed 使用了自己的 Seed-ViT。

2. adapter 之後要不要 pooling 或者 pixel shuffle，Qwen2 及之後的工作基本沒有考慮 pooling，InternVL 一系列的工作 pixel shuffle 居多。

資料和訓練策略

資料和策略的差別各家都很大：

Pretrain 階段，M 使用了 2.4 trillion，分成四個階段，涉及到的過濾 trick 可以拿出一頁單講。

## 影像資料使用感知雜湊技術去重，篩選高質量影像，透過專門模型重新生成描述，並構建中英雙語元資料以最佳化描述分佈。## 圖文交錯資料對文字、影片及其相關性進行綜合評估和過濾。## 影片資料新增精確時間戳實現時間定位，平衡事件時長分佈用於時間定位預訓練，策劃分析性段落增強模型對影片的深入理解。## OCR資料包含多樣化文字內容，增加手寫和變形文字提高識別難度，新增邊界框標註使模型能同時預測文字位置。## 定位資料使用複雜物件表示式提升模型理解能力，採用絕對座標表示確保定位準確性。## GUI資料收集各平臺開源GUI資料，設計合成數據引擎彌補侷限，分別收集元素定位和指令定位資料，統一不同平臺的動作空間。## 合成推理資料策劃多種問答任務的開源問題，實施多階段質量控制，透過高保真資料集增強模型在多模態環境中的推理能力。

Seed 的 corpus 達到了 3 trillion，涉及到的 trick 更多，相比於 M 而言，點計數，3D 任務，科學工程似乎有著不錯的佔比，更加全面。訓練策略有些微的差別，除了第一個 stafe 開放 MLP，剩下的 stage 全開。

### 通用圖文對與知識資料通用圖文對資料規模巨大但存在噪聲和類別不平衡問題，為此採用了多種過濾技術，包括相似度評分、影像/文字標準過濾和去重。針對長尾分佈問題，透過實驗發現限制常見物種樣本數量能顯著提升稀有物種識別效能。最終，透過使用VLM自動標註語義領域和命名實體，並對低頻領域進行資料複製，實現了視覺概念的平衡分佈，以增強視覺知識的學習。### OCR 資料構建了包含文件、場景文字、表格和流程圖的億級內部OCR訓練資料集。該資料集透過收集真實頁面、合成文字密集影像（包含多種字型和形變）、以及利用LLM生成合成圖表和表格影像來豐富。此外，還構建了VQA資料集，透過VLM生成問答對並進行過濾，以增強模型對影像中文字資訊的理解。### 視覺定位與計數視覺定位與計數能力主要透過邊界框、點註釋和計數資料進行訓練。邊界框資料來源於過濾後的開源資料集和大規模自動標註的web影像，涵蓋了通用2D定位、空間關係問答和視覺提示問答等任務。點資料在現有基礎上透過Molmo和CountGD流水線擴充，尤其擅長密集場景中的物件註釋。計數資料則從邊界框和點資料中取樣生成。所有座標值都進行了歸一化處理，以確保模型在不同解析度下的預測準確性。### 3D空間理解構建了針對相對深度排序、絕對深度估計和3D定位三類任務的資料。相對深度排序資料透過DepthAnything V2從網際網路影像中推斷得到；絕對深度估計資料來源於公共資料集，透過語義掩碼確定實體絕對深度；3D定位資料則將公共資料集重構為提問物件3D位置的問答對，共同訓練模型對3D空間的感知和理解。### 影片資料主要包括通用影片理解資料（影片字幕、問答、動作識別和定位）、影片時間定位與時刻檢索資料（提升時間感知），以及影片流資料。影片流資料進一步細分為交錯式字幕/問答資料（即時理解）、主動推理資料（持續監控和主動響應），以及即時評論資料（細粒度交錯和即時更新），共同為影片訓練打下全面基礎。### 科學、技術、工程和數學 (STEM) 資料STEM資料透過抓取和手動標註方式收集，並分為影像理解資料和問題解決資料兩大部分。影像理解資料包含教育定位樣本、結構化表格、化學結構圖和座標系圖，以及K12教育影像的人工和機器生成字幕、VQA對等。問題解決資料則涵蓋了K12級別的習題、中文成人教育問題和英文影像相關問題。這些資料採用混合獲取策略，確保了多模態覆蓋和高質量。### 圖形使用者介面 (GUI) 資料GUI資料主要來自UI-TARS，旨在支援模型對GUI的魯棒感知、定位和推理。資料集包含來自web、應用和桌面環境的螢幕截圖，並配有結構化元資料（元素型別、邊界框、文字和深度）。訓練任務包括元素描述、密集字幕和狀態轉換字幕，以識別UI元件、理解佈局和檢測視覺變化。定位任務訓練模型根據文字描述預測元素座標。推理任務則收集多步驟任務軌跡，包括觀察、中間思考和動作，使模型能夠學習分步規劃和反思。

Post-training 訓練資料

大概可以分為 RLHF（獎勵模型訓練）以及 RL 兩個階段。

M 在兩個階段的資料來源和資料量都不清楚，不過提到了平衡了中文和英文查詢的比例，以及針對有用性和無害性的查詢比例。

獎勵模型的訓練資料是每個 query 用 MiMo-VL-7B 和其他多個 MLLM 生成 response，然後使用另一個 MLLM 來進行排序打分，最終形成了一個 pairwise 的資料集用於獎勵模型的訓練。

這種多樣性和資料集構造過程與我們的前期工作 mm-rlhf 類似，但是顯然 M 團隊選擇了更容易 scale up 的 pipeline。RL階段將混合的 reasoning，perception，定位，文字很多領域的資料一起扔進去。

S 的內容更豐富一些，RLHF 階段基本採用了跟我們 MM—RLHF 資料 pipeline 一樣的流程，單個 query 取樣多個 response，5 級評分系統人工標註，不過他們會用 reward model 預打分提高效率，可以降低 scaling up 的成本。

除此之外還有一組合成資料，帶有明確的 ground truth，知識考慮如何生成負樣本，這種操作在 mllm alignment 也很常見了（mpo，rlaif-v 等都是），ranking 非常明確，快速擴充資料量。

RL 的資料是從偏好資料拿出來的，同樣的，觀察到了 prompt 分佈的覆蓋範圍對 RL 效能有關鍵影響，為了讓訓練資料更 balance，S 又來了一個小 trick：

1. 訓練一個標籤模型為 query 打標籤；

2. 透過分層抽樣確保不同能力類別之間的平衡；

3. 使用最先進的內部模型生成 K 個回答，根據 reward 的方差應用過濾標準：如果K個回答的最大獎勵和平均獎勵之間的差異低於預定義的閾值，則排除這些提示。這一步確保了保留那些獎勵模型具有顯著區分能力的 query；

4. 在 RL 訓練的初期，對那些獎勵和 KL 散度同時快速增加（表明任務難度較低）的 query 進行了降取樣。

Post-training 獎勵模型

M 採用了兩個獎勵模型，都是傳統獎勵模型，分別處理文字和多模態。

S 的獎勵模型選擇了 generative reward model（經過了相應的 sft）。輸入問題，response 1，response 2，直接給出排序，核心觀察是這種方法比傳統的 Bradley-Terry 獎勵建模更穩健、更優越，因為它直接處理 token 機率和回答比較。這個思路和 R1-reward 非常類似，因此我可以有一些擴充套件的猜測：

1. 首先 SFT 非常重要，為了驗證這個 facotr 我做了一組小實驗, 第一行直接用 qwen2.5 vl 寫個 prompt 完成上述功能，第二行用 r1-reward 的訓練資料（類似 seed 這種格式，從 mm-rlhf 等多個數據集構造的）sft 一輪，效果提升非常顯著。

從而引發的還有一個小 trick，我把每組資料 chosen rejected 換個方向作為輸入，效果還能再次提升。70.56 已經基本上接近目前的 sota r1-reward 的效果了。

2. 很容易想到的，這種正規化非常適合做強化學習訓練進一步提升，也就是先 think 再給出 answer，r1-reward 的效能增益也許就來自這方面，但是二者之間的差距看起來並沒有那麼大，而且會引入額外的計算開銷。

Post-training 訓練目標

M 的訓練目標直接使用了 GRPO 沒有其他改進，但，在訓練過程中提出了 Reward-as-a-Service 的概念，讓一個 router 根據任務型別自己判斷選擇哪個 reward function，不過不知道具體是怎麼實現的。

類似於 M，S 也採用了 rule base+reward model base 混合訓練的策略：

1. STEM（科學、技術、工程和數學）主要使用 rule based reward，其實主要也是數學問題。不過有兩個 tric，移除 choice 防止模型隨機猜測，然後每個問題生成 16 個回答，丟棄那些 SFT 模型準確率為 0% 或超過 75% 的問題。這種過濾隔離了適合 RLVR 探索的具有挑戰性的 query；

2. 除此之外，還混了一些定位，指令遵循，迷宮，互動遊戲的樣本。

混合強化學習的目標，PPO 的變體（很難評，因為不知道他是說混合 reward 還是訓練目標本身變了），獎勵函式分為了 format，hybrid reward（RM 忽略了 CoT thought 只關注 solution），critic model 還是存在（看來沒用 grpo）。

同時還加入一個小 trick，每個 query 的 rollouts 數量不同，較難的 query 需要更全面的探索。對於由獎勵模型獎勵的每個提示，僅取樣一次，而對於由驗證器獎勵的提示取樣 4-8 次。

那麼隨之而來的我們會發現，他沒有經過 long-cot 的 sft，所以 S 採取了另一個策略來彌補這個階段能帶來的效能增益，畢竟更強的冷啟動 SFT 自然會導致 LongCoT RL 後的模型更強。簡單說經過了四輪 SFT+RL，對每輪產出的 RL model

1. 每一輪透過他們的資料生成 pipeline 收集額外的 query；

2. 透過拒絕取樣將能夠正確回答的樣本（為啥是正確而不像上面一樣給個難度的 threshold 比如 passk 尚未可知）；

3. 人工去除 overthinking，repetition，以及語言上的缺陷。

然後 sft，rl 不斷迭代。