浙大×小紅書釋出MT-R1-Zero：強化學習重塑機器翻譯，7B小模型媲美GPT-4o

目前，大模型推理領域的強化學習（如R1-Zero）主要面向數學和程式碼等任務，將其應用於開放式自然語言生成任務（如，機器翻譯），面臨著獎勵設計困難、推理能力誘導不確定、泛化能力待驗證等諸多未知的挑戰。

針對這些難題，我們提出了 MT-R1-Zero，首次將 R1-Zero 正規化成功擴充套件到機器翻譯領域的實現。該方法無需監督微調或依賴思維鏈（CoT）等冷啟動資料，僅透過對最終翻譯結果度量反饋，進行端到端強化學習最佳化。

論文題目：

MT-R1-Zero: Advancing LLM-based Machine Translation via R1-Zero-like Reinforcement Learning

論文連結：

https://arxiv.org/abs/2504.10160

GitHub倉庫：

https://github.com/fzp0424/MT-R1-Zero

研究團隊：

浙江大學劉佐珠/吳健課題組、小紅書NLP團隊

▲ Figure 1: MT-R1-Zero (Mix) 與主流模型在WMT24 EN-ZH任務上的效能對比 (平均分 vs 模型大小)

核心方法

規則-度量混合獎勵（Rule-Metric Mixed Reward）在機器翻譯中應用 R1-Zero 的核心挑戰在於評估的不確定性和輸出的靈活性。我們創新性地提出了規則-度量混合獎勵機制（Rule-Metric Mixed Reward）：

1. 格式獎勵（Format Reward）：採用嚴格的格式檢查，強制模型生成包含 <think> (思考過程) 和 <translate> (翻譯結果) 標籤的結構化輸出，這保證了推理過程的可觀察性。格式錯誤將受到固定懲罰，激勵模型優先學習正確格式。

度量獎勵（Metric Reward）：一旦格式正確，則引入連續的翻譯質量度量分數作為翻譯質量獎勵訊號。我們探索了三種度量策略：

1. Reward-Lex（詞彙優先）：使用基於 N-gram 匹配的 BLEU 度量作為獎勵，側重詞彙準確性。

2. Reward-Sem（語義優先）：使用基於深度學習的語義感知模型 COMETKiwi-23 作為獎勵，側重語義保真度。

3. Reward-Mix（混合均衡）：結合 Reward-Lex 與 Reward-Sem，旨在同時最佳化詞彙和語義兩個維度，尋求最佳平衡。

實驗結果

7B 模型媲美閉源 SOTA：MT-R1-Zero-7B-Mix 在綜合三大指標（BLEU, COMETKiwi, XCOMET）的平均分上達到 62.25，效能與頂級閉源模型 GPT-4o (61.86) 和 Claude-3.5-Sonnet (62.42) 旗鼓相當，展示了強大的綜合翻譯能力。

語義指標達到 SOTA：MT-R1-Zero-7B-Sem 專注於語義最佳化，在 COMETKiwi (72.07) 和 XCOMET (79.37) 上取得最佳分數，顯著超越了包括 Claude-3.5 在內的所有基準模型。

小模型超越大模型：MT-R1-Zero-3B-Mix 的平均分 (57.81) 顯著超越了同尺寸基線模型 TowerInstruct-7B-v0.2 (56.55)。MT-R1-Zero-3B-Sem 在 COMETKiwi (69.75) 上也超越了遠大於它的 LLaMA-3.1-70B (68.05)。

強大的泛化能力：在 OOD（分佈外）測試中，僅在英漢資料上訓練的 MT-R1-Zero-7B 模型，在日英、德英、德漢等任務上表現出優異的零樣本泛化能力，XCOMET 分數顯著優於同尺寸基線模型。

關鍵發現與洞見

獎勵設定至關重要：獎勵度量的選擇（Lex, Sem, Mix）直接決定了模型的最佳化側重和最終的翻譯風格（詞彙精準 vs. 語義流暢）。

推理長度先降後升：訓練過程中，模型的回覆長度通常先快速下降（學習格式和效率），然後隨著思考過程的複雜化而緩慢上升，同時翻譯質量持續提升。

湧現的推理模式與語言自適應：模型在訓練中自主產生了多樣的推理模式，從結構化規劃到更口語化的步驟。更令人驚訝的是，模型進行內部推理的“思考語言”會動態地自適應到目標翻譯語言，即使從未直接訓練過該翻譯方向。

模型架構的適應性差異：不同LLM架構對MT-R1-Zero正規化的適應性差異顯著。Qwen系列模型展現出最佳的相容性，能更好地學習格式並生成連貫推理。相比之下，LLaMA和Tower (Translation-specific) 模型則面臨更大挑戰，並傾向於透過生成空洞內容來“欺騙”格式獎勵 (format hacking)。