
目前,大模型推理領域的強化學習(如R1-Zero)主要面向數學和程式碼等任務,將其應用於開放式自然語言生成任務(如,機器翻譯),面臨著獎勵設計困難、推理能力誘導不確定、泛化能力待驗證等諸多未知的挑戰。
針對這些難題,我們提出了 MT-R1-Zero,首次將 R1-Zero 正規化成功擴充套件到機器翻譯領域的實現。該方法無需監督微調或依賴思維鏈(CoT)等冷啟動資料,僅透過對最終翻譯結果度量反饋,進行端到端強化學習最佳化。

論文題目:
MT-R1-Zero: Advancing LLM-based Machine Translation via R1-Zero-like Reinforcement Learning
論文連結:
https://arxiv.org/abs/2504.10160
GitHub倉庫:
https://github.com/fzp0424/MT-R1-Zero
研究團隊:
浙江大學劉佐珠/吳健課題組、小紅書NLP團隊

▲ Figure 1: MT-R1-Zero (Mix) 與主流模型在WMT24 EN-ZH任務上的效能對比 (平均分 vs 模型大小)

核心方法
規則-度量混合獎勵(Rule-Metric Mixed Reward)在機器翻譯中應用 R1-Zero 的核心挑戰在於評估的不確定性和輸出的靈活性。我們創新性地提出了規則-度量混合獎勵機制(Rule-Metric Mixed Reward):
1. 格式獎勵(Format Reward):採用嚴格的格式檢查,強制模型生成包含 <think> (思考過程) 和 <translate> (翻譯結果) 標籤的結構化輸出,這保證了推理過程的可觀察性。格式錯誤將受到固定懲罰,激勵模型優先學習正確格式。

度量獎勵(Metric Reward):一旦格式正確,則引入連續的翻譯質量度量分數作為翻譯質量獎勵訊號。我們探索了三種度量策略:
1. Reward-Lex(詞彙優先):使用基於 N-gram 匹配的 BLEU 度量作為獎勵,側重詞彙準確性。
2. Reward-Sem(語義優先):使用基於深度學習的語義感知模型 COMETKiwi-23 作為獎勵,側重語義保真度。
3. Reward-Mix(混合均衡):結合 Reward-Lex 與 Reward-Sem,旨在同時最佳化詞彙和語義兩個維度,尋求最佳平衡。

實驗結果
7B 模型媲美閉源 SOTA:MT-R1-Zero-7B-Mix 在綜合三大指標(BLEU, COMETKiwi, XCOMET)的平均分上達到 62.25,效能與頂級閉源模型 GPT-4o (61.86) 和 Claude-3.5-Sonnet (62.42) 旗鼓相當,展示了強大的綜合翻譯能力。
語義指標達到 SOTA:MT-R1-Zero-7B-Sem 專注於語義最佳化,在 COMETKiwi (72.07) 和 XCOMET (79.37) 上取得最佳分數,顯著超越了包括 Claude-3.5 在內的所有基準模型。
小模型超越大模型:MT-R1-Zero-3B-Mix 的平均分 (57.81) 顯著超越了同尺寸基線模型 TowerInstruct-7B-v0.2 (56.55)。MT-R1-Zero-3B-Sem 在 COMETKiwi (69.75) 上也超越了 遠大於它的 LLaMA-3.1-70B (68.05)。
強大的泛化能力:在 OOD(分佈外)測試中,僅在英漢資料上訓練的 MT-R1-Zero-7B 模型,在日英、德英、德漢等任務上表現出優異的零樣本泛化能力,XCOMET 分數顯著優於同尺寸基線模型。


關鍵發現與洞見
獎勵設定至關重要:獎勵度量的選擇(Lex, Sem, Mix)直接決定了模型的最佳化側重和最終的翻譯風格(詞彙精準 vs. 語義流暢)。


推理長度先降後升:訓練過程中,模型的回覆長度通常先快速下降(學習格式和效率),然後隨著思考過程的複雜化而緩慢上升,同時翻譯質量持續提升。

湧現的推理模式與語言自適應:模型在訓練中自主產生了多樣的推理模式,從結構化規劃到更口語化的步驟。更令人驚訝的是,模型進行內部推理的“思考語言”會動態地自適應到目標翻譯語言,即使從未直接訓練過該翻譯方向。

模型架構的適應性差異:不同LLM架構對MT-R1-Zero正規化的適應性差異顯著。Qwen系列模型展現出最佳的相容性,能更好地學習格式並生成連貫推理。相比之下,LLaMA和Tower (Translation-specific) 模型則面臨更大挑戰,並傾向於透過生成空洞內容來“欺騙”格式獎勵 (format hacking)。



開放與展望
MT-R1-Zero 證明了,即使在評估複雜、輸出靈活的機器翻譯任務上,純粹的、基於度量的強化學習也是一條很有潛力的技術路徑,希望這項工作能啟發更多將RL應用於複雜自然語言生成任務的研究。
更多閱讀

#投 稿 通 道#
讓你的文字被更多人看到
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝 稿件基本要求:
• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標註
• 稿件建議以 markdown 格式撰寫,文中配圖以附件形式傳送,要求圖片清晰,無版權問題
• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬 投稿通道:
• 投稿郵箱:[email protected]
• 來稿請備註即時聯絡方式(微信),以便我們在稿件選用的第一時間聯絡作者
• 您也可以直接新增小編微信(pwbot02)快速投稿,備註:姓名-投稿

△長按新增PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜尋「PaperWeekly」
點選「關注」訂閱我們的專欄吧
·
