指令資料越來越多，哪些真正應該被用來訓練？

每個模型各有優點，如何博採眾長為己所用？

PaperWeekly 今天幫大家精讀 WizardLM 團隊最新論文：Arena Learning，這是一種讓 LLM 在模擬競技場中相互對戰，並不斷提升的全新的資料飛輪訓練演算法。

論文標題：

Arena Learning: Build Data Flywheel for LLMs Post-training via Simulated Chatbot Arena

論文連結：

https://www.microsoft.com/en-us/research/publication/arena-learning-build-data-flywheel-for-llms-post-training-via-simulated-chatbot-arena/

背景

近年來，自然語言處理領域經歷了一場顯著的變革，這得益於大型語言模型（LLM）經過海量文字資料訓練，在各種任務中表現出了理解、生成和與人類語言互動的卓越能力。基於 LLM 的聊天機器人成功的關鍵因素之一是能夠利用大規模高質量指令資料進行有效的 post-training，如 SFT 和 RLHF。

隨著各種大模型應用的快速實施和推理成本的降低，企業和消費者對使用大語言模型服務的興趣和需求迅速增加。如圖 1 所示，僅 OpenRouter 平臺每天將處理超過 600 億 token。同時，隨著應用場景的創新和深化，這需要 LLM 不斷演進以適應使用者的新意圖和指令。因此，構建高效的資料飛輪，不斷收集反饋，查缺補漏，提升模型能力，成為下一代人工智慧研究的關鍵方向。

在此背景下，LMSYS Chatbot Arena 的出現是一個重大進展，它透過讓不同聊天機器人模型在一系列對話挑戰中相互競爭，利用多樣化的人類評估者判定，並使用 Elo 評分系統進行排名。同時，它還開放了一些真實的直接聊天和戰鬥偏好資料，這些資料已被證明是模型 post-training 和開發指導的寶貴資源。

然而，以人為中心的評估過程也存在自身的挑戰：手動安排和等待聊天機器人與人類評估者之間的互動可能非常耗時且昂貴，從而限制了評估和訓練資料開源週期的規模和頻率。另一方面，由於優先順序限制，大多數模型無法參與競技場評估，開源社群也最多隻能獲得 10% 的聊天資料，因此很難直接有效地指導基於該競技場快速開發新模型。因此，對更高效、可擴充套件的基於競技場的聊天機器人 post-training 和評估系統的需求變得越來越迫切。

本文提出了一種名為 Arena Learning 的資料飛輪訓練技術，可以模擬 Chatbot Arena 的場景，讓最先進的 LLM 在大規模指令資料上不斷地相互競技，然後基於 AI 標註的戰鬥結果進行有監督微調（SFT）或強化學習（RL），以此來不斷增強模型：

整套全 AI 驅動的資料飛輪實現了“對戰-訓練-評估-再對戰-再訓練-再評估”的完美閉環。

特別地，本文還提出了一個新的離線測試集— WizardArena —用於新模型的效能評估及選擇，它可以準確地預測模型的 Elo 排名。從其給出的排名結果來看，WizardArena 與 LMSYS Chatbot Arena 的 ranking 結果一致性高達 98.79%，但該模擬競技場的對戰評判效率（等效 16 H100 算力情況下）卻實現了高達 40 倍的提升，如下表 2 所示：

最終實驗結果表明，基於 Arena Learning 訓練的模型 WizardLM-β 在 SFT、DPO 和 PPO 階段均顯著提高了模型效能。

方法

2.1 LLM as Judge

Arena Learning 中構建模擬競技場戰鬥的核心是一個強大的 LLM，它充當“裁判模型”。裁判模型的作用是分析和比較配對戰鬥模型的響應。輸入是對話歷史、使用者指令和兩個 LLM 的響應。輸出包括每個 LLM 的分數，以及針對各種因素（例如連貫性、事實準確性、上下文意識和整體質量）的解釋，以確定一個響應是否優於另一個。

每個模型都會獲得 1 到 10 的總體分數，分數越高，整體表現越好。下文在競技場 post-training 階段和評估階段中均使用 Llama-3-70B-Instruct 作為“裁判模型”。

2.2 Data Flywheel

收集大規模指令資料

論文中使用了 276K 資料模擬多階段的增量飛輪資料。資料收集過程涉及過濾、清理和重複資料刪除等幾個階段，以確保指令資料的質量和多樣性。本文將資料平均分成幾個部分 D = {D_0, D_1, D_2, …, D_N}，分別用於後續迭代訓練和更新。然後使用模擬競技場戰鬥結果為 WizardLM-β 生成訓練資料，並針對不同的訓練策略進行定製：監督微調（SFT）、直接偏好最佳化（DPO）和近端策略最佳化（PPO）。

迭代式對戰與模型進化

Arena Learning 採用迭代過程來訓練和改進 WizardLM-β。在每一輪模擬競技場戰鬥和訓練資料生成之後，WizardLM-β 使用適當的訓練策略（SFT，DPO 和/或 PPO）進行更新。然後這個更新的模型被重新引入競技場，它再次與其他 SOTA 模型戰鬥。這個迭代過程允許 WizardLM-β 不斷改進和適應競技場的不斷變化。隨著模型變得越來越強大，模擬戰鬥也變得越來越具有挑戰性，這迫使 WizardLM-β 不斷突破自己的界限，學習其他模型所展示的最新策略和能力。

以下是第一輪訓練迭代 I1：首先使用資料集 D0 訓練初始版本的 WizardLM-β-SFT-I0，然後選擇一些在 WizardArena 測試集上排名靠前的模型集合 M 作為對戰目標。接下來將 WizardLM-β-SFT-I0 作為競爭模型，在 D1 資料集上與 M 對戰，並專注於提取那些裁判模型認定 WizardLM-β 的 Response不如 Winner model 的 Response 的例項。這些例項被收集起來，並用 Winner model 的 Response 作為目標輸出，用於微調下一個模型 WizardLM-β-SFT-I1。

對於DPO，使用 WizardLM-β-SFT-I1 作為競爭模型，與 M 在 D2 上對戰，然後將勝負 Response 視為 <Choose，Reject> 對來訓練 WizardLM-β-DPO-I1。

對於 PPO，利用WizardLM-β-DPO-I1 與 M 在 D3 上的相同對戰過程，獲取 <Choose，Reject> 對來訓練獎勵模型和 WizardLM-β-PPO-I1。在第二輪訓練迭代 I2 中，選擇在 WizardArena 上表現最佳的 WizardLM-β-PPO-I1 作為 I2 的初始競爭模型，並採用類似的過程訓練接下來的 SFT，DPO 和 PPO 模型。下表 1 顯示了每個階段使用的資料和模型的詳細資訊。

2.3 WizardArena

為了準確評估聊天機器人模型的效能並預測其 Elo 排名，本文提出了一個新的離線測試集 WizardArena — 用於模型能力在兼具多樣性和複雜性指令上的全面評估。WizardArena 包含：

Diverse Subset & Hard Subset

首先，論文使用 K-Means 聚類演算法將源資料處理成 500 個類別。從每個類別中，隨機選取兩個樣本，構建 1000 個多樣性樣本，建立 Offline-Diverse WizardArena。此外，從每個類別隨機選擇 20 個樣本，形成一個包含 10000 條的資料集，然後使用 GPT-4 按難易程度從 0 到 10 評估每個指令，並篩選出難度最高的 1000 條資料，建立 Offline-Hard WizardArena。

Offline-Mix WizardArena 將多樣性和困難測試集合併為 2000 個樣本。與主要關注單輪對話資料的 Arena-Hard-v1.0 不同，WizardArena-Mix 納入了多輪對話資料。下圖 4 和 5 顯示了 WizardArena-Mix 中對話輪次的分佈和類別統計。WizardArena-Mix 多輪對話資料佔據了很大比例，話題分佈也具有多樣性。

透過上面的“裁判”模型和離線的 WizardArena 評測集，使用一系列對戰來評估各種聊天機器人模型的效能。然後使用戰鬥的結果來計算參與聊天機器人模型的 Elo 排名。

實驗

3.1 離線的 WizardArena 與 LMSYS ChatBot Arena 是否緊密對齊

下圖 6 和表 4 展示了一些流行模型在 3 個評估基準上的排名：LMSYS ChatBot Arena-EN、MT-Bench 和 WizardArena。結果顯示，在使用 LMSYS ChatBot Arena 作為參考基準時，WizardArena 展現了良好的排名一致性，然而 MT-Bench 顯示出較大的波動。

此外，WizardArena 多樣性和困難測試集之間的效能也存在顯著差異：Vicuna-33B 和 Qwen1.5-32B-Chat 在多樣性任務中更為有效，而 Tulu-2-DPO-70B 和 Nous-Hermes-2-Mixt-DPO 在困難任務中取得了更好的效能。因此，論文使用 WizardArena-Mix 作為 Arena Learning 的最終評估基準，以平衡不同模型的優勢。

下表 3 顯示，Offline WizardArena-Mix 在多個一致性指標上顯著優於 MT-Bench，斯皮爾曼相關係數高出 19.87%，人類一致性增加 73.07%（95%CI），區分度提高 74.57%（95%CI），具體指標細節參考附錄中的一致性指標說明。最終與基於人類評判的 LMSYS ChatBot Arena 的平均一致性達到 98.79%，比 Arena-Hard-v1.0 高出 8.58%，比 MT-Bench 高出 35.23%。

同時與使用專有模型（如 GPT-4）作為評判模型的 MT-Bench 和 Arena-Hard-v1.0 不同，論文采用當前最先進的開源模型 Llama-3-70B-Chat，不僅成本顯著降低，而且實現了強一致性。

此外，集成了多樣性和困難測試集的 Offline WizardArena-Mix，其平均一致性比 WizardArena-Diverse 高出 0.87%，比 WizardArena-Hard 高出 0.82%。這表明，在大型語言模型的有效離線評估中，平衡多樣性和複雜性至關重要。

以上結果進一步證明了 WizardArena-Mix 高質量以及使用“裁判”模型來評判 LLMs 之間的對戰並在模擬競技場中為後訓練生成大量高質量資料的可行性。

3.2 Arena Learning 是否能建立一個高效的資料飛輪用於模型 Post-training

下表 4 展示了使用 Arena Learning 方法在三輪資料飛輪迭代中對 WizardLM-β 模型進行後訓練的影響，其中 Ii 代表第 i 次迭代。從 I1 到 I3 的每次迭代中，總是使用 90k 資料進行後訓練。從 WizardLM-β-7B-I0 開始，三次迭代在 WizardArena-Mix Elo 上分別提高了 343 點、32 點和 28 點。

同時，該模型在 MT-bench 得分也實現了顯著提升（從 6.41 提升至 8.16）。特別是，WizardLM-β-7B-I1 甚至超過了 WizardLM-70B-v1.0，而 WizardLM-β-7B-I3 的表現也與 Starling-LM-7B-Beta 相當。

值得注意的是，論文在 WizardLM-β-8x22B 模型上也觀察到了相同的趨勢，並且在 Wizardarena-Mix Elo（+460）和 MT-Bench（+2.07）上實現了更顯著的增長。同時 WizardLM-β-8x22B-I3 超越了 Command R+ 和 Claude 3 Haiku。

下圖 7 展示了 WizardArena-Mix 中 32 個模型的勝率，每個模型參與了 2k x 31 場戰鬥。可以看出從 I0 到 I3WizardLM-β 的勝率顯著提高。具體來說，以 GPT-4o 作為對戰目標，WizardLM-β-8x22B 的勝率增加了 26%（8% -> 22% -> 27% ->34%），WizardLM-β-7B 的勝率增加了 14%（6% -> 16% -> 18% ->20%）。

以上結果強調了透過 Arena Learning 方式與 SOTA 模型進行持續對戰並使用最新獲取的資料更新模型權重可以逐步增強模型能力。因此，Arena Learning 構建了一個有效的資料飛輪，使用 Arena Learning 可以顯著提高模型在後訓練中的效能。

3.3 Post-training 中 SFT，DPO，PPO 迭代訓練的 Scaling

論文的核心問題在於探討 Arena Learning 如何透過 Pos-training 提升模型效能，同時研究不同 Post-training 策略和迭代資料飛輪對效能的影響。下圖 8 探討了 WizardLM-β-7B 模型的結果。

結果展示透過 Arena Learning 方式經過多輪迭代對戰，在 SFT，DPO，PPO 階段模型效能也逐步提升。具體來說，從 SFT-I0 到 PPO-I3，WizardArena-Mix ELO 評分從 871 提升至 1274，實現了巨大的 403 點增幅，而 Arena-Hard Auto ELO 評分也上升了 26.3 點（從 5.2 到31.5）。

此外，AlpacaEval 2.0 LC 勝率提高了 26%，從8.2% 增至 34.2%，MT-Bench 評分也提高了 1.75 點，從 6.41 增至 8.16。這四個關鍵基準的顯著提高突顯了 Arean Learning 提出的迭代訓練方法有利於模型在 SFT、DPO 和 PPO 後訓練階段的有效性和可擴充套件性。

消融實驗

4.1 資料選取策略

論文將當前廣泛使用的資料選擇策略與論文提出的 judge-pair battle 策略進行比較。在表中，除了 Original 方式是 30k 樣本，其他選擇策略均使用了 10k 樣本。結果表明，透過 judge-pair battle方法選出的資料使 WizardArena-Mix ELO 比 Original 的 30k 資料提高了 29 點，超過了基於多樣性的 K-Means 聚類方法和基於指令複雜度的 INSTAG 方法。

在 MT-bench 上，judge-pair battle 方法同樣表現出色。這種優勢歸因於 judge-pair battle 方法專注於基礎模型表現不佳的指令，特別是在多樣化和複雜的任務中，有效地解決了模型的短板，不足之處。

同時，這些結果強調了 judge-pair 方法在 SFT 階段針對性選取高質量資料並加強基礎模型弱點的高效性，同時透過 judge pair battle 方式構造 <Choose，Reject> 資料對天然適應 DPO 和 PPO 訓練。

4.2 資料規模與模型效能的關係

一個直觀的問題是模型效能的提升是否僅僅是由於資料量的增加。因此論文討論了資料規模和質量對模型效能的影響。閾值 K 是 Arena Learning 中一個重要的超引數，它控制了 SFT 資料的規模以及 RL 資料對中 <Choose，Reject> 兩者回答質量的差距。

下圖結果顯示 SFT 和 DPO 資料的最佳閾值 K 分別為 3.0 和 2.0。在 SFT 中，與閾值 K=0 相比，雖然訓練資料減半（30k -> 14.6k），但模型的 ELO 實際上提高了 70 點（1047 -> 1117）。同樣在 DPO 中，設定閾值 K=2 後，資料量比閾值 K=0 時減少到 18.1k，模型的 ELO 提高了 22點（1165 -> 1187）。這表明透過 Battle 方式有助於篩選出模型真正需要的資料，從而構建了一個更高效、規模更精簡的資料飛輪。

閾值選擇除了與資料的質量有關，還與資料的數量有關，這兩個因素都會影響最終的訓練效果。閾值過小的時候資料數量雖然很大但是整體質量太低，閾值過大的時候資料整體質量很高但是資料量太小，這兩種情況都不利於訓練。因此，選擇一個合適的閾值很重要。

4.3 Llama3-70B-Instruct Judge vs. GPT-4 Judge一致性

在以往的 LLM 研究中，大多數情況習慣使用 GPT-4 作為裁判模型來進行評估或生成合成資料，但是在大規模資料飛輪中所需的 GPT-4 API 成本對多數研究和生產場景來說是巨大的。因此，論文探討是否可以用高階開源模型替代 GPT-4。下表 6 探討了 Llama3-70B-Instruct 與 GPT-4 在 WizardArena-Mix 競技場中作為評判模型的一致性。

使用 GPT-4 評判的 ELO 作為參考基準，Llama3-70B-Instruct 評判與 GPT-4 評判的斯皮爾曼相關係數為 99.26%，人類一致性（95%CI）為 96.15%。此外，將 GPT-4 和 Llama3-70B-Instruct 結合作為評判模型，在 LMSYS ChatBot 競技場中的整體平均一致性達到了 98.40%，比單獨使用 Llama3-70B-Instruct 提高了 0.25%（98.40% 對比 98.15%）。

因此使用 Llama3-70B-Instruct 作為價效比高的評判模型，與 GPT-4 和基於人工評判的 LMSYS ChatBot Arena 都保持了高度的一致性，確保了本文中 WizardArena 評估和使用 Arena Learning 方式進行 Post-training 的可靠性。

4.4 與SOTA模型Battle數量的Scaling

下圖 10 探討了與 SOTA 模型的 Battle 數量對模型效能的影響。將表 4 所有模型按照 WizardArena-Mix ELO 分數降序排列。從 Command R+ 到 OpenChat 3.5 的模型，模型效能從高到底依次被選做 Battle 物件。隨著參與 Battle 的模型數量增加，WizardLM-β-7B-SFT-I1 模型的表現逐漸提高。這證明了Battle 模型數量 Scaling 和 Arena Learning 的可擴充套件性及其與不同模型的相容性，為未來演算法的大規模應用提供了實驗基礎。

由於 Battle 的複雜度與模型數量 n 的關係是 O(n^2)，為了平衡計算成本和模型效能，本文預設設定選擇了三個 SOTA 模型（如 Command R+, Qwen1.5-72B-Chat, OpenChat-3.5）與 WizardLM-β 對戰。

4.5 不同Battle方式對模型效能提升的影響

下表7探索使用多個模型進行彼此成對 Battle 來構建資料飛輪的必要性，在 D1 資料 SFT-I1 階段設計了多種 Battle 模式，包括：i）與任意一個模型進行成對 Battle，ii）將 D1 隨機分為三份，分別在每一份資料上只和一個模型進行 Battle，iii) 與任意兩個模型進行成對 Battle，iv）與三個模型進行成對 Battle。

在這一部分，論文使用 WizardLM-β-7B-SFT-I0、Openchat-3.5、Qwen-1.5-72B 和 CommandR+ 作為 Battle 物件，輸出模型為 WizardLM-β-7B-SFT-I1。結果如下表 7 展示，模式（iv）在 WizardArena 上表現最佳。因此論文最終利用多個模型進行彼此成對戰鬥，以構建模擬的離線聊天機器人競技場。

4.6 在 LMSYS Arena-Hard Auto，AlpacaEval 2.0 LC，OpenLLM Leaderboard 更多基準的表現

下表8展示了經過三輪迭代後，WizardLM-β 在各種評測基準上的表現，包括 LMSYS Arena-Hard Auto、AlpacaEval 2.0 LC 和 OpenLLM 排行榜。在 LMSYS Arena-Hard Auto 中，WizardLM-β-7B 的分數從 5.2 提升至 31.5，增加了 26.3 分，超過了 GPT-3.5-Turbo-0613 和 Llama 3-8B-Instruct，與 Command R+ 接近。

WizardLM-β-8x22B 的表現超過了 Llama-3-70B-Instruct 23.2 分，也優於 GLM-4-0520 和 Yi-Large。在 AlpacaEval 2.0 LC 中，WizardLM-β-7B 的勝率從 8.2% 上升至 34.2%，與 Llama3-70B-Instruct 接近。在 OpenLLM 排行榜上，WizardLM-β-7B 的平均分數從 57.75 提升至 68.08，超過了 Llama-2-70B-Chat 1.28 分，與 Starling-LM-7B-beta 相當。

WizardLM-β-8x22B 也與 Command R+ 相當，超過了 Deepseek-LLM-67B-Chat 3.06 分，並接近 Qwen1.5-72B-Chat 和 Llama-3-70B-Instruct。上述結果表明：1）利用 Arena Learning 生成訓練資料的方法並進行多輪迭代訓練顯著提升了模型的效能；2）Arena Learning 可以增強模型泛化能力和可擴充套件性。

4.7 每輪SFT選取的資料量和難度分佈

下表 9 詳細展示了 SFT 每一輪的資料量、難度和閾值劃分。隨著迭代輪數的增加，輪文中將閾值 K 從 3 調整到 1，但 SFT 的資料量仍顯著減少（從 30k 減少到 7.8k）。主要原因隨著模型能力的進化，其輸掉的對戰場數也急劇下降。

同時還發現每輪資料的難度逐漸增加（從 4.7 增加到 7.4），並且最終 SFT 只需大約 1/3 的資料（從 90k 減少到 33.7k），總資料的平均難度為 6.4。這表明高質量的資料飛輪應更加註重尋找對目標模型具有挑戰性的資料，以補充其能力的不足。

4.8 每輪從所有Battle模型中選取的資料量統計

下表 10 統計了在 SFT 和 DPO 階段的3輪中，每個 Battle 模型被選取的勝利/接受響應的數量。在 SFT 階段，每輪資料量透過連續的迭代輪數持續下降（從 14.6k 降至 7.8k）。此外，選定資料的數量與 Battle 模型的表現強相關。如從 Command R+ 挑選的資料量超過 Qwen1.5-72B-Chat 和 OpenChat-3.5（16.8k > 12.7k > 4.2k）。

在 DPO 階段，大多數 Battle 模型隨著迭代輪數增多，選取的資料量呈現下降趨勢，但 WizardLM-β 的資料量呈上升趨勢（1.1k->1.6k->2.3k），主要原因是隨著 WizardLM-β 模型效能的提升，它在正向樣本中的比例也逐漸增加。

4.9 每輪各類別資料量分佈統計

下圖 11 展示了 SFT 在每輪迭代中各類別選取訓練資料量的趨勢。隨著迭代進行所有類別的選取數量均呈現持續下降的趨勢。然而對於複雜類別（如數學、推理和編碼），下降趨勢比較緩慢；對於寫作和角色扮演等簡單類別，則下降更為顯著。其中在 SFT-I3 中編碼和數學等類別資料佔據較大比例。以上結果表明隨著每次迭代的進行，資料的選擇逐漸偏向於更具挑戰性的任務，從而有利於繼續強化模型在這些複雜類別中的效能。

4.10 模型在所有類別效能變化趨勢

下圖 12 展示在訓練階段隨著迭代次數增加，WizardLM-β-7B 模型在八個類別中 ELO 分數的演變。起初 WizardLM-β-7B 的 ELO 分數顯著低於 OpenChat 3.5。經過多次迭代後，WizardLM-β-7B 不僅超越了 OpenChat 3.5，同時逐漸接近 Qwen1.5-72B-Chat 和 Command R+ 的效能。

從迭代 I0 到 I3，模型在所有類別中 ELO 分數先快速提升，隨後呈現穩定增長，表明從一個較弱模型逐漸演化為一個更強的模型。特別是在角色扮演和提取等難度相對較低的類別中，WizardLM-β-7B 從遠遠落後 Qwen1.5-72B-Chat，到最終超過。相反在數學和編碼等更復雜的推理任務中，提升較為緩慢。

此外，Arena 對戰結果突顯了每個模型的獨特優勢。例如，Command R+ 在編碼和數學等具有挑戰性的類別中表現突出。同時 Qwen1.5-72B-Chat 在人文社會科學和 STEM 領域表現更強。隨著迭代次數的增加，訓練資料趨向於更復雜的資料（如編碼和數學），逐漸強化模型劣勢。結果證明了 Arena Learning 透過利用多個先進模型的集體知識和優勢來顯著提升 WizardLM-β-7B Post-training 效能。

4.11 使用更先進的模型進行Battle

下表探索第一輪中採用更先進模型與 WizardLM-β-7B 進行對戰的效能影響。在第一輪中利用 M_1 模型 = {GPT-4o、GPT-4 Turbo 和 WizardLM-2-8x22B} 將 ELO 分數從基線 SFT-I0 的 871 提升至 1266，增幅為 395 分，並比採用 M_0 模型 = {Command R+、Qwen1.5-72B-Chat 和 OpenChat 3.5} 高出 52 分。

在對戰和訓練的各個階段，採用 M_1 模型的 ELO 分數始終比 M_0 模型高出 45 至 55 分。此外 MT-Bench 分數從 6.41 提升至 7.89，比 M_0 模型的 7.74 分提升了 0.15 分。結果突顯了透過採用更先進模型進行對戰可以實現更顯著的效能改進。