背景

近年來，大型語言模型（LLMs）在程式碼相關的任務上展現了驚人的表現，各種程式碼大模型層出不窮。這些成功的案例表明，在大規模程式碼資料上進行預訓練可以顯著提升模型的核心程式設計能力。

除了預訓練外，一些透過 instruction 資料對 LLM 進行 post-training 的方法，也使得模型在對指令的理解和回答的質量等方面取得了顯著提高。然而，post-training 的效果在很大程度上依賴於可用的高質量資料，但是資料的收集和註釋存在著不小的挑戰。

為了解決上述挑戰，一些方法設計了各種資料飛輪來生成 instruction 資料，如 Self-Instruct，Evol-Instruct 等。這些方法透過多種資料增強手段來構建 instruction 資料，在這些資料上進行訓練可以有效提升模型的程式碼生成能力。

然而，如圖 1 所示，這些方法仍然依賴於對現存資料集進行擴充套件並需要呼叫私有 LLM （如 GPT-3.5、GPT-4 等），使得資料收整合本較高。此外，有限的資料來源和用於註釋的 LLM 也限制了資料的多樣性，並繼承了有限的私有 LLM 本身固有的系統偏見。

▲ 圖1

本文提出了 WarriorCoder，一種全新的程式碼大模型的資料飛輪訓練正規化，模型透過學習專家對抗的方式來整合各個程式碼專家大模型的優點。如圖 1 所示，各個程式碼專家大模型兩兩對戰，攻擊者在其自身的專業領域內挑戰對手，目標模型則向這些對戰中的勝者學習。

論文標題：

WarriorCoder: Learning from Expert Battles to Augment Code Large Language Models

論文連結：

https://arxiv.org/pdf/2412.17395

與之前的方法不同，之前的方法大多都依賴現有開源資料集，將這些資料集做為種子資料去合成和增強，而 WarriorCoder 是從 0 到 1 的生成資料不需要種子資料，並且該方法可以融合多個程式碼專家大模型的優勢，而不是僅僅蒸餾個別模型的優勢。

此外，本文提出的方法消除了在資料收集過程中對人工參與和私有 LLM 的依賴，可以以極低成本收集高質量、多樣化的訓練資料。

實驗結果表明，WarriorCoder不僅僅是在程式碼生成任務中達到了當前的 SOTA，還在 code reasoning 和 libraries using 等 benchmark 上也取得了卓越的成績，可謂是程式碼六邊形戰士。

方法

本文構建了一個程式碼大模型的競技場。在這裡，最先進的程式碼專家大模型相互對抗，每個模型利用其已經掌握的知識挑戰其他模型，而其餘模型則擔任裁判評估對抗結果。目標模型隨後從這些對抗中的勝者學習，逐步整合所有競爭者的優勢。

本文將參賽者（程式碼專家大模型）視為一個組，透過組內相對優勢答案來最佳化模型，這一點與 GRPO 有著異曲同工之妙。

▲ 圖2

2.1 Competitors Setting

參賽者的能力決定了 WarriorCoder 的最終表現。理論上，從更大、更強的參賽者池中獲得的訓練資料多樣性更強、質量更高，最終訓練出來的模型的效能也就越好。在每一輪競技場中，只有一對程式碼專家被選為競爭者，其他的則作為裁判。

本文從 BigCodeBench 排行榜中選取了五個 75B 以內的先進大模型——Athene-V2-Chat、DeepSeek-Coder-V2-Lite-Instruct、Llama-3.3-70B-Instruct、Qwen2.5-72B-Instruct 和 QwQ-32B-Preview。

值得注意的是，這五個大模型均為開源大模型，WarriorCoder 僅基於這些開源大模型的對抗就得到了優異的效能。當然，WarriorCoder 也能夠從強大的私有大模型中學習。

2.2 Instruction Mining from Scratch

對於一對對手——A 和 B（其中 A 為攻擊者，B 為防守者），對抗的第一步是在 A 擅長的領域挑戰 B，這就需要了解 A 在訓練過程中學到了什麼。然而，幾乎當前所有的開源大模型都未公佈其核心訓練資料，這使得攻擊者擅長的知識變得極為困難。

受 Magpie 的啟發，本文設計了一種基於對話補全的方式來挖掘大模型已掌握的能力。以 Qwen2.5 為例，如果要其生成一個快速排序演算法，則完整的 prompt 格式如圖 3 所示。Prompt 應包括 system content、user content 以及與格式有關的特殊 token，如 “<|im_start|>”、“<|im_end|>”等。

▲ 圖3

而如果僅將字首部分（本身無任何具體意義，如圖 4 所示）輸入模型，利用模型的補全能力就可以得到使用者指令（user content）。

▲ 圖4

透過這種方式，在不同的生成引數配置下（例如不同的溫度值和 top-p 值）就可以收集到模型已經學習到的 instruction 資料。與傳統的資料合成不同，本文收集的 instruction 資料不是由模型合成的，而是直接從模型的分佈中進行取樣得到的，這避免了模式過擬合、輸出分佈偏移等問題。

然而，這些指令可能會重複、有歧義、不清晰或過於簡單。為了解決這些問題，我們對資料進行去重，並採用裁判模型來評估其難度。本文將難度分為四個等級：Excellent、Good、Average、Poor。最終僅使用 Excellent 和 Good 兩個等級的指令，並使用 KcenterGreedy 演算法對 instruction 資料進行進一步的壓縮。