新智元報道
新智元報道
編輯:peter東 喬楊
【新智元導讀】近日,Meta等機構發表的論文介紹了一種透過進化演算法構造高質量資料集的方法:拒絕指令偏好(RIP),得到了Yann LeCun的轉贊。相比未經過濾的資料,使用RIP構建的資料集讓模型在多個基準測試中都實現了顯著提升。
在LLM的開發中,推動模型進步的主要驅動力是精心挑選高質量的訓練示例。雖然Scaling Law的確能實現「力大磚飛」,但僅僅增加資料量並不能保證模型效能的提升,資料的質量才是關鍵。低質量的資料可能會引入噪聲,影響模型的訓練效果。
那麼,有什麼方法能自動篩選出,甚至是自動創建出高質量又兼具多樣性的資料集?
最近,Meta、UC伯克利、NYU等機構的學者提出了一種最新方法,簡稱RIP,讓低質量資料「一路走好」的同時,也是在暗示——只有成功存活下來的資料才是高質量的資料。
論文地址:https://arxiv.org/abs/2501.18578
受到進化演算法的啟發,RIP在Alpacaeval2、Arena-Hard、Wildbench等多個有影響力的基準上實現了大幅提升,獲得了LeCun的轉贊。

RIP方法概述
拒絕指令偏好(RIP)的基礎是兩個核心假設。
第一個假設是,低質量prompt很可能產生低質量響應。具體來說,那些意義不明確、模糊或包含衝突資訊的提示詞,很可能導致嘈雜或不準確的模型響應。這些提示詞不應該作為之後用於指令微調(SFT)的訓練資料。
第二個假設是,低質量prompt很可能產生具有更大差異的響應。
低質量prompt會引入不確定性和模糊性,可能存在多種解釋,因此LLM可能會猜測或填補提示詞中的空白,這導致多次響應之間的差異性更高。雖然其中一些響應可能與prompt的原始意圖一致,但其他響應可能顯著偏離。
從這一點上進行逆向思考,我們就可以將模型多次響應的方差視為評估提示詞質量的指標。方差越小,表明提示詞的質量更高。
基於上述兩個假設,RIP方法就可以測量被拒絕的響應質量(下圖m_1),以及被選擇和被拒絕的響應之間的獎勵差距(reward gap,下圖m_3),從而評估資料的完整性。

上圖中定義的3個關鍵指標分別有如下含義:
m_1:被拒絕響應的的質量。
m_2:被拒絕響應的長度,較長的被拒絕響應可能意味著提示更復雜或更模糊。
m_3:被選擇與被拒絕響應之間的獎勵差距,較小的差距可能表明提示更清晰、更具體。
基於這種方法,RIP可以用於篩選、構建高質量資料集。給定一組提示詞X={x} ,RIP旨在找到一個子集S⊆X ,S可用於微調大模型ℳ。
RIP如同設定一個優勝劣汰的提示詞鬥獸場,提示詞對應的響應要麼獲勝(被選擇),要麼失敗(被拒絕)。響應對及其獎勵可以來自人類偏好資料,也可以由模型本身ℳ生成,然後使用其它大模型進行評分。
除了過濾現有訓練集,RIP也可以用於構建高質量合成數據集。
用於生成合成資料時,首先篩選出一組高質量的提示作為種子池,然後使用這些種子提示詞作為少量樣本,引導模型生成新的提示詞。
這些新生成的提示詞可以進一步透過RIP進行篩選,以確保合成數據的質量,這種方法被稱為Self-RIP。
實驗結果與分析
RIP在多個實驗中都取得了顯著的效能提升,尤其是在人類編寫的提示上,表現出了顯著的優勢。
例如,在包含超過25萬條人工編寫提示詞的WildChat資料集上,透過Llama 3.1-405B-Instruct評估響應的質量,為每個回答需進行 10 次獨立評估,每次給出0到10分的評分,並使用平均分作為最終獎勵。
如下表所示,RIP只需要不到一半的訓練樣本,就能在多個指標上實現顯著提升。

使用RIP過濾出高質量的提示詞後,RIP顯著提高了Llama3.1-8B-Instruct DPO基線的效能。
在更大引數的模型上,RIP同樣有效。過濾顯著提升了Llama 3.3-70B-Instruct模型的效能,AlpacaEval2 LC勝率從38.9提升至67.7,Arena Hard從67.5提升至82.9,WildBench從52.8提升至58.8。

這些結果表明,RIP能夠有效地篩選出高質量的提示,從而提升模型的效能。
應Self-RIP方法 ,基於少樣本生成而不進行後過濾得到20k大小的資料集,可以讓模型在AlpacaEval2上的LC勝率從 48.4%提高到53.6%,Arena-Hard勝率從37.9%提高到43.7%,以及在WildBench上的WB-Score從41.5提高到44.8。這進一步說明了在高質量指令上訓練的重要性。

當應用完整的Self-RIP方法並使用後過濾(post-filtering)時,訓練效果進一步改善,實現了最佳的AlpacaEval2 LC勝率60.2%。
RIP在與其他篩選方法的比較中也表現出色。與基於提示的篩選方法(如InsTag Diversity/Difficulty Filtering)相比,RIP在所有基準測試中都取得了更高的分數。
此外,與基於提示和選擇響應的篩選方法(如PPL和IFD)相比,RIP也表現出更好的效能。這些結果表明,RIP在篩選提示時考慮了更多的因素,從而能夠更準確地評估提示的質量。

圖1:不同訓練資料大小下,使用RIP及self-RIP之後的模型訓練效果提升。
總體來看,RIP借鑑進化演算法,為LLM的訓練提供了一種簡單卻新穎的思路。相比人類編寫的和模型生成的提示詞,使用RIP過濾後的提示詞集合,在進行指令微調後,模型效能有顯著提升。
未來的研究可以在此基礎上進行進一步的探索和改進。例如,可以研究如何最佳化評估模型,以提高其對響應質量的評估準確性;可以探索如何降低RIP方法的計算成本,使其更適合大規模資料的處理;還可以研究進行安全性評估——探索使用RIP進行安全性過濾,在現有系統中構建專門用於安全性的獎勵模型。
參考資料:
https://arxiv.org/abs/2501.18578
https://x.com/jaseweston/status/1885160135053459934


