

今天要揭秘LLM裁判界的"黑幕"——偏好洩露!想象一下,如果足球比賽的裁判是某支球隊的親戚,這比賽還怎麼公平?LLM世界也上演著同樣的劇情:當資料生成模型和評估模型是"一家人"時,AI裁判會偷偷給"自家孩子"打高分!這篇論文不僅給這種"學術裙帶關係"起了個學名Preference Leakage,還開發了"測偏儀"(PLS分數),把AI裁判的偏心指數扒得明明白白!
論文:Preference Leakage: A Contamination Problem in LLM-as-a-judge連結:https://arxiv.org/pdf/2502.01534?專案:https://github.com/David-Li0406/Preference-Leakage本文標題借鑑 格魯AI@xhs

方法
-
自產自銷型:同一個模型既當資料工廠又當裁判,堪稱"我為自己代言"的終極版 -
師徒傳承型:學生模型吃著老師模型做的資料長大,裁判卻是老師本人——這打分能客觀? -
家族企業型:資料工廠和裁判同屬GPT或LLaMA家族,像極了親戚公司互相標榜

(左邊是傳統資料洩露,右邊是新型偏好洩露,中間三個"親密關係"示意圖萌到犯規!)
為了量化這種偏心,作者發明了偏好洩露分數(PLS),計算公式堪比"偏心指數計算器":
PLS = (自家孩子勝率 – 平均勝率)的憂傷 + (別人家孩子勝率 – 平均勝率)的快樂 ÷ 2
簡單說就是:裁判給自家孩子打分越離譜,PLS分數越高!
實驗
為了坐實AI裁判的"偏心罪證",作者做了很充分的實驗:
實驗一:偏心實錘!
讓GPT-4、Gemini、LLaMA三大裁判分別給"自家孩子"和"別人家孩子"打分,結果驚人:
-
GPT-4裁判給自家學生打call時,勝率直接飆升10%+,彷彿在說:"我的學生就是最棒的!" -
Gemini裁判偏心指數爆表,給自家孩子的分數像坐火箭,差點突破40%大關

(柱狀圖裡Gemini的藍色柱子一柱擎天,把其他模型壓成小矮人)

(折線圖顯示AlpacaEval資料集上,自家孩子曲線始終碾壓對手)
實驗二:偏心程度段位賽!
發現三大"偏心潛規則":
-
血緣越近越偏心:同一模型 > 師徒關係 > 同家族,像極了人類社會的親疏有別 -
學霸更容易被偏愛:70億引數的Mistral被偏心率只有23%,而140億引數的Qwen直接飆到28%——原來AI裁判也愛"聰明孩子" -
資料越純越偏心:當訓練資料100%來自"自家食譜"時,PLS分數直接拉滿,像極了只吃媽媽做的飯的挑食寶寶

合成數據比例與PLS分數完美正相關,像股票大漲的K線圖

不同親密關係下的PLS分數對比
實驗三:偏心偵探社!
發現兩大反常識現象:
-
AI裁判其實是臉盲:BERT分類器能82%準確認出"自家孩子",但GPT-4裁判自己卻只有60%準確率,堪稱"最熟悉的陌生人" -
主觀題是偏心重災區:在程式設計、寫作等開放式問題中,PLS分數比數學題高2倍,說明AI裁判在"送分題"上容易放水

主觀題區域的PLS分數

BERT分類器的識別準確率吊打LLM裁判
結論
這篇論文像AI世界的《焦點訪談》(還真實…),曝光了LLM評估體系的"關係戶"問題:
-
偏心無處不在:從GPT家族到LLaMA家族,沒有哪個模型能逃過"護犢子"本能 -
越聰明越危險:大模型更容易繼承裁判的偏好,像學霸反而更容易獲得老師偏愛 -
主觀題是重災區:開放式問題就像沒有標準答案的作文題,給了AI裁判"暗箱操作"的空間
作者最後發出靈魂警告:再不解決偏好洩露,LLM評估就要變成"家族榮譽戰"了。
技術交流群邀請函
△長按新增小助手
掃描二維碼新增小助手微信
請備註:姓名-學校/公司-研究方向
(如:小張-哈工大-對話系統)
即可申請加入自然語言處理/Pytorch等技術交流群
關於我們
MLNLP 社群是由國內外機器學習與自然語言處理學者聯合構建的民間學術社群,目前已經發展為國內外知名的機器學習與自然語言處理社群,旨在促進機器學習,自然語言處理學術界、產業界和廣大愛好者之間的進步。
社群可以為相關從業者的深造、就業及研究等方面提供開放交流平臺。歡迎大家關注和加入我們。

掃描二維碼新增小助手微信
關於我們
