又遇到「GPT寫的review」了？看看北大&密歇根的這個研究工作

AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年，機器之心AIxiv專欄接收報道了2000多篇內容，覆蓋全球各大高校與企業的頂級實驗室，有效促進了學術交流與傳播。如果您有優秀的工作想要分享，歡迎投稿或者聯絡報道。投稿郵箱：[email protected]；[email protected]

本文是對發表在計算經濟學頂級會議ACM Conference on Economics and Computation (EC'24)上的論文Eliciting Informative Text Evaluations with Large Language Models的解讀。該論文由北京大學前沿計算研究中心孔雨晴課題組與密歇根大學Grant Schoenenbeck課題組合作完成，共同一作為北京大學計算機學院博士生陸宇暄和密歇根大學博士生許晟偉。

論文連結：https://arxiv.org/abs/2405.15077

現場交流 Oral at EC’24：

Yale School of Management, New Haven, Room 2400

Wednesday, July 10. 14:30–16:00 (EDT)

介紹

你遇到過“ChatGPT”味道十足的審稿意見嗎？質量如何呢？

低質量的審稿是一直讓研究者頭疼的事情。大語言模型（LLMs）的流行給審稿質量帶來轉機了嗎？

不妨看看下面這兩個例子，你能夠分辨其中哪個是由ChatGPT-4o生成的嗎？

例1:

… The paper is engaging and addresses a highly pertinent issue: information elicitation in the context of Large Language Models (LLMs). The concept of computing conditional probability using an LLM is both elegant and innovative. …

… A primary concern is the robustness of the method used to estimate conditional probability with an LLM, which may require additional experimentation and methodological refinement to ensure reliability and applicability across diverse scenarios. …

例2:

… The paper presents a novel application of LLMs to enhance peer prediction mechanisms, which is a significant step forward from traditional methods that focus on simpler report types. …

… While the mechanisms are theoretically sound, their practical implementation, especially in real-world settings with diverse and complex textual inputs, might pose significant challenges. …

當你仔細品讀這兩個例子的語法使用和遣詞造句後，不知道有沒有分辨出來二者之間的區別。

現在公佈答案：第一個例子為人類審稿人撰寫，而第二個例子則是由ChatGPT-4o生成的。

可以看出來，GPT-4o的審稿意見“看起來不錯”，但指出的問題往往是泛泛而談，這種“challenge in real-world settings”的問題對99%的研究都是適用的，而人類審稿人的意見則更加具體和實際。

即使目前大模型的能力在不斷增強，若干研究也已經探索了使用大模型輔助生成論文審稿意見的可能；但不可否認的是，大模型使得生成低質量審稿意見的成本變得無限低，這也讓學術界對濫用大模型生成低質量審稿意見感到擔憂。

如何激勵審稿人提供高質量的審稿意見呢？

粗暴的使用大模型檢測工具往往是不可取的，因為合理的運用大模型可以為非英語母語的審稿人提供必要的語言支援。而且隨著大模型的進化，當他能夠提供合理質量的審稿時，並不應當完全排斥大模型的使用。

問題的關鍵是，意見本身應當是高質量的，具有建設性和批判性的，而不是語言是如何表達的。

方法概述

來自北京大學和密歇根大學的研究者提出了兩種機制，Generative Peer Prediction Mechanism (GPPM) 和 Generative Synopsis Peer Prediction Mechanism (GSPPM)，使得高質量的彙報能夠取得（期望意義上）更高的評分。

GPPM的靈感來自於夏農互資訊（Mutual Information），假設有兩個審稿人Alice和Bob，Alice的分數是，Alice的審稿意見

能提供多少關於Bob的審稿意見

的資訊。
在此基礎上，GSPPM試圖過濾掉審稿意見中的無效資訊，例如對論文內容的概括。

方法的核心在於如何衡量Alice對於Bob意見的資訊量。研究者推廣了Peer Prediction Mechanism [Miller et al., 2004]，提出了使用LLM來估計

，作為Alice的分數。

研究團隊提出了兩種估計方法，TOKEN和JUDGMENT：

其中，

TOKEN利用了LLM predict next token的能力。值得注意的是，利用大模型將文字報告預處理成統一的格式非常重要，這避免了不同語言風格和用詞習慣帶來的噪聲等影響，研究者稱這一方法為Token-Preprocess。
JUDGMENT提供了一種在只有Chatbot API情況下的解決方案。如上圖所示，帶有文字預處理的TOKEN實現表現整體好於JUDGMENT實現。

實驗結果

1. GPPM和GSPPM是否有能力區分出人類審稿意見和LLM生成的審稿意見？

在ICLR 2020 OpenReview資料集上，研究者隨機選出300篇論文，對每篇論文隨機指定一對Alice和Bob，然後他們將Alice的審稿意見替換為LLM（GPT-4或GPT-3.5）生成的審稿意見，觀察Alice的分數是否顯著下降。

實驗發現，在兩種機制下，分數下降都非常顯著，而且GPT-3.5生成的審稿造成的分數下降比GPT-4更加顯著。從而顯示出三種質量等級，從高到低依次是人類，GPT-4，GPT-3.5，符合預期。

同時，GSPPM的分數顯著性更高，這是由於GSPPM進一步降低了由論文概括等與意見無關的資訊帶來的噪聲等影響，從而突出了審稿意見質量帶來的差異。

2. 不同估值方法是否能檢測低質量的評論意見？

與審稿類似的文字評價在網際網路經濟（例如餐廳點評，商品評價），線上課堂（例如同伴互評）等場景被廣泛應用，它們都可能會遇到低質量報告帶來的問題。因此，研究團隊還分別在Yelp餐廳點評資料集和ICLR2020 OpenReview資料集，實驗了人為降低文字評價質量是否會帶來顯著的分數下降，答案是肯定的。我們發現Token-Preprocess檢測低質量評論的能力最顯著。