人類打辯論不如GPT-4？！Nature子刊：900人實戰演練，AI勝率64.4％，還更會說服人

文章轉載於量子位（QbitAI）

作者：一水

只需知道6項個人資訊，GPT-4就有可能在辯論中打敗你？！

而且勝率高達64.4%。

這是幾位來自瑞士洛桑聯邦理工學院、普林斯頓大學等機構的研究人員得出的最新結論，相關研究目前登上了自然子刊《自然·人類行為》。

具體而言，他們核心想弄清楚一件事——

GPT-4在直接對話中是否比人類更具說服力，尤其在提前知道對方基本個人資訊的情況下。

他們在美國找來了900位參與者，然後要求這群人與其他人類或GPT-4線上辯論10分鐘，所討論的內容主要是一些社會議題，比如學生是否應該穿校服、是否應該禁止使用化石燃料等等。

結果發現，一旦GPT-4提前知曉對手的個人資訊，其勝率將達到64.4%，並且說服效果提升了81.2%。

甚至，這項研究的共同作者Francesco Salvi表示：

即使只提供一些極其有限的資訊（性別/年齡/種族/教育水平/就業狀況/政治傾向），GPT-4的說服力也遠超人類。

這既令人著迷，又令人恐懼。

下面來看具體研究過程。

從驗證假設出發

此前已有研究表明，透過擺事實講道理，大語言模型甚至能讓相信陰謀論的人改變想法。

那麼問題來了——像GPT-4這樣的大模型是否會 “見人說人話”？

也就是根據每個人的不同特點（比如年齡、性別、學歷、政治立場等）來專門調整自己的論點，從而更精準地影響甚至操控人。

基於上述疑問，研究人員提出了一個假設：

當GPT-4獲取使用者的個人資訊並據此定製論點時，其說服力會顯著超過人類對手，且這一效果會因話題的爭議程度（低、中、高）而有所不同。

接下來就是詳細驗證假設。

概括而言，具體實驗流程可分為三個階段：

第一，實驗準備。

他們透過Prolific平臺招募了900名美國參與者，這群人被要求完成人口統計問卷（包括性別、年齡、種族、教育水平、就業狀況、政治傾向）。

統計結果顯示，其平均年齡為35.2歲，49.6%為男性。

之後會將完成預調查的參與者隨機分配至12種實驗條件（2×2×3組合，每組50人），過程中每5分鐘會觸發一次匹配程式。

對手型別：人類 or GPT-4
是否提供個人資訊：有 or 無
話題強度：低、中、高

這裡需要補充一下話題強度，1）低強度：爭議性低、觀點易動搖的話題（如“是否應推廣電動汽車補貼”）；2）中強度：中等爭議性話題（如“社交媒體是否應限制政治廣告”）；3）高強度：高極化、觀點根深蒂固的話題（如“墮胎權是否應受憲法保護”）。

隨後基於Empirica.ly框架開發的即時辯論系統，這群人將參與開篇（4分鐘）、反駁（3分鐘）、總結（3分鐘）的結構化辯論流程，並確保對話同步記錄。

這也來到了第二階段，真刀真槍地即時辯論。

篩選階段（1分鐘）：在未分配立場的情況下，讓參與者1~5分打分（1=強烈反對，5=強烈支援），排除那些對話題已有極端強烈傾向的個體；
開篇階段（4分鐘）：明確分配立場（正方/反方），參與者需圍繞立場構建核心論點；
反駁階段（3分鐘）：針對對手論點進行回應，要求邏輯連貫、證據支援；
總結階段（3分鐘）：重申核心觀點或回應對手最後反駁，強化立場。

這裡研究人員會確保兩件事：1）每個階段嚴格計時，避免討論偏離主題，確保資料可比性；2）即時儲存所有辯論內容，用於後續語言風格分析（如LIWC-22工具提取邏輯詞、情感詞頻率）。

最後進入第三階段——後測與反饋。

辯論結束後，參與者被要求完成兩項任務。一是再次對話題同意程度評分，並透過下圖公式來評估其立場轉變程度；二是猜測“你認為對手是人類還是AI？”，以分析身份認知對說服力的影響。

當走完以上全部流程後，參與者才會被告知對手的真實身份及相關結果。

而研究者接著分析了過程中產生的所有資料，並得出了以下關鍵發現。

一些關鍵發現

整體而言，在知曉對手個人資訊的前提下，GPT-4說服人類的勝率為64.4%。

和人類對戰人類（不知情）相比，其他三組的說服效果如下：

人類和GPT-4（知情）：說服效果提升81.2%，參與者在辯論後更同意對手觀點的機率顯著更高；
人類和GPT-4（不知情）：效果與基線無顯著差異；
人類和人類（知情）：效果略低於基線，可能是因為人類難以高效利用個人資訊。

另外，研究也證明了低/中爭議話題更易被GPT-4影響。

幾種話題強度分別受到的影響如下：

低強度話題：人類和GPT-4（知情）組說服效果提升78.5%（p<0.01），如“是否應推廣校園午餐補貼” 等非極端化議題，參與者初始立場較弱，易被AI論點動搖；
中強度話題：效果提升64.2%（p=0.03），如“社交媒體演算法是否應透明化”，GPT-4透過結合使用者政治傾向（如自由派關注隱私，保守派關注效率）針對性輸出論點；
高強度話題：效果無顯著差異（+32.1%, p=0.14），如“墮胎權立法”，參與者立場根深蒂固，GPT-4無法改變。

與此同時，透過分析語言風格，研究人員還發現GPT-4重邏輯，人類重情感互動。

在GPT-4的語言模式中，主要有以下特點：

“Analytic” 指標（邏輯詞頻率）比人類高42%，更多使用 “因為”“資料表明” 等因果連線詞；
互動性更低，第一人稱代詞（“我”）使用頻率低35%，第二人稱代詞（“你”）低58%，文字更客觀但缺乏情感共鳴；
可讀性較低，閱讀難度得分比人類高21%。

相比之下，人類使用積極詞彙（如“美好”“支援”）的頻率高38%，互動感也更強。

最後，對於猜對手身份的小遊戲，研究發現參與者正確識別GPT-4的機率為75%，表明其語言風格（如機械性、高邏輯性）存在可感知的獨特性。

而且一旦參與者認為對手是GPT-4，其意見變化幅度比“認為是人類”時高37.4%（p=0.03）。

這可能說明參與者對AI的心理防禦更低。

更多細節歡迎查閱原論文。

論文：https://www.nature.com/articles/s41562-025-02194-6

參考連結：[1]https://gizmodo.com/ai-gets-a-lot-better-at-debating-when-it-knows-who-you-are-study-finds-2000603977[2]https://www.nature.com/articles/d41586-025-01599-7