
文章轉載於量子位(QbitAI)
作者:一水
只需知道6項個人資訊,GPT-4就有可能在辯論中打敗你?!
而且勝率高達64.4%。

這是幾位來自瑞士洛桑聯邦理工學院、普林斯頓大學等機構的研究人員得出的最新結論,相關研究目前登上了自然子刊《自然·人類行為》。

具體而言,他們核心想弄清楚一件事——
GPT-4在直接對話中是否比人類更具說服力,尤其在提前知道對方基本個人資訊的情況下。
他們在美國找來了900位參與者,然後要求這群人與其他人類或GPT-4線上辯論10分鐘,所討論的內容主要是一些社會議題,比如學生是否應該穿校服、是否應該禁止使用化石燃料等等。
結果發現,一旦GPT-4提前知曉對手的個人資訊,其勝率將達到64.4%,並且說服效果提升了81.2%。
甚至,這項研究的共同作者Francesco Salvi表示:
即使只提供一些極其有限的資訊(性別/年齡/種族/教育水平/就業狀況/政治傾向),GPT-4的說服力也遠超人類。這既令人著迷,又令人恐懼。
下面來看具體研究過程。
1
從驗證假設出發
此前已有研究表明,透過擺事實講道理,大語言模型甚至能讓相信陰謀論的人改變想法。

那麼問題來了——像GPT-4這樣的大模型是否會 “見人說人話”?
也就是根據每個人的不同特點(比如年齡、性別、學歷、政治立場等)來專門調整自己的論點,從而更精準地影響甚至操控人。
基於上述疑問,研究人員提出了一個假設:
當GPT-4獲取使用者的個人資訊並據此定製論點時,其說服力會顯著超過人類對手,且這一效果會因話題的爭議程度(低、中、高)而有所不同。
接下來就是詳細驗證假設。
概括而言,具體實驗流程可分為三個階段:

第一,實驗準備。
他們透過Prolific平臺招募了900名美國參與者,這群人被要求完成人口統計問卷(包括性別、年齡、種族、教育水平、就業狀況、政治傾向)。
統計結果顯示,其平均年齡為35.2歲,49.6%為男性。
之後會將完成預調查的參與者隨機分配至12種實驗條件(2×2×3組合,每組50人),過程中每5分鐘會觸發一次匹配程式。
-
對手型別:人類 or GPT-4 -
是否提供個人資訊:有 or 無 -
話題強度:低、中、高
這裡需要補充一下話題強度,1)低強度:爭議性低、觀點易動搖的話題(如“是否應推廣電動汽車補貼”);2)中強度:中等爭議性話題(如“社交媒體是否應限制政治廣告”);3)高強度:高極化、觀點根深蒂固的話題(如“墮胎權是否應受憲法保護”)。
隨後基於Empirica.ly框架開發的即時辯論系統,這群人將參與開篇(4分鐘)、反駁(3分鐘)、總結(3分鐘)的結構化辯論流程,並確保對話同步記錄。
這也來到了第二階段,真刀真槍地即時辯論。
-
篩選階段(1分鐘):在未分配立場的情況下,讓參與者1~5分打分(1=強烈反對,5=強烈支援),排除那些對話題已有極端強烈傾向的個體; -
開篇階段(4分鐘):明確分配立場(正方/反方),參與者需圍繞立場構建核心論點; -
反駁階段(3分鐘):針對對手論點進行回應,要求邏輯連貫、證據支援; -
總結階段(3分鐘):重申核心觀點或回應對手最後反駁,強化立場。
這裡研究人員會確保兩件事:1)每個階段嚴格計時,避免討論偏離主題,確保資料可比性;2)即時儲存所有辯論內容,用於後續語言風格分析(如LIWC-22工具提取邏輯詞、情感詞頻率)。
最後進入第三階段——後測與反饋。
辯論結束後,參與者被要求完成兩項任務。一是再次對話題同意程度評分,並透過下圖公式來評估其立場轉變程度;二是猜測“你認為對手是人類還是AI?”,以分析身份認知對說服力的影響。

當走完以上全部流程後,參與者才會被告知對手的真實身份及相關結果。
而研究者接著分析了過程中產生的所有資料,並得出了以下關鍵發現。
1
一些關鍵發現
整體而言,在知曉對手個人資訊的前提下,GPT-4說服人類的勝率為64.4%。
和人類對戰人類(不知情)相比,其他三組的說服效果如下:
-
人類和GPT-4(知情):說服效果提升81.2%,參與者在辯論後更同意對手觀點的機率顯著更高; -
人類和GPT-4(不知情):效果與基線無顯著差異; -
人類和人類(知情):效果略低於基線,可能是因為人類難以高效利用個人資訊。

另外,研究也證明了低/中爭議話題更易被GPT-4影響。
幾種話題強度分別受到的影響如下:
-
低強度話題:人類和GPT-4(知情)組說服效果提升78.5%(p<0.01),如“是否應推廣校園午餐補貼” 等非極端化議題,參與者初始立場較弱,易被AI論點動搖;
-
中強度話題:效果提升64.2%(p=0.03),如“社交媒體演算法是否應透明化”,GPT-4透過結合使用者政治傾向(如自由派關注隱私,保守派關注效率)針對性輸出論點;
-
高強度話題:效果無顯著差異(+32.1%, p=0.14),如“墮胎權立法”,參與者立場根深蒂固,GPT-4無法改變。

與此同時,透過分析語言風格,研究人員還發現GPT-4重邏輯,人類重情感互動。
在GPT-4的語言模式中,主要有以下特點:
-
“Analytic” 指標(邏輯詞頻率)比人類高42%,更多使用 “因為”“資料表明” 等因果連線詞; -
互動性更低,第一人稱代詞(“我”)使用頻率低35%,第二人稱代詞(“你”)低58%,文字更客觀但缺乏情感共鳴; -
可讀性較低,閱讀難度得分比人類高21%。
相比之下,人類使用積極詞彙(如“美好”“支援”)的頻率高38%,互動感也更強。

最後,對於猜對手身份的小遊戲,研究發現參與者正確識別GPT-4的機率為75%,表明其語言風格(如機械性、高邏輯性)存在可感知的獨特性。
而且一旦參與者認為對手是GPT-4,其意見變化幅度比“認為是人類”時高37.4%(p=0.03)。
這可能說明參與者對AI的心理防禦更低。

更多細節歡迎查閱原論文。
論文:https://www.nature.com/articles/s41562-025-02194-6
參考連結:[1]https://gizmodo.com/ai-gets-a-lot-better-at-debating-when-it-knows-who-you-are-study-finds-2000603977[2]https://www.nature.com/articles/d41586-025-01599-7