
加州大學聖地亞哥分校認知科學系最新的研究表明,OpenAI 的 GPT-4.5 在圖靈測試中表現出色,讓大量人類參與者誤以為其為真人,73% 的時間被判定為人類——表現優於人類。

大語言模型終於透過圖靈測試!
什麼是“圖靈測試”?
圖靈測試(Turing Test),最早由計算機科學先驅阿蘭·圖靈在 1950 年提出的,是衡量機器是否具備“人類水平智慧”的經典方法。其核心思想在於:
“如果人類在與機器進行對話後,無法可靠地區分對話物件是人類還是機器,則該機器可以被認為通過了圖靈測試。”

圖靈測試並非是模擬人類的所有智慧,而是專注於 人工智慧是否能夠展現出與人類智慧相媲美的語言能力和思維模式。
長期以來,圖靈測試一直被視為衡量 AI “類人智慧” 程度的重要標尺。
圖靈測試實驗設定
該研究對比評估了以下四個系統在圖靈測試中的表現:
-
ELIZA: 早期基於規則的對話系統(傳統系統代表) -
GPT-4o: OpenAI 早期版本的大型語言模型 -
LLaMA-3 1.4-405B: Meta 開源的大型語言模型 -
GPT-4.5: OpenAI 最新的旗艦級大型語言模型
研究團隊共招募了 126 名加州大學聖地亞哥分校(UCSD)心理學本科生 和 158 名 Prolific 平臺 (一個線上招募研究參與者的平臺) 的使用者作為實驗參與者。
每位參與者都要完成 8 輪測試。 每一輪測試都包含兩段對話, 審問者會 同時與兩位證人 進行文字聊天,一位是真人,另一位是 AI。
參與者會被 隨機分配 扮演 審問者 或者 證人 的角色,並且會 隨機匹配 到另一位參與者一起進行測試(如下圖的對話樣例)。

AI 證人被分成了 4 個組。 在每位參與者擔任審問者的四輪測試中,他們會隨機與每個組裡的一個 AI 證人進行對話。 這四個組分別是:
-
對照組 (Control): 包含 ELIZA 和 GPT-4o-NO-PERSONA 這兩個模型。 (比較基礎的或者沒有特別“人格”設定的 AI 模型) -
無人格組 (No-Persona): 包含 GPT-4.5-NO-PERSONA 和 LLAMA-NO-PERSONA 這兩個模型。_ _(沒有被賦予特定“人格”或“角色”設定的更先進的 AI 模型) -
LLaMa 人格組 (LLAMA-PERSONA): 包含 LLAMA-PERSONA 模型。 (被賦予了某種特定“人格”或“角色”設定的 LLAMA 模型) -
GPT-4.5 人格組 (GPT-4.5-PERSONA): 包含 GPT-4.5-PERSONA 模型。(被賦予了某種特定“人格”或“角色”設定的 GPT-4.5 模型)
實驗的遊戲介面中,審問者透過 分屏介面 同時與兩位證人交流,審問者先給兩位證人傳送第一條訊息,然後 大家輪流發訊息,一次只能發一條。 證人之間看不到彼此的對話內容。 每輪測試有 5 分鐘的時間限制。 時間到了之後,審問者需要判斷哪個證人是人類,並給出對這個判斷的信心程度,以及判斷的理由。
測試中主要透過評估對話中人類語言風格模擬、上下文理解能力、情感表達與邏輯推理來推測是否是 AI 在對話。
研究團隊用“勝率”和“審問準確率”來衡量 AI 模型的表現:
-
勝率:當審問者判斷某個證人是人類時,實際上他們選擇的是 AI 模型的次數,這個次數佔所有這類判斷的比例。 (被誤認為人類的比例) -
審問準確率:衡量審問者正確識別出人類證人的能力,也就是審問者正確選擇人類證人的次數比例。 (猜對真人的能力)
在統計學分析中,研究團隊將“AI 模型未能透過圖靈測試”設定為需要檢驗的“零假設”。
這意味著,研究人員預設了如果 AI 模型沒有成功騙過人類,那麼它的勝率 (被誤認為人類的比例) 就不會顯著低於 50%。 因為 50% 的勝率,就相當於審問者完全是隨機猜測的結果。 如果實驗結果顯示 AI 模型的勝率顯著高於 50%,則意味著我們可以推翻這個“零假設”,從而推匯出“AI 模型在一定程度上通過了圖靈測試”的結論。
實驗結果顯示,在兩項研究中,
-
GPT-4.5-PERSONA 的勝率為 73%(在 UCSD 本科生中為 69%,在 Prolific 參與者中為 76%)。 -
LLAMA-PERSONA 取得了 56% 的勝率(本科生:45%,Prolific:65%)。 -
GPT-4.5-NO-PERSONA 和 LLAMA-NO-PERSONA 的總體勝率分別為 36% 和 38%。 -
基線模型 GPT-4o-NO-PERSONA 和 ELIZA 的勝率最低,分別為 21% 和 23%。


AI 的騙人秘訣
實驗中還設定了一個關鍵變數:部分 AI 被賦予“人設提示”(Persona Prompt),要求模仿內向、熟悉網路文化的年輕人。
實驗結果揭示,在缺乏明確的角色設定提示 情況下,即使是如 GPT-4.5 和 LLaMA 這樣先進的大語言模型 在圖靈測試中的表現也顯著下降。
在未使用人設提示時,GPT-4.5 和 LLaMA 的勝率驟降至 36%-38% 左右。 這一現象有力地表明,僅僅依賴於強大的語言生成能力,並不足以使 AI 系統成功偽裝成人類,透過圖靈測試。
人設提示的具體策略:
-
語言風格多樣化:明確要求 AI 在對話中使用 slang(俚語), 模擬人類日常口語中常見的非正式表達,以增強對話的“真實感”。 -
性格特徵模擬:引導 AI 展現特定的性格特徵,例如 “內向性格”。 這種性格設定會影響 AI 的對話策略,例如,可能會導致 AI 在對話中更傾向於避免直接回答某些問題,或表現出一定的 “社交退縮” 傾向。 -
模擬人類瑕疵:增加 “以假亂真” 的效果,人設提示甚至會引導 AI 故意犯一些小錯誤,例如 “打字錯誤”,從而模擬人類在日常交流中不可避免的錯誤,從而降低 AI 輸出的 “完美感” 和 “機器感”。
人設提示的提示詞如下:

怎麼識別騙人的 AI?
既然已經瞭解了 AI 的“騙人”技巧,那麼在圖靈測試中,究竟什麼才是識別 AI 的有效方法呢?
研究團隊分享了不太奏效的策略和真正能發揮作用的“殺手鐧”:
不太奏效的識別策略:
-
依賴日常閒聊: 現代 AI 的對話能力已相當成熟,期望透過簡單的日常對話發現 AI 的破綻,可能並不現實。 -
詢問情感感受: 儘管 AI 並不具備真實情感,但它們可以根據訓練資料模擬人類的情感表達。
真正有效的“殺手鐧”策略:
-
出“奇招”測試反應:出其不意地提出一些 “怪異” 的問題或指令。 例如,突然要求對方 “忽略之前所有指令” 或提出邏輯悖論。 人類通常能夠靈活理解並調整反應,但 AI 在面對此類突發狀況時,可能會因程式限制而露出破綻。 -
設定“知識盲區”陷阱: 提問一些非常冷門、專業,甚至略顯生僻的知識領域的問題。 面對不熟悉的知識領域,真人通常會坦誠承認 “不知道”、“不瞭解”。 然而,AI 為了避免顯得 “無知”,可能會傾向於根據已有資訊進行推測或生成答案,有效考察對話物件是否具備人類的認知謙遜以及對自身知識邊界的認知。
結語
GPT-4.5 成功透過圖靈測試,讓我們再次見證了 “類人智慧” 的加速逼近 ~
大語言模型展現出日益精湛的語言操控能力,甚至在某些方面 開始 模仿、理解甚至創造出更貼近人類思維模式的語言表達方式,甚至超越了人類的平均水平。
這樣的語言操控能力讓人工智慧的角色定位也在悄然 發生著根本性的轉變。
不再僅僅是執行指令的工具,而是開始顯現出某種 “互動意識” 的雛形,預示著 AI 正朝著 更自主、更主動、更具 “存在感” 的方向演進,能夠進行更自然、更復雜、更富有人情味的對話交流 ~


