“AI幻覺”：一場人機之間的認知博弈

夾雜著虛構與偏差的資訊，悄然走進人們的生活，普通使用者難以分辨螢幕另一端是引經據典的專業資料還是AI幻覺，這種信任危機正在醫療諮詢、法律解讀等專業領域形成裂痕。

文丨新京報記者 鹹運禎

編輯 丨陳曉舒

校對 丨楊利

►本文6376字 閱讀10分鐘

2月26日，北京大學第三醫院的心內科診室裡，兩種治療方案在診臺上對峙：左側是心內科大夫汪京嘉開出的一份用於治療高血脂的醫囑，右側是人工智慧軟體生成的處方。

這天，汪京嘉如常出診，呼叫鈴響三聲後，一位60歲老人姍姍來遲。“145/90mmHg，低密度脂蛋白3.8mmol/L，無糖尿病。”檢查報告顯示，老人屬於輕度血脂異常，依據醫療診斷，汪京嘉醫生將口服藥處方遞給老人。

“汪大夫，您給開的口服藥太溫和，AI建議注射瑞百安，說是降脂快。”

診室陷入短暫沉默，空氣清淨機的嗡鳴聲逐漸清晰。汪京順用手指點了點報告：“他汀類藥物對肝臟負擔更小，您的報告顯示轉氨酶偏高。”他停頓了兩秒，告訴患者注射劑可能加重肝臟代謝負擔。

爭論持續了十分鐘。老人從AI上得到的建議是，注射類藥物短期耐受性良好，而且僅需隔週注射一次，比每日服用藥物方便許多。但在汪京嘉看來，對於老年高血脂高血壓的病人，一切以維穩為主，他汀類口服藥物已有超過30年的臨床應用歷史，副作用發生率低，符合循證醫學的“最小有效干預”原則，可避免過度醫療。

這場“爭論”最終以老人的沉默落下帷幕。他扶了扶眼鏡，應了聲“哦”，關掉手機，把紙質處方插進口袋。走廊叫號屏顯示，下一位患者已等候8分鐘，這比平均問診時間多了三分之一。

不止在醫療界，類似的認知拉鋸正在全球上演。

2025年初，各類大模型開放，AI的興起改變了人們的日常生活。作家藉助演算法最佳化詩句結構，養生愛好者用AI定製健康食譜，失眠者深夜與AI對話疏解焦慮。股民們甚至樂此不疲地解讀著AI生成的各類理財建議。

在公眾對生成式大模型日益依賴的程序中，偏差開始浮現。看似無所不能的智慧助手，時常會像模像樣地“編故事”。當用戶查詢歷史細節時，AI可能會將不同朝代的典章制度混雜交錯；求醫者收到的診療方案中，藏著多年前已被世衛組織廢止的藥劑配比……在知識邊界外，演算法用看似完美的邏輯鏈條編織著答案。

自此，人們開始重新校準與科技的聯結。

北醫三院心內科診室，汪京嘉正在看診。受訪者供圖

AI依賴症

北京望京，一棟寫字樓的16層，證券分析師小宋的工位上有三塊曲面顯示屏，上面終日流淌著資料瀑布。2023年6月開始，他使用AI軟體chatGPT作為工作助手。“瞬析上百份財報、一分鐘生成深度報告，人肯定是做不到。”小宋覺得，chatGPT能很快做出反應並處理問題，讓他的報告產出效率躍升。

當其他同事還在手動整理全國幾十家半導體企業財報時，AI已經幫他抓取了關鍵引數，“某半導體集團的資本開支資料、驅動晶片佔全球市場的份額、全球半導體銷售額……”小宋的手指反覆在鍵盤上跳躍，這些複雜的資料在短短30秒內被製成了一張圖表。

公司內部的一場電話會中，輪到小宋做會議紀要，chatGPT的即時語音轉錄功能不僅將領導含糊的浙江普通話精準轉換成了文字，會後小宋核對錄音，連專業財務詞彙和資料資訊都分毫不差。

小宋沉浸在一種AI帶來的時間紅利中。曾經需要通宵解析的市場波動，現在只需要一杯茶的工夫，就變成了電腦螢幕裡跳動的機率曲線，這些由AI演算法托起的輕舟，載著他穿越資訊的洪流。

類似的感受，王賀也有。

他是北京一家網路安全公司的產品研發工程師，像是數字世界的“安全鎖匠”，王賀每天的工作，是在電腦前設計各類防毒軟體和防火牆，不斷模擬駭客攻擊來測試這些防護系統的漏洞，直到確認沒有任何非法闖入的途徑。

從前，王賀要像“撿豆子”一樣逐行審查程式碼找漏洞，通宵篩查警報程式碼早就變成了常態，長時間的高負荷工作，讓他覺得身上像是綁上了時鐘，永遠停不下來。

這樣的狀態因為AI的接入，發生了微妙的遷移，密密麻麻的日程表上，突然多出了一些空白格。

去年，王賀所在的團隊正式將AI應用到工作中，在自動化滲透測試中，AI能模擬駭客攻擊行為，透過自動檢測工具和機器學習演算法，快速發現系統中的漏洞和弱點，並提出有效的修復建議。

“就像打仗的時候，士兵不再拼刺刀，但需要更高維的戰術指揮能力。”王賀覺得，他的時間不再消耗在顯微鏡式的漏洞追蹤上，轉而可以聚焦於設計防禦演算法上。

AI可以自動生成百萬級測試用例，3秒定位某金融APP支付介面的越權漏洞，而同樣的工作，人工測試則需4小時。他粗略地計算過，人工智慧系統的接入，相比傳統運維效率提升了20%。

這種資訊狩獵方式的革新，也正在重塑財經記者崔其的工作。

3月3日晚上8點，崔其正在對DeepSeek話框中輸入第6次修改指令：“篩選近一年融資超1000萬的科技企業，關聯創始人減持記錄和訴訟資料。”這是他使用人工智慧程式尋找選題的第32天。

崔其逐漸摸索出一套與AI協作的工作法則，“AI可透過資料分析得出近期最受關注的話題是什麼，再將熱點資訊與所在行業結合，一些還不錯的選題就出來了。”啟動AI程式，變成他每天上班第一件要做的事，演算法生成全網聲量最高的熱詞，這些熱點資訊投射到行業知識圖譜上，變成若干選題。

AI賦予了崔其一種快速的資料洞察力，他總能利用AI給出的熱點詞，在紛雜的資訊汪洋裡錨定座標，將大眾關切的話題與專業洞見梳理成一篇又一篇爆款文章。

chatGPT對話頁面。圖源 ic photo

AI幻覺“陷阱”

這個月，小宋第四次捕捉到AI的錯誤。

小宋記得，撰寫行業報告前，他想在AI上收集一些有效資料，chatGPT為他生成了一份《儲存晶片行業Q1預測》：“三星電子將在西安擴產”“臺積電產能釋放帶動需求，某電子元件公司預計營收增長22.3%”……

大量的資訊正以每秒三行的速度出現在深藍色曲面屏上，檢索過一輪之後，小宋意識到，這些快速生成的資料和資訊並不真實。“本來還覺得很有道理、很專業，AI給出的資料裡甚至還附上了開發區管委會的紅標頭檔案編號，但仔細一查，根本就沒有這個東西。”

所謂AI幻覺，通常是指大語言模型生成的內容無意義、不符合事實、邏輯自相矛盾，甚至完全不準確的輸出。去年8月，一家叫Arthur AI的人工智慧公司釋出了一份報告，比較了OpenAI、Meta、Anthropic以及Cohere公司開發的大語言模型出現幻覺的機率。結果顯示，這些大模型都會產生幻覺。

中國信通院人工智慧研究所副所長巫彤寧在接受新京報採訪時，用生活化類比解釋了AI幻覺的成因，“就像一個人雖然能流利地說話，但並不一定每句話都符合事實。”他介紹，AI本質上是根據前文預測最可能出現的詞語，它更像是一個沉浸在語料庫海洋中學習說話的學習者，它不是在查詢答案，而是在預測下一個要說的最合理的詞應該是什麼。

巫彤寧解釋，大模型是指具有大規模引數和計算能力的機器學習模型。而大語言模型（LLMs）是指基於深度學習，擁有數十億甚至千億級別的引數構成，能夠在多樣化的自然語言處理任務中展現強大生成與推理能力的人工智慧模型。

然而，大模型訓練時吸收的海量網路資料如同未經篩選的圖書館，既藏有真知灼見，也充斥著謠言與廣告。由於AI無法像人類那樣理解事實的邏輯，因此，當遇到需要深度推理的問題時，這種基於機率的創作機制就容易催生看似合理實則錯漏百出的“專業謊言”。

AI承認提供了虛假文獻。受訪者供圖

這種幻覺帶來的資訊汙染開始侵蝕小宋的工作。

最危險的失誤發生在今年1月。一次實地調研中，某半導體公司的銷售總監聊到“刻蝕機交貨期從半年延長到七個半月”時，小宋突然意識到，自己上週釋出的行業報告裡，關於晶片裝置供應週期的預測資料，還在使用AI系統中儲存的舊引數。這意味著，所有基於該資料的投資建議都存在偏差。

在小宋所在的證券行業，這種錯誤是“致命”的。他的失誤被做成案例，在團隊晨會上反覆批評。

“AI幻覺”導致的偏差，也正成為自動駕駛研發的棘手難題。

上海臨港的自動駕駛測試場內，某車企自動駕駛研發部的劉璐摘下AR眼鏡，盯著監控屏上的異常軌跡皺起眉頭，這是本週第三起誤觸發事件。L4級測試汽車在透過無標線道路時，突然對右側綠化區實施緊急制動。回放測試錄影發現，雷達將隨風擺動的塑膠棚膜識別成橫穿馬路的行人，而攝像頭因逆光未能及時修正。

劉璐所在的研究團隊每週要分析超過2000公里的路測資料。在標註著“光影干擾”的資料夾裡，存有清晨逆光、隧道明暗交替、雪地反光等多種特殊場景。某個冬日郊外測試中，雷射雷達曾將雪地裡跳躍的太陽光影群誤判為滾石，引發急剎。

“誤觸發案例很多是因為大模型感知問題。”劉璐調出三個月的測試事故統計，53%的AI系統誤判集中在四種場景：低空飛鳥群、暴雨天劇烈擺動的雨刮器、特殊角度護欄甚至百米外飄舞的塑膠袋。這些人類司機可以輕鬆識別的道路資訊，卻是AI系統無法準確理解的“視覺陷阱”。

真正的挑戰來自多感測器協同。實驗場的螢幕上，攝像頭堅持顯示著“斑馬線上的行人”，而雷射雷達的點雲圖卻顯示該區域空無一物。“就像人同時聽到好幾個不知真假的警報，要瞬間判斷哪個是真實的威脅。”劉璐說，對於自動駕駛的研發人員來說，讓AI系統對此類矛盾判斷的響應時間接近人類駕駛員的反應速度，是他們面臨的最大挑戰。

在真實的馬路上，這樣的“誤會”可能帶來嚴重的危險。每當演算法把樹影錯認成行人，或是將雨幕解析成車流，劉璐都又一次意識到，這些都是自動駕駛研發路上必經的“錯覺時刻”，而教AI準確理解現實世界，遠比教它處理清晰規則更困難。

在社交媒體上，越來越多的網友開始分享自己被AI“欺騙”的經歷。

論文截稿的前幾天，材料專業的大四學生靜文開始發愁。生成式人工智慧軟體普及後，她熟練運用著各類AI輔助工具，用Kimi梳理文獻綜述，透過豆包生成實驗框架，DeepSeek上線後更成為她整理資料的得力助手。

然而，這份“依賴”在開學初顯露出隱患。2月18日，靜文透過AI整理“量子點材料”研究進展，系統洋洋灑灑列出27篇參考文獻。可當她逐條核實時，發現27篇的參考文獻，只有3篇真實存在，而這3篇裡壓根沒有關於“量子點材料突破”的學術資訊。

人機博弈

“AI給出的虛假文獻就像皇帝的新衣。”

靜文覺得，AI可能並非刻意造假，而是將真實存在的期刊名稱、學者研究方向、實驗資料進行機率性組合，最終編織出邏輯自洽卻脫離現實的回答。

從那之後，她不再盲目地相信AI給出的任何回答，現在，她每看到一篇被引用的文獻，都會手動驗證兩個資訊：期刊官網的當期目錄和通訊作者實驗室官網的成果列表。

3月4日，醫生值班室裡，汪京嘉對著閃爍的螢幕發了好一會兒呆。

汪京嘉把人工智慧比作“雙面鏡”。他說，越來越多的年輕醫生們開始依賴AI撰寫病歷小結、寫課題論文，那些看似專業的醫學名詞堆砌下，偶爾也會冒出“左心室瓣膜鈣化導致糖尿病”之類的荒唐邏輯。

他突然想起前段時間，有位同事的論文被國際期刊退回，審稿人用紅字標註著：“參考文獻第7、12條查無此文”。這是一篇用AI輔助完成的課題論文，虛構的文獻如同混入珍珠項鍊的塑膠珠子，逼真得連DOI編碼（Digital Object Identifier，透過DOI號，可以追溯論文發表的時間、期刊資訊、作者資訊等資料）都自成體系。

去年春天，一款醫療AI系統通過了藥監局審批，但可使用許可權被嚴格框定在影像識別領域。汪京嘉告訴新京報記者，AI影像輔助檢測AI軟體可用於結節識別、結節良惡性鑑別診斷以及智慧報告生成。

AI的加入讓醫學檢查更加敏銳，也讓業界擔心會造成新的“過度診療”。事實上，AI接入CT以後，一路走高的肺結節的檢出率已經讓越來越多人陷入焦慮了。

但最棘手的仍是資料真相。在使用過程中，醫生們必須仔細甄別AI系統背後的邏輯漏洞，“病理切片的光學解析度、檢查報告的措辭偏差，甚至一句模糊的主訴描述，都可能導致AI誤判。”汪京嘉覺得，任何AI工具都不是無所不能的智者，而是需要被交叉驗證的協作者。

人機博弈有時也發生在王賀身上。

有天下午，他盯著螢幕上的警報記錄哭笑不得，公司新上線的AI安全系統剛剛把行政部同事批次傳送的會議通知，誤判成了“可疑郵件轟炸”。整齊排列的會議日程，在AI眼裡成了攻擊程式碼的偽裝。

作為專業的程式設計師，王賀給AI系統設定了一個準則，只允許它“學習”國家網路安全機構認證的病毒樣本庫，而來路不明的網路攻擊案例，必須先經過人工稽核，才能放入清單。他回憶，上週有同事上傳的“新型詐騙案例”，後來發現，其實是某部科幻小說的情節，幸好被提前攔截。

他覺得，AI的使用者不能被大模型所主導，而應該主導大模型。在與大模型交流時，最佳化提問方式，在一定程度上能減少幻覺出現，比如要求在指定範圍回答，並提供資訊來源連結。

那次重大失誤後，小宋在辦公室支起了雙重驗證系統：左側曲面屏繼續執行AI分析程式，右側液晶屏則時刻準備驗證真偽。“現在我要像法醫一樣解剖資料。”小宋給自己新增了兩條“鐵律”，所有涉及政府檔案的信源，必須手動查驗國務院客戶端，有關財務數字的資訊要多次反覆複核。

他演示著最新的工作流程：AI生成的每段內容，都要用兩個獨立信源交叉驗證，所有財務模型必須手工重算關鍵引數，就連企業官網資訊，也要對照紙質年報逐行校閱。

這樣的操作，讓他的發稿速度退回到兩年前，過去半小時完成的行業簡報，現在需要拆解成多個節點驗證節點。

最近，劉璐和團隊像教新手司機認路一樣，給自動駕駛系統添加了“辨別課”。他們讓AI反覆學習數萬種光影類別，有時是進出隧道時忽明忽暗的強光，有時是雨天車窗上跳躍的水珠反光，還有高樓玻璃幕牆在陽光下製造的“假紅綠燈”。

“就像駕校教練會帶學員到複雜路段實地訓練。”劉璐解釋，他們用計算機生成各種逼真的光影干擾場景，讓系統學會做判斷，當攝像頭看到疑似紅燈的反光時，會檢查雷達是否探測到實體障礙物，同時參考導航地圖確認該位置是否真有交通訊號燈，可以有效減少測試車輛被反光迷惑而突然剎車，就像老司機能一眼分清霓虹燈和真正的交通訊號。

上海臨港自動駕駛測試廠，正在進行自動駕駛車輛路測。受訪者供圖

尋找最優解

2023年6月，美國紐約南區聯邦地區法院審理的Mata v. Avianca案件被認為是全球首例因“AI幻覺”而受到司法處罰的案例。

2023年3月1日，Mata的代理律師提交了一份反對動議的宣告，該宣告引用並摘錄了據稱發表在《聯邦判例彙編》《聯邦補充判例彙編》中的司法判決；然而，這些宣告中引用的判例並非真實存在，而是由ChatGPT生成的。

在被告律師指出案例無法找到後，原告律師未能核實判例的真實性，並在法院要求提供完整案例文字後，仍然提交了由ChatGPT 生成的“判例”，法官認為原告律師的行為違反了執業道德準則，浪費了司法資源，並被處以5000美元的罰款。

“AI在生成答案時所犯的錯誤，是否可以追溯到開發者設計時的缺陷？”“是否應賦予人工智慧以法律上的人格？”最近，類似這樣的問題不斷引發討論。

有法律專家認為，AI的決策如果不具備情感或意識，就不應該被視為“過失”。也有學者提出，人工智慧具有獨立自主的行為能力，有資格享有法律權利並承擔責任義務，應當具有法律人格，但其具有的僅是有限的法律人格，在必要時可“刺破人工智慧面紗”，對其適用特殊的侵權責任規範。

北京師範大學中國社會管理研究院院長、網際網路發展研究院院長李韜告訴新京報記者，傳統的技術錯誤或失誤的責任一般由開發者或技術公司承擔。這種責任分配原則已經在許多行業的產品責任法和醫療責任法等法規中有明確規定。然而，AI系統的自主性和決策能力，使得這種傳統的責任界定方式愈發變得難以適用。

李韜指出，構建行之有效的AI治理體系尤為重要，而生成式人工智慧責任認定的基本倫理，需要在技術進步和權利保護之間求得平衡狀態，其倫理規制的關鍵在於確立一個既能促進創新和進步，又能保護個人和社會權益的倫理框架。

新京報記者發現，近期，DeepSeek和OpenAI等平臺也在使用者協議和平臺規則中提示了輸出出現錯誤甚至幻覺的風險，並突出提示了在法律、醫療以及金融等垂直領域的直接應用風險。

這些平臺在使用者協議中通常包含以下免責宣告：生成內容可能不準確、不完整或具有誤導性，使用者應自行核實；專業課的應用需謹慎，建議專業人士進行復核；平臺不對生成內容的準確性、合法性或適用性承擔責任。

面對來勢洶洶的AI幻覺，一些企業也在探索“應對之策”。

美國矽谷一家名為Exa的人工智慧公司發現其搜尋引擎使用者出現新的需求：大量企業客戶苦於無法驗證AI生成內容的真實性。他們開發了AI幻覺檢測器，是一款基於即時網路資料驗證的核查工具。

根據其官網釋出的資訊，Exa的AI幻覺檢測器透過即時抓取權威資料庫、交叉比對多源資訊，結合動態更新的產業知識圖譜，逐層驗證AI生成內容中的人物、資料、事件是否與可溯源的現實證據匹配，併為每個結論標註可信度評級與證據鏈來源。

關於“AI幻覺能不能徹底被消除？”的問題，在行業專家巫彤寧那裡被具象化。

巫彤寧把大模型的創造力比作一把需要精密調控的雙刃劍。在他看來，平衡創造性與真實性的關鍵在於構建雙重防護體系：首先要提高大模型學習知識的質量，透過更嚴格的知識篩選，提高餵給大模型資料的質量，從而從根本上降低產生幻覺的可能性；其次，應建立使用者糾錯機制：讓使用者在使用中即時反饋模型輸出中的錯誤或不準確之處，這些反饋能像錯題本一樣幫AI記住教訓，越用越準。

除此之外，巫彤寧經常呼籲，讓大模型分場景工作，針對法律、醫療等低容錯率領域，強制啟用“嚴謹模式”，要求模型檢索最新權威資料並標註來源，而面對創意需求時則開放聯想空間，允許“開腦洞”，為使用者帶來更多靈感。

“我們要做的，是找到人工智慧和人類中間的平衡。”巫彤寧知道，徹底消除幻覺並不現實，而在AI資訊爆炸時代，始終保持獨立思考的能力、辨別資訊真偽的能力比獲取資訊的能力更寶貴。