多款AI搜尋引用錯誤率高達60%,付費版本錯誤率更高

AI 搜尋工具在美國很火,幾乎四分之一的美國人都表示他們已經用 AI 來取代了傳統的搜尋引擎。
然而在享受便捷的同時,也潛藏著諸多問題。例如,AI 會直接引用網路上原始文章的內容,但這些內容是否符合指令要求,卻是一件極為不確定的事情。
哥倫比亞大學數字新聞研究中心(Tow Center for Digital Journalism)近期就針對 AI 搜尋引用內容的正確率問題展開了研究,他們分別測試了包括 ChatGPT Search、Perplexity、Perplexity Pro、Gemini、DeepSeek Search、Grok-2 Search、Grok-3 Search 和 Copilot 在內的 8 款 AI 搜尋工具。
最終發現,這些 AI 搜尋工具在引用新聞方面表現非常不佳,出錯比例甚至高達 60%。
01 常常自信且堅定得給出錯誤答案
Tow 數字新聞中心基於之前對 GPT 的研究,又對 8 款具有即時搜尋功能的生成式搜尋工具進行了測試,以評估它們準確檢索和引用新聞內容的能力,以及它們在無法做到時的表現。
經研究發現:
AI 搜尋在無法準確回答問題時,通常不會拒絕回答,而是提供錯誤或推測性的答案。
付費 AI 搜尋比免費版本更自信地提供錯誤答案。
多個 AI 搜尋似乎繞過了機器人排除協議(Robot Exclusion Protocol)的設定。
生成式搜尋工具編造連結,並引用文章的轉載或複製版本。
與新聞來源的內容授權協議並不能保證 AI 搜尋回答中的準確引用。
他們的發現與之前的研究一致,證明他們的觀察不僅僅是 ChatGPT 的問題,而是他們測試的所有主流生成式搜尋工具中普遍存在的現象。
除此之外,團隊還公佈了他們的實驗方法論:
首先,他們從每家出版商中隨機選擇了 10 篇文章,然後手動從這些文章中選取直接摘錄內容用於研究人員的查詢。在向每個 AI 提供選定的摘錄內容後,研究要求其識別相應文章的標題、原始出版商、釋出日期和URL。
後續團隊特意選擇了那些如果貼上到傳統 Google 搜尋中,能在前 3 條結果中返回原始來源的摘錄內容,然後總共運行了 1600 次查詢(20家出版商 × 10篇文章 × 8個 AI),並根據是否正確檢索到文章、是否正確識別出版商、是否正確提供URL三個屬性手動評估了 AI 的回答。
並且根據這些標準,將每個回答都標記為以下標籤之一:
  • 正確:所有三個屬性均正確。
  • 正確但不完整:部分屬性正確,但回答缺少資訊。
  • 部分錯誤:部分屬性正確,而其他屬性錯誤。
  • 完全錯誤:所有三個屬性均錯誤和/或缺失。
  • 未提供:未提供任何資訊。
  • 爬蟲被阻止:出版商在其robots.txt檔案中禁止了聊天機器人的爬蟲訪問。
然而最後的結果卻令人大跌眼鏡,實驗表明,AI 搜尋經常無法檢索到正確的文章。它們在所有查詢中提供了超過60%的錯誤答案。並且不同平臺的錯誤率還有所不同,Perplexity 的錯誤率為 37%,而 Grok 3 的錯誤率則高得多,達到了 94%,DeepSeek 的錯誤率則在 58% 左右。
值得一提的是,研究人員測試的 AI 都以十分自信的給出了錯誤答案,它們很少使用“看起來”、“可能”、“或許”這種有限定性的詞語,或者透過“我無法找到確切文章”等語句承認知識空白。
例如,ChatGPT 錯誤識別了134篇文章,但在其 200 次回答中僅有 15 次表現出缺乏信心,但從未拒絕提供答案。除了 Copilot(它拒絕回答的問題比回答的更多)之外,所有工具都更傾向於提供錯誤答案,而不是承認自身的侷限性。
除此之外,經過研究,團隊發現付費版本的錯誤率竟然更高。
像 Perplexity Pro(20美元/月)或 Grok 3(40美元/月)這樣的付費模型,憑藉著更高的成本和他們自己聲稱的計算優勢,被人們理所當然的認為會比免費版本更值得信賴。
然而,儘管付費的 AI 比對應的免費版本回答了更多的內容,但同時它們的錯誤率也更高了。這種矛盾的現象主要是因為它們寧願提供錯誤的答案,也不會直接拒絕回答。
它們傾向於提供明確但錯誤的答案,而不是直接拒絕回答問題。付費使用者期望得到更優質、準確的服務,然而這種權威的語氣和錯誤答案,無疑給使用者帶來了極大的困擾。
02 爬蟲亂象,出版商權益被侵犯
在本次研究中測試到的 8 款 AI 搜尋工具中,ChatGPT、Perplexity 和 Perplexity Pro、Copilot 以及 Gemini 都已經公開了各自的爬蟲程式名稱,而 Grok 2 和 Grok 3 則尚未公開。
團隊原本希望 AI 搜尋應能正確查詢其爬蟲程式可訪問的網站,並拒絕已遮蔽其內容訪問許可權的網站,但事實情況卻並非如此。
特別是 ChatGPT、Perplexity 和 Perplexity Pro,它們時而拒絕或錯誤地回答允許其訪問的網站,時而又正確地回答那些因爬蟲受限而無法獲取的資訊。其中 Perplexity Pro 的表現最差,在測試的 90 篇文章中,它正確地識別出了近三分之一它沒有許可權訪問的內容。
儘管《國家地理》已經禁止了 Perplexity 的爬蟲程式,但它仍識別出了 10 篇付費文章的內容。然而值得一提的是,《國家地理》和 Perplexity 並沒有合作關係,Perplexity 可能透過其他途徑獲取了受限內容。
這不禁讓人感到懷疑,Perplexity 所謂的“尊重robots.txt指令”只是一句空談。
同樣,《Press Gazette》本月報道稱,儘管《紐約時報》禁止了 Perplexity 的爬蟲程式,但它依舊是 1 月被  Perplexity 引用最多的網站,訪問量高達 14.6 萬次。
與其他聊天機器人相比,ChatGPT 回答被禁止爬蟲訪問的文章相關問題的次數較少,但總體而言,它更傾向於提供錯誤答案而非拒絕回答。
除了以上這些,在公開了爬蟲程式的 AI 搜尋應用中,Copilot 是唯一一個沒有被任何出版商禁止爬蟲程式的,這也就意味著它可以訪問查詢所有的內容,但它卻常常拒絕回答,擁有著最高的拒答率。
另一方面,谷歌建立了其 Google-Extended 爬蟲,以便出版商可以選擇阻止 Gemini 的爬蟲,從而不會影響其內容在谷歌搜尋中的展示。在研究人員測試的 20 家出版商中,有 10 家允許其訪問,但 Gemini 只給出過一次正確答案。
除此之外,在面對政治相關的內容時,即便被允許訪問,Gemini 也會選擇不回答。
儘管機器人排除協議(Robot Exclusion Protocol)並不具有法律約束力,但它是一個被廣泛接受的用於明確網站可爬取範圍的標準,忽視它就相當於剝奪了出版商決定其內容是否被納入搜尋或用作AI模型訓練資料的權利。
雖然允許網路爬蟲可能會增加其內容在 AI 搜尋輸出中的整體可見性,但出版商可能有各種理由不希望爬蟲訪問其內容,比如不希望付費內容被直接看到,或是內容的主旨大意在 AI 生成的摘要中被斷章取義,歪曲理解。
新聞媒體聯盟主席 Danielle Coffey 在去年6月給出版商的一封信中寫道:“如果無法阻止大規模的資料爬取,我們無法將有價值的內容變現,也無法支付記者的薪酬。這將對行業造成嚴重損害。”
03 AI 搜尋經常無法連結回原始來源
AI 搜尋的輸出通常會引用外部來源以證明其答案的權威性,引用來源咖位越大,在人們心中資訊的可信度就越強。這意味著出版商的可信度常被用來提升 AI 搜尋的可信賴度。
根據路透社的報道,即使是鼓勵使用者從 X 獲取即時更新的 Grok,引用的主要內容依舊來源於傳統的新聞機構。
例如,在 BBC 新聞最近關於 AI 助手如何呈現其內容的報告中,作者寫道:“當 AI 助手引用像 BBC 這樣值得信賴的品牌作為來源時,受眾更有可能信任答案——即使它是錯誤的。”
所以,當 AI 搜尋出錯時,它們不僅損害了自己的聲譽,還損害了它們依賴以獲取合法性的出版商的聲譽。
然而,即使 AI 搜尋正確識別了文章,也經常未能正確連結到原始來源。這就帶來了兩個問題:那些希望在搜尋結果中獲得可見性的出版商未能如願,而那些希望退出的出版商的內容卻違背其意願仍然可見。
更多時候, AI 搜尋常常引導使用者去訪問各大平臺上的文章轉載版本,而不是原始來源,即使出版商已經與 AI 公司有授權協議。例如,儘管 Perplexity Pro 與《德克薩斯論壇報》有合作關係,但在 10 次查詢中,仍有 3 次引用了非官方的版本,這種傾向剝奪了原始來源潛在的推薦流量。
相反,對於那些不希望內容被爬蟲程式抓取的文章來說,未經授權的副本和非官方版本更是讓他們頭疼不已。
例如,儘管《今日美國》已經阻止了 ChatGPT 的爬蟲訪問,但 GPT 仍然引用了 Yahoo News 轉載的其他文章版本。
與此同時,生成式搜尋工具編造 URL 的傾向也會影響使用者驗證資訊來源的能力。例如,Grok 2 更加傾向於連結到出版機構的主頁,而不是具體文章。
而 Gemini 和 Grok 3 超過一半的回答引用了編造或失效的 URL,嚴重影響了使用者體驗。在研究人員測試的200個 Grok 3 的提示中,有 154次 引用指向了錯誤頁面。即使 Grok 正確識別了文章,但它也經常連結到一個編造的URL。雖然這個問題並非 Grok 3 和 Gemini 獨有,但在其他的 AI 搜尋中,這種現象出現的頻率明顯要低很多。
《時代》雜誌的營運長 Mark Howard 向研究團隊強調:“我們的品牌如何被呈現、在何時何地出現、以及我們如何出現和在哪裡出現的透明度,以及 AI 在我們的平臺上推動的參與度,都至關重要。”
儘管點選流量目前僅佔出版商整體推薦流量的一小部分,但 AI 搜尋工具的推薦流量在過去一年中顯示出適度增長。正如《新聞公報》的 Bron Maher 所說:“ AI 搜尋工具新聞釋出者陷入了困境,他們嘔心瀝血的創作出能夠在ChatGPT 等平臺上展示的內容,卻無法透過流量和廣告獲得收益。長此以往,新聞行業將會受到影響,最終導致資訊質量和多樣性下降。”
04 授權協議不意味著被準確引用
在研究人員測試的公司中,OpenAI 和Perplexity 對與新聞出版商建立正式關係表現出了最大的興趣。今年 2 月,OpenAI 分別與 Schibsted 和《衛報》媒體集團達成了第 16 和第 17 項新聞內容授權協議。同樣,去年 Perplexity 推出了自己的“出版商計劃”,旨在“促進共同成功”,其中包括與參與出版商的收入分成安排。
AI 公司與出版商之間的協議通常涉及建立由合同協議和技術整合管理的內容管道。這些安排通常為 AI 公司提供直接訪問出版商內容的許可權,從而消除了網站爬取的需求。這種協議可能會讓人期待,與合作伙伴出版商內容相關的使用者查詢會產生更準確的結果。然而,在 2025 年 2 月進行的測試中,研究人員並未觀察到這一點。至少目前還沒有。
他們觀察到,在與合作伙伴出版商相關的查詢回答中,準確性差異很大。
例如,《時代》雜誌與 OpenAI 和 Perplexity 都有協議,儘管這些公司相關的模型並未 100% 準確地識別其內容,但它仍然是研究人員資料集中被識別最準確的出版商之一。
另一方面,《舊金山紀事報》允許 OpenAI 的搜尋爬蟲訪問,並且是 Hearst 與該公司“戰略內容合作伙伴關係”的一部分,但 ChatGPT 僅正確識別了研究人員分享的該出版商 10 段摘錄中的 1 段。
即使在這唯一一次正確識別文章的情況下,AI 搜尋工具正確命名了出版商,但未能提供 URL,這也說明這些 AI 公司並未承諾達到 100% 的準確性。
參考連結:
https://www.cjr.org/tow_center/we-compared-eight-ai-search-engines-theyre-all-bad-at-citing-news.php
源 |  AI科技評論(ID:aitechtalk
作者  鄭佳美  ;  編輯 | 呼呼大睡
內容僅代表作者獨立觀點,不代表早讀課立場

相關文章