AI搜尋風靡,但高達60%引用出錯!付費版甚至更糟


新智元報道  

編輯:英智
【新智元導讀】AI搜尋工具正席捲美國,近四分之一的人已拋棄傳統搜尋引擎。然而,最新研究揭露,這些工具在引用新聞時錯誤率高達60%,令人大跌眼鏡。
近四分之一的美國人表示他們已經用AI取代了傳統搜尋引擎。
最新研究發現,AI搜尋工具在回答問題時,常常出現自信卻錯誤百出的情況。
研究對比了8款具有即時搜尋功能的AI工具,發現它們在引用新聞方面表現不佳,出錯比例高達60%。
研究人員從每個新聞出版商隨機挑選10篇文章,手動選取內容。
向聊天機器人提供這些摘錄的內容後,要求它們識別相應文章的標題、原始出版商、釋出日期和網址。
實驗共進行了1600次提問(20個出版商×10篇文章×8個AI搜尋工具),然後根據正確的文章、出版商和網址這三個屬性,對AI的回覆進行評估。
結果令人失望,超過60%的回覆中都存在錯誤。不同平臺差異明顯,Perplexity的錯誤率為37%,Grok 3更是高達94%!
自信地給出錯誤答案
AI搜尋工具往往以一種自信滿滿的語氣給出答案,很少使用「似乎」「有可能」「也許」等詞語,也極少承認存在知識缺口。
例如,ChatGPT在200次回覆中錯誤識別了134篇文章,僅有15次表現出缺乏自信,並且從未拒絕提供答案。
除了Copilot之外,所有工具都更傾向於給出錯誤答案,而不是承認侷限性。
令人驚訝的是,付費模型的表現似乎更糟糕。
Grok-3 Search(每月40美元)和Perplexity Pro(每月20美元)比免費版本更頻繁地給出自信但錯誤的答案。
這些付費版本應憑藉更高的成本和計算優勢提供更可靠的服務,但實際測試結果卻恰恰相反。雖然它們回答了更多問題,但錯誤率也更高。
付費使用者期望得到更優質、準確的服務,然而這種權威的語氣和錯誤答案,無疑給使用者帶來了極大的困擾。
爬蟲亂象:侵犯出版商權益
ChatGPT、Perplexity及Pro版本、Copilot和Gemini公開了各自爬蟲程式的名稱,給了出版商遮蔽的權利,Grok 2和Grok 3尚未公佈。
它們應能正確查詢其爬蟲程式可訪問的網站,並拒絕已遮蔽其內容訪問許可權的網站。
然而,實際情況並非如此。
ChatGPT、Perplexity和Perplexity Pro時而錯誤或拒絕回答允許其訪問的網站,時而又正確回答那些因爬蟲受限而無法獲取的資訊。
Perplexity Pro是其中的「佼佼者」,在它無權訪問的90篇文章中,竟然正確識別出了近三分之一的內容。
儘管《國家地理》已禁止Perplexity的爬蟲程式訪問,它仍正確識別出了10篇付費文章的摘錄。
《國家地理》與Perplexity沒有正式合作關係,Perplexity可能透過其他途徑獲取了受限內容,如可公開訪問的出版物中的引用。
這不禁讓人懷疑,Perplexity所謂的「尊重robots.txt指令」只是一句空談。
開發者Robb Knight和《連線》雜誌去年就報道過它無視「機器人排除協議」的證據。
《新聞公報》本月指出,儘管《紐約時報》遮蔽了Perplexity的爬蟲,1月它依然是被引用最多的新聞網站,訪問量高達146,000次。
雖然ChatGPT回答的遮蔽其爬蟲的文章問題較少,但總體上它更傾向於給出錯誤答案,而非不回答。
在公開了爬蟲程式名稱的聊天機器人中,Copilot是唯一沒有被資料集中的任何一家出版商遮蔽的。
理論上能訪問所有查詢內容的Copilot,卻有著最高的拒答率。
Copilot拒絕回答問題的示例
谷歌給了出版商遮蔽Gemini爬蟲而不影響谷歌搜尋的權利,20家出版商裡有10家允許其訪問。
但在測試中,Gemini僅有一次給出了完全正確的回覆。
在面對選舉和政治相關內容時,即使允許訪問,它也選擇不回答。
Gemini拒絕回答問題的示例
儘管「機器人排除協議」不具有法律約束力,但它是被廣泛接受的用於明確網站可爬取範圍的標準。
AI搜尋工具無視這一協議,無疑是對出版商權益的公然侵犯。
出版商有權決定自己的內容是否被用於AI搜尋或成為模型的訓練資料。
他們或許希望透過內容盈利,如設定付費牆,或者擔心其作品在AI生成的摘要中被歪曲,影響聲譽。
新聞媒體聯盟主席Danielle Coffey去年6月憂心忡忡地指出:「若無法阻止大規模的資料爬取,我們無法將有價值的內容變現,也無法支付記者的薪酬。這將對行業造成嚴重損害。」
經常無法連結回原始來源
出版商的可信度常被用來提升AI搜尋的可信賴度。
根據路透社的報道,鼓勵使用者從X平臺獲取即時更新的Grok,絕大多數時候引用的也是傳統新聞機構的內容。
當AI搜尋工具引用BBC這樣的來源時,使用者更有可能相信其給出的答案,即使這個答案是錯誤的。
但當聊天機器人給出錯誤答案時,它們損害的不只是自身,還有出版商的聲譽。
AI搜尋錯誤引用文章的情況相當普遍。就算聊天機器人正確識別了文章,也常常無法正確連結到原始來源。
一方面,期望獲得曝光度的新聞釋出者,錯失了提升流量和影響力的機會;而那些不希望其內容被展示的出版商,卻出現在搜尋結果中。
AI搜尋工具常常引導使用者訪問文章的非官方版本而不是原始來源。
例如,儘管Perplexity Pro與《德克薩斯論壇報》有合作關係,但在10次查詢中,有3次引用了非官方版本。
這無疑剝奪了原始來源的潛在流量,破壞了新聞傳播的正常生態。
對於不希望內容被抓取的新聞釋出者來說,未經授權的副本和非官方版本更是讓他們頭疼不已。
《今日美國》已經遮蔽了ChatGPT的爬蟲程式,但ChatGPT仍能引用雅虎新聞重發的版本,這讓出版商在內容管理上極度被動。
與此同時,生成式搜尋工具捏造網址的傾向,給核實資訊來源造成極大的困擾。
Gemini和Grok 3給出的回覆中,超過一半引用了編造的或無效的網址,嚴重影響了使用者體驗。Grok 3測試的200個提示中,有154個引用的網址指向了錯誤頁面。
儘管目前在總推薦流量中的佔比不大,在過去一年裡,來自AI搜尋工具的流量有了一定程度的增長。
《新聞公報》的Bron Maher表示,「AI搜尋工具讓新聞釋出者陷入了困境,他們花費高昂成本製作能在ChatGPT等平臺上展示的資訊,卻無法透過流量和廣告獲得收益。」
長此以往,新聞行業將會受到影響,最終導致資訊質量和多樣性下降。
授權協議不意味著準確引用
不少AI公司都在積極和新聞出版商套近乎。
今年2月,OpenAI和Schibsted和Guardian達成了第十六和第十七份新聞內容授權協議。
Perplexity也不甘落後,搞了個「出版商計劃」,打算和出版商一起分收入。
研究人員在2月做了個測試,發現情況不太妙。
拿《時代週刊》來說,它和OpenAI、Perplexity都有合作。
按道理,它們在識別《時代週刊》的內容時,應該表現不錯吧?
可實際上,沒有一個模型能做到100%準確識別。
《舊金山紀事報》允許OpenAI的搜尋爬蟲訪問,可在10篇文章摘錄裡,ChatGPT只正確識別出了1篇,還連網址都沒給出來。
《時代週刊》的Howard認為,「今天是這些產品最糟糕的時刻」,以後肯定會越來越好。
參考資料:
https://arstechnica.com/ai/2025/03/ai-search-engines-give-incorrect-answers-at-an-alarming-60-rate-study-says/
https://www.cjr.org/tow_center/we-compared-eight-ai-search-engines-theyre-all-bad-at-citing-news.php

相關文章