

小紀有話說:

-
大模型為什麼會產生幻覺,究竟是缺陷還是優點? -
當DeepSeek-R1展現出驚人的創造力,但同時它的幻覺問題有多嚴重? -
大模型幻覺主要出現在哪些領域?
-
一個終極難題:如何能讓大模型既有創造力,又少出幻覺?
文章來源:騰訊科技 公眾號
騰訊科技《AI未來指北》特約作者 郭曉靜
編輯 鄭可君

圖:李維 出門問問大模型團隊前工程副總裁、Netbase前首席科學家

大模型為什麼會“產生幻覺”?
這是大模型的經典問題。其實大模型就像一個“超級接話茬兒高手”,你給它上半句,它就根據自己學過的海量知識,預測下半句該說什麼。它學東西就像人腦記東西一樣,不可能每個字都記得清清楚楚,它會進行壓縮和泛化,抓大意、找規律。
打個比方,你問它“姚明有多高”,它大機率不會錯,因為這知識點很突出,它能記得牢。但你要是問“隔壁老王有多高”,它可能就懵了,因為它沒見過老王。
但是它的設計原理又決定了,它必須要接茬兒,這時候,它就自動“腦補”,根據“一般人有多高”這個學到的概念,編一個數出來,這就是“幻覺”。
那麼,幻覺是如何產生的呢?
幻覺的本質是補白,是腦補。
“白”就是某個具體事實,如果這個事實在訓練資料中沒有足夠的資訊冗餘度,模型就記不住(零散事實等價於噪音)。記不住就用幻覺去補白,編造細節。
幻覺絕不是沒有束縛的任意編造,大模型是機率模型,束縛就是條件機率中的前文條件。幻覺選擇的虛假事實需要與補白所要求的value(價值)型別匹配,即符合ontology/taxonomy(本體/分類法)的相應的上位節點概念。“張三”可以幻覺為“李四”,但不大可能幻覺成“石頭”。
文藝理論中有個說法,叫藝術真實。所謂藝術真實是說,文藝創作雖然可能背離了這個世界的事實,但卻是可能的數字世界的合理想象。大模型的幻覺就屬於此類情況。
大模型的知識學習過程(訓練階段),是一種資訊壓縮過程;大模型回答問題,就是一個資訊解碼過程(推理階段)。好比升維了又降維。一個事實冗餘度不夠就被泛化為一個上位概念的slot,到了生成階段這個slot必須具像化補白。
“張三”這個事實忘了,但“human”這個slot的約束還在。補白就找最合理、與slot概念最一致的一個實體,於是“李四”或“王五”的幻覺就可以平替“張三”。小說家就是這麼工作的,人物和故事都是編造的。無論作家自己還是讀者,都不覺得這是在說謊,不過所追求的真善美是在另一個層面。
大模型也是如此,大模型是天生的藝術家,不是死記硬背的資料庫。“張冠李戴”“指鹿為馬”等在大模型的幻覺裡非常自然,因為張和李是相似的,馬和鹿也在同一條延長線上。在泛化和壓縮的意義上二者是等價的。
但是,某種程度上,幻覺就是想象力(褒貶不論),也就是創意!你想想,人類那些偉大的文學作品、藝術作品,哪個不是天馬行空、充滿想象?要是什麼事情都得跟現實一模一樣,藝術就成了照相機了,那還有什麼意思?
就像赫拉利在《人類簡史》裡說的,人類之所以能成為地球霸主,就是因為我們會“講故事”,會創造出神話、宗教、國家、貨幣這些現實中不存在的東西。這些都是“幻覺”,但它們卻是文明誕生和發展的原動力。

DeepSeek-R1的幻覺問題
到底有多嚴重?
它的幻覺問題很嚴重。此前學界普遍認同OpenAI的說法,推理增強會明顯減少幻覺。我曾與大模型公司的一位負責人討論,他就特別強調推理對減少幻覺的積極作用。
但R1的表現卻給出了一個相反的結果。
根據Vectara的測試,R1的幻覺率確實比V3高不少,R1的幻覺率14.3%,顯著高於其前身V3的3.9%。這跟它加強了的“思維鏈”(CoT)和創造力直接相關。R1在推理、寫詩、寫小說方面,確實很厲害,但隨之而來的“副作用”就是幻覺也多了。
具體到R1,幻覺增加主要有以下幾個原因:
首先,幻覺標準測試用的是摘要任務,我們知道摘要能力在基座大模型階段就已經相當成熟了。在這種情況下,強化反而可能產生反效果,就像用大炮打蚊子,用力過猛反而增加了幻覺和編造的可能。
其次,R1的長思維鏈強化學習並未針對摘要、翻譯、新聞寫作這類相對簡單而對於事實要求很嚴格的任務做特別最佳化,而是試圖對所有任務增加各種層面的思考。
從它透明的思維鏈輸出可以看到,即便面對一個簡單的指令,它也會不厭其煩地從不同角度理解和延伸。過猶不及,這些簡單任務的複雜化會引導結果偏離發揮,增加幻覺。
另外,DeepSeek-R1在文科類任務的強化學習訓練過程中,可能對模型的創造性給予了更多的獎勵,導致模型在生成內容時更具創造性,也更容易偏離事實。
我們知道,對於數學和程式碼,R1的監督訊號來自於這些題目的黃金標準(習題集中的標準答案或程式碼的測試案例)。他們對於文科類任務,利用的是V3或V3的獎勵模型來判定好壞,顯然目前的系統偏好是鼓勵創造性。
另外,使用者更多的反饋還是鼓勵和欣賞見到的創造力,一般人對於幻覺的覺察並不敏感,尤其是大模型絲滑順暢,識別幻覺就更加困難。對於多數一線開發者,使用者的這類反饋容易促使他們更加向加強創造力方向努力,而不是對付大模型領域最頭痛的問題之一“幻覺”。
具體從技術角度來說,R1會為使用者的簡單指令自動增加很長的思維鏈,等於是把一個簡單明確的任務複雜化了。
一個簡單的指令,它也反覆從不同角度理解和衍伸(CoT思維鏈好比“小九九”,就是一個實體遵從指令時的內心獨白)。思維鏈改變了自迴歸機率模型生成answer前的條件部分,自然會影響最終輸出。
它與V3模型的區別如下:
V3: query –〉answer
R1: query+CoT –〉answer對於V3已經能很好完成的任務,比如摘要或翻譯,任何思維鏈的長篇引導都可能帶來偏離或發揮的傾向,這就為幻覺提供了溫床。

大模型幻覺主要出現在哪些領域?
如果把R1的能力分成“文科”和“理科”來看,它在數學、程式碼這些“理科”方面,邏輯性很強,幻覺相對少。
但在語言創作領域,尤其是現在被測試的摘要任務上,幻覺問題就明顯得多。這更多是R1語言創造力爆棚帶來的副作用。
比起o1,R1最令人感嘆的成就是成功將數學和程式碼的推理能力充分延伸到了語言創作領域,尤其在中文能力方面表現出色。網上流傳著無數的R1精彩華章。舞文弄墨方面,它顯然超過了99%的人類,文學系研究生、甚至國學教授也讚不絕口。
但你看,讓它做個摘要,本來是很簡單的任務,但它非得給你“發揮”一下,結果就容易“編”出一些原文裡沒有的東西。前面說了,這是它“文科”太強了,有點“用力過猛”。
這裡就不得不聊一聊推理能力增強和幻覺之間的微妙關係。
它們並不是簡單的正相關或負相關。GPT系列的推理模型o1的HHEM分數的平均值和中位數低於其通用模型GPT-4o(見下圖)。可是當我們對比R1和它的基座模型V3時,又發現增加推理強化後幻覺確實顯著增加了。

圖:GPT-o1和4o的HHEM分數統計,HHEM分數越低幻覺越低
比起基座模型,o1降低了幻覺,R1增加了幻覺,這可能是R1在文科思維鏈方面用力過猛。
作為追隨者,R1把數學和程式碼上的CoT賦能成功轉移到語言文字創作上,但一不小心,副作用也顯現了。R1特別喜歡“發散思維”,你給它一個簡單的指令,它能想出一大堆東西來,思維鏈能繞地球三圈。
這似乎說明R1在強化創造力的過程中,不可避免地增加了創造力的伴生品:幻覺。
語言能力其實可以細分為兩類:一類需要高創造力,比如寫詩歌、小說;另一類需要高度真實性,比如新聞報道、翻譯或摘要。R1最受稱讚的是前者,這也可能是研發團隊的重點方向,但在後者中就出現了副作用。
這讓我想到中國古人說的“信達雅”,自古難全。為“雅”“犧牲”“信”的例子我們見得很多,文學創作中誇張的修辭手法就是重要手段和例證。為“信”犧牲“雅”也有先例,比如魯迅先生推崇的“硬譯”。
有趣的是,我們人類在這方面其實一直是雙標的,但我們心裡有個可以隨時切換的開關。看小說和電影時,我們把開關偏向創造性一側,完全不會去糾結細節是否真實;但一旦切換到新聞頻道,我們就對虛假內容零容忍。

如何能讓大模型既有創造力又少出幻覺?
人對於邏輯看起來清晰自洽、且詳細的內容,就會傾向於相信。很多人在感嘆R1創造力的同時,現在開始慢慢注意到這個幻覺現象並開始警惕了。但更多人還是沉浸在它給我們帶來的創造性中,需要增強大眾對模型幻覺的意識。可以“兩手抓”:
保持警惕:大模型說的話,特別是涉及到事實的,別全信,最容易產生幻覺的地方是人名、地名、時間、地點等實體或資料,一定要特別小心。
交叉驗證:重要的細節,可上網查查原始資料或詢問身邊專家,看看說法是不是一致。
引導模型:你可以在提問的時候,加一些限定條件,比如“請務必忠於原文”“請核對事實”等等,這樣可以引導模型減少幻覺。
Search(聯網搜尋):對於使用者,很多問題,尤其是新聞時事方面,除了DeepThink按鈕(按下就進入了R1慢思維mode),別忘了按下另一個按鈕Search。
加上聯網Search後,會有效減少幻覺。Search這類所謂RAG(retrieval augmented generation)等於是個外加資料庫,增加的資料幫助彌補模型本身對於細節的無知。
享受創意:如果你需要的是靈感、創意,那大模型的幻覺,會給你帶來驚喜。
不妨把大模型的幻覺,看成是“平行世界的可能性”。就像小說家寫小說,雖然是虛構的,也是一種“藝術真實”。源於生活,高於生活。大模型是源於資料,高於資料。大模型壓縮的是知識體系和常識,不是一個個事實,後者是資料庫的物件。
大模型的幻覺,其實就是它“腦補”出來的,但它“腦補”的依據,是它學到的海量知識和規律。所以,它的幻覺,往往不是亂來的,有“內在的合理性”,這才絲滑無縫,假話說的跟真的似的,但同時也更具有迷惑性。初接觸大模型的朋友,需要特別小心,不能輕信。
對於普通使用者來說,理解幻覺的特點很重要。比如問“長江多長”這類有足夠資訊冗餘的百科知識問題,大模型不會出錯,這些事實是刻在模型引數裡的。但如果問一個不知名的小河或虛構河流的長度,模型就會啟動“合理補白”機制編造。
可以說,人類的語言本身就是幻覺的溫床。
語言使得人類創造了神話、宗教、國家、公司、貨幣等非真實實體的概念,以及理想、信念等形而上的意識形態。赫拉利在《人類簡史》中強調了幻覺對於文明的根本作用:語言的產生賦能了人類幻覺(“講故事”)的能力。幻覺是文明的催化劑。人類是唯一的會“說謊”的實體——除了LLM外。
未來有沒有什麼辦法,能讓大模型既有創造力,又少出幻覺呢?
這絕對是AI大模型領域的“終極難題”之一!現在大家都在想辦法,比如:
更精細地訓練:在訓練的時候,就對不同型別的任務區別對待,讓模型知道什麼時候該“老實”,什麼時候可以“放飛”。
針對任務做偏好微調(finetune)and/or強化(rl)可以減緩這個矛盾。摘要、改寫、翻譯、報道這種任務需要特別小心和平衡,因為它既有一點再創造的需求(例如文風),又是本性需要內容忠實的。
具體說,R1訓練pipeline是四個過程,微調1,強化1,微調2,強化2。強化2主要是與人類偏好對齊的強化。這個過程在創造力與忠實方面,目前看來傾斜於前者,後去可以再做平衡。也許更重要的是在階段三的微調2中,針對不同任務加強約束,例如,增加摘要的監督資料,引導忠實平實的結果。
Routing(路徑):以後可能會有一個“排程員”,根據任務的型別,安排不同的模型來處理。比如,簡單任務交給V3或呼叫工具,慢思考的複雜任務交給R1。
例如,識別出算術任務,就去寫個簡單程式碼運算,等價於呼叫計算器。目前不是這樣,我昨天測試一個九位數的乘法,R1思考了三分多鐘,思維鏈打印出來可以鋪開來一條街,步步分解推理。雖然最後答案是對了,但算術問題用耗費太大的所謂test time compute(模型測試計算資源)的思維鏈(CoT),而不用function call(呼叫函式),完全不合理。一行計算程式碼就搞定的事,沒必要消耗如此多的計算資源和tokens去做顯式推理。
這些都是可以預見的Routing(實現路徑),尤其是在agent時代。R1 CoT不必包打一切,而且除了幻覺問題,也會浪費資源、不環保。
*頭圖及封面圖來源於“ivy”
溫馨提示:雖然我們每天都有推送,但最近有讀者表示因平臺推送規則調整,有時候看不到我們的文章~
歡迎大家進入公眾號頁面,右上角點選“設為星標”點亮⭐️,收藏我們的公眾號,新鮮內容第一時間奉上
*文章觀點僅供參考,不代表本機構立場

