為什麼我的DeepSeek總在一本正經胡說八道?

*本文為「三聯生活週刊」原創內容
文|antares
我有一位朋友小G,身為博物館策展人,受過良好學術訓練的她對歷史考據嚴謹到近乎偏執。兩年前,ChatGPT嶄露頭角,不少人陷入職業焦慮,小G卻毫不在意,她將這類AI統統稱為“人工智障”,覺得它們輸出的內容既淺薄又荒謬,根本無法撼動她在專業領域的自信。
但隨著DeepSeek重掀熱潮,被工作deadline逼得焦頭爛額的小G,也不得不向AI求助了。她要為歷史展品編寫通俗易懂的場景解說,便向DeepSeek詢問:“請從錢莊夥計的視角,講講在沒有科技裝置的年代,在工作中會遇到哪些困難。”

《無法成為野獸的我們》劇照

很快,DeepSeek便交出一份“錢莊工作手記”,其中詳細描寫了“天未亮就要在桐油燈下核對賬目”的年輕夥計,“用長柄放大鏡查驗銀票邊角的暗記紋路”的掌櫃師傅,甚至還提到了“蘇漕平每百兩扣二錢五”這樣的專業細節,想想看,“蘇漕平” 可不是一般人能知曉的術語(注:漕平,舊時徵收漕銀的衡量標準,各地標準不同,一般冠以地名)。這讓小G眼前一亮,她在聊天群裡興奮誇讚:“確實啟發效果不錯,比以前的人工智障強多了!”
然而,僅僅5小時後,她的態度就來了個180度大轉彎:“好多內容是它瞎編的!給我編了個錢莊使用的套色密押印章組,本來還覺得很有道理,但仔細一查,根本就沒有這個東西……”不甘心的小G試圖要求AI在生成文字時同時提供參考文獻,可新生成的說明裡,不僅“騎縫章”“法幣券”等真實元素與“驗鈔機”“美鈔暗記對照表”等虛構情節交織,給出的參考文獻更是子虛烏有,小G只能無奈吐槽:“結果現在我現在不得不給它寫的東西做一輪事實驗證,我又不是它導師……”
被AI坑過的不止小G。隨著生成式AI的普及,越來越多的人發現,表面上無所不知的AI,有時會煞有介事地編造看似合理實則虛假的內容。這種現象,被研究者們稱為“AI幻覺”(AI Hallucinations)
“AI幻覺”從何而來 ?
要明白“AI幻覺”,得先搞清楚生成式AI的工作原理。很多人從新聞中的“大語言模型”一詞展開想象,以為ChatGPT或DeepSeek像是一個擁有龐大資料庫的搜尋引擎,能像翻書查文獻一樣給我們的問題提供準確答案。但其實,今天的生成式AI更像是一個沉浸在語料庫海洋中學習說話的學習者,它不是在查詢答案,而是在預測,下一個要說的最合理的詞應該是什麼。
這個學習者有專屬的大腦結構,那就是Transformer深度學習模型,它於2017年被提出,是如今主流生成式AI們使用的基礎模型,在傳統機器學習的基礎上它改善了效能,並大幅提升了並行運算的效率,因此才可以基於這種架構訓練出引數數量巨大的模型,比如DeepSeek的V3滿血版擁有高達6710億個引數,所謂“大語言模型”的“大”字就是由此而來。
Transformer處理語言時,會首先把輸入的句子拆成一組包含位置資訊的詞元(token),並用數字對詞元編碼方便計算機處理。一個詞元可能是一個單詞,也可能是一個詞根、數字或標點等類似單詞的東西,比如“生成式AI”可能被拆為“生成”“式”“A”“I”,Transformer可能被拆成“Trans”“former”,這種拆分能讓AI更靈活地處理各種語言。

《歡樂頌》劇照

Transformer模型的核心是attention注意力機制,在處理好詞元后,它會對輸入句子中的每個詞元計算上下文中的哪些詞元與它相關,即 “該注意” 的內容,藉此捕捉句子中遠距離詞語的聯絡。
想象一下你讀到 “陰雨連綿,小夥計仍然要……”這半句話時,大腦會關注 “陰雨”,並依據“仍然”的轉折語義,推斷接下來小夥計應該不會進行一個適宜雨天的行為,由此判斷後面可能出現“出門”之類的戶外行動。AI的注意力機制也是如此,分析詞元關聯,確定“注意”重點,綜合注意力權重產生新的語義向量,最終輸出基於前文預測的下一個詞元的機率分佈。
AI訓練時用了大量高質量文字和書籍等資源,最基本的訓練任務就是從這些文字中摘取段落,讓模型儘可能準確地預測後續應該出現的詞元。之後還會對模型應用領域內的相關文字進行微調。所以,從內部結構到訓練過程,AI都沒有“理解詞意”這一步。它只是模仿訓練集中的文字續寫文字。人類回答問題時會試圖基於知識進行聯想推理,而AI則基於訓練資料中觀察到的語言模式生成答案,它不理解問題,只是按統計規律給出看似合理的輸出,因此也有研究者用 “隨機鸚鵡” 形容大語言模型的這一特性。
這就解釋了小G為何會得到“套色密押印章組”這種幻覺回答。AI處理晚清錢莊歷史問題時,注意力機制關聯訓練資料中與“錢莊”“防偽”等相關的所有資訊。但它不理解詞元的含義,也不區分資訊真假,僅按統計關聯性選擇看似“最可能”的組合。訓練資料裡,古代金融機構需要防偽,印章是認證工具,套色是印刷技術,密押是銀票防偽暗記,這些碎片資訊被機率重組,就創造出了看似專業合理實際並不存在的歷史細節。

《我,機器人》劇照

由於模型本身和訓練時都未要求AI識別詞意,所以它自然容易出現事實錯誤,尤其是當用戶詢問訓練資料中無直接答案的問題時更是如此。其實,胡說八道並不是Transformer模型的專利,在它之前的迴圈神經網路模型或者更早的N-tuple,也都能按要求格式生成不存在的文言文、維基詞條或網站連結。相對來說,Transformer模型所生成的胡說八道其實比以前更少而不是更多了。只是由於它效能更強,生成內容更像回事,即便有錯誤也易混在通順上下文中矇混過關,所以才引起了更多人的關注。
DeepSeek的幻覺率最高?
在眾多生成式AI中,DeepSeek系列模型在很多方面表現出色,但“幻覺”問題也飽受詬病。根據Vectara HHEM人工智慧幻覺測試,推理模型DeepSeek – R1(R1)的幻覺率達14.3%,是其基座模型DeepSeek – V3的近4倍,遠超行業平均水平。這也引發了關於模型推理能力與幻覺率關係的討論:是否模型推理能力越強,越容易出現幻覺?
其實,推理能力與幻覺率並非簡單的正相關或負相關。例如,對比同一系列裡有思維鏈能力的推理模型和通用大模型的話,DeepSeek的推理模型R1跟基座大模型V3相比,R1推理能力更強,幻覺率也顯著提高;而Chatgpt的推理模型o1,比通用模型4o推理能力更高,幻覺率卻更低。所以,不能簡單認為推理能力越強,幻覺率就越高。

《梅根》劇照

這種矛盾的現象表明,影響AI幻覺率的因素很複雜,可能與模型訓練資料、最佳化目標、架構設計等多方面有關,並非僅和推理能力相關。一個合理的推測是,某些推理模型在最佳化思維鏈和邏輯推理能力時,可能犧牲了對事實準確性的嚴格要求,或者增強了模型“自圓其說”的能力,從而產生更具迷惑性的幻覺。
有什麼辦法能消除幻覺嗎?
有一種常見說法,降低大語言模型的“溫度”引數就能消除幻覺。溫度引數一般不在生成式AI使用者介面(如網站或APP)直接顯示,自己搭建本地模型或利用 API 介面時才能看到。
這個引數決定預測詞元機率的集中或分散程度。比如前文是 “貓吃了……”,模型預測下文機率從高到低可能是“魚”“罐罐”“老鼠”“毛團”“一驚”等。溫度越高,輸出機率越分散,“一驚”這種低機率結果出現可能性越大,也就是模型的回答會更有創意;溫度越低,輸出機率越集中,若設為0,則回答理論上一定是機率最高的“魚”。但如果認為把溫度設為0幻覺就會消失,則是錯誤的。因為AI回答仍受訓練資料影響,若模型算出的最高機率下文有誤,溫度為0時仍會產生幻覺,而且是 “必然”產生。
另一種說法是用外部記憶加指令限制可消除幻覺,即給大語言模型載入各種具有準確信息的知識庫,接到使用者指令後,模型會先在知識庫中查詢與問題相關的資訊,然後在檢索得出的上下文詞元基礎上再去計算機率生成文字。但實際上,這也不能完全消除幻覺,因為這種流程仍需大語言模型依賴訓練集中學習的機率進行總結提煉,它仍可能產生與知識庫不符的答案。
當然,這些方法都能在一定程度上降低幻覺,但徹底消除幻覺並不現實。模型從訓練到執行,每一步都可能引入幻覺。訓練集本身可能有錯誤、偏向或虛構內容,訓練過程要在準確性與過擬合間平衡,使用者輸入也可能有誘導性或無法回答的問題,模型對使用者意圖判斷也可能出錯。

《機械姬》劇照

或許有人設想,在理想場景下,訓練集只含真實完備資料,使用者問題都能在其中找到答案,且模型訓練完全準確,這樣的大模型是否就不會產生幻覺?但如此一來,它就只是單純查閱訓練集,失去了額外的價值。
創造力和幻覺:一體兩面?
理解了AI的工作方式,就能看清兩種常見卻相互矛盾的誤解,它們都源於對AI本質的誤解。
第一種誤解認為AI只會複製拼接,沒有真正創造力,覺得AI只是重組訓練資料,拼接知識碎片,創造不出新東西,認為它是高階複製貼上工具。第二種誤解則相反,期待AI永遠準確無誤,一旦發現AI編造內容就憤怒,彷彿AI是知識的絕對守護者。
但實際上,創造力和幻覺是一枚硬幣的兩面,從技術角度看機制完全相同,都是基於已有知識和機率分佈生成語言,區別只在於使用者期望和應用場景:在創意性任務中,我們希望AI有 “創造力”;事實性任務中,我們希望它“準確”。
與其期待用巧妙方法徹底消除大語言模型的幻覺,不如學會與之共處,選擇更明智靈活的使用方式。例如,別問太模糊或誤導性問題,透過聯網功能和特定提示詞限制回答範圍,為AI提供更準確資訊源等等。
最重要的是,始終保持獨立思考的能力,對AI答案持謹慎懷疑態度。在熟悉領域很容易識別幻覺,但在陌生領域,我們往往輕信AI的權威性,這恰恰是最危險的。在資訊爆炸時代,辨別資訊真偽的能力比獲取資訊的能力更寶貴。

《絕世網紅》劇照

當然,換個浪漫視角思考,人類的創造力是否也是幻覺的另一種表達?那些一閃而過的天才直覺,不也是基於知識累積的靈感?AI那些被視為“錯誤”的回答,是否展示了平行宇宙的其他可能性?或許在另一個時空,真有小夥計發明了 “套色密押印章組”,在小G的博物館裡,它正等待著來訪者好奇的目光?
畢竟,連愛因斯坦也真的說過:“想象力比知識更重要” 。
點贊”“在看”,讓更多人看到
 排版:初初 / 稽核:雅婷
招聘|實習生、撰稿人
詳細崗位要求點選跳轉:《三聯生活週刊》招實習生、撰稿人
本文為原創內容,版權歸「三聯生活週刊」所有。歡迎文末分享、點贊、在看三連!未經許可,嚴禁複製、轉載、篡改或再發布。
大家都在看

點贊”“在看”,讓更多人看到

相關文章