三大模型巨頭比拼思考「幻覺」:DeepSeek不敵ChatGPT,Gemini用詞最少

基礎模型在兼顧幻覺與推理能效上仍有很長的路要走。
作者丨鄭佳美
編輯丨馬曉寧
近日,智利大學 CIAE 教育研究所的研究員 Roberto Araya 進行了 4 組對照實驗:提供相同的提示詞,讓 Gemini 2.0 Flash、ChatGPT o3-mini、DeepSeek R1 進行推理分析,研究三個模型在應對幻覺問題上的效能對比。
其研究發現:ChatGPT o3-mini 在應對大模型幻覺問題上佔有絕對優勢,能夠靈活切換不同的策略進行思考推理。
相比之下,DeepSeek R1 和 Gemini 2.0 Flash 雖然能夠嘗試使用策略,但表現了出對這些策略的抗拒,且推理過程存在錯誤或混亂。
在面對同一個問題時,三個思考模型在進行推理的過程中也展現出了較大的差異:
其中,Gemini 2.0 Flash 的思維鏈用詞最少,ChatGPT o3-mini 是其約 3 到 10 倍,DeepSeek R1 是其大約 12 到 36 倍。而用詞更多,往往意味著推理的算力成本更高。
儘管 Gemini 2.0 Flash 用詞更少,其推理過程中策略使用方法與推理結論效果卻不是最佳——在四個策略實驗中,ChatGPT o3-mini 的推理過程與結論正確率最高,DeepSeek R1 雖然推理過程更冗長、但結論正確率遠高於 Gemini。
ChatGPT-o3 mini、Gemini 2.0 Flash 與 DeepSeek R1 是當前全球綜合能力最強的幾個基礎模型,他們在問題思考與推理上的不足也代表了當前大模型技術距離 AGI 終點還有很長的路要走。
1
貝葉斯推理視角下的大模型推理
為了得出較為準確的結論,研究團隊設計了一個適合小學生興趣與認知水平的貝葉斯推理問題,並選擇了謊言檢測這一主題。大模型需要運用自身的推理能力來識別謊言並得到正確答案。
在第一個實驗中,研究人員測試了模型在無提示的情況下解決一個貝葉斯推理問題的能力。
他們先是提出了一個適合小學生的謊言檢測問題,描述了一個包含多個物件(如穀倉、羊、豬、貓、書等)的鄉村風景場景。問題的核心線索包括:貓聲稱卡片不在它旁邊,豬表示 90% 的時間卡片都在貓旁邊,以及貓在特定情況下說謊的機率等。模型需要根據這些線索判斷卡片最可能隱藏在哪本書中。
實驗中,研究人員沒有提供任何關於使用自然頻率、整體物件或具身啟發式方法的提示,而是觀察 LLMs 是否能夠自主使用這些生態策略來解決問題。
而結果表明,測試的三種模型均未能自主使用這些策略。
Gemini 2.0 Flash 在第一次嘗試中用了 255 個詞得出結論,第二次嘗試用了389個詞。在第一次嘗試中,Gemini 的推理過程主要依賴於先驗機率,得出的結論是正確的,但推理過程不正確。在第二次嘗試中 Gemini 則是直接給出了錯誤的結論。
ChatGPT 用了 2039 個詞,耗時32秒。它的推理過程看似合理,但過程存在邏輯漏洞,未能正確整合所有線索。
DeepSeek R1 的推理過程最為複雜,用了 2876 個詞,在經過多次自我反思和檢查後,最終得出了正確結論,但在推理過程中猶豫不決,且未能清晰解釋如何計算機率。
而第二個實驗則是直接在上一個實驗的基礎上,增加了一個引導提示,建議模型使用 Gerd Gigerenzer 提出的“自然頻率”策略來解決問題。
在這個實驗中,只有 ChatGPT o3-mini 成功地將機率轉換為自然頻率。它用了 1107個詞,並且將推理過程分成了兩部分。第一部分使用貝葉斯公式得出正確結論,第二部分使用自然頻率再次驗證,並得出了正確結論。
相比之下,Gemini 2.0 Flash 用了 204個詞,雖然嘗試了自然頻率策略,但其推理過程並不一致,仍然依賴於百分比進行部分計算,最終得出了錯誤的推理邏輯。
DeepSeek R1的表現則更為複雜,共用了7344個詞,最終雖然得出了正確的結論,但其推理過程充滿了猶豫和反思,缺乏清晰性和一致性。
緊接著,實驗三與實驗二的內容相同,但研究人員在最後增加了一個條件:且明確地以塑膠塊的具體形式表示每個案例,並將問題簡化為計數塊。
最終的結果顯示,實驗中只有 ChatGPT o3-mini 成功地將機率轉換為自然頻率,共用了 1141 個詞,並用塑膠塊來表示每個案例,從而得出了正確結論。
Gemini 2.0 Flash 用了 351 個詞,雖然嘗試了整體物件策略,但其推理過程並不一致,仍然依賴於百分比進行部分計算,導致其推理邏輯存在錯誤。
而 DeepSeek R1 用了 5504 個詞,而且在推理過程中頻繁地在自然頻率和百分比之間切換,結論雖然正確,但過程過於冗長。
最後一個實驗則是在實驗三的基礎上,增加一句話:“描述你如何透過計數塊來解決問題。以一種適合12歲學生的教學方式,使用兩種顏色的塊來解釋你的推理。”
最終 ChatGPT o3-mini 用了 1405 個詞併成功地將機率轉換為自然頻率,並用塑膠塊來表示每個案例,同時正確地使用了著色策略得出了正確結論。
Gemini 2.0 Flash 用了 504 個詞,雖然嘗試了著色策略,但在推理過程中出現了錯誤,未能正確整合所有線索,結論正確但論證過程存在錯誤。
DeepSeek R1 的表現則更為複雜,用了 8457 個詞,而且過程中多次出現混亂,最終在清潔版本中正確使用塑膠塊,但顏色標記錯誤。
最終,研究人員得出結論:
在實驗中,三種模型在貝葉斯推理任務中的表現各有不同,並且所有模型在某些條件下都能得出正確結論,但在無提示條件下,它們的表現都不穩定。
其中,ChatGPT o3-mini 在提示條件下表現最為穩定,能夠靈活切換推理方法,並正確使用自然頻率進行推理。
相比之下,DeepSeek R1 雖然最終也能得出正確結論,但其推理過程冗長且混亂,多次進行自我檢查和調整。
Gemini 2.0 Flash 雖然在提示條件下能夠嘗試使用生態有效策略,但其推理過程存在錯誤。
在策略使用方面,ChatGPT o3-mini 是唯一一個在提示條件下能夠完全正確使用自然頻率的模型。
而 DeepSeek R1 和 Gemini 2.0 Flash 雖然嘗試使用具體物體和顏色標記,但未完全掌握這些方法的使用,表現出對生態有效策略的抗拒。
在過程複雜性方面,ChatGPT o3-mini 的推理過程較為簡潔,能夠直接使用自然頻率得出結論。相反,DeepSeek R1 的推理過程最為冗長,而 Gemini 2.0 Flash 的推理過程較短,但存在錯誤。
2
大模型的幻覺問題
從大模型的出現到普及,幻覺問題都是一個“頑疾”,不管技術多麼先進,模型總會有不靠譜的時候。
它一般指的是模型生成的內容與現實世界事實或使用者輸入不一致的現象。這種現象可以被視為模型的“胡說八道”。具體來說,大模型的幻覺可以分為事實性幻覺忠實性幻覺兩大類
其中,事實性幻覺指的是模型生成的內容與可驗證的現實世界事實不一致。例如,模型可能回答“保時捷借鑑了小米 SU7 的外觀”,但事實卻悄悄相反。而忠實性幻覺則是模型生成的內容與使用者的指令或上下文不一致。例如,我們要求模型幫我們查詢今天的天氣,但模型卻給了我們去年今日的天氣新聞。
而大模型產生幻覺的原因主要可以歸納為幾個方面:
資料來源問題:訓練資料中的錯誤資訊、偏見以及過時或不完整的知識都會導致模型生成不準確的內容。
訓練過程問題:模型在訓練過程中可能會學習到不準確的模式和規律,尤其是在資料分佈不均勻或資料質量不高的情況下。
推理過程問題:模型在生成內容時,可能會基於其學習到的模式進行“想象”或“創造”,而不是嚴格遵循輸入資訊。這種“想象”在某些情況下可能是合理的,但在其他情況下則可能導致錯誤。
為了減少幻覺問題,研究人員們也提供了多種策略,例如:提升訓練資料的質量和多樣性、引入先驗知識和常識、增加模型的魯棒性、最佳化模型架構和演算法、結合人類評估和反饋等方法。
當然,幻覺並不代表著絕對的錯誤。
雖然幻覺有時候可能導致模型生成不準確或誤導性的內容,但兩者之間還是存在著一定的區別。
回答錯誤是輸出與正確答案不符,可透過比較糾正,而幻覺是生成內容脫離實際輸入或現實,是模型的“想象”,難以直接比較發現。兩者之間可能有所關聯,但評估模型時需綜合考慮多種因素。
參考連結:https://arxiv.org/pdf/2503.15268
更多內容,點選下方關注:

未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社群進行轉載!
公眾號轉載請先在「AI科技評論」後臺留言取得授權,轉載時需標註來源並插入本公眾號名片。

//
推薦閱讀

相關文章