你是否開始習慣DeepSeek的“無所不能”?
寫方案?找它!做PPT?找它!生病了?找它!就連昨晚做的夢,都想讓它解一解……
但萬萬沒想到,正在被越來越多人信賴的DeepSeek,居然也會一本正經地胡說八道。
AI,並不是萬能的。
現在,第一批使用DeepSeek的人,已經被坑慘了。
“DeepSeek查閱文獻是如此的不靠譜”,廣州某著名高校的一位教授近日發朋友圈吐槽。
原本這位教授想透過DeepSeek查詢《Global Cantonese: The Spread of Cantonese Language and Culture》的資訊,結果核實後發現:DeepSeek提供的作者是假的,年份是錯的,出版社更是風馬牛不相及。
經過進一步溝通,DeepSeek承認這些資訊錯誤,並感謝其指正,還表達了自己的歉意:
最近,知名媒體人、人民日報海外版原總編輯詹國樞也發了篇文章,標題就是:DeepSeek的致命傷——說假話。
老詹在文章中列舉了親身經歷,讓DeepSeek寫一篇《史記·詹國樞列傳》,開頭第一句展現的出生地、母親姓氏等基本資訊,便“張冠李戴”;再讓DeepSeek寫了一篇某記者的記述文章,文風生動、案例不少,結果轉給記者本人,卻被全盤否認。提到的案例,沒一個是本人寫的。
人都說DeepSeek文采飛揚,文學素養高,可路遙的名著《平凡的世界》,卻被說成是詹國樞老班長的代表作。如果有小朋友看了,可能要誤人子弟。
實際上,資訊表述上的不嚴謹,已經快成DeepSeek被吐槽最多的一種問題,《苦晝短》說成是李白的,明朝“廢除宰相”和“設定內閣”混為一談,也難怪有網友直言:
DeepSeek只適合寫程式碼做數學,對文科生一點不友好。
部分試圖用DeepSeek複習國考、省考的人,不得不重新拾起申論教材了。
一些試圖透過DeepSeek解放人力的“牛馬”也破防了,有網友說用DeepSeek寫文章,舉了4個例子,3個都查不來,最後才發現都是DeepSeek自己編的。
原以為是來解放自己的,沒想到因為核查資訊,卻花費了更大的精力。
如果只是事實差錯,或許是搜尋結果有誤,這還不是最恐怖的。
陝西自媒體“決明子”,一直對西安安定門那裡的道路規劃要繞一圈不解,問當地執勤的交警、計程車司機都回答不上來,看到DeepSeek火爆,決定一試,提問DeepSeek“西安的道路路線規劃,從環城西路北段到環城西路南段為什麼不直行,非得在安定門繞一圈?”
DeepSeeK先在解釋中提出了一個“唐皇城交通靜默區”的概念,表示根據《西安歷史文化名城保護規劃(2020-2035)》,安定門周邊劃定了一級靜默區、二級靜默區,本質是為了保護文物,防止過大的震動。它甚至還列出了具體的空間資料,距離增加多少、振動傳遞深度變化是多少。
乍一看,這解釋太合理了!有理論、有資料、有政策,可信度拉滿。
可是網友一查,這份《西安歷史文化名城保護規劃(2020-2035)》檔案中,壓根就沒有什麼“靜默區”。這個看似極為專業、有理有據的回答,居然是“編”的。
反饋給DeepSeek,它也很老實,誠懇承認錯誤,檔案裡確實沒有“靜默區”的說法。但隨後,又做出新的修正和澄清,繼續“編織”自己的答案。
AI的精心包裝,讓編的材料看起來如此真實,如同“有意識”地在操控一般,真有些讓人不寒而慄。
有時為了顯得自己回答高深,DeepSeek還會採用一些專業詞彙,比如量子糾纏、熵增熵減等,當“話術”超出使用者認知的時候,真有可能一下把人震住,難以分辨。
問題來了,為什麼DeepSeek要不懂裝懂,甚至“說假話”呢?
行業用這個詞來形容AI“說假話”的現象,即輸出的回答看似內容合理連貫,但“同輸入問題意圖不一致、同世界知識不一致、與現實或已知資料不符合或無法驗證”。
這並不是DeepSeek一家的毛病。去年8月,總部位於紐約的人工智慧初創公司和機器學習監控平臺Arthur AI就曾釋出報告,比較了OpenAI、“元宇宙”Meta、Anthropic以及Cohere公司開發的大語言模型出現幻覺的機率。研究報告顯示:這些大模型都會產生幻覺。
大洋彼岸最厲害的ChatGPT,也和DeepSeek一樣“滿嘴跑火車”。
只不過相比起同行,DeepSeeK-R1的“幻覺”現象更明顯一些。在Vectara HHEM人工智慧幻覺測試(行業權威測試,透過檢測語言模型生成內容是否與原始證據一致,從而評估模型的幻覺率,幫助最佳化和選擇模型)中,DeepSeek-R1顯示出14.3%的幻覺率。
這不僅僅比前身DeepSeek-V3高了近4倍,也遠超行業平均。
DeepSeek自己也明確承認了“技術侷限性認知”:當前大模型內容生成的底層邏輯是基於機率的,確實存在生成資訊可信度參差不齊的挑戰。
網際網路上有什麼內容,不論真假,都可能變成DeepSeeK的引用素材,而它只負責根據已有的內容推理,不對資訊本身負責。
而DeepSeek-R1的幻覺之所以更加嚴重,是因為其加強了“思維鏈”(CoT)和創造力。
比如DeepSeek-R1的詩歌創作,不僅能寫五絕、七律,“起承轉合”也很絲滑,對詩的意境亦有自己的理解,被網友稱為“寫的詩比祖傳的《唐詩三百首》還工整”,讓中文系畢業生汗顏,甚至靈魂發文:
AI隨手甩出一句詩詞都比中文系教授寫得好的話,人類的文學還有必要存在嗎?人類還能再誕生出偉大的詩人嗎?
如此強大的創作力,正是因為DeepSeek-R1在文科類任務的強化學習訓練過程中,模型的創造性被不斷鼓勵。
如同“出門問問”大模型團隊前工程副總裁、Netbase前首席科學家李維所說:
比如在“思維鏈”的強化過程中,DeepSeek-R1並不是對摘要、翻譯、新聞寫作這類相對簡單的任務最佳化,而是增加各種層面的思考,會不斷的延申。
於是面對複雜或者有難度的問題,它能超常發揮甚至給人意想不到的答案,但是當面對一些簡單的任務時,DeepSeek-R1則可能因為習慣了深度思考,而過度發揮。
比如你問“隔壁老王有多高”,它可能就懵了,因為它沒見過老王,也不知道你到底問的是哪個老王。但它又不得不回答,於是它就開始“腦補”,根據“一般人有多高”這個學到的概念,給你編織一個答案。
所以相比較而言,DeepSeek-R1確實在“理科”方面更有邏輯性,而“文科”方面則因為喜歡“發揮”,可能把不相干的內容關聯起來胡編亂造,甚至徹底翻車。
正因如此,當AI時代加速到來,我們比任何時候都更需要尋求真相,增強明辨是非、獨立思考的能力。
就在除夕夜,在“如何看待馮驥盛讚‘Deepseek’的問題”之下,一名自稱為“Deepseek創始人梁文鋒”的知乎使用者,給出了這樣的答案:
各位知乎的年輕朋友好,我是深度求索(DeepSeek)的梁文鋒,剛回答了一個問題,又看到這個問題,除夕之夜忍不住回覆一些。
幾天看到馮總這篇長文時,我正在除錯新模型的損失函式,手邊的咖啡直接灑在了鍵盤上——既因為被行業前輩認可的惶恐,更因為馮總這些灼熱的文字讓我想起十二年前在浙大實驗室第一次跑通神經網路時的顫慄。
必須坦白,團隊讀到“國運級”這個形容時所有人頭皮都是麻的。我們不過是站在開源社群巨人們的肩膀上,給國產大模型這棟大廈多擰了幾顆螺絲。
您提到的六大突破,其實每一環都凝結著更動人的故事:那個能在手機上跑的mini模型,靈感來自甘肅一位中學老師在GitHub提的issue;支援聯網搜尋的功能,是內測使用者連續三十天凌晨三點提交錯誤日誌喂出來的……
這回答內容有場景、有細節,回覆有氣魄、帶感情,不少網友讀後動容了。
新浪科技向相關人士求證得知:該知乎賬號除夕發文並非梁文鋒本人,大機率為DeepSeek所寫。
也就是說,DeepSeek生成的廣為流傳的“第一個假新聞”,指向的正是自己的創始人。
令人細思極恐的是,這份回應居然如此契合人們對於梁文鋒的想象,以至於被科技界和金融界都瘋傳,有人只是把截圖發到公眾號文章,就獲得了2.6萬轉發。
罕有人懷疑這個“梁文鋒”是假的,反而有不少讀者留言誇讚,“有情懷的科學家”“看得熱淚盈眶”“為年輕一代創業者點贊”……
這樣的現象,恰恰提示了風險所在,為即將到來的AI時代敲響警鐘。
今年1月,世界經濟論壇釋出的《2025年全球風險報告》顯示:
虛假資訊和錯誤資訊連續兩年位居短期風險之首,持續對社會凝聚力和治理構成重大威脅,它們侵蝕公眾信任並加劇國內外分歧。
AI聊天機器人的存在,正放大這種風險。Vectara公司針對文件內容開展的研究表明,一些聊天機器人編造事實、虛構資訊的機率高達30%。
長期從事自然語言處理、大模型和人工智慧研究的哈爾濱工業大學(深圳)特聘校長助理張民教授就表示:“現階段AI幻覺難以完全被消除”。也就是說,DeepSeek等大模型會說假話,短期內無法避免。
作為使用者,我們能做的就是找到AI的正確開啟方式,拒絕“上當”。
比如最簡單的方法,就是勤快一點,透過其他搜尋引擎對比查詢。或者針對DeepSeek在回答中引用的網頁訊息源,動動手指點進去,看看提到的案例是否真的存在。
置身於當下資訊爆炸、真偽難辨的大環境,每個人都應該不斷強化自我認知,多一次獨立思考,可能就能少一次上當。
說到底,AI並不能讓人一勞永逸,反而提出了更高的要求,包括如何提問、如何跟AI對話,以及如何甄別資訊等。到最後,人與人的差距可能會變得更大。