康奈爾大學最近牽頭,發起了一項關於AI幻覺的研究,結果讓我非常有共鳴……
平時處理業務、找人找資訊、寫東西……我自己用GPT-4o和Perplexity.AI
的時間,大致是一半一半。
但是,仍然發現,即便GPT已經濃眉大眼地列出了資訊來源、網站連結,真的細看,照樣可以驢唇不對馬嘴。
LLM大機率會有幻覺問題,而搜尋引擎又呆板無趣缺乏創造,兩者的結合,會不會是取長補短呢?
這是前仆後繼的AI Search公司想要去解決的問題,追求資訊的準確,和追求創造,天然存在矛盾。
馬斯克的Grok,也出過比較嚴重的幻覺問題,結果X上老馬直接說“我認為整個世界就是虛擬的,真實本身是種幻覺。”
哪怕已經到了2024年的下半年,如果想純用AI進行內容輸出,仍然要花50%的時間和AI作鬥爭,另外50%的時間用來校驗幻覺。

GPT-4o展示了聯網搜尋,但牽扯到學術問題,答案依然會失真。
效率顯著提升了,麻煩也隨之轉移了……
之前寫《ChatGPT最感謝誰?50位影響世界的AI科學家》這篇文章時,各大模型全部出現了非常強的幻覺問題,非英語環境常見的人名和對應關係,出錯機率非常大。
而國產模型則因為牆的原因,對於海外科學家和論文存在著非常大的盲區——
比如,我想羅列「楊立昆」的最新言論,結果給我採集到了「楊立在昆明」的系列講話……
很多時候,居然還是人工快一點。

因為我本身是長期的樂觀派,也相信AGI,對於目前AI出現的階段性問題,覺得都很正常。
只是,我非常好奇邊界在哪裡、該怎麼解決?
康奈爾最新研究表明,從谷歌的 Gemini 到 Anthropic 的 Claude,再到OpenAI持續擠牙膏的GPT-4o ,所有生成式 AI 模型都會產生幻覺。
說得直白點,大模型全部是不可靠的敘述者——有時輸出很搞笑,有時卻有嚴重問題。
不過,並非所有模型都以相同的速度編造謊言。它們散佈的謊言型別,取決於它們接觸的資訊來源。

康奈爾大學、華盛頓大學和滑鐵盧大學以及非營利研究機構 AI2 的研究人員,最近進行了一項研究,試圖透過將 GPT-4o 等模型與法律、健康、歷史和地理等主題的權威來源進行事實核查,來對幻覺進行基準測試。
他們發現,沒有一個模型在所有主題上都表現特別好,而幻覺最少的模型之所以如此,部分原因是它們拒絕回答本來會出錯的問題。
康奈爾大學博士生、這項研究的合著者趙文婷說:“我們工作中最重要的結論是,我們還不能完全信任模型生成的輸出……目前,即使是最好的模型,也只有大約35%的時間能夠生成無幻覺的文字。”

學術界也曾嘗試探究模型的“真實性”,其中包括一個 AI2 下屬團隊的嘗試。但趙文婷指出,這些早期測試向模型,提出了一些可以在維基百科上輕鬆找到答案的問題。
考慮到大多數模型,都是在維基百科資料上進行訓練的,顯然這些都是“送分題”。

為了使他們的基準更具挑戰性——也為了更準確地反映人們向模型提出的問題型別——研究人員在網路上確定了「沒有維基百科參考」的主題。
他們測試中超過一半的問題,無法使用維基百科來回答,涉及的話題包括文化、地理、天文學、流行文化、金融、醫學、計算機科學和名人。
在他們的研究中,研究人員評估了十幾種不同的流行模型,其中許多都是去年釋出的。
除了 GPT-4o,他們還測試了多個開源模型,例如Meta 的 Llama 370B、Mistral 的Mixtral 8x22B 以及 Cohere 的Command R+,以及呼叫API的模型,比如Perplexity 的Sonar Large(基於 Llama)、Google 的Gemini 1.5 Pro和 Anthropic 的Claude 3 Opus。

儘管OpenAI、Anthropic和其他大型生成式 AI 公司聲稱幻覺的產生率較低,但結果表明,模型產生的幻覺其實還是半斤八兩。
GPT-4o 和 OpenAI 更老的產品GPT-3.5在基準測試中,正確回答問題的百分比方面表現大致相同。(GPT-4o 略勝一籌)
OpenAI 的模型總體上幻覺最少,其次是 Mixtral 8x22B、Command R 和 Perplexity 的 Sonar 模型。

與“名人”和“金融”有關的問題對模型來說最難回答,但與地理和計算機科學有關的問題對模型來說最容易回答(可能是因為它們的訓練資料包含更多對這些問題的引用)。
在答案來源不是維基百科的情況下,每個模型的平均回答事實性都較低(尤其是 GPT-3.5 和 GPT-4o),這表明它們都大量受到維基百科內容的影響。
即使是能夠在網上搜索資訊的模型,如 Command R 和 Perplexity 的 Sonar 模型,在基準測試中也很難解決“非 Wiki”問題。
模型大小並不重要——較小的模型(例如 Anthropic 的 Claude 3 Haiku)產生幻覺的頻率與較大、表面上更強大的模型(例如 Claude 3 Opus)大致相同。

那麼這一切意味著什麼——供應商所承諾的改進又體現在哪些方面呢?
更寬容的看法是,他們使用的基準並不適合此目的。正如我們之前所寫的那樣,許多(如果不是大多數)人工智慧評估都是短暫的,缺乏重要的背景,註定會成為古德哈特定律的犧牲品。
無論如何,趙女士表示,她預計幻覺問題將“持續很長時間”。

幻覺產生的原理示意圖
“我們論文中的實證結果表明,儘管某些方法有望減少或消除幻覺,但這些方法實際能取得的改善效果有限,”她說。
“此外,我們的分析表明,即使是在網際網路上找到的知識也常常相互矛盾,部分原因是訓練資料——由人類編寫——也可能包含幻覺。”
一個臨時的解決方案可能是簡單地對模型進行程式設計,使其更頻繁地拒絕回答——這在技術上相當於告訴一個萬事通停止回答。
在研究人員的測試中,Claude 3 Haiku只回答了大約 72% 的問題,其餘問題則選擇棄權。
考慮到棄權,Claude 3 Haiku實際上是所有模型中最符合事實的——至少從它撒謊最少的角度來看是這樣。

但是,人們會使用一個推三阻四、拒絕回答的模型嗎?
趙認為不會,並表示模型公司應該將更多的時間和精力,投入到減少幻覺的研究上。
她斷言,完全消除幻覺可能是不可能的,但可以透過在模型開發過程中進行人為事實核查和引用來減輕幻覺。
“需要制定政策和法規,以確保人類專家始終參與驗證和確認生成式人工智慧模型所生成資訊的過程,”趙補充道。
“在這個領域仍有許多機會可以產生重大影響,例如為任何自由文字開發先進的事實核查工具,為事實內容提供引文,併為幻覺文字提供更正。”

Andrej Karpathy對幻覺問題也有過詳細闡述,他表示:“只有當夢境進入被認為事實不正確的領域時,我們才會將其稱為“幻覺”……這看起來像一個bug,但這只是LLM在做它一直在做的事情。”
前段時間受陶芳波博士啟發:做夢也是種“資料合成”。
在Life-long Personal Model(終身模型)的視角下,你有權保持沉默、保持不去思考sth的狀態。
否則,你記憶的每一個瞬間、之後的每一次反芻,都將成為呈堂證供。
歡迎來到AI造夢時代……

參考閱讀:
新鮮真話,關注一下
朋友圈會發一些具體的案例和商業化日常~
AI交流,歡迎加我本人微信:FrankGPTs
