人工智慧的錯誤與人類的錯誤有很大不同

點選藍字 關注我們
SUBSCRIBE to US
ISTOCK
人類總是會犯錯。我們所有人每天在新任務和日常任務中都會犯錯。其中一些可能是小錯誤,而有一些則是災難性的。錯誤會破壞我們與朋友之間的信任,會讓老闆失去對我們的信心,有時還會成為生死攸關的差別。
數千年來,我們建立了安全體系來應對人類常犯的各類錯誤。如今,賭場會定期輪換髮牌員,因為如果他們長時間做同一項工作就會出錯。醫院工作人員在手術前會在肢體上做標記,這樣醫生就會在正確的身體部位進行手術,而且他們會清點手術器械以確保沒有器械遺留在體內。從文字校對到複式記賬再到上訴法院,我們人類已經非常擅長糾正人類的錯誤了。
人類現在正在迅速將一種完全不同型別的犯錯者融入社會:人工智慧。像大型語言模型(LLMs)這樣的技術能夠執行許多傳統上由人類完成的認知任務,但它們也會犯很多錯誤。當聊天機器人告訴你吃石頭或者在披薩上加膠水時,這看起來很荒謬。但將人工智慧系統的錯誤與人類錯誤區分開來的並非其錯誤的頻率或嚴重程度,而是其怪異之處。人工智慧系統犯錯的方式與人類不同。
我們使用人工智慧所帶來的許多摩擦和風險都源於這種差異(https://spectrum.ieee.org/tag/security)。我們需要創造新的安全系統來適應這些差異並防止人工智慧錯誤帶來危害。
人類錯誤vs人工智慧錯誤
生活經驗讓我們每個人都能相當容易地猜到人類會在何時何地犯錯。人類的錯誤往往出現在某人知識的邊緣:我們大多數人在解微積分問題時都會出錯。我們預計人類的錯誤是集中出現的:一個微積分錯誤很可能伴隨著其他錯誤。我們預計錯誤會有起有伏,可預見地取決於疲勞和分心等因素。而且錯誤往往伴隨著無知:一個在微積分上犯錯的人也很可能會對與微積分相關的問題回答“我不知道”。
就人工智慧系統犯這些類人類錯誤的程度而言,我們可以運用我們所有的糾錯系統來處理它們的輸出。但當前這批人工智慧模型——特別是大型語言模型(LLMs)——犯錯的方式有所不同。
人工智慧的錯誤似乎是隨機出現的,不會集中在特定的話題上。大型語言模型(LLM)的錯誤往往在知識領域中分佈得更為均勻。一個模型在微積分問題上出錯的可能性,可能與它提出捲心菜吃山羊這種說法的可能性一樣大。
而且人工智慧的錯誤並不伴隨著無知。一個大型語言模型在說出完全錯誤(而且對人類來說顯然是錯誤)的話時,會和說出正確的話時一樣自信。大型語言模型這種看似隨機的不一致性,使得人們很難相信它們在複雜的多步驟問題中的推理。如果你想要使用一個人工智慧模型來解決商業問題,僅僅看到它理解哪些因素能使產品盈利是不夠的;你需要確保它不會忘記貨幣是什麼。
如何應對人工智慧錯誤
這種情況表明了兩個可能的研究領域。第一個是設計出會犯更類人錯誤的大型語言模型(LLMs)。第二個是構建新的糾錯系統,以處理大型語言模型往往會犯的特定型別的錯誤。
我們已經有了一些工具來引導大型語言模型以更類人的方式行事。其中許多工具源於“對齊”研究領域,該領域旨在使模型按照人類開發者的目標和動機行事(https://arxiv.org/abs/2406.18346)。一個例子是可以說是讓ChatGPT取得突破性成功的技術:人類反饋強化學習(https://arxiv.org/abs/2203.02155)。在這種方法中,人工智慧模型(比喻性地)會因生成得到人類評估者點讚的回覆而得到獎勵。類似的方法可用於誘導人工智慧系統犯更類人的錯誤,特別是透過對那些較難理解的錯誤給予更多懲罰。
在捕捉人工智慧錯誤方面,我們用於預防人類錯誤的一些系統會有所幫助。在一定程度上,迫使大型語言模型(LLMs)對自己的工作進行復核有助於防止錯誤。但是,大型語言模型也會為自己脫離理性的行為編造看似合理但實則荒謬的解釋。
其他針對人工智慧的錯誤緩解系統與我們用於人類的系統完全不同。因為機器不會像人類那樣疲勞或沮喪,所以以稍有不同的方式反覆向大型語言模型(LLM)提問,然後綜合其多個回答是有幫助的。人類不會忍受那種惱人的重複,但機器會(https://arxiv.org/abs/2210.02441)。
理解相似點與不同點
研究人員仍在努力弄清楚大型語言模型(LLM)的錯誤在哪些方面與人類的錯誤不同。人工智慧的某些怪異之處實際上比乍看起來更像人類。對大型語言模型的查詢稍作改變就可能導致截然不同的回應,這一問題被稱為提示敏感性。但是,任何調查研究人員都會告訴你,人類也是如此。民意調查中的問題措辭會對答案產生巨大影響(https://psycnet.apa.org/record/1992-97329-001)。
大型語言模型(LLMs)似乎也偏向於重複其訓練資料中最常見的詞彙;例如,即使被問及更具異域風情的地點時,也會猜測像“美國”這樣熟悉的地名。也許這是人類的“可得性啟發法”在大型語言模型中的體現,機器會說出最先想到的東西,而不是透過問題進行推理(https://arxiv.org/pdf/2305.04400)。而且,也許像人類一樣,一些大型語言模型在處理長篇文件時似乎會分心;它們更能記住開頭和結尾的事實。在改進這種錯誤模式方面已經有了進展,因為研究人員發現,經過更多從長篇文字中檢索資訊的示例訓練的大型語言模型,在統一檢索資訊方面似乎表現得更好(https://www.anthropic.com/news/claude-2-1-prompting)。
在某些情況下,大型語言模型(LLMs)的怪異之處在於它們比我們認為的更像人類。例如,一些研究人員測試了這樣一個假設:當給予現金獎勵或受到死亡威脅時,大型語言模型會表現得更好。結果還表明,一些對大型語言模型進行“越獄”(讓它們違背建立者的明確指令,https://www.usenix.org/system/files/sec24fall-prepub-1500-yu-zhiyuan.pdf)的最佳方法看起來很像人類彼此使用的那種社會工程學詭計:例如,假裝成別人或者說這個請求只是個玩笑。但其他有效的“越獄”技術是人類永遠不會上當的。一個研究小組發現,如果他們使用ASCII藝術(由看起來像文字或圖片的符號構成)來提出危險問題,比如如何製造炸彈,大型語言模型就會樂意回答。
人類可能偶爾會犯看似隨機、不可理解且前後矛盾的錯誤,但這種情況很少見,而且往往預示著更嚴重的問題。我們通常也不會讓有這些行為表現的人處於決策崗位。同樣,我們應該將人工智慧決策系統限制在適合其實際能力的應用場景中——同時牢牢記住其錯誤可能產生的潛在影響。
微訊號|IEEE電氣電子工程師學會
新浪微博|IEEE中國
 · IEEE電氣電子工程師學會 · 

相關文章