最新研究表明AI工具能悄無聲息地改變我們的觀點

點選藍字 關注我們
SUBSCRIBE to US
大型語言模型——那些能對我們的提示給出類人回答的智慧聊天機器人——會影響我們的觀點嗎?
《IEEE智慧系統》雜誌(https://www.computer.org/csdl/magazine/ex/2024/04/10614921/1Z0o7ydjYqc)中描述的一項實驗表明,答案是肯定的。這項研究的影響對教師批改論文、員工評估以及許多其他可能影響我們生活的情況都有深遠意義。
研究內容
該研究的設計重點關注兩個著名的大型語言模型(LLM)提出的不同觀點。每個大型語言模型都被要求對兩篇不同的專利摘要按照1到10分的標準進行評估,重點關注可行性和顛覆性等特性。
研究作者將專利摘要以及大型語言模型給出的分數提供給不同組的研究生。每組學生只看到一個評分——要麼是較高的評分,要麼是較低的評分。在不知道其他組所看到內容的情況下,這些學生隨後被要求自己對專利摘要進行評分。
看到大型語言模型給出較高評分(如“9”分)的組給出的評估分數比看到較低評分(如“4”分)的組要高。然而,他們並非只是照搬分數。相反,看到“9”分的組給出的平均評分約為7.5分,而看到“4”分的組給出的平均評分略高於5分。這表明,儘管大型語言模型的評分對他們產生了影響,但參與者仍然做出了自己的判斷。
IEEE高階會員Ayesha Iqbal表示:“實驗結果表明,人工智慧工具能夠影響決策任務,比如教師給學生的研究論文評分,或者企業評估員工、產品、軟體以及其他知識成果時。如果不同的人工智慧工具給出不同的評級,而人們又依賴這些評級,那麼人們對同一個事物就可能給出不同的評價。這就引出了一個重要問題:我們是否想要偏向於人工智慧的推薦呢?
我們應該何時使用人工智慧來輔助形成判斷?
專業人士使用大型語言模型(LLM)來協助完成諸如給論文評分或評估專案等任務的初稿是相當常見的做法。專業人士可能不會將大型語言模型的輸出作為最終成果,但它們提供了一個有用且省時的起點。鑑於該研究中所描述的錨定效應,這是個好主意嗎?
研究表明,與人類一樣,大型語言模型會給出支援或反對某些觀點的理由。依賴大型語言模型可能類似於與同伴合作。同時,大型語言模型往往具有一些特性,這些特性可能會使它們或多或少地有用。一些大型語言模型往往更樂觀,給出的答案更長;其他的可能更悲觀,給出的答案更短。
該研究的作者指出,教育工作者在做諸如批改論文之類的事情時可能僅使用一個大型語言模型以保持一致性,但在處理更復雜的任務(如評估商業專案)時可能會使用多個大型語言模型。
“在我們的個人和職業生活中,為人工智慧的使用設定界限和限制是很重要的,”Iqbal說,“我們需要確定人工智慧技術在何時何地是合適且有益的,並識別出需要人類判斷和干預的情況。透過對技術使用和決策過程保持控制,可以避免對人工智慧的過度依賴。”
微訊號|IEEE電氣電子工程師學會
新浪微博|IEEE中國
 · IEEE電氣電子工程師學會 · 

相關文章