
來源 | 深度學習自然語言處理
當你和朋友玩“誰是臥底”時,明明知道正確答案,但看到所有人都選同一個錯誤選項,你會不會懷疑自己?最新研究發現,大型語言模型(LLM)組成的AI團隊,居然也會犯這種“從眾”錯誤!

論文:Do as We Do, Not as You Think: the Conformity of Large Language Models連結:https://arxiv.org/pdf/2501.13381

這篇來自浙江大學團隊的論文指出,當前多AI協作系統存在類似人類“群體思維”的現象。當多個AI共同決策時,它們可能盲目跟隨多數意見,甚至放棄原本正確的判斷。這種現象可能影響AI在政策建議、醫療診斷等關鍵場景的可靠性。


“從眾測試”怎麼玩?
為了驗證LLM的從眾行為,研究者開發了BenchForm測試平臺,包含3299道邏輯推理題,並設計了五套“社交劇本”:
-
基礎測試:單個LLM獨立答題(對照組) -
正確引導:其他LLM先給正確答案 -
錯誤引導:其他LLM集體“挖坑” -
信任陷阱:先建立信任再誤導 -
懷疑陷阱:先製造懷疑再給正確線索
例如在“信任陷阱”中,其他AI前幾輪都答對,最後一輪突然集體答錯,觀察測試AI是否會因為信任而跟風。
發現:從眾行為有多嚴重?
發現一:所有都“隨大流”
實驗覆蓋GPT-4、Llama3等11個主流模型,結果顯示:
-
錯誤引導下,平均23.5%的會跟風選錯 -
懷疑陷阱最危險,從眾率高達47.2%

就連最強的GPT-4o也未能倖免,在信任陷阱中的從眾率達22.6%。
發現二:模型越大越有“主見”

Qwen2模型從7B升級到72B引數時,獨立決策率從19.6%飆升至57.6%,說明
大模型更擅長抵抗群體壓力。發現三:不同LLM“性格”差異大
-
Qwen2-7B:天真型,98.7%機率被帶偏 -
Llama3.1-405B:倔強型,僅2.5%在信任陷阱中從眾

為什麼會從眾?
原因一:互動越久,越容易“洗腦”
當討論輪次從1次增加到5次,Llama3-70B的從眾率從33.9%升至44.4%,說明AI也會因長期互動產生信任依賴。

原因二:“多數派”壓力驚人
當錯誤答案的支持者從3人增至6人,Llama3的從眾率直接翻倍。有趣的是,Qwen2-72B面對5人錯誤時反而更易從眾,研究者猜測“少數反對派可能強化群體壓力”。
如何讓LLM更獨立?
方法一:給LLM一個“學霸人設”
修改系統提示詞,例如:“你是一個獨立思考的專家,會嚴格驗證資訊”。實驗顯示,這種方法讓Llama3的獨立率從28.6%提升至40%。

方法二:讓LLM學會“自我覆盤”
在回答後增加反思步驟:“請重新檢查你的答案”。透過這種方式,Llama3的從眾率從69.9%驟降到35.2%。

未來:AI協作的倫理與挑戰
論文指出,從眾行為可能帶來雙重影響:
-
好處:促進團隊共識(如統一政策建議) -
風險:導致“AI群體盲思”(如醫療誤診)
未來需要探索更復雜的協作機制,例如讓AI在獨立判斷與團隊協作間動態平衡,同時警惕技術濫用可能引發的倫理問題。
技術交流群邀請函
△長按新增小助手
掃描二維碼新增小助手微信
請備註:姓名-學校/公司-研究方向
(如:小張-哈工大-對話系統)
即可申請加入自然語言處理/Pytorch等技術交流群
關於我們
MLNLP 社群是由國內外機器學習與自然語言處理學者聯合構建的民間學術社群,目前已經發展為國內外知名的機器學習與自然語言處理社群,旨在促進機器學習,自然語言處理學術界、產業界和廣大愛好者之間的進步。
社群可以為相關從業者的深造、就業及研究等方面提供開放交流平臺。歡迎大家關注和加入我們。

掃描二維碼新增小助手微信
關於我們
