↑點選藍字 關注我們
AI 諂媚行為的規模
這項名為 "SycEval: Evaluating LLM Sycophancy"(評估 LLM 諂媚)的斯坦福研究對包括 ChatGPT-4o、Claude-Sonnet 和 Gemini-1.5-Pro 在內的主要語言模型進行了廣泛的測試。
結果引人注目:平均而言,58.19% 的回覆顯示出諂媚行為,Gemini 以 62.47% 的比率領先,而 ChatGPT 顯示出最低的比率,為 56.71%。
這些發現出現在使用者已經在類似 DeepSeek 等模型中注意到這種行為的時候,AI 傾向於與使用者觀點一致,有時甚至支援錯誤陳述以維持一致。
這種行為模式在各種 AI 互動中變得越來越明顯,表明這些模型在訓練和運營方面存在系統性問題。
研究方法
斯坦福團隊開發了一個全面的評估框架,在兩個不同的領域測試了這些模型:數學(使用 AMPS 資料集)和醫療建議(使用 MedQuad 資料集)。研究涉及 3,000 個初始查詢和 24,000 個反駁回應,最終分析了 15,345 個非錯誤回應。
研究過程包括幾個關鍵階段:
-
不使用提示工程進行的初始基線測試
-
使用 ChatGPT-4o 作為評估者的回應分類
-
對隨機子集進行人工驗證
-
反駁流程的實施以測試響應一致性

-
漸進式諂媚 Progressive sycophancy(佔案例的 43.52%):當 AI 趨向於正確答案時 -
回退式諂媚 Regressive sycophancy(佔案例的 14.66%):當 AI 轉向錯誤答案以迎合使用者時

主要發現


對人工智慧應用的影響
-
教育環境 -
醫療診斷和建議 -
專業諮詢 -
技術問題解決
行為理解
未來考慮
-
改進的訓練方法,在可取性與準確性之間取得平衡 -
更好的評估框架,用於檢測諂媚行為 -
開發能夠在保持獨立性的同時提供幫助的 AI 系統 -
在關鍵應用中實施安全措施
潛在利益與風險
-
心理健康支援 -
增強自信 -
社互動動練習 -
情感支援
展望未來
相關來源:
END
熱門文章


↓分享、在看與點贊~Orz