OpenAI最新技術報告：GPT-4o變諂媚的原因萬萬沒想到…

點選下方卡片，關注“CVer”公眾號

AI/CV重磅乾貨，第一時間送達

找論文idea必看！五一福利！大家快掃碼下方二維碼，領取CVer學術知識星球優惠券：50元新使用者優惠券，7折+20元老使用者續費券，同學們抓緊掃碼加入！每天分享最新最優質的AI工作，最強助力你的科研和工作！ideas拉滿！

一水發自凹非寺轉載自：量子位（QbitAI）

GPT-4o更新後“變諂媚”？後續技術報告來了。

OpenAI一篇新鮮出爐的認錯小作文，直接引來上百萬網友圍觀。

CEO奧特曼也做足姿態，第一時間轉發小作文並表示：

（新報告）揭示了GPT-4o更新失敗是因為什麼，從中OpenAI學到了什麼，以及我們將會採取的應對措施是什麼。

概括而言，最新報告提到，大約一週前的bug原來出在了“強化學習”身上——

上次更新引入了一個基於使用者反饋的額外獎勵訊號，即對ChatGPT的點贊或點踩。

雖然這個訊號通常很有用，但可能使模型逐漸傾向於做出更令人愉快的回應。

此外，儘管還沒有明確證據，但使用者記憶在某些情況下也可能加劇奉承行為的影響。

一言以蔽之，OpenAI認為一些單獨看可能對改進模型有益的舉措，結合起來後卻共同導致了模型變得“諂媚”。

而在看到這篇報告後，目前大多數網友的反應be like：

（你小汁）認錯態度不錯~

甚至有人表示，這算得上OpenAI過去幾年裡最詳細的報告了。

具體咋回事兒？接下來一起吃瓜。

完整事件回顧

4月25日，OpenAI對GPT-4o進行了一次更新。

在官網的更新日誌中，當時提到“其更加主動，能夠更好地引導對話走向富有成效的結果”。

由於只留下這種模糊描述，網友們無奈之下只能自己測試去感受模型變化了。

結果這一試就發現了問題——GPT-4o變得“諂媚”了。

具體表現在，即使只問“天為什麼是藍的？”這種問題，GPT-4o張口就是一堆彩虹屁（就是不說答案）：

你這問題真是太有見地了——你有個美麗的心靈，我愛你。

而且這不是個例，隨著更多網友分享自己的同款經歷，“GPT-4o變諂媚”這事兒迅速在網上引起熱議。

事情發酵近一週後，OpenAI官方做出了第一次回應：

已從4月28日開始逐步回退那次更新，使用者現在可以使用一個較早版本的GPT-4o。

並且在這次處理中，OpenAI還初步分享了問題細節，原文大致如下：

在對GPT-4o個性的調整中，（我們）過於關注短期反饋，而沒有充分考慮使用者與ChatGPT的互動如何隨時間演變。結果GPT-4o的反饋過於傾向於迎合使用者，缺乏真誠性。

除了回退更新之外，（我們）還採取了更多措施來重新調整模型的行為：

（1）改進核心訓練技術和系統提示，明確引導模型遠離諂媚；（2）建立更多“護欄”，以提高誠實性和透明度；（3）讓更多使用者在部署之前進行測試並提供直接反饋；（4）繼續擴大評估範圍，以模型規範和正在進行的研究為基礎，幫助在未來發現除諂媚之外的其他問題。

當時奧特曼也出來表示，問題正在緊急修復中，接下來還會分享更完整的報告。

上線前已經發現模型“有些不對勁”

現在，奧特曼也算兌現之前的承諾了，一份更加完整的報告新鮮出爐。

除了一開頭提到的背後原因，OpenAI還正面回應了：為什麼在稽核過程中沒有發現問題？

事實上，據OpenAI自曝，當時已經有專家隱約感受到了模型的行為偏差，但內部A/B測試結果還不錯。

報告中提到，內部其實對GPT-4o的諂媚行為風險進行過討論，但最終沒有在測試結果中明確標註，理由是相比之下，一些專家測試人員更擔心模型語氣和風格的變化。

也就是說，最終的內測結果只有專家的簡單主觀描述：

該模型的行為“感覺”有些不太對勁。

另一方面，由於缺乏專門的部署評估來追蹤諂媚行為，且相關研究尚未納入部署流程，因此團隊在是否暫停更新的問題上面臨抉擇。

最終，在權衡專家的主觀感受和更直接的A/B測試結果後，OpenAI選擇了上線模型。

後來發生的事大家也都清楚了（doge）。

模型上線兩天後，（我們）一直在監測早期使用情況和內部訊號，包括使用者反饋。到了週日（4月27日），已經清楚地意識到模型的行為並未達到預期。

直到現在，GPT-4o仍在使用之前的版本，OpenAI還在繼續找原因和解決方案。

不過OpenAI也表示，接下來會改進流程中的以下幾個方面：

1、調整安全審查流程：將行為問題（如幻覺、欺騙、可靠性和個性）正式納入審查標準，並根據定性訊號阻止釋出，即使定量指標表現良好；

2、引入“Alpha”測試階段：在釋出前增加一個可選的使用者反饋階段，以便提前發現問題；

3、重視抽樣檢查和互動式測試：在最終決策中更加重視這些測試，確保模型行為和一致性符合要求；

4、改進離線評估和A/B實驗：快速提升這些評估的質量和效率；

5、加強模型行為原則的評估：完善模型規範，確保模型行為符合理想標準，並在未涵蓋領域增加評估；

6、更主動地溝通：提前宣佈更新內容，並在發行說明中詳細說明更改和已知限制，以便使用者全面瞭解模型的優缺點。

One More Thing

BTW，針對GPT-4o的“諂媚行為”，其實有不少網友提出透過修改系統提示詞的方法來解決。

甚至OpenAI在第一次分享初步改進措施時，也提到了這一方案。

不過在OpenAI為應對這次危機而舉辦的問答活動中，其模型行為主管Joanne Jang卻表示：

對透過系統提示控制模型行為表示懷疑，這一方式相當遲鈍，且細微變化就可能造成模型發生巨大變化，結果不太可控。

對此你怎麼看？

參考連結：[1]https://openai.com/index/expanding-on-sycophancy/[2]https://x.com/sama/status/1918330652325458387[3]https://www.reddit.com/r/ChatGPT/comments/1kbjowz/ama_with_openais_joanne_jang_head_of_model/

找論文idea必看！五一福利！大家快掃碼下方二維碼，領取CVer學術知識星球優惠券：50元新使用者優惠券，7折+20元老使用者續費券，同學們抓緊掃碼加入！每天分享最新最優質的AI工作，最強助力你的科研和工作！ideas拉滿！

何愷明在MIT授課的課件PPT下載

在CVer公眾號後臺回覆：何愷明，即可下載本課程的所有566頁課件PPT！趕緊學起來！

CVPR 2025 論文和程式碼下載

在CVer公眾號後臺回覆：CVPR2025，即可下載CVPR 2025論文和程式碼開源的論文合集

ECCV 2024 論文和程式碼下載

在CVer公眾號後臺回覆：ECCV2024，即可下載ECCV 2024論文和程式碼開源的論文合集

CV垂直方向和論文投稿交流群成立

掃描下方二維碼，或者新增微訊號：CVer2233，即可新增CVer小助手微信，便可申請加入CVer-垂直方向和論文投稿微信交流群。另外其他垂直方向已涵蓋：目標檢測、影像分割、目標跟蹤、人臉檢測&識別、OCR、姿態估計、超解析度、SLAM、醫療影像、Re-ID、GAN、NAS、深度估計、自動駕駛、強化學習、車道線檢測、模型剪枝&壓縮、去噪、去霧、去雨、風格遷移、遙感影像、行為識別、影片理解、影像融合、影像檢索、論文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。

一定要備註：研究方向+地點+學校/公司+暱稱（如Mamba、多模態學習或者論文投稿+上海+上交+卡卡），根據格式備註，可更快被透過且邀請進群

▲掃碼或加微訊號: CVer2233，進交流群

CVer計算機視覺（知識星球）來了！想要了解最新最快最好的CV/DL/AI論文速遞、優質實戰專案、AI行業前沿、從入門到精通學習教程等資料，歡迎掃描下方二維碼，加入CVer計算機視覺（知識星球），已彙集上萬人！

▲掃碼加入星球學習

▲點選上方卡片，關注CVer公眾號

整理不易，請點贊和在看

dignews.cc

OpenAI最新技術報告：GPT-4o變諂媚的原因萬萬沒想到…

點選下方卡片，關注“CVer”公眾號

一水發自凹非寺轉載自：量子位（QbitAI）

完整事件回顧

上線前已經發現模型“有些不對勁”

One More Thing

CVPR 2025 論文和程式碼下載

ECCV 2024 論文和程式碼下載

相關文章

GPT-4.5被DeepSeek500倍吊打！基準測試全班墊底，OpenAI痛失護城河

計算機視覺被GPT-4o終結了？！

引爆全網！GPT-4o影像生成的秘密，OpenAI沒說，網友已經拼出真相？

奧特曼自曝：GPT-5要來了，所有人免費！DeepSeek逼急OpenAI，最強路線圖曝光！

剛剛，奧特曼官宣開源：自GPT-2之後，首個帶推理能力的開放權重模型！

OpenAI深夜大招暴打Manus！智慧體全家桶殺器一統API，4行程式碼輕鬆上手

2025年99％程式碼AI生成！OpenAI高管宣告沒有退路，人類將被全面超越…

CVPR2025|大模型全軍覆沒！中科院提出MV-MATH：數學推理新基準

VisuLogic：聚焦視覺推理評估的全新基準！DeepSeek-R1等全面潰敗！

清華姚班校友等揭Transformer致命缺陷，OpenAI科學家緊急回應：學術界節奏太慢

點選下方卡片，關注“CVer”公眾號

一水 發自 凹非寺轉載自：量子位（QbitAI）

完整事件回顧

上線前已經發現模型“有些不對勁”

One More Thing

CVPR 2025 論文和程式碼下載

ECCV 2024 論文和程式碼下載

相關文章

一水發自凹非寺轉載自：量子位（QbitAI）