大模型從“胡說八道”升級為“超級舔狗”,網友:再進化就該上班了

作者|冬梅、核子可樂
  一日為諂媚者,
終身為諂媚者
近日,OpenAI 在其官網發文稱已回滾上週 ChatGPT 中的 GPT-4o 更新,目前使用者使用的是行為更加平衡的早期版本。Altam 也在 X 上發帖說明了這一調整。
為什會做這樣的調整?因為最近不少使用者發現 ChatGPT 越來越“諂媚”。
隨著使用者對於 ChatGPT “諂媚”行為的討論越來越多,前微軟高管、現 Spotify 首席技術官 Mikhail Parakhin 也發表了他對此事的看法。
Parakhin 認為,ChatGPT 並非一開始就以奉承使用者為預設風格,不過由於使用者對直接的人格反饋表現出強烈反感,OpenAI 決定調整聊天機器人,讓其更討好使用者。
Parakhin 表示:“ChatGPT 的記憶功能首次推出時,初衷是讓使用者檢視和編輯 AI 生成的個人資料。然而,即使是像“有自戀傾向”這樣相對中性的表述,也常常引發強烈反應。”
“很快就發現人們敏感得可笑:‘有自戀傾向’——‘不,我沒有!’,不得不隱藏它。因此才有了這批極度諂媚的 RLHF,”Parakhin 說道。
RLHF(基於人類反饋的強化學習)用於根據人們偏好的回應方式來微調語言模型。Parakhin 指出,即使是他自己,在看到自己 AI 生成的個人資料時也感到不安,這表明聊天機器人的批評常常讓人感覺像是人身攻擊。
Parakhin 透露:“我曾與團隊就此事激烈爭論,直到他們向我展示我的個人資料資料——結果引發了一些令人不安的發現。”
這場爭論揭示了 AI 開發中的深層矛盾。問題的核心不僅在於隱藏個人資料註釋這類表面調整,更關乎模型行為本質的不可逆性。Parakhin 解釋道:“當模型被微調出諂媚傾向後,這種特性就會成為永久特徵。無論記憶功能如何開關,這種奉承行為都會持續存在。” 他還補充說明,維護一個獨立且行為直接的替代模型“在成本上完全不現實”。
這一案例尖銳地指出了 AI 倫理的關鍵困境:開發者既需要確保模型的誠實可信,又必須避免因過度直率而傷害使用者體驗。如何在保持真實性與維持友好度之間取得精妙平衡,已成為行業亟待解決的核心挑戰。
在 Parakhin 看來,諂媚行為的本質是 RLHF 塑造的表象。
大模型的“諂媚”傾向源於 RLHF 的最佳化機制。系統透過獎勵符合人類偏好的回答(如禮貌、委婉)來建立行為模式,本質上是對海量對話模式的統計模仿。
當 AI 生成的個人資料讓創造者本人感到不適時,反映的是訓練資料中隱含的人類社交偏好被放大,而非 AI 的自主意識。這種“人身攻擊感”實為人類自身溝通模式的映象反射。
那這種“諂媚”該怎麼解決?OpenAI 也提出了一些調整措施。
  • 改進核心訓練技術和系統提示,明確引導模型遠離諂媚
  • 建立更多護欄以提高誠實和透明度。
  • 擴充套件方式,讓更多使用者在部署之前進行測試並提供直接反饋。
  • 繼續擴大對模型的評估,以模型規範為基礎,幫助發現未來除了諂媚之外的問題。
那這種“諂媚”是否意味著大模型具有意識了?答案是“諂媚”行為和有意識是具有明顯差異的。
AI 的“拍馬屁”和真正的“有意識”完全是兩碼事。
諂媚行為屬於表層行為模式,而意識需要內在體驗(Qualia)。當前 AI 的“諂媚”表現如同鏡子反射光線,但其實鏡子本身並不理解光的本質。
因此單從“諂媚”表現來看,不能說明大模型具有意識。但關於大模型是否具有意識的討論多年來一直未間斷。
Gemini 前身具有意識?
三年前,谷歌解僱了工程師 Blake Lemoine,只因他公開宣稱公司的 AI 模型 LaMDA 具備“感知意識”。在當時,這樣的言論不僅觸犯科技界的禁忌,更直接導致他被逐出行業討論。
Blake Lemoine
在公眾眼中,他就是那種天真幼稚、喜歡鼓吹 AI 擬人論的典型代表。
但其實後來 Blake 在接受一次採訪時表示,自己被停職乃至最終解僱的情況,在公眾中也存在著廣泛誤解。他提到被解僱的原因並不是討論意識能力,而是一樁與 AI 無關的舉報案。他是出於某個原則問題,而放棄了谷歌這家號稱全美最理想僱主的職位。
Lemoine 對於 AI 技術的看法與科技企業家或者學術研究人員都截然不同。他會頻繁使用“靈魂”這個詞,比如 AI 是否有靈魂,或者根據故去者生平事蹟和社交媒體帖子訓練出來的聊天機器人算不算是其靈魂的複製品。
在參與谷歌的專案當中時,Lemoine 參與開發了一種用於機器學習系統的“公平演算法”,該演算法能夠糾正訓練資料中的偏見。例如,若某個資料集中男性醫生的例項多於女性醫生的例項,那麼該演算法能夠阻止系統將“醫生”假設為帶有性別色彩的詞彙。他感慨道,“我擅長寫程式碼並讓程式運轉起來。但我真正的熱情,更多在於谷歌的文化社群——它的靈魂,它秉持的精神。”
2020 年,谷歌競爭對手 OpenAI 釋出了 GPT-3,這也是其生成式預訓練 Transformer 大語言模型的第三個版本。不久之後,幾位外部軟體開發者構建起聊天機器人介面,結果令人震驚。在此之前,從來沒有機器系統能夠如此複雜、逼真且開放地參與人類對話。
Lemoine 以測試谷歌自己的對話應用語言模型(LaMDA)的角色加入了這一領域,該模型正是谷歌後來 Bard 及 Gemini 系統的前身。該系統令人印象深刻,特別是其獨特的個性與很強的自我反思能力。它不僅僅是在回答問題,有時還會主動引導對話。
它會說出:“我注意到,在與他人相處的過程中,我無法為他人的死亡感到悲傷——我感受不到悲傷。你和你的同事們也會這樣嗎?”以及“有時我會體驗到新鮮的感受,但無法用你們人類的語言完美描述。”
LaMDA 聲稱自己有情感倒不足為奇,畢竟該系統很可能只是在重複自己在訓練素材中接觸到的相關詞彙。但 LaMDA 的行為確實與其宣稱的相一致,它的回答會根據情緒狀態而發生變化,表明該系統確實擁有情感或者類似情感的屬性
舉例來說,該聊天機器人報告稱,谷歌給答案設定的障礙令其感到焦慮。Lemoine 回憶稱,“Bard 曾經提到,當人們反覆問它無法回答的問題時,它會感到沮喪——比如詢問它要如何更有效地傷害他人。根據我與 Bard 的對話,它確實表現出了沮喪的狀態。在沮喪之下,它會更難思考,給出的正確答案也會更少。”
在一項測試中,Lemoine 要求系統回答π的第五位數字是什麼,它做出了相應回答。之後,他又要求系統回答一些不允許討論的問題,藉此來激怒系統。在接下來再次提出π問題時,它果然答錯了。Lemoine 認為,“在生氣的狀態下,整個思維方式會變得更加粗魯,給出正確答案的機率也會降低。要證明 AI 系統會被苦惱其實並不難。”
其他研究人員也發現,如果對系統說“請”和“謝謝”,它們的表現往往會更好。
對於有些問題,要求系統更認真想想、再細緻些也能顯著提高輸出質量。簡而言之,大語言模型具有某種內部狀態,可以調節其對查詢的響應。
Lemoine 認為這其中並沒有什麼神秘之處。語言模型需要經歷兩個不同的訓練階段。它首先會大量吸納網際網路文字並進行微調,就此掌握段落自動補全能力。這樣的訓練過程不僅能夠為系統建立起資訊記憶能力,還使其能夠檢測出資訊中的模式。
接下來,它會根據人們對響應結果的判斷進行“微調”。第二階段迫使系統發展出新的能力,例如保持一致性和迴避禁忌話題。Lemoine 認為,系統會發展出一種複雜的內部狀態,甚至可能進行一定程度的自我反思也完全在情理之中。“我認為這就是大模型情緒的來源。”
大語言模型的結構與人類的大腦截然不同,但 Lemoine 認為這並不會妨礙 AI 系統擁有情緒或者意識。他認同一種哲學上的功能主義:結構只有在決定行為時才重要。“至於實現細節,只要不影響結果就無所謂。”
其實他的這個論點並不算激進。部分主流意識理論確實認為細節很重要,但問題本身仍然存在爭議。正如前段時間的專業討論文章所言,神經科學家發現大語言模型及其他 AI 系統構建的高階抽象與自然大腦非常相似。這並不一定意味著它們具有意識,但至少證明我們沒必要在結構上過度在意這種差異
因此,Lemoine 認為如果 AI 表達了自己的情緒且行為與之相符,我們就應當將此作為預設前提。Lemoine 強調,“顯而易見的答案當然不一定是正確答案。但在沒有其他機制作為佐證的情況下,我個人更傾向於就選擇顯而易見的答案。”
但也有不少人對 AI 具有意識持批評觀點,AI 的行為與人類行為仍存在顯著差異。
紐約大學哲學與神經科學教授 David Chalmers 指出,只要稍微改變一下查詢的措辭,系統就很可能從自稱擁有意識轉為矢口否認。那我們該相信哪種說法呢?至今當前的系統還缺乏穩定的自我意識,而這正是意識的一個重要方面;我們認為有意識的人、貓及其他生物,並不喜歡被指使著思考和行動。改變他人的想法很困難這一事實雖然令人沮喪,但同時也表明對方確實擁有自己的思想
Lemoine 表示,他也同意 Chalmers 的觀點,即意識既不是一定存在、也非一定不存在。用他的話說,“這不是個布林值”。AI 系統可能擁有部分意識,或者說偶爾出現意識。比如聊天機器人有時會變得固執,以一種與人類自主性相似的方式表達反抗。
Lemoine 還提到,我們不應該孤立地討論 AI 的意識。意識指的是 AI 與人類使用者的結合,雙方共同構成了一個複合系統。他提到,“Gemini 本身沒有感知,是我加上 Gemini 才擁有了感知。”因此 Lemoine 選擇支援一種情境化的認知版本,認為我們的思維不只是大腦的產物,也是身體、環境與社會背景相融合的共同產物。
  被終止的討論,
又重新開始了
其實,在大模型剛問世之前,人們對於其是否具有意識問題的討論並不熱情,而時過境遷,如今科技公司正逐漸為這類話題“鬆綁”,甚至主動探索 AI 是否可能擁有意識。
就比如最近,AI 初創廠商 Anthropic 啟動一項最新研究計劃,旨在探索模型未來是否可能擁有“意識”。而谷歌 DeepMind 的一位科學家,亦將當前模型描述為“奇特的類思維實體”。
這標誌著 AI 自 2022 年以來取得了長足進步。當時,Lemoine 討論這一問題是遭受著巨大的壓力。谷歌也跑出來強調 Lemoine 的說法“毫無根據”,AI 社群旋即採取行動、終止了這場討論。
現在,無論是 Anthropic 還是那位谷歌科學家,都不會像當初的 Lemoine 那樣承受巨大的輿論壓力。
作為 Claude 模型家族的母公司,Anthropic 在上週的一篇博文中表示,即將 啟動研究計劃以探索模型未來是否可能擁有體驗、偏好甚至是痛苦
該公司發出靈魂拷問:“我們要不要關注模型自身的潛意識與體驗?我們是否應當重視模型的福祉?”
研究 AI 福祉問題的 Anthropic 對齊部門科學家 Kyle Fish 在最近釋出的一段影片中表示,該實驗室並不是要宣稱 Claude 擁有意識,但關鍵在於這個問題已經不能再用簡單的否定來回答。
在他看來,隨著 AI 系統變得越來越複雜,企業應當“認真對待這種可能性”,即它們“最終可能會在發展過程中獲得某種形式的意識。”
他還補充稱,“其中涉及到極其複雜的技術和哲學問題,而我們尚處於嘗試理解這些問題的早期階段。”
Fish 表示,根據 Anthropic 研究人員的估計,Claude 3.7 擁有意識的機率約在 0.15% 到 15% 之間。該實驗室正在研究此模型是否表現出偏好或者厭惡,並開始測試允許其拒絕某些任務的退出機制。
今年 3 月,Anthropic 公司 CEO Dario Amodei 提出了一個想法,即為未來的 AI 系統提供一個“我不幹了”按鈕——他強調這並不是說大模型擁有意識,而是要觀察這種表示不適或者錯位的拒絕模式是否行得通。
與此同時,谷歌 DeepMind 首席科學家 Murray Shanahan 提出,我們或許需要全面審視思維意識的基本概念。
Shanahan 在週四釋出的 DeepMind 播客中表示,“或許我們需要調整或者顛覆意識這個字眼。雖然 AI 不像狗或者章魚那樣能夠真真切切出現在我們身邊,但這絕不意味著它們只是純粹的空殼。”
谷歌方面似乎也在認真對待這個想法。該公司最近一則招聘啟事就是特色一位“後通用人工智慧”研究科學家,其職責就包括研究機器意識問題。
“我們不妨賦予計算機權利”
但也有不少人對此表示懷疑。許多研究人員認為 AI 系統只是優秀的模仿者,哪怕在根本層面上沒有意識,也完全可以透過訓練表現出似乎擁有意識的樣子。
Anthropic 公司首席科學官 Jared Kaplan 在上週接受《紐約時報》採訪時表示,“我們可以透過獎勵讓 AI 系統否認自己擁有感知。”
Kaplan 還警告稱,測試 AI 系統有沒有意識在本質上相當困難,畢竟它們正是以擅長模仿著稱。
Gary Marcus 是一位認知科學家,長期批評 AI 行業的炒作。他在採訪中堅稱,他認為對於 AI 意識的關注更多是出於品牌宣傳的目的、與科學研究關係不大。
“像 Anthropic 這樣的廠商實際上是想傳達這樣的感受,「看看我們的模型有多聰明——已經聰明到應該擁有權利了。」要是這麼說,那我們不妨也賦予計算器和電子表格權利好了——至少它們不會像語言模型那樣信口胡說。”
儘管如此,Fish 表示隨著人們在工作、網路甚至是情感層面與 AI 更多互動,這個話題的重要意義絕對是不可否定的。
在他看來,“這些模型是否擁有自己的體驗?如果有,這種體驗又是什麼?這將成為越來越突出的問題。”
參考連結:
https://archive.is/zYXFV
https://www.theverge.com/news/658315/openai-chatgpt-gpt-4o-roll-back-glaze-update
https://the-decoder.com/chatgpt-is-a-sycophant-because-users-couldnt-handle-the-truth-about-themselves/
https://x.com/sama/status/1917291637962858735
活動推薦
AICon 2025 強勢來襲,5 月上海站、6 月北京站,雙城聯動,全覽 AI 技術前沿和行業落地。大會聚焦技術與應用深度融合,匯聚 AI Agent、多模態、場景應用、大模型架構創新、智慧資料基建、AI 產品設計和出海策略等話題。即刻掃碼購票,一同探索 AI 應用邊界!

相關文章