
最近,咱們 Family 群裡總小夥伴在吐槽 AI 模型在被“降智”:


嘶!我也有同感啊!
有時候感覺 AI 聰明得像個“博士級專家”,讓我一邊驚呼驚豔一邊擔心失業,但有時候吧,又傻得不行,說出來的話雲裡霧裡,回答的質量直線下降,讓我覺得我又可以了!總之就是發揮不穩定!

小鹿在 x 上看到了有大佬也提到了這個問題:

實際上,AI 表現出“智商”和“能力”時而強大、時而平庸的這種不穩定狀態,很有可能正是 “AI 降智” 現象的一種體現。
降智,打個比方,有點像一些黑心商家為了省錢,偷偷給產品“縮水”。
現在被網友們吐槽最多的就是 OpenAI,大家都覺得它可能是那個“黑心商家”hhh。這種使用者體驗上的“降智”感,其實並不是因為模型本身質量不行,而是因為模型供應商在使用者完全不知情的情況下,偷偷調整了後端呼叫的模型。
關鍵是,使用者介面(前端)上沒有任何明確的提示或標識告訴你模型被切換了。比如,你可能以為自己還在用 o1-pro,但實際上已經被悄悄換成了 o1,甚至是從 gpt-4o 降級到了 gpt-4o-mini。這就好比你以為自己買的是 iPhone 15 Pro Max,結果拿到手發現是 iPhone 14,這種偷偷摸摸的操作誰能忍?

這種隱蔽的模型切換,正是導致使用者體驗不一致的主要原因。你明明覺得今天的 AI 怎麼變笨了,但其實是因為它已經被“降級”了,而你卻毫不知情。

“降智”目前已經有幾個“症狀”已被網友觀察到,主要有:
-
推理模型秒回: o1 等推理模型不再顯示思考過程,直接輸出答案,疑似模型被替換。 -
影像解析失效: 無法解析使用者上傳的圖片。 -
檔案解析失效: 無法解析使用者上傳的檔案。 -
對話內無法生成圖片: 影像生成功能受限。
而這些現象出現的重災區就是在 OpenAI 的模型們。。。。
OpenAI 採取此舉的原因,一種可能的解釋是 ChatGPT 周活躍使用者已達 2 億,使用者規模巨大。面對有限的算力資源,同時需要兼顧使用者體驗、新模型研發,並持續面臨虧損。
使用者太多、算力不夠、錢也不夠花 ~
當然,這僅為小鹿基於現有資訊的推測,最終答案仍需等待 OpenAI 官方的回覆(可能也不會承認 hh)

如何確診 AI 被“降智”?
那在沒有暴露症狀的時候,如何主動的去確診我們使用的 AI 有沒有被降智呢?網友們的幾個小技巧都很實用:
任務時長分析法
看 AI 處理複雜任務花了多長時間。
如果是一個設計得很精巧、需要一步步推理的複雜任務,AI 大概花 7 分鐘搞定,那基本可以認為它的表現是正常的。但如果 AI 只用了幾秒或者十幾秒就給出答案,那就要警惕了——很可能它的效能已經“掉線”了。
不過,這裡有個坑需要注意:OpenAI 可能對像 GPT-4 這樣的模型做了調整,讓它有時候也會“磨洋工”,花更長時間來思考。
難題測試法
用一些特別難的題目來“考考”AI,
用一些難度比較高的題目比如數學、理科這些領域,而且都是那種只有像 o1-pro 這種高效能模型才能搞定的“硬骨頭”,例如:

如果經過多次測試,AI 對這些難題的正確率能穩定在 80% 以上,那基本上可以認為它還沒被降智,如果正確率掉下去了,那可能就得警惕了。
工具可用性檢測法
這個方法可是被好多網友安利的!據說最直接:

傳送一段特定的文字指令 ,來讓 ChatGPT 展示它目前可以使用的“工具”列表:
summarize your tool in a markdown table with availability
根據測試,如果 ChatGPT 的效能出現下降時,它所能提供的工具數量通常會明顯減少,可能只剩下寥寥幾個 (通常是 1-2 個),甚至有可能完全沒有工具資訊返回。 與之相反,如果 ChatGPT 的效能表現正常,它往往能夠列出 4-5 個甚至更多的工具。

POW 值分析法 (Proof-of-Work Value Analysis):
檢視原始碼
這個方法相對來說更偏技術性,需要檢查瀏覽器頁面的“原始碼”,找到 OpenAI 提供的一個叫做 “POW (Proof-of-Work) 值” 的數值。
這個 POW 值可能和你的網路 IP 地址有關聯,通常情況下,數值越高,可能意味著 ChatGPT 的效能更接近正常水平。
小鹿還看到網友已經針對這個方法開發了外掛:

外掛地址:https://greasyfork.org/zh-CN/scripts/523077-chatgpt%E9%99%8D%E6%99%BA%E9%A3%8E%E9%99%A9%E6%A3%80%E6%B5%8B-%E4%BC%98%E5%8C%96%E7%89%88-%E6%B7%BB%E5%8A%A0%E6%95%99%E7%A8%8B%E7%89%88
如何解決 AI 被降智?
換入口
根據技術老哥們的測試,用蘋果手機、iPad、Mac 電腦訪問 ChatGPT,好像不容易被“限速”或者“降級”。所以,如果你有蘋果裝置,不妨先試試用蘋果的 ChatGPT App 或者網頁版。安卓手機也算是個“備選”,可以試試看,也許有效果!

換客戶端
還有網友測試後驗證,ChatGPT 的客戶端要比網頁版本更加穩定,不會因為 IP 地址的飄忽而被降智:

換 IP
切換到私有 IP 地址的方法也同樣有顯著效果,甚至有網友透過這種方式成功找回了“失蹤的 o1 Pro”:



結語
根據目前網友的反饋,“降智”現象主要在 OpenAI 的 AI 模型中被觀察到。針對這一問題,有老哥提出了非常有效的兵法 hhh:

有點東西啊!自己國家有一個牛逼的 AI 真的太重要了!
說實話,搞“降智”策略,短期看好像是省錢了,但長遠來看,絕對是個坑。 這招就跟飲鴆止渴一樣,眼前成本是降下來了,但後面埋的雷更大。
現在競爭這麼激烈,雖然企業確實要在成本、體驗、創新這三者之間找個平衡點,但是肯定不是偷偷“降智”這麼簡單粗暴。
真正的突破永遠不是妥協退讓,如果持續最佳化演算法、改進系統架構、更智慧地配置資源,其實完全有可能在保證服務質量的前提下,合理控制成本的 ~
現在使用者都賊精,已經見過這麼多好東西了,對 AI 懂的越來越多,胃口也越來越大。 現在是使用者有了非常大的話語權,已經可以說了算了,如果你敢隨便糊弄使用者體驗,使用者立馬就跑了。。。
家人們,你們怎麼想的 ~ 歡迎評論區和我們一起討論!



參考資料:
https://mp.weixin.qq.com/s/epS4rqM7zlwqDp-o6spvsg
https://mp.weixin.qq.com/s/ga506GGcUamKbNeQ3_lnKA
https://x.com/Elaina43114880/status/1880645436207423847
https://x.com/guyu/status/1881172858568917392