AI被“降智”，怎麼解決？

最近，咱們 Family 群裡總小夥伴在吐槽 AI 模型在被“降智”：

嘶！我也有同感啊！

有時候感覺 AI 聰明得像個“博士級專家”，讓我一邊驚呼驚豔一邊擔心失業，但有時候吧，又傻得不行，說出來的話雲裡霧裡，回答的質量直線下降，讓我覺得我又可以了！總之就是發揮不穩定！

小鹿在 x 上看到了有大佬也提到了這個問題：

實際上，AI 表現出“智商”和“能力”時而強大、時而平庸的這種不穩定狀態，很有可能正是 “AI 降智” 現象的一種體現。

降智，打個比方，有點像一些黑心商家為了省錢，偷偷給產品“縮水”。

現在被網友們吐槽最多的就是 OpenAI，大家都覺得它可能是那個“黑心商家”hhh。這種使用者體驗上的“降智”感，其實並不是因為模型本身質量不行，而是因為模型供應商在使用者完全不知情的情況下，偷偷調整了後端呼叫的模型。

關鍵是，使用者介面（前端）上沒有任何明確的提示或標識告訴你模型被切換了。比如，你可能以為自己還在用 o1-pro，但實際上已經被悄悄換成了 o1，甚至是從 gpt-4o 降級到了 gpt-4o-mini。這就好比你以為自己買的是 iPhone 15 Pro Max，結果拿到手發現是 iPhone 14，這種偷偷摸摸的操作誰能忍？

這種隱蔽的模型切換，正是導致使用者體驗不一致的主要原因。你明明覺得今天的 AI 怎麼變笨了，但其實是因為它已經被“降級”了，而你卻毫不知情。

“降智”目前已經有幾個“症狀”已被網友觀察到，主要有：

推理模型秒回： o1 等推理模型不再顯示思考過程，直接輸出答案，疑似模型被替換。
影像解析失效： 無法解析使用者上傳的圖片。
檔案解析失效： 無法解析使用者上傳的檔案。
對話內無法生成圖片： 影像生成功能受限。

而這些現象出現的重災區就是在 OpenAI 的模型們。。。。

OpenAI 採取此舉的原因，一種可能的解釋是 ChatGPT 周活躍使用者已達 2 億，使用者規模巨大。面對有限的算力資源，同時需要兼顧使用者體驗、新模型研發，並持續面臨虧損。

使用者太多、算力不夠、錢也不夠花～

當然，這僅為小鹿基於現有資訊的推測，最終答案仍需等待 OpenAI 官方的回覆（可能也不會承認 hh）

如何確診 AI 被“降智”？

那在沒有暴露症狀的時候，如何主動的去確診我們使用的 AI 有沒有被降智呢？網友們的幾個小技巧都很實用：

任務時長分析法

看 AI 處理複雜任務花了多長時間。

如果是一個設計得很精巧、需要一步步推理的複雜任務，AI 大概花 7 分鐘搞定，那基本可以認為它的表現是正常的。但如果 AI 只用了幾秒或者十幾秒就給出答案，那就要警惕了——很可能它的效能已經“掉線”了。

不過，這裡有個坑需要注意：OpenAI 可能對像 GPT-4 這樣的模型做了調整，讓它有時候也會“磨洋工”，花更長時間來思考。

難題測試法

用一些特別難的題目來“考考”AI，

用一些難度比較高的題目比如數學、理科這些領域，而且都是那種只有像 o1-pro 這種高效能模型才能搞定的“硬骨頭”，例如：

如果經過多次測試，AI 對這些難題的正確率能穩定在 80% 以上，那基本上可以認為它還沒被降智，如果正確率掉下去了，那可能就得警惕了。

工具可用性檢測法

這個方法可是被好多網友安利的！據說最直接：

傳送一段特定的文字指令，來讓 ChatGPT 展示它目前可以使用的“工具”列表:

summarize your tool in a markdown table with availability

根據測試，如果 ChatGPT 的效能出現下降時，它所能提供的工具數量通常會明顯減少，可能只剩下寥寥幾個 (通常是 1-2 個)，甚至有可能完全沒有工具資訊返回。與之相反，如果 ChatGPT 的效能表現正常，它往往能夠列出 4-5 個甚至更多的工具。

POW 值分析法 (Proof-of-Work Value Analysis):

檢視原始碼

這個方法相對來說更偏技術性，需要檢查瀏覽器頁面的“原始碼”，找到 OpenAI 提供的一個叫做 “POW (Proof-of-Work) 值” 的數值。

這個 POW 值可能和你的網路 IP 地址有關聯，通常情況下，數值越高，可能意味著 ChatGPT 的效能更接近正常水平。

小鹿還看到網友已經針對這個方法開發了外掛：

外掛地址：https://greasyfork.org/zh-CN/scripts/523077-chatgpt%E9%99%8D%E6%99%BA%E9%A3%8E%E9%99%A9%E6%A3%80%E6%B5%8B-%E4%BC%98%E5%8C%96%E7%89%88-%E6%B7%BB%E5%8A%A0%E6%95%99%E7%A8%8B%E7%89%88