
抓住風口
本期要點:看懂AI的能力邊界
你好,我是王煜全,這裡是王煜全要聞評論。
如今AI似乎無所不能,但你是否想過——AI大模型會不會累?會罷工嗎?或者用我常說的問法:AI的能力邊界在哪?今天的思想薈文章就來好好聊聊。
前段時間,蘋果的研究團隊釋出了一篇論文《思考的幻覺》,對OpenAI、Anthropic等公司的最新推理模型(LRM)進行了測試。
他們發現了一個驚人的“真相”, 當問題的複雜度達到一定程度時,所有主流大模型都崩潰了。它們似乎並沒有人們想象的那麼聰明。

但很快,一位AI研究者便在Claude模型的輔助下,撰寫了一篇反駁文章《思維幻覺的幻覺》。
作者指出,模型卡殼,是因為蘋果把它們逼到了輸出能力的極限之外。
蘋果要求模型逐步列出解題的每個步驟。比如在漢諾塔(Hanoi Tower)這樣複雜任務中,會導致輸出內容極長,從而導致出錯機率幾乎達到了100%。
兩派觀點似乎都有道理。那麼,AI大模型真的不會思考嗎?還是我們落入了蘋果的測試陷阱?我認為,這關係到我們如何理解AI大模型的能力和應用的發展方向,確實值得深入分析。
下一步:AI Agent
首先,我們不否認當前的大語言模型架構存在侷限性,但蘋果否定AI推理模型的方式也有問題。
事實上,AI已經在數學的論證、蛋白質摺疊等專業性很強的領域展現出了很強的能力。要做好這些事情,顯然不只是靠預測下一個token那麼簡單,而是需要一定的推理能力。
蘋果所說的模型失靈,其實更多是工程實現和測試方法上的限制。背後的主要原因在於,蘋果將“寫不下”等同於了模型不會推理。
比如,蘋果提出15層漢諾塔難題,如果一步步推理,可能需要3萬多步。要求模型完整寫出整個過程,其實並沒有必要。即使我們人類也不可能真的把腦子裡怎麼想的一步步都寫出來,而是會用更簡潔的方式來表達。

這就像你請來一位世界頂級智囊,他擅長的是給你精確的洞察,但你卻要求他來寫萬字報告。那他只能回你一句,“抱歉,太長了,寫不了”。
而蘋果卻把模型停止輸出當作推理失敗,肯定是不合理的。他們明明要評估推理能力,卻用了考察拼寫能力的方式,導致了對大模型能力的誤判,有點為了否定而否定。
但我也想強調,這種帶有找茬意味的測試,確實也表明AI能力的進步也依賴於我們如何設計AI的解決邏輯和輸出方式。
還是回到漢諾塔的題目,Anthropic已經給出了思路,讓模型產出可執行的程式,然後由計算機執行得出結果,再透過模型來驗證結果是否正確。透過這種方式,模型可以輕鬆應對。
看到了這,我想有的朋友可能已經意識到,這不就是一個具有推理框架的AI Agent嗎?先用AI模型生成處理的方案和步驟,再呼叫不同模組逐步執行方案。
2025年,被稱為“AI Agent元年”。 目前微軟、谷歌、OpenAI、Anthropic等各大公司都在積極開發相關工具和應用。很多AI Agent已經能夠勝任程式設計、設計、客服等複雜任務。
而蘋果卻還只是在靠單一大模型解決難題,並以為自己找到了AI大模型的瓶頸,真讓人為他們未來在AI領域的發展捏把汗啊。
改進空間
不過,正如蘋果低估了AI,我們也不能高估它目前的發展水平。我們認為,目前AI大模型在推理方面至少還有兩個明顯的改進空間。
第一,相比於有明確規則的任務,在涉及“潛規則”或需要語境理解的任務中,可能就會暴露AI推理的短板。這也解釋了為什麼模型在某些看似簡單的場景中反而不盡如人意。
例如,雖然現在的AI大模型在處理文字和語言方面表現很好,但在實際應用中,比如AI客服,往往難以像人類一樣根據語境判斷使用者未明說的內容。
如果深夜12點,使用者發來“我想退貨”,AI只是簡單地回覆退貨政策,或按部就班辦事,卻沒有意識到使用者此時可能情緒已經接近爆發,就顯然不太合適,甚至會激化矛盾。
第二,當前的AI還沒做到深入瞭解使用者,從而影響了思考的深度和複雜度。
比如隨著AI的發展,我們科技特訓營對於產業的理解和判斷也是在不斷變化的。
三年前,多模態處理能力和端到端視覺模型還不成熟。因此,我們認為雷射雷達是正確的技術路徑。但現在,純視覺方案被證明也是有效的,而且因為資料更易獲得和處理,成本也更低,技術迭代得也較快,我們就及時調整了原有觀點。
但是,因為模型缺乏時間維度的區分,即使我們給資料標註了時間,它也沒有理解到其中觀點的轉變,給出了錯誤的觀點。
很明顯,加入時間維度對於模型理解知識的演變過程是非常重要的。

當然,AI的發展也促使我們重新思考人類智慧的本質。
我們發現,許多看似簡單的人類行為,AI卻難以模仿,往往是因為,人類也不清楚自己的某些智慧和行為是如何產生的。
而AI就像一面鏡子,能反映出我們自身思維結構的複雜性。過去,哲學家們總結了很多人性的普遍規律,但缺乏驗證手段。現在,我們有機會將這些理論融入AI系統,並透過實際操作來進行測試和驗證。
甚至透過不斷模擬、試錯和最佳化,我們還有望逐步接近人類智慧的本質,並反過來推動AI技術向更高層次發展。
最後,總結一下,我認為,與其徒勞地測試AI“思考”(Reasoning)的深度,不如看清AI當前的瓶頸在於搭建執行框架,使其變成能解決複雜問題的AI Agent。這也是近幾個月來我們在前哨科技特訓營以及要聞評論中反覆強調的關鍵點。
再提醒一下,創新地圖9週年活動時間僅剩最後幾天了,現在購買或續費“前哨•科技特訓營”,還可額外獲贈2個月的學時!歡迎掃碼加入,和我一起,先人一步,領先一路!
以上就是今天的內容,王煜全要聞評論,我們明天見。

↓長按圖片掃碼報名,先人一步,領先一路

最後,鑑於公眾號推送機制的改變,你未來刷到要聞評論的機會可能沒那麼多了,建議你加入粉絲群,第一時間得到我的獨家前沿分析,而且我們還會每天在粉絲群裡釋出獨家資料,快快掃碼加入吧!

推薦閱讀:
【科技特訓營】看懂科技產業,離不開長期觀察。線上書院模式,與王老師深度連結!為未來五年做好準備,先人一步,領先一路!

↓¥399,掌握王煜全AI產業預測精華(iOS使用者請在電腦端開啟)
此外,我們還為您準備了一個獨家思維導圖,掃描加群即可領取
“AI大模型的能力邊界”