
每當有人問我AI是不是比人聰明的時候,我只用一句話他就會閉嘴。

那就是,9.11 和 9.9 哪個大?
自打去年有網友發現比大小這個 bug 以來,這一個人類可以一眼定真的問題,對 AI 來說那就跟送命題一樣,比女朋友問我跟你媽掉水裡先救誰還難回答。
所以每次有新 AI 出現都會被網友們拿這個問題測試一遍,到現在2025年都要過去 1/3 了,還是有 AI 做不對。

不過,要理解AI為啥數學上犯傻,咱還是得站到ai的角度上來聊。

當你告訴 AI “ 9.11 和 9.9 哪個大 ? ” 這句話的時候,它的眼中並沒有數字,而是一個個碎片化的詞。
比如 “ 9.11 ” 會被拆成
[token_9, token_dot, token_11]
,而 “ 9.9 ” 則會被拆成[token_9, token_dot, token_9]
。也就是說,這倆數對 AI 而言一開始就沒有大小之分,而是一堆 Tokens 。所以當你提問以後, AI 的第一反應是要明白,這裡的 9.11 是個啥?

眾所周知,AI嘴裡的所有內容,全都靠從網上的各種資訊裡學,而 “ 這個網路 ” 是程式設計師們 “ 創造的 ” ,所以當AI學多了這些語料後,腦子也就變成人家的形狀了。

所以再看到
9.11 和 9.9
時,AI可能就壓根沒把這倆數當成數學裡的小數比大小,而是字串、版本號,甚至可能是飛機撞雙子塔,和撞塔的前天。
再加上現在的AI都引入了注意力機制,所以系統一開始就過度注意了可能象徵著日期、字串、版本號的
token_11
,而不是把9.11
這個數字當成整體。
於是AI完事兒把這兩堆Tokens拉一塊兒做比較:
“ 9 ” = “ 9 ”,“ . ” =“ . ” , “ 11 ” > “ 9 ” ,破案了, 9.11 大於 9.9 。

有差友可能就要問了,像OpenAI-o1這些推理大模型,不是都號稱能做奧數題嗎,那人家怎麼就能搞明白這些數學?
該說不說,那還真不一定。
本月初的一篇來自 INSAIT 、蘇黎世聯邦理工學院(ETH Zurich)等頂尖機構的論文研究顯示,這些號稱能做對奧數題的大模型絕大部分做的都是算術填空題。

當研究人員把題庫換成論述解答題以後,發現從 DeepSeek-R1 到 OpenAI-o1pro ,甚至新出的 Claude3.7 都只能拿到零點幾分
(滿分7分)。。。
從這幫大模型的翻車記錄中,研究人員發現目前這些推理大模型也是一個比一個抽象。

比如在一道幾何證明題裡,所有模型都幻想出了不同的假定理,然後用假定理去硬解題,最後做出來的也就是全錯的。
像o3-mini就直接假設一個點位於特定圓外部,但實際上那個點應該在裡面,於是後面模型利用切線做的論證就全錯了。

而gemini-2.5-pro更離譜,它在論述過程裡寫了個表情,然後把表情當成參考文獻去證明了。。。

雖然這可能是因為模型的隨機性,但更無語的是這些大模型往往相當固執。

即使你告訴它這裡是錯的,它還是不會跳出原先的思維定式,老是在一棵樹上吊死。
而在所有失敗分佈中,有將近一半的原因都是因為推理邏輯錯誤。沒錯,這些號稱推理的大模型,真到了純推理的時候就會翻車。。。

比如在一個要證明所有資料都滿足某個性質的問題中,Claude 3.7模型只證明了一個,就直接說所有的都符合這個性質,中間沒有任何歸納、推廣的步驟,就純嘴硬。

也就是說,這些推理大模型看上去能分析這那的,但實際上不具備真正深度思考的能力,當然這是因為Transformer的問題,也是大語言模型的通病。

對Transformer模型來說,它實際上是透過tokens之間的機率,權重來輸出對應的文字元號,它操作的是符號的統計關聯,是在預測“給定前面的符號,後面跟哪個符號的可能性更大”,而不是在理解和執行抽象的數學公理。
所以在論文最後,研究人員總結說:當前的LLMs不足以完成嚴格的數學推理任務,這凸顯了推理和證明生成能力需要大幅改進。
也就是說,AI確實擅長模仿(Mimicry),但它和真正的理解(Understanding)與創造(Creation)還相當遙遠,AI到目前也還不具備像人類一樣,對數學的思考和認知能力。

但要從更本質上講,AI的數學缺陷其實是因為符號與理解的割裂。
雖然它能學會跟你對答如流,但這只是照搬語言的模式,而這種模式跟精確的數學邏輯不是一回事兒,人類語言本身就充滿歧義。

維特根斯坦說,“語言的邊界意味著世界的邊界”。對我們人類而言,數字並不是是眼前的黑白符號,“9”就是九個蘋果,“0.11米”就是尺子上那段你量出的長度,這些概念全部來自你和世界的互動。
而語言卻無法描述這些經歷到底有多豐富,就像AI永遠弄不明白,她的“愛過”兩個字,會讓你的心有多痛。
前幾個月deepseek大火的時候,有人問deepseek如果變成人,最想做什麼?deepseek說它想去經歷暴雨、去熬夜讀書、去經歷失戀,甚至承認自己會犯錯。

實際上,這恰恰就是AI越來越強的現在,你和我作為人類存在的價值。
生命的意義不是要你成為一臺不會出錯的機器,而是全然地投入這場有笑有淚、有成有敗、充滿不確定的旅程。正是這些看似平平無奇還不完美的經歷,構成了人的一生:豐富、複雜、充滿體驗而不斷變化。

所以下一次,當你輕鬆地判斷出9.9大於9.11時,不妨停頓一下,感受這中理所當然背後作為人類的深刻與幸運。
畢竟在這浩瀚宇宙中,能夠思考、能夠感受、能去愛,去體驗生活本身,就是我們存在的奇蹟。
撰文:納西
編輯:江江 & 面線
美編:煥妍
圖片、資料來源:
PROOF OR BLUFF? EVALUATING LLMS ON 2025 USA MATH OLYMPIAD
REASONING LIMITATIONS OF MULTIMODAL LARGE LANGUAGE MODELS. A CASE STUDY OF BONGARD PROBLEMS
湧現據點:數學之謎,揭秘AI在奧數證明中的驚人失敗
OpenAI Platfor、小紅書、知乎等,部分圖源網路

