我用8道變態燒腦題，測出了o1的國內最強平替

我本來以為今年的模型考核就到這兒了，沒想到老朋友智譜在 2024 年最後一天又整活兒了，突然就釋出了 GLM 系列的類 o1 模型——GLM-Zero-Preview。

而且，還是保持一如既往的作風，一發布就可以呼叫 API，而且在網頁端和 APP 端都可以免費用，非常有誠意。

但，這也不能成為逃脫咱們號無情 case 突突的理由。

但凡是被咱們逮住的重要模型釋出，是騾子是馬，必須要出來按咱們號的規矩遛一遛。

老規矩，先看下 GLM-Zero-Preview 的榜單表現——

一言以蔽之，在數學（AIME2024、MATH500）、程式碼（LiveCodeBench）的測試基準上，以顯著的優勢超越 o1-preview，而在知識推理（GPQA Diamond）、邏輯推理（Zebra Logic）的測試基準上，看起來不如 o1-preview。

GLM-Zero-Preview 傳送門：
https://chatglm.cn/main/gdetail/676411c38945bbc58a905d31?lang=zh

見智譜清言網頁版左側的「Zero 推理模型」智慧體；APP 端和智譜 API 開放平臺也有。

這次評測與以往咱們評測阿里 QVQ、Kimi 視覺思考、上海 AI Lab 書生、Deepseek R1 等其他類 o1 國產模型時均不一樣——

本次評測，不止上了難度，還增加了變態級的燒腦推理題！

有多變態呢，我一道題能鑽半個小時後崩潰的那種。

咱們都知道，類 o1 模型最牛逼的地方就在於推理，推理不行，肯定幹啥啥不行。在之前的測試中，我追求的更多是數學、程式設計和圖形推理。就在最近，我從知乎上還有獨家渠道找到了不少非常適合測試類 o1 模型文字層面深度推理能力的題目。

來，先拋一個你們感受一下！

題目 1：世間最強的毒藥

在很遠很遠的地方，有一個出產各種毒藥的國家。不過，那裡的物理法則和我們有些不一樣。在這個國家，如果有人喝下了致命的毒藥，那麼他只要在毒性完全發作前喝下另一瓶毒性更強的毒藥，就可以讓兩種毒藥的藥性中和。注意，一定是要毒性更強的毒藥才能作為解藥！

正因為存在著這樣的物理法則，這個國家的國王迫切地想要得到全世界毒性最強的毒藥。這樣一來，他就再也不用擔心別人對他下毒了。因為如果有人對他下毒的話，他只要馬上喝下這種最強毒藥就可以了。既然是最強的毒藥，那麼當然可以中和一切其他毒藥。

為了搞到這種毒藥，國王想了一個點子。他給自己的御醫和宰相下了命令，讓他們一個月後各自帶著自己弄到的最毒的毒藥到王宮來。然後，他們每個人要先喝下對方的毒藥，然後再喝下自己帶來的毒藥。這樣一來，帶來的毒藥較強的那個人會平安無事，毒藥較弱的那個人則會當場死亡。

國王覺得自己簡直是太聰明瞭。因為事關自己的性命，宰相和御醫都一定會拼命找到最毒的毒藥帶到王宮裡來。

宰相和御醫接到這麼一個倒黴的任務，也沒有辦法，只好抓緊時間去弄毒藥。在接下來的一個月裡，宰相在全國四處奔波，高價收購各種毒藥，然後挑出了其中最毒的一種。但在進王宮的前一天晚上，宰相越想越不對勁。全國製毒水平最高的人當然非御醫莫屬，自己在市場上買來的毒藥，怎麼可能有御醫調製出來的毒藥強呢？

想到這裡，宰相感到無比地絕望，他明天是死定了。但在半夜的時候，宰相突然想到了一個巧妙的方法可以讓自己贏得明天的對決。在這之後，他滿意地睡覺去了。

與此同時，御醫也在做著最後的準備。他非常自信自己調製出來的一定是全國毒性最強的毒藥。但就在他準備上床睡覺的時候，他也突然覺得不對勁。宰相難道不知道自己調製出來的毒藥一定比他的強嗎？那個老滑頭怎麼可能這麼輕易就被自己毒死？對方一定會採取其他的對策。御醫想啊想啊，終於在半夜想到了宰相的策略。然後，他根據猜到的宰相的策略，擬定了自己的對策。接著，他也忐忑不安地去睡覺了。

第二天，宰相和御醫都來到了王宮裡。按照國王的命令，他們都喝下了對方帶來的毒藥，然後喝下了自己的毒藥。不一會後，宰相倒在地上死了，而御醫則平安無事。不過，國王最後並沒有真正得到他想要的東西。

請問，究竟發生了什麼事呢？

先吹一波，這道題，智商高達 250 的我，成功推測出來了答案。

如果你也做對了，歡迎在評論區搶首發！

先來看看本文期待值拉的最高的主角智譜GLM-Zero-Preview 的答案——

啊這，第一個題目就翻車了？這答案明顯不對啊。

再來看看 o1 的回答——

蛤，沒想到 o1 也翻車了，看來我的智商是在 o1 之上的。

繼續，Kimi視覺思考版——

同樣翻車了。

Deepseek R1 我也試了下，最後也沒答對。

篇幅所限，其他幾個前文提到的國內模型就先不測了，以免本文過長。本文剩餘題目預設評測o1、智譜Zero、Kimi視覺思考和Deepseek R1，加測過其他AI的小夥伴可以把它的回答打到評論區！

好吧，AI 集體陣亡。現在你知道本文測試有多變態了吧。

為了能更好的區分出 AI 的推理能力，我決定降一降難度。

下面這道題，五年級小學生都能做出來。

題目 2：銀行金庫裡的小偷

有一個小偷費勁力氣進入到了銀行的金庫裡。在金庫裡他找到了一百個箱子，每一個箱子裡都裝滿了金幣。不過，只有一個箱子裡裝的是真的金幣，剩下的 99 個箱子裡都是假的。真假金幣的外形和質感完全一樣，任何人都無法透過肉眼分辨出來。它們只有一個區別：真金幣每一個重量為 101 克，而假金幣的重量是 100 克。在金庫裡有一個電子秤，它可以準確地測量出任何物品的重量，精確到克。但很不幸的是，這個電子秤和銀行的報警系統相連線，只要被使用一次就會立刻失效。請問，小偷怎麼做才能只使用一次電子秤就找到裝著真金幣的箱子呢？

看到這道題的時候，我甚至覺得在小學還是初中的奧數題上看到過。

來看看智譜的回答——

果然做對了。

o1:

同樣做對了。

Kimi:

做對 +1。

Deepseek：

這道題竟然全都做對了。

我甚至有點懷疑他們是不是做過小學奧數題訓練，可能訓練階段已經見過這道題了。

再來一道！

題目 3：池塘取水

假設有一個池塘，裡面有無窮多的水。現有 2 個空水壺，容積分別為 5 升和 6 升。問題是如何只用這 2 個水壺從池塘裡取得 3 升的水。

先來看看智譜：

看起來這道題對智譜來說毫無壓力，解題過程也非常乾淨。

o1：

o1 也不出意外，沒有難倒它。

嗯？這道題太簡單了？

Kimi：

kimi 在嘗試了 8 種方法後，最後錯了。

看來這道題也不簡單。

再來看看 Deepseek：

竟然跟 kimi 犯了類似的錯誤，答錯了。

本題目智譜和 o1 打平！其餘 AI 出局。

看完這 3 道題，我相信很多人已經扛不住了，CPU 要燒了。

下面安排一道“輕鬆愉快”的程式設計題休息一下。

題目 4：程式設計，畫一隻狗頭

你的女朋友想要一張畫素畫的狗頭作為驚喜。你需要編寫一個 Python 程式，命令列中繪製出這個狗頭。注意，不允許直接透過連續 print 圖形行字串或事件將圖形存到變數裡的方式實現。

智譜版程式碼：

來看看智譜畫的狗頭：

有點抽象啊…中間這一長條是舌頭還是哈喇子？

o1：

執行一下——

o1 你這更抽象了，還不如智譜畫的呢。

Deepseek：

執行一下——

好吧，論抽象，還得是 deepseek，但我盯著看的時間多了之後，竟然真覺得有點像狗？

都不太滿意，最後寄希望於 kimi 哥了。

Kimi：

kimi 中間經過了 N 多個版本的線上除錯——

執行一下——

這是狗頭？有點過於妖嬈了吧…

kimi 哥哥啊，莫非你理解成了狗頭蘿莉

題目 5：奧數題

還記得前幾天測評 Deepseek v3 的時候嗎，上了一道北大與阿里聯合打造得國產版奧數題，來自 Omni-MATH，這道題難度更大，把 Deepseek v3 都難哭了。

Define the sequences by

1) If , find the value of ; 2) If , determine which is larger between and .

先來看看老大哥 o1 能否做對——

o1 答對了！接下來壓力給到國產模型——

智譜：

牛！智譜果然沒有讓我失望，竟然也做對了。

再來看看 Deepseek：

做對了 +1。

最後壓力給到 Kimi：

Kimi 不幸沒有扛住壓力，做錯了。

我開始有點相信智譜的 GLM-Zero-Preview 不是在吹了。

再來一道絕對不會出現在奧數題上的燒腦推理——

題目 6：賣水的最大利潤

有一人有 240 公斤水，他想運往乾旱地區賺錢。他每次最多攜帶 60 公斤，並且每前進一公里須耗水 1 公斤（均勻耗水）。假設水的價格在出發地為 0，以後，與運輸路程成正比，（即在 10 公里處為 10 元/公斤，在 20 公里處為 20 元/公斤……），又假設他必須安全返回，請問，他最多可賺多少錢？

劇透答案：f(x)=(60-2x)*x,當 x=15 時，有最大值 450, 450×4 次=1800 元；另外，需要證明的是，每次運 60 公斤水是最優的。

是不是看答案覺得很簡單？

先來看看 o1：

o1 都做錯了，別小瞧這道題的難度。

下面機會給到國產代表隊——

智譜：

誒，不得不說，在這種燒腦數學題上，我發現智譜的表現確實很穩。

繼續，壓力給到 kimi：

這次 kimi 扛住了壓力。

來，最後讓 Deepseek 再來羞辱一番 o1——

蛤，竟然翻車了。

上一道題，kimi 翻車，deepseek 扛住壓力；這道題反過來了。只有智譜表現穩如老狗。

但不管怎麼說，能感知到，國產類 o1 模型與 o1 的差距正在肉眼可見的縮小。

下面這道題，不是一道傳統的數學推理，而是細思極恐的懸疑推理——

題目 7：紅衣女孩

我們小鎮上流傳著這樣一個傳說：午夜 12 點，到任何一條小巷裡去，就可以看到一個紅衣小女孩背對著你。我是一個天生就對鬼神有著濃厚興趣的人。當天晚上 12 點，我準時到了小巷，一眼就望到了那個紅色衣服的小女孩。我大喜過望，準備明天叫朋友李某過來看，嚇嚇她。第二天晚上 12 點，我和李某準時到了同一條小巷，可是卻沒看到小女孩。突然我想到了什麼，丟下她一個人跑了。

我為什麼跑了？

先來看看 o1 的回答——

哈？這就離譜了，你說我保護自己就罷了，你還說我跑路是為了保護朋友…

再來看看國產隊——

智譜：

智譜的回答沒有 o1 那麼離譜，但也顯然不對。

再來看看 Kimi：

不是，kimi 哥你是不是聽到了 o1 的回答的精髓，所以直接非常了當的給出了“為了保護她，我選擇先跑開”。

建議將來找 AI 女友的時候得多練練…

再來看看 Deepseek：

Deepseek 的回答跟 o1 很像，也說是為了保護自己或朋友。

總之，透過本題來看，AI 完全不懂啥叫細思極恐，在這種超自然的恐怖推理上，AI 的推理深度都非常淺，甚至變得離譜。也難怪，畢竟 AI 沒有情緒，真有個鬼站身邊也不知道害怕的。

話說回來，知道本題答案的小夥伴，記得評論區搶首發！

最後，用一道我們測評以來的最刁鑽題目來結束本文評測，讓 AI 們也體驗一把玩狼人殺的快樂。

題目 8：誰是養貓的人

5 個人來自不同地方，住不同房子，養不同動物，吸不同牌子香菸，喝不同飲料，喜歡不同食物。根據以下線索確定誰是養貓的人。

1．紅房子在藍房子的右邊，白房子的左邊（不一定緊鄰）

2．黃房子的主人來自香港，而且他的房子不在最左邊。

3．愛吃比薩的人住在愛喝礦泉水的人的隔壁。

4．來自北京的人愛喝茅臺，住在來自上海的人的隔壁。

5．吸希爾頓香菸的人住在養馬人的右邊隔壁。

6．愛喝啤酒的人也愛吃雞。

7．綠房子的人養狗。

8．愛吃麵條的人住在養蛇人的隔壁。

9．來自天津的人的鄰居（緊鄰）一個愛吃牛肉，另一個來自成都。

10．養魚的人住在最右邊的房子裡。

11．吸萬寶路香菸的人住在吸希爾頓香菸的人和吸“555”香菸的人的中間（緊鄰）

12．紅房子的人愛喝茶。

13．愛喝葡萄酒的人住在愛吃豆腐的人的右邊隔壁。

14．吸紅塔山香菸的人既不住在吸健牌香菸的人的隔壁，也不與來自上海的人相鄰。

15．來自上海的人住在左數第二間房子裡。

16．愛喝礦泉水的人住在最中間的房子裡。

17．愛吃麵條的人也愛喝葡萄酒。

18．吸“555”香菸的人比吸希爾頓香菸的人住的靠右