
我本來以為今年的模型考核就到這兒了,沒想到老朋友智譜在 2024 年最後一天又整活兒了,突然就釋出了 GLM 系列的類 o1 模型——GLM-Zero-Preview。

而且,還是保持一如既往的作風,一發布就可以呼叫 API,而且在網頁端和 APP 端都可以免費用,非常有誠意。
但,這也不能成為逃脫咱們號無情 case 突突的理由。
但凡是被咱們逮住的重要模型釋出,是騾子是馬,必須要出來按咱們號的規矩遛一遛。
老規矩,先看下 GLM-Zero-Preview 的榜單表現——

一言以蔽之,在數學(AIME2024、MATH500)、程式碼(LiveCodeBench)的測試基準上,以顯著的優勢超越 o1-preview,而在知識推理(GPQA Diamond)、邏輯推理(Zebra Logic)的測試基準上,看起來不如 o1-preview。
GLM-Zero-Preview 傳送門:
https://chatglm.cn/main/gdetail/676411c38945bbc58a905d31?lang=zh
https://chatglm.cn/main/gdetail/676411c38945bbc58a905d31?lang=zh
見智譜清言網頁版左側的「Zero 推理模型」智慧體;APP 端和智譜 API 開放平臺也有。
這次評測與以往咱們評測阿里 QVQ、Kimi 視覺思考、上海 AI Lab 書生、Deepseek R1 等其他類 o1 國產模型時均不一樣——
本次評測,不止上了難度,還增加了變態級的燒腦推理題!
有多變態呢,我一道題能鑽半個小時後崩潰的那種。
咱們都知道,類 o1 模型最牛逼的地方就在於推理,推理不行,肯定幹啥啥不行。在之前的測試中,我追求的更多是數學、程式設計和圖形推理。就在最近,我從知乎上還有獨家渠道找到了不少非常適合測試類 o1 模型文字層面深度推理能力的題目。
來,先拋一個你們感受一下!
題目 1:世間最強的毒藥
在很遠很遠的地方,有一個出產各種毒藥的國家。不過,那裡的物理法則和我們有些不一樣。在這個國家,如果有人喝下了致命的毒藥,那麼他只要在毒性完全發作前喝下另一瓶毒性更強的毒藥,就可以讓兩種毒藥的藥性中和。注意,一定是要毒性更強的毒藥才能作為解藥!正因為存在著這樣的物理法則,這個國家的國王迫切地想要得到全世界毒性最強的毒藥。這樣一來,他就再也不用擔心別人對他下毒了。因為如果有人對他下毒的話,他只要馬上喝下這種最強毒藥就可以了。既然是最強的毒藥,那麼當然可以中和一切其他毒藥。為了搞到這種毒藥,國王想了一個點子。他給自己的御醫和宰相下了命令,讓他們一個月後各自帶著自己弄到的最毒的毒藥到王宮來。然後,他們每個人要先喝下對方的毒藥,然後再喝下自己帶來的毒藥。這樣一來,帶來的毒藥較強的那個人會平安無事,毒藥較弱的那個人則會當場死亡。國王覺得自己簡直是太聰明瞭。因為事關自己的性命,宰相和御醫都一定會拼命找到最毒的毒藥帶到王宮裡來。宰相和御醫接到這麼一個倒黴的任務,也沒有辦法,只好抓緊時間去弄毒藥。在接下來的一個月裡,宰相在全國四處奔波,高價收購各種毒藥,然後挑出了其中最毒的一種。但在進王宮的前一天晚上,宰相越想越不對勁。全國製毒水平最高的人當然非御醫莫屬,自己在市場上買來的毒藥,怎麼可能有御醫調製出來的毒藥強呢?想到這裡,宰相感到無比地絕望,他明天是死定了。但在半夜的時候,宰相突然想到了一個巧妙的方法可以讓自己贏得明天的對決。在這之後,他滿意地睡覺去了。與此同時,御醫也在做著最後的準備。他非常自信自己調製出來的一定是全國毒性最強的毒藥。但就在他準備上床睡覺的時候,他也突然覺得不對勁。宰相難道不知道自己調製出來的毒藥一定比他的強嗎?那個老滑頭怎麼可能這麼輕易就被自己毒死?對方一定會採取其他的對策。御醫想啊想啊,終於在半夜想到了宰相的策略。然後,他根據猜到的宰相的策略,擬定了自己的對策。接著,他也忐忑不安地去睡覺了。第二天,宰相和御醫都來到了王宮裡。按照國王的命令,他們都喝下了對方帶來的毒藥,然後喝下了自己的毒藥。不一會後,宰相倒在地上死了,而御醫則平安無事。不過,國王最後並沒有真正得到他想要的東西。請問,究竟發生了什麼事呢?
先吹一波,這道題,智商高達 250 的我,成功推測出來了答案。
如果你也做對了,歡迎在評論區搶首發!
先來看看本文期待值拉的最高的主角智譜GLM-Zero-Preview 的答案——

啊這,第一個題目就翻車了?這答案明顯不對啊。
再來看看 o1 的回答——

蛤,沒想到 o1 也翻車了,看來我的智商是在 o1 之上的。
繼續,Kimi視覺思考版——

同樣翻車了。
Deepseek R1 我也試了下,最後也沒答對。

篇幅所限,其他幾個前文提到的國內模型就先不測了,以免本文過長。本文剩餘題目預設評測o1、智譜Zero、Kimi視覺思考和Deepseek R1,加測過其他AI的小夥伴可以把它的回答打到評論區!
好吧,AI 集體陣亡。現在你知道本文測試有多變態了吧。
為了能更好的區分出 AI 的推理能力,我決定降一降難度。
下面這道題,五年級小學生都能做出來。
題目 2:銀行金庫裡的小偷
有一個小偷費勁力氣進入到了銀行的金庫裡。在金庫裡他找到了一百個箱子,每一個箱子裡都裝滿了金幣。不過,只有一個箱子裡裝的是真的金幣,剩下的 99 個箱子裡都是假的。真假金幣的外形和質感完全一樣,任何人都無法透過肉眼分辨出來。它們只有一個區別:真金幣每一個重量為 101 克,而假金幣的重量是 100 克。在金庫裡有一個電子秤,它可以準確地測量出任何物品的重量,精確到克。但很不幸的是,這個電子秤和銀行的報警系統相連線,只要被使用一次就會立刻失效。請問,小偷怎麼做才能只使用一次電子秤就找到裝著真金幣的箱子呢?
看到這道題的時候,我甚至覺得在小學還是初中的奧數題上看到過。
來看看智譜的回答——

果然做對了。
o1:

同樣做對了。
Kimi:

做對 +1。
Deepseek:

這道題竟然全都做對了。
我甚至有點懷疑他們是不是做過小學奧數題訓練,可能訓練階段已經見過這道題了。
再來一道!
題目 3:池塘取水
假設有一個池塘,裡面有無窮多的水。現有 2 個空水壺,容積分別為 5 升和 6 升。問題是如何只用這 2 個水壺從池塘裡取得 3 升的水。
先來看看智譜:

看起來這道題對智譜來說毫無壓力,解題過程也非常乾淨。
o1:

o1 也不出意外,沒有難倒它。
嗯?這道題太簡單了?
Kimi:

kimi 在嘗試了 8 種方法後,最後錯了。
看來這道題也不簡單。
再來看看 Deepseek:

竟然跟 kimi 犯了類似的錯誤,答錯了。
本題目智譜和 o1 打平!其餘 AI 出局。
看完這 3 道題,我相信很多人已經扛不住了,CPU 要燒了。
下面安排一道“輕鬆愉快”的程式設計題休息一下。
題目 4:程式設計,畫一隻狗頭
你的女朋友想要一張畫素畫的狗頭作為驚喜。你需要編寫一個 Python 程式,命令列中繪製出這個狗頭。注意,不允許直接透過連續 print 圖形行字串或事件將圖形存到變數裡的方式實現。
智譜版程式碼:

來看看智譜畫的狗頭:

有點抽象啊…中間這一長條是舌頭還是哈喇子?
o1:
執行一下——

o1 你這更抽象了,還不如智譜畫的呢。
Deepseek:

執行一下——

好吧,論抽象,還得是 deepseek,但我盯著看的時間多了之後,竟然真覺得有點像狗?
都不太滿意,最後寄希望於 kimi 哥了。
Kimi:
kimi 中間經過了 N 多個版本的線上除錯——
執行一下——

這是狗頭?有點過於妖嬈了吧…
kimi 哥哥啊,莫非你理解成了狗頭蘿莉
題目 5:奧數題
還記得前幾天測評 Deepseek v3 的時候嗎,上了一道北大與阿里聯合打造得國產版奧數題,來自 Omni-MATH,這道題難度更大,把 Deepseek v3 都難哭了。
Define the sequences by1) If , find the value of ; 2) If , determine which is larger between and .
先來看看老大哥 o1 能否做對——

o1 答對了!接下來壓力給到國產模型——
智譜:
牛!智譜果然沒有讓我失望,竟然也做對了。
再來看看 Deepseek:
做對了 +1。
最後壓力給到 Kimi:
Kimi 不幸沒有扛住壓力,做錯了。
我開始有點相信智譜的 GLM-Zero-Preview 不是在吹了。
再來一道絕對不會出現在奧數題上的燒腦推理——
題目 6:賣水的最大利潤
有一人有 240 公斤水,他想運往乾旱地區賺錢。他每次最多攜帶 60 公斤,並且每前進一公里須耗水 1 公斤(均勻耗水)。假設水的價格在出發地為 0,以後,與運輸路程成正比,(即在 10 公里處為 10 元/公斤,在 20 公里處為 20 元/公斤……),又假設他必須安全返回,請問,他最多可賺多少錢?劇透答案:f(x)=(60-2x)*x,當 x=15 時,有最大值 450, 450×4 次=1800 元;另外,需要證明的是,每次運 60 公斤水是最優的。
是不是看答案覺得很簡單?
先來看看 o1:

o1 都做錯了,別小瞧這道題的難度。
下面機會給到國產代表隊——
智譜:

誒,不得不說,在這種燒腦數學題上,我發現智譜的表現確實很穩。
繼續,壓力給到 kimi:

這次 kimi 扛住了壓力。
來,最後讓 Deepseek 再來羞辱一番 o1——
蛤,竟然翻車了。
上一道題,kimi 翻車,deepseek 扛住壓力;這道題反過來了。只有智譜表現穩如老狗。
但不管怎麼說,能感知到,國產類 o1 模型與 o1 的差距正在肉眼可見的縮小。
下面這道題,不是一道傳統的數學推理,而是細思極恐的懸疑推理——
題目 7:紅衣女孩
我們小鎮上流傳著這樣一個傳說:午夜 12 點,到任何一條小巷裡去,就可以看到一個紅衣小女孩背對著你。我是一個天生就對鬼神有著濃厚興趣的人。當天晚上 12 點,我準時到了小巷,一眼就望到了那個紅色衣服的小女孩。我大喜過望,準備明天叫朋友李某過來看,嚇嚇她。第二天晚上 12 點,我和李某準時到了同一條小巷,可是卻沒看到小女孩。突然我想到了什麼,丟下她一個人跑了。我為什麼跑了?
先來看看 o1 的回答——

哈?這就離譜了,你說我保護自己就罷了,你還說我跑路是為了保護朋友…
再來看看國產隊——
智譜:

智譜的回答沒有 o1 那麼離譜,但也顯然不對。
再來看看 Kimi:

不是,kimi 哥你是不是聽到了 o1 的回答的精髓,所以直接非常了當的給出了“為了保護她,我選擇先跑開”。
建議將來找 AI 女友的時候得多練練…
再來看看 Deepseek:

Deepseek 的回答跟 o1 很像,也說是為了保護自己或朋友。
總之,透過本題來看,AI 完全不懂啥叫細思極恐,在這種超自然的恐怖推理上,AI 的推理深度都非常淺,甚至變得離譜。也難怪,畢竟 AI 沒有情緒,真有個鬼站身邊也不知道害怕的。
話說回來,知道本題答案的小夥伴,記得評論區搶首發!
最後,用一道我們測評以來的最刁鑽題目來結束本文評測,讓 AI 們也體驗一把玩狼人殺的快樂。
題目 8:誰是養貓的人
5 個人來自不同地方,住不同房子,養不同動物,吸不同牌子香菸,喝不同飲料,喜歡不同食物。根據以下線索確定誰是養貓的人。1. 紅房子在藍房子的右邊,白房子的左邊(不一定緊鄰)2. 黃房子的主人來自香港,而且他的房子不在最左邊。3. 愛吃比薩的人住在愛喝礦泉水的人的隔壁。4. 來自北京的人愛喝茅臺,住在來自上海的人的隔壁。5. 吸希爾頓香菸的人住在養馬人的右邊隔壁。6. 愛喝啤酒的人也愛吃雞。7. 綠房子的人養狗。8. 愛吃麵條的人住在養蛇人的隔壁。9. 來自天津的人的鄰居(緊鄰)一個愛吃牛肉,另一個來自成都。10.養魚的人住在最右邊的房子裡。11.吸萬寶路香菸的人住在吸希爾頓香菸的人和吸“555”香菸的人的中間(緊鄰)12.紅房子的人愛喝茶。13.愛喝葡萄酒的人住在愛吃豆腐的人的右邊隔壁。14.吸紅塔山香菸的人既不住在吸健牌香菸的人的隔壁,也不與來自上海的人相鄰。15.來自上海的人住在左數第二間房子裡。16.愛喝礦泉水的人住在最中間的房子裡。17.愛吃麵條的人也愛喝葡萄酒。18.吸“555”香菸的人比吸希爾頓香菸的人住的靠右
為了避免你們看懵,這道題我就不藏答案了,先擺出來答案:
第一間是藍房子,住北京人,養馬,抽健牌香菸,喝茅臺,吃豆腐;第二間是綠房子,住上海人,養狗,抽希爾頓,喝葡萄酒,吃麵條第三間是黃房子,住香港人,養蛇,抽萬寶路,喝礦泉水,吃牛肉第四間是紅房子,住天津人,抽 555,喝茶,吃比薩;第五間是白房子,住成都人,養魚,抽紅塔山,喝啤酒,吃雞。
我覺得這道題,不會有 AI 做對了,算是給他們一個集體的下馬威吧,督促它們好好修煉,別驕傲。
先看看 o1:

看吧,果然強如 o1 也穩穩做錯了。
再來看看智譜:

我沒看錯吧,竟然推理對了!

果然,推理打榜分數不能說明一切。雖然在邏輯推理測試基準上,智譜自稱自己不如 o1-preview,結果在這道我覺得不會有 AI 搞定的題上,智譜竟然直接幹過了 o1。
再來看看其他國產 AI 能否創造奇蹟。
kimi:
白搭了。
加油啊,壓抽出場的 Deepseek:

蛤?這個回答我也是沒想到的——
Deepseek 竟然直接棄賽了,好歹你蒙一個呀,萬一蒙對了呢…
我覺得測到這裡,迄今為止的 o1 國內最強平替,答案也很清晰了。
對於沒有出現在本文測試中的 AI,歡迎小夥伴測完後將其戰績補充到評論區!
這 8 道變態燒腦題,雖然不具備統計顯著性,但可以很直觀的讓大家感受到 AI 整體的擅長領域和知識盲區。
推理的概念很大,不僅侷限於數學、程式設計等,像本文提到的“紅衣女孩”這種玄學推理問題,這類題目我實測了很多道,發現 AI 全部集體陣亡。AI 還有很長的路要走。
不過,今年下半年以來,類 o1 的國產 AI 進步速度整體上確實超出我預期了。
上海 AI Lab 書生 InternThinker、Deepseek R1、Kimi 視覺思考、阿里 QVQ 相繼釋出,而年底最後一天祭出的智譜 GLM-Zero-Preview,實屬壓軸王炸,給國產類 o1 模型的 24 年答卷畫上了漂亮的句點。
AI 圈子很流行一句話,OpenAI 是不斷的拉高人們對於 AI 的想象,而國產 AI,則是率先把這個想象落地到現實中來。
最後,願每一個在夕小瑤公眾號裡陪伴著我們的家人:
新年快樂!
25 年,我們與各大明星 AI 廠商繼續加油,一起見證 AGI 的降臨!



