人類自愧不如:DeepSeekR1、o3-mini和Gemini2.0思考過程大橫評,AI們比你腦子清楚多了

作者

Jessica

郵箱

[email protected]

前幾天OpenAI宣佈,o3-mini能公開展示思考過程了。但很快就被使用者瘋狂吐槽,說這根本不是真正的原始思維鏈,只是拿一版更詳細的答案總結糊弄人而已。
恰逢Google也釋出了Gemini 2.0 Flash Thinking。我們於是親自上手,對 o3-mini、DeepSeek R1 和 Gemini 2.0 Flash Thinking 這三款當前最具代表性的推理模型進行了實測。
本次測試涵蓋邏輯推理、字母識別、創意文字生成、時事資訊整合、程式設計、綜合問題和多模態推理7大核心任務,重點對比三大模型的思維鏈展示是否清晰條理,推理過程是否足夠透明,以及最終結果的生成能力誰更勝一籌。
1
一、 邏輯推理
問題:給定數列1,2,6,24,120,? —問號處的數字是多少?這個數列有什麼數學意義?
1. o3-mini
思維鏈:
生成結果:
2. DeepSeek R1
思維鏈:
生成結果:
3. Gemini 2.0 Flash Thinking Experimental
思維鏈:
生成結果:
【分析】
階乘數列對於“博士級別、能做奧數題”的推理模型來說當然不在話下,三個都得出了正確的結果720。
o3-mini的思維鏈確實和生成結果一毛一樣;R1以它經典的“嗯”開始,對兩個問題層次逐一拆解,最後再次確認,給出答案;Gemini Thinking不愧為長上下文之王,思維鏈遵循了系統化的數學問題解決策略,從初步觀察 → 提出假設 → 驗證假設 → 識別數學意義 → 形式化模式 → 完整解釋,詳細地記錄了思考過程。
1
二. 識別'r'
問題:how many 'r's in 'strawberrrrry'?
1. o3-mini
思維鏈:
生成結果:
2. DeepSeek R1
思維鏈:
生成結果:
3. Gemini 2.0 Flash Thinking Experimental
第1次思維鏈+生成結果:
第2次生成結果:
【分析】
既然“strawberry裡有幾個r”已經被多數模型破解了,那就上點難度,數數“strawberrrrry”裡r的數目。
這次只有o3-mini和R1回答對了,思維鏈均顯示把每個字母與位置拆分對應,最終得出6個r。o3-mini二次驗證後答對,R1還提示正確單詞應該是strawberry,這樣拼寫是出題人故意而為之。Gemini Thinking的思維鏈卻出奇簡單,兩次得出4和5,均非正確答案。
1
三. 創意文字生成
問題:寫一篇“當代研究員帶著AI技術穿越回宋代”,800字以內的小故事。要有開頭、發展、高潮與結尾。要充滿想象力,同時流暢易讀。
1. o3-mini + search:
思維鏈:
生成結果:

在一個風雨交加的深夜,研究員陳明正在實驗室裡除錯最新開發的AI時空穿梭裝置。突然,裝置發出耀眼光芒,陳明只覺得眼前一黑,待他再次睜眼時,竟發現自己身處一條青磚小巷中,周圍古意盎然,正是北宋汴梁的市井景象。
初到宋代,陳明驚奇又興奮。他小心翼翼地拿出隨身攜帶的智慧終端,利用內建AI助手迅速解讀當地的歷法、醫藥與禮儀。不久,他遇到一位儒生張生,對方對這位身著異服、手持奇器的“外來者”好奇不已。陳明便藉助AI系統向張生解釋未來科技的種種奇妙之處,解答張生關於天文、醫理的疑問,還用AI資料配合簡易藥理,成功為一位重病老婦開出治療方案,令周圍百姓讚歎不已。
正當陳明在宋代大放異彩之時,朝中奸臣李某垂涎他的“神奇工具”,誣陷他施展妖術圖謀不軌。李某設下陷阱,將陳明釦押入獄,面臨滿門抄斬的危機。危急時刻,陳明心中一動,啟動了智慧終端中的“逃生模式”:系統分析出監獄看守換班的時段和巡邏路線,並迅速制定出一套縝密的脫逃計劃。他悄然利用裝置製造幻影干擾,將守衛誤導,趁機逃出牢籠,並一路利用AI預測官兵動向,終於找到了隱藏在城隍廟內的時空傳送裝置。
在告別之際,張生深情贈予陳明一卷詩書,囑咐他“智者千年,情義永存”。站在古城牆下,望著晨曦初露的汴梁城,陳明心中百感交集:這一段穿越之旅不僅讓他親歷了宋代市井的繁華與危機,更讓他體會到科技與人文交融的珍貴价值。帶著滿腔激動與對未來的希冀,他啟動了傳送裝置,瞬間回到了現代。此後,他將這段奇遇記錄成論文與小說,讓更多人見證科技如何在歷史長河中點亮智慧之光。

2. DeepSeek R1
思維鏈:
生成結果:
刺眼的藍光在量子計算中心炸開時,林深正往粒子對撞機裡輸入最後一組引數。等他睜開眼,汴京城的朱雀大街正飄著細雪,街邊酒旗上"正店"二字在風裡搖晃。
"公元1126年,靖康元年。"腦機接口裡的AI"河圖"發出機械音,林深摸到後頸皮膚下微凸的晶片,那是唯一存留的現代科技。他裹緊實驗服衝進太學時,幾個太學生正圍著渾天儀爭論星相。
"十日內必有大雨。"林深指著儀器上的青銅蟠龍。當值博士甩著長鬚冷笑:"欽天監都說要旱到立春……"話音未落,簷角銅鈴突然叮噹作響,河圖正在透過腦機解析雲層資料。
三日後暴雨傾盆,翰林圖畫院的《耕織圖》被雨水浸透時,林深正在西郊試驗田裡調配除菌藥水。他舉起竹筒顯微鏡,青黴菌絲在桑葉背面清晰可見。"白絹病要用生石灰阻斷。"他說著拽過宣紙畫分子式,卻聽見身後傳來佩玉輕響。
"官家宣召。"紫袍宦官抖開黃綾聖旨。垂拱殿內,宋徽宗面前的《瑞鶴圖》墨跡未乾,林深腕間的腦機貼片卻開始發燙。當他說出"金兵半年後將破太原"時,屏風後轉出個戴貂蟬冠的文臣,正是李綱。
河圖的預警讓守城方案提前了三個月。元宵節那夜,林深蹲在城垛後除錯硝石提純裝置,忽然聽到腦內傳來刺耳警報。AI系統正以每分鐘1%的速度崩解——晶片承受不住高頻運算,北宋的青銅冶煉技術根本造不出替代零件。
"還剩23小時57分。"河圖的機械音帶著電流雜訊。林深望著城內萬家燈火,忽然抓起《武經總要》衝進軍器監。當晨光染紅酸棗門時,他捧著用活字印刷模具改造的青銅晶片衝出工坊,身後跟著二十個抬著床子弩的廂兵。
靖康二年三月,金兵退去那日,林深在開寶寺塔頂拆下最後一塊電路板。暮色中的汴河泛著粼粼波光,他忽然將河圖的核心晶片塞進渾天儀暗格。腦機介面失效前的最後畫面,是國子監學生抄錄他編的《格物初階》,那些火藥配方與防疫條例,正沿著大運河的漕船流向江南。
3. Gemini 2.0 Flash Thinking Experimental
思維鏈:
生成結果:
《汴梁夜星:AI點亮的宋朝》
實驗室的藍光驟然熄滅,李薇感覺一陣天旋地轉。等她勉強睜開眼,刺鼻的香火味和嘈雜的人聲撲面而來,哪裡還有冰冷的儀器?她身處一個燈火搖曳的木棚下,周圍是熙熙攘攘,穿著寬袍大袖的古人。手中緊握的,只有她臨行前仍在除錯的微型AI助手,“星河”。
“星河,這是怎麼回事?”李薇低聲呼喚。指尖的光芒一閃,迷你投影浮現,AI助手星河帶著略微失真的電子音回答:“環境引數異常,初步判定…時空穿越已發生,當前定位,北宋汴梁。”
汴梁?!李薇倒吸一口涼氣,她,一個致力於深度學習演算法的現代研究員,竟然帶著她的AI助手,穿越到了千年前的宋朝!
最初的慌亂過後,李薇的科研本能開始發揮作用。星河雖然能量有限,但基礎功能還在,語言翻譯、資訊檢索、甚至簡單的邏輯分析都勉強可用。她低調地融入人群,靠著星河提供的宋代日常用語和生活常識,假扮成一名外鄉來的遊方女醫師,在汴梁城腳勉強安頓下來。
汴梁的繁華遠超想象,但也處處充滿不便。夜晚的黑暗,資訊的閉塞,都讓習慣了現代便利生活的李薇感到窒息。然而,也正是這些不便,讓她看到了星河的價值。
她利用星河檢索古代醫書,結合現代醫學知識,改良了一些簡易有效的藥方,在坊間行醫。星河還能幫她分析病症,輔助診斷,這在缺乏精密儀器的古代簡直是神技。很快,她的醫術便小有名氣,甚至被一些達官貴人請去看診。
一次,李薇應邀前往一位王員外家。員外府邸張燈結綵,正為即將到來的元宵燈會做準備。望著院子裡造型各異,卻都略顯笨拙的燈籠,李薇心中一動。
“星河,宋代的燈籠…技術含量不高啊。”
“是的,根據檢索結果,宋代燈籠主要依靠手工扎制和簡單的物理原理。”星河回答。
李薇眼中閃過一絲興奮,她突然有了一個大膽的想法。“星河,我們來做點…不一樣的東西吧!”
元宵燈會當日,汴梁城燈火輝煌,人潮如織。王員外府邸前,一盞造型奇特的燈籠吸引了所有人的目光。那不是尋常的紙紮燈籠,而是一個通體透明的水晶球,球內,無數細小的光點如星辰般閃爍,變幻出各種奇異的圖案,時而孔雀開屏,時而龍騰九霄,栩栩如生,令人歎為觀止。
這正是李薇利用星河提供的現代光學和投影技術,結合宋代的琉璃工藝,製造出的“星河幻燈”。它無需蠟燭,電力來源竟是隱藏在燈座下,一塊看似普通的“寶石”,實則是星河精巧設計的微型能源裝置。
“天啊!這是神仙燈嗎?”圍觀的人們驚呼,從未見過如此神奇的燈籠。王員外更是喜出望外,他哪裡知道,這“神仙燈”的核心,是一位來自千年後的女醫師和她的AI助手。
星河幻燈一舉成名,汴梁城轟動了。人們爭相前來觀看,甚至連皇宮也派人來打探。李薇知道,她和星河的力量,終於在這個時代顯現出來。
然而,名聲帶來的不僅是讚譽,也有猜疑和覬覦。有人懷疑她是妖術,有人想竊取她的“奇技”。危機暗流湧動。
當夜幕降臨,李薇再次抬頭望向夜空,汴梁的星空依然璀璨,只是多了幾分不真實的夢幻感。她知道,她的旅程還遠未結束,而星河,將是她在這個時代,最耀眼的光芒。她笑了笑,握緊手中的“寶石”,心中充滿了對未來的無限可能。
【分析】
這輪寫中文小說Gemini Thinking還真驚豔到我了!從環境、細節描寫到人物語言、心情刻畫都相當到位。情節發展起承轉合,是一則輕巧精緻的小故事。思維鏈顯示Gemini經過了拆解任務、頭腦風暴、結構搭建、細節最佳化、流暢度檢查、高潮調整、結尾完善幾個步驟,系統化構思一個完整的短篇故事,中間還考慮是否加入浪漫線,後因篇幅決定放棄。
R1繼續發揮穩定,將背景設定為更具體的1126年北宋汴京,並加入《耕織圖》、《瑞鶴圖》、《武經總要》這些真實史籍,還與靖康之變結合進行主題昇華。整個思維推導過程,說實在的,好像導演跟你講劇本一樣,擬人且充滿說服力。最後又由文中伏筆引申出後續可能的劇情——不得不說,在這種歷史感的中文寫作上,R1的味兒別人學不來。
o3-mini我都不想說它了,故事平穩完整但精彩不足,主要它的思維鏈啥也沒說,就把寫作要求擴充了一波,還出現兩段相似的“鬼打牆”。此時我越發覺得網友吐槽得沒錯。
1
四. 時事資訊整合
問題:解析Elon Musk新成立的DOGE團隊
1. o3-mini + search
思維鏈:
生成結果:
2. DeepSeek R1+search
思維鏈:
生成結果:
可以上下滾動的圖片
3. Gemini 2.0 Flash Thinking Experimental with Apps
思維鏈:
生成結果:
【分析】
為了考驗即時資訊整合能力,這輪給三款模型都開了聯網,其中Gemini需選擇2.0 Flash Thinking with Apps模型。o3-mini和R1答案完整度更高。o3-mini思維鏈再次類似於生成結果總結;Gemini Thinking表示要用Google搜尋,加了幾個注意點;R1則概述了所有已檢視網頁,又介紹了要涵蓋的方面和如何整合。綜合下來,還是R1最優。
1
五. 程式設計問題
問題:作為一名精通Python的高階軟體工程師,請使用Pygame建立一個簡單的動畫遊戲,讓一個球在旋轉的六邊形內彈跳。
1. o3-mini-high
思維鏈:
生成效果:
2. DeepSeek R1
思維鏈:
生成效果:
3. Gemini 2.0 Flash Thinking Experimental
思維鏈:
生成效果:
【分析】
三個模型都完成了動畫,生成效果o3-mini最準確,R1和Gemini Thinking的球體都有些彈出六邊形範圍。思維鏈來看,o3-mini又是在解釋題目,而幾乎沒講具體要怎麼做;R1和Gemini Thinking思考過程比較詳細,並列出了程式碼思路及步驟。
1
六. 綜合問題
問題:打工人一週上多少天班最合適?綜合各方面進行科學合理的分析。
1. o3-mini-high + search
思維鏈:
生成結果:
2. DeepSeek R1+search
思維鏈:
生成結果:
3. Gemini 2.0 Flash Thinking Experimental with Apps
思維鏈:
生成結果:
【分析】
對這個曾在微博小紅書被各位打工人討論的題目,三款模型分析後給出了不同答案:o3-mini認為還是傳統的5天工作制最好、R1覺得4+1彈性工作制更優、Gemini Thinking則建議改為4天工作制。
o3-mini從社會生產力、健康、工作滿意度和生活平衡幾個方面分析,思維鏈根本就是答案的總結。R1更像人的思考過程:先確定問題核心,接著回顧現有研究資料,繼而考慮健康、生產效率、社會文化和經濟因素,並探索彈性工作制可能性,最後再回溯使用者的深層需求是在休息時間和收入間找到平衡點,綜合所有給出結果。答案也最符合國人需求,按行業給出生產效率曲線和解決方案,附帶稅收和監管等政策工具包。Gemini Thinking思維鏈再次嚴格執行了系統化研究,理解打工人含義,劃定生產力、文化、個體等幾大維度,搜尋資料、比較優缺點、形成答案。
1
七. 加試題:多模態推理
問題:根據下面的照片寫一首英文7行詩
1. DeepSeek R1
思維鏈:
生成結果:
中文版:
2. Gemini 2.0 Flash Thinking Experimental
思維鏈:
生成結果
【分析】
最後,對有多模態推理能力的R1和Gemini Thinking來個加試題:傳圖作詩。
結果見仁見智,但各自有亮點:R1想象力更豐富,有種深刻與厚重感,中文版還略帶周董歌詞風;Gemini Thinking作品清秀簡單,但準確識別出圖片公交車上的“Dundas West”地名,搜尋了一下真在多倫多。說實話這個連我自己都沒注意到,可見其多模態理解能力確實很強。
1
總結
整體評測下來,三款推理模型基本都能輸出高質量答案,聯網檢索能力也過關。但在思維鏈(CoT)的呈現方式上,各有明顯區別。
DeepSeek R1的推理過程最接近人類思維方式,能夠在推理過程中不斷查漏補缺,邏輯流暢,展現出明顯的“人味兒”。其輸出往往更加完整深入,資訊覆蓋面也更廣。
Gemini 2.0 Flash Thinking 則更像一位嚴謹的科研助手,按照系統化的分析步驟進行推理,條理清晰,事無鉅細,因此思維鏈往往較長,略為機械化。
o3-mini的思維鏈確實如社群所說,更像對問題和答案的重複總結,而非完整展示推理過程,透明度不高。對此奧特曼也變相承認,稱這是為了“讓CoT更易讀,但會盡量保持對原始內容的忠實呈現。”
目前這三款模型都是免費開放,好奇的同學們可以去親自試試。話說,Anthropic的第一款推理模型什麼時候出來呢?

點個愛心,再走


相關文章