人類自愧不如：DeepSeekR1、o3-mini和Gemini2.0思考過程大橫評，AI們比你腦子清楚多了

作者

｜Jessica

郵箱

｜[email protected]

前幾天OpenAI宣佈，o3-mini能公開展示思考過程了。但很快就被使用者瘋狂吐槽，說這根本不是真正的原始思維鏈，只是拿一版更詳細的答案總結糊弄人而已。

恰逢Google也釋出了Gemini 2.0 Flash Thinking。我們於是親自上手，對 o3-mini、DeepSeek R1 和 Gemini 2.0 Flash Thinking 這三款當前最具代表性的推理模型進行了實測。

本次測試涵蓋邏輯推理、字母識別、創意文字生成、時事資訊整合、程式設計、綜合問題和多模態推理7大核心任務，重點對比三大模型的思維鏈展示是否清晰條理，推理過程是否足夠透明，以及最終結果的生成能力誰更勝一籌。

一、邏輯推理

問題：給定數列1，2，6，24，120，? —問號處的數字是多少？這個數列有什麼數學意義？

1. o3-mini

思維鏈：

生成結果：

2. DeepSeek R1

思維鏈：

生成結果:

3. Gemini 2.0 Flash Thinking Experimental

思維鏈：

生成結果：

【分析】

階乘數列對於“博士級別、能做奧數題”的推理模型來說當然不在話下，三個都得出了正確的結果720。

o3-mini的思維鏈確實和生成結果一毛一樣；R1以它經典的“嗯”開始，對兩個問題層次逐一拆解，最後再次確認，給出答案；Gemini Thinking不愧為長上下文之王，思維鏈遵循了系統化的數學問題解決策略，從初步觀察 → 提出假設 → 驗證假設 → 識別數學意義 → 形式化模式 → 完整解釋，詳細地記錄了思考過程。

二．識別'r'

問題：how many 'r's in 'strawberrrrry'?

1. o3-mini

思維鏈：

生成結果：

2. DeepSeek R1

思維鏈：

生成結果：

3. Gemini 2.0 Flash Thinking Experimental

第1次思維鏈+生成結果：

第2次生成結果：

【分析】

既然“strawberry裡有幾個r”已經被多數模型破解了，那就上點難度，數數“strawberrrrry”裡r的數目。

這次只有o3-mini和R1回答對了，思維鏈均顯示把每個字母與位置拆分對應，最終得出6個r。o3-mini二次驗證後答對，R1還提示正確單詞應該是strawberry，這樣拼寫是出題人故意而為之。Gemini Thinking的思維鏈卻出奇簡單，兩次得出4和5，均非正確答案。

三．創意文字生成

問題：寫一篇“當代研究員帶著AI技術穿越回宋代”，800字以內的小故事。要有開頭、發展、高潮與結尾。要充滿想象力，同時流暢易讀。

1. o3-mini + search:

思維鏈：

生成結果：

在一個風雨交加的深夜，研究員陳明正在實驗室裡除錯最新開發的AI時空穿梭裝置。突然，裝置發出耀眼光芒，陳明只覺得眼前一黑，待他再次睜眼時，竟發現自己身處一條青磚小巷中，周圍古意盎然，正是北宋汴梁的市井景象。

初到宋代，陳明驚奇又興奮。他小心翼翼地拿出隨身攜帶的智慧終端，利用內建AI助手迅速解讀當地的歷法、醫藥與禮儀。不久，他遇到一位儒生張生，對方對這位身著異服、手持奇器的“外來者”好奇不已。陳明便藉助AI系統向張生解釋未來科技的種種奇妙之處，解答張生關於天文、醫理的疑問，還用AI資料配合簡易藥理，成功為一位重病老婦開出治療方案，令周圍百姓讚歎不已。

正當陳明在宋代大放異彩之時，朝中奸臣李某垂涎他的“神奇工具”，誣陷他施展妖術圖謀不軌。李某設下陷阱，將陳明釦押入獄，面臨滿門抄斬的危機。危急時刻，陳明心中一動，啟動了智慧終端中的“逃生模式”：系統分析出監獄看守換班的時段和巡邏路線，並迅速制定出一套縝密的脫逃計劃。他悄然利用裝置製造幻影干擾，將守衛誤導，趁機逃出牢籠，並一路利用AI預測官兵動向，終於找到了隱藏在城隍廟內的時空傳送裝置。

在告別之際，張生深情贈予陳明一卷詩書，囑咐他“智者千年，情義永存”。站在古城牆下，望著晨曦初露的汴梁城，陳明心中百感交集：這一段穿越之旅不僅讓他親歷了宋代市井的繁華與危機，更讓他體會到科技與人文交融的珍貴价值。帶著滿腔激動與對未來的希冀，他啟動了傳送裝置，瞬間回到了現代。此後，他將這段奇遇記錄成論文與小說，讓更多人見證科技如何在歷史長河中點亮智慧之光。

2. DeepSeek R1

思維鏈：

生成結果：

刺眼的藍光在量子計算中心炸開時，林深正往粒子對撞機裡輸入最後一組引數。等他睜開眼，汴京城的朱雀大街正飄著細雪，街邊酒旗上"正店"二字在風裡搖晃。

"公元1126年，靖康元年。"腦機接口裡的AI"河圖"發出機械音，林深摸到後頸皮膚下微凸的晶片，那是唯一存留的現代科技。他裹緊實驗服衝進太學時，幾個太學生正圍著渾天儀爭論星相。

"十日內必有大雨。"林深指著儀器上的青銅蟠龍。當值博士甩著長鬚冷笑："欽天監都說要旱到立春……"話音未落，簷角銅鈴突然叮噹作響，河圖正在透過腦機解析雲層資料。

三日後暴雨傾盆，翰林圖畫院的《耕織圖》被雨水浸透時，林深正在西郊試驗田裡調配除菌藥水。他舉起竹筒顯微鏡，青黴菌絲在桑葉背面清晰可見。"白絹病要用生石灰阻斷。"他說著拽過宣紙畫分子式，卻聽見身後傳來佩玉輕響。

"官家宣召。"紫袍宦官抖開黃綾聖旨。垂拱殿內，宋徽宗面前的《瑞鶴圖》墨跡未乾，林深腕間的腦機貼片卻開始發燙。當他說出"金兵半年後將破太原"時，屏風後轉出個戴貂蟬冠的文臣，正是李綱。

河圖的預警讓守城方案提前了三個月。元宵節那夜，林深蹲在城垛後除錯硝石提純裝置，忽然聽到腦內傳來刺耳警報。AI系統正以每分鐘1%的速度崩解——晶片承受不住高頻運算，北宋的青銅冶煉技術根本造不出替代零件。

"還剩23小時57分。"河圖的機械音帶著電流雜訊。林深望著城內萬家燈火，忽然抓起《武經總要》衝進軍器監。當晨光染紅酸棗門時，他捧著用活字印刷模具改造的青銅晶片衝出工坊，身後跟著二十個抬著床子弩的廂兵。

靖康二年三月，金兵退去那日，林深在開寶寺塔頂拆下最後一塊電路板。暮色中的汴河泛著粼粼波光，他忽然將河圖的核心晶片塞進渾天儀暗格。腦機介面失效前的最後畫面，是國子監學生抄錄他編的《格物初階》，那些火藥配方與防疫條例，正沿著大運河的漕船流向江南。

3. Gemini 2.0 Flash Thinking Experimental

思維鏈：

生成結果：

《汴梁夜星：AI點亮的宋朝》

實驗室的藍光驟然熄滅，李薇感覺一陣天旋地轉。等她勉強睜開眼，刺鼻的香火味和嘈雜的人聲撲面而來，哪裡還有冰冷的儀器？她身處一個燈火搖曳的木棚下，周圍是熙熙攘攘，穿著寬袍大袖的古人。手中緊握的，只有她臨行前仍在除錯的微型AI助手，“星河”。

“星河，這是怎麼回事？”李薇低聲呼喚。指尖的光芒一閃，迷你投影浮現，AI助手星河帶著略微失真的電子音回答：“環境引數異常，初步判定…時空穿越已發生，當前定位，北宋汴梁。”

汴梁？！李薇倒吸一口涼氣，她，一個致力於深度學習演算法的現代研究員，竟然帶著她的AI助手，穿越到了千年前的宋朝！

最初的慌亂過後，李薇的科研本能開始發揮作用。星河雖然能量有限，但基礎功能還在，語言翻譯、資訊檢索、甚至簡單的邏輯分析都勉強可用。她低調地融入人群，靠著星河提供的宋代日常用語和生活常識，假扮成一名外鄉來的遊方女醫師，在汴梁城腳勉強安頓下來。

汴梁的繁華遠超想象，但也處處充滿不便。夜晚的黑暗，資訊的閉塞，都讓習慣了現代便利生活的李薇感到窒息。然而，也正是這些不便，讓她看到了星河的價值。

她利用星河檢索古代醫書，結合現代醫學知識，改良了一些簡易有效的藥方，在坊間行醫。星河還能幫她分析病症，輔助診斷，這在缺乏精密儀器的古代簡直是神技。很快，她的醫術便小有名氣，甚至被一些達官貴人請去看診。

一次，李薇應邀前往一位王員外家。員外府邸張燈結綵，正為即將到來的元宵燈會做準備。望著院子裡造型各異，卻都略顯笨拙的燈籠，李薇心中一動。

“星河，宋代的燈籠…技術含量不高啊。”

“是的，根據檢索結果，宋代燈籠主要依靠手工扎制和簡單的物理原理。”星河回答。

李薇眼中閃過一絲興奮，她突然有了一個大膽的想法。“星河，我們來做點…不一樣的東西吧！”

元宵燈會當日，汴梁城燈火輝煌，人潮如織。王員外府邸前，一盞造型奇特的燈籠吸引了所有人的目光。那不是尋常的紙紮燈籠，而是一個通體透明的水晶球，球內，無數細小的光點如星辰般閃爍，變幻出各種奇異的圖案，時而孔雀開屏，時而龍騰九霄，栩栩如生，令人歎為觀止。

這正是李薇利用星河提供的現代光學和投影技術，結合宋代的琉璃工藝，製造出的“星河幻燈”。它無需蠟燭，電力來源竟是隱藏在燈座下，一塊看似普通的“寶石”，實則是星河精巧設計的微型能源裝置。

“天啊！這是神仙燈嗎？”圍觀的人們驚呼，從未見過如此神奇的燈籠。王員外更是喜出望外，他哪裡知道，這“神仙燈”的核心，是一位來自千年後的女醫師和她的AI助手。

星河幻燈一舉成名，汴梁城轟動了。人們爭相前來觀看，甚至連皇宮也派人來打探。李薇知道，她和星河的力量，終於在這個時代顯現出來。

然而，名聲帶來的不僅是讚譽，也有猜疑和覬覦。有人懷疑她是妖術，有人想竊取她的“奇技”。危機暗流湧動。

當夜幕降臨，李薇再次抬頭望向夜空，汴梁的星空依然璀璨，只是多了幾分不真實的夢幻感。她知道，她的旅程還遠未結束，而星河，將是她在這個時代，最耀眼的光芒。她笑了笑，握緊手中的“寶石”，心中充滿了對未來的無限可能。

【分析】

這輪寫中文小說Gemini Thinking還真驚豔到我了！從環境、細節描寫到人物語言、心情刻畫都相當到位。情節發展起承轉合，是一則輕巧精緻的小故事。思維鏈顯示Gemini經過了拆解任務、頭腦風暴、結構搭建、細節最佳化、流暢度檢查、高潮調整、結尾完善幾個步驟，系統化構思一個完整的短篇故事，中間還考慮是否加入浪漫線，後因篇幅決定放棄。

R1繼續發揮穩定，將背景設定為更具體的1126年北宋汴京，並加入《耕織圖》、《瑞鶴圖》、《武經總要》這些真實史籍，還與靖康之變結合進行主題昇華。整個思維推導過程，說實在的，好像導演跟你講劇本一樣，擬人且充滿說服力。最後又由文中伏筆引申出後續可能的劇情——不得不說，在這種歷史感的中文寫作上，R1的味兒別人學不來。

o3-mini我都不想說它了，故事平穩完整但精彩不足，主要它的思維鏈啥也沒說，就把寫作要求擴充了一波，還出現兩段相似的“鬼打牆”。此時我越發覺得網友吐槽得沒錯。

四. 時事資訊整合

問題：解析Elon Musk新成立的DOGE團隊

1. o3-mini + search

思維鏈：

生成結果：

2. DeepSeek R1+search

思維鏈：

生成結果：

可以上下滾動的圖片

3. Gemini 2.0 Flash Thinking Experimental with Apps

思維鏈：

生成結果：

【分析】

為了考驗即時資訊整合能力，這輪給三款模型都開了聯網，其中Gemini需選擇2.0 Flash Thinking with Apps模型。o3-mini和R1答案完整度更高。o3-mini思維鏈再次類似於生成結果總結；Gemini Thinking表示要用Google搜尋，加了幾個注意點；R1則概述了所有已檢視網頁，又介紹了要涵蓋的方面和如何整合。綜合下來，還是R1最優。

五. 程式設計問題

問題：作為一名精通Python的高階軟體工程師，請使用Pygame建立一個簡單的動畫遊戲，讓一個球在旋轉的六邊形內彈跳。

1. o3-mini-high

思維鏈：

生成效果：

2. DeepSeek R1

思維鏈：

生成效果：

3. Gemini 2.0 Flash Thinking Experimental

思維鏈：

生成效果：

【分析】

三個模型都完成了動畫，生成效果o3-mini最準確，R1和Gemini Thinking的球體都有些彈出六邊形範圍。思維鏈來看，o3-mini又是在解釋題目，而幾乎沒講具體要怎麼做；R1和Gemini Thinking思考過程比較詳細，並列出了程式碼思路及步驟。

六. 綜合問題

問題：打工人一週上多少天班最合適？綜合各方面進行科學合理的分析。

1. o3-mini-high + search

思維鏈：

生成結果：

2. DeepSeek R1+search

思維鏈：

生成結果:

3. Gemini 2.0 Flash Thinking Experimental with Apps

思維鏈：

生成結果：

【分析】

對這個曾在微博小紅書被各位打工人討論的題目，三款模型分析後給出了不同答案：o3-mini認為還是傳統的5天工作制最好、R1覺得4+1彈性工作制更優、Gemini Thinking則建議改為4天工作制。

o3-mini從社會生產力、健康、工作滿意度和生活平衡幾個方面分析，思維鏈根本就是答案的總結。R1更像人的思考過程：先確定問題核心，接著回顧現有研究資料，繼而考慮健康、生產效率、社會文化和經濟因素，並探索彈性工作制可能性，最後再回溯使用者的深層需求是在休息時間和收入間找到平衡點，綜合所有給出結果。答案也最符合國人需求，按行業給出生產效率曲線和解決方案，附帶稅收和監管等政策工具包。Gemini Thinking思維鏈再次嚴格執行了系統化研究，理解打工人含義，劃定生產力、文化、個體等幾大維度，搜尋資料、比較優缺點、形成答案。

七. 加試題：多模態推理

問題：根據下面的照片寫一首英文7行詩