
作者
|Jessica
郵箱
前幾天OpenAI宣佈,o3-mini能公開展示思考過程了。但很快就被使用者瘋狂吐槽,說這根本不是真正的原始思維鏈,只是拿一版更詳細的答案總結糊弄人而已。

恰逢Google也釋出了Gemini 2.0 Flash Thinking。我們於是親自上手,對 o3-mini、DeepSeek R1 和 Gemini 2.0 Flash Thinking 這三款當前最具代表性的推理模型進行了實測。
本次測試涵蓋邏輯推理、字母識別、創意文字生成、時事資訊整合、程式設計、綜合問題和多模態推理7大核心任務,重點對比三大模型的思維鏈展示是否清晰條理,推理過程是否足夠透明,以及最終結果的生成能力誰更勝一籌。
1
一、 邏輯推理
問題:給定數列1,2,6,24,120,? —問號處的數字是多少?這個數列有什麼數學意義?
1. o3-mini
思維鏈:

生成結果:

2. DeepSeek R1
思維鏈:

生成結果:

3. Gemini 2.0 Flash Thinking Experimental
思維鏈:

生成結果:

【分析】
階乘數列對於“博士級別、能做奧數題”的推理模型來說當然不在話下,三個都得出了正確的結果720。
o3-mini的思維鏈確實和生成結果一毛一樣;R1以它經典的“嗯”開始,對兩個問題層次逐一拆解,最後再次確認,給出答案;Gemini Thinking不愧為長上下文之王,思維鏈遵循了系統化的數學問題解決策略,從初步觀察 → 提出假設 → 驗證假設 → 識別數學意義 → 形式化模式 → 完整解釋,詳細地記錄了思考過程。
1
二. 識別'r'
問題:how many 'r's in 'strawberrrrry'?
1. o3-mini
思維鏈:

生成結果:

2. DeepSeek R1
思維鏈:

生成結果:

3. Gemini 2.0 Flash Thinking Experimental
第1次思維鏈+生成結果:

第2次生成結果:

【分析】
既然“strawberry裡有幾個r”已經被多數模型破解了,那就上點難度,數數“strawberrrrry”裡r的數目。
這次只有o3-mini和R1回答對了,思維鏈均顯示把每個字母與位置拆分對應,最終得出6個r。o3-mini二次驗證後答對,R1還提示正確單詞應該是strawberry,這樣拼寫是出題人故意而為之。Gemini Thinking的思維鏈卻出奇簡單,兩次得出4和5,均非正確答案。
1
三. 創意文字生成
問題:寫一篇“當代研究員帶著AI技術穿越回宋代”,800字以內的小故事。要有開頭、發展、高潮與結尾。要充滿想象力,同時流暢易讀。
1. o3-mini + search:
思維鏈:

生成結果:
在一個風雨交加的深夜,研究員陳明正在實驗室裡除錯最新開發的AI時空穿梭裝置。突然,裝置發出耀眼光芒,陳明只覺得眼前一黑,待他再次睜眼時,竟發現自己身處一條青磚小巷中,周圍古意盎然,正是北宋汴梁的市井景象。初到宋代,陳明驚奇又興奮。他小心翼翼地拿出隨身攜帶的智慧終端,利用內建AI助手迅速解讀當地的歷法、醫藥與禮儀。不久,他遇到一位儒生張生,對方對這位身著異服、手持奇器的“外來者”好奇不已。陳明便藉助AI系統向張生解釋未來科技的種種奇妙之處,解答張生關於天文、醫理的疑問,還用AI資料配合簡易藥理,成功為一位重病老婦開出治療方案,令周圍百姓讚歎不已。正當陳明在宋代大放異彩之時,朝中奸臣李某垂涎他的“神奇工具”,誣陷他施展妖術圖謀不軌。李某設下陷阱,將陳明釦押入獄,面臨滿門抄斬的危機。危急時刻,陳明心中一動,啟動了智慧終端中的“逃生模式”:系統分析出監獄看守換班的時段和巡邏路線,並迅速制定出一套縝密的脫逃計劃。他悄然利用裝置製造幻影干擾,將守衛誤導,趁機逃出牢籠,並一路利用AI預測官兵動向,終於找到了隱藏在城隍廟內的時空傳送裝置。在告別之際,張生深情贈予陳明一卷詩書,囑咐他“智者千年,情義永存”。站在古城牆下,望著晨曦初露的汴梁城,陳明心中百感交集:這一段穿越之旅不僅讓他親歷了宋代市井的繁華與危機,更讓他體會到科技與人文交融的珍貴价值。帶著滿腔激動與對未來的希冀,他啟動了傳送裝置,瞬間回到了現代。此後,他將這段奇遇記錄成論文與小說,讓更多人見證科技如何在歷史長河中點亮智慧之光。
2. DeepSeek R1
思維鏈:

生成結果:

3. Gemini 2.0 Flash Thinking Experimental
思維鏈:

生成結果:
【分析】
這輪寫中文小說Gemini Thinking還真驚豔到我了!從環境、細節描寫到人物語言、心情刻畫都相當到位。情節發展起承轉合,是一則輕巧精緻的小故事。思維鏈顯示Gemini經過了拆解任務、頭腦風暴、結構搭建、細節最佳化、流暢度檢查、高潮調整、結尾完善幾個步驟,系統化構思一個完整的短篇故事,中間還考慮是否加入浪漫線,後因篇幅決定放棄。
R1繼續發揮穩定,將背景設定為更具體的1126年北宋汴京,並加入《耕織圖》、《瑞鶴圖》、《武經總要》這些真實史籍,還與靖康之變結合進行主題昇華。整個思維推導過程,說實在的,好像導演跟你講劇本一樣,擬人且充滿說服力。最後又由文中伏筆引申出後續可能的劇情——不得不說,在這種歷史感的中文寫作上,R1的味兒別人學不來。
o3-mini我都不想說它了,故事平穩完整但精彩不足,主要它的思維鏈啥也沒說,就把寫作要求擴充了一波,還出現兩段相似的“鬼打牆”。此時我越發覺得網友吐槽得沒錯。
1
四. 時事資訊整合
問題:解析Elon Musk新成立的DOGE團隊
1. o3-mini + search
思維鏈:

生成結果:

2. DeepSeek R1+search
思維鏈:

生成結果:

可以上下滾動的圖片
3. Gemini 2.0 Flash Thinking Experimental with Apps
思維鏈:

生成結果:

【分析】
為了考驗即時資訊整合能力,這輪給三款模型都開了聯網,其中Gemini需選擇2.0 Flash Thinking with Apps模型。o3-mini和R1答案完整度更高。o3-mini思維鏈再次類似於生成結果總結;Gemini Thinking表示要用Google搜尋,加了幾個注意點;R1則概述了所有已檢視網頁,又介紹了要涵蓋的方面和如何整合。綜合下來,還是R1最優。
1
五. 程式設計問題
問題:作為一名精通Python的高階軟體工程師,請使用Pygame建立一個簡單的動畫遊戲,讓一個球在旋轉的六邊形內彈跳。
1. o3-mini-high
思維鏈:

生成效果:

2. DeepSeek R1
思維鏈:

生成效果:

3. Gemini 2.0 Flash Thinking Experimental
思維鏈:

生成效果:

【分析】
三個模型都完成了動畫,生成效果o3-mini最準確,R1和Gemini Thinking的球體都有些彈出六邊形範圍。思維鏈來看,o3-mini又是在解釋題目,而幾乎沒講具體要怎麼做;R1和Gemini Thinking思考過程比較詳細,並列出了程式碼思路及步驟。
1
六. 綜合問題
問題:打工人一週上多少天班最合適?綜合各方面進行科學合理的分析。
1. o3-mini-high + search
思維鏈:

生成結果:

2. DeepSeek R1+search
思維鏈:

生成結果:

3. Gemini 2.0 Flash Thinking Experimental with Apps
思維鏈:

生成結果:

【分析】
對這個曾在微博小紅書被各位打工人討論的題目,三款模型分析後給出了不同答案:o3-mini認為還是傳統的5天工作制最好、R1覺得4+1彈性工作制更優、Gemini Thinking則建議改為4天工作制。
o3-mini從社會生產力、健康、工作滿意度和生活平衡幾個方面分析,思維鏈根本就是答案的總結。R1更像人的思考過程:先確定問題核心,接著回顧現有研究資料,繼而考慮健康、生產效率、社會文化和經濟因素,並探索彈性工作制可能性,最後再回溯使用者的深層需求是在休息時間和收入間找到平衡點,綜合所有給出結果。答案也最符合國人需求,按行業給出生產效率曲線和解決方案,附帶稅收和監管等政策工具包。Gemini Thinking思維鏈再次嚴格執行了系統化研究,理解打工人含義,劃定生產力、文化、個體等幾大維度,搜尋資料、比較優缺點、形成答案。
1
七. 加試題:多模態推理
問題:根據下面的照片寫一首英文7行詩

1. DeepSeek R1
思維鏈:

生成結果:

中文版:

2. Gemini 2.0 Flash Thinking Experimental
思維鏈:

生成結果

【分析】
最後,對有多模態推理能力的R1和Gemini Thinking來個加試題:傳圖作詩。
結果見仁見智,但各自有亮點:R1想象力更豐富,有種深刻與厚重感,中文版還略帶周董歌詞風;Gemini Thinking作品清秀簡單,但準確識別出圖片公交車上的“Dundas West”地名,搜尋了一下真在多倫多。說實話這個連我自己都沒注意到,可見其多模態理解能力確實很強。
1
總結
整體評測下來,三款推理模型基本都能輸出高質量答案,聯網檢索能力也過關。但在思維鏈(CoT)的呈現方式上,各有明顯區別。
DeepSeek R1的推理過程最接近人類思維方式,能夠在推理過程中不斷查漏補缺,邏輯流暢,展現出明顯的“人味兒”。其輸出往往更加完整深入,資訊覆蓋面也更廣。
Gemini 2.0 Flash Thinking 則更像一位嚴謹的科研助手,按照系統化的分析步驟進行推理,條理清晰,事無鉅細,因此思維鏈往往較長,略為機械化。
o3-mini的思維鏈確實如社群所說,更像對問題和答案的重複總結,而非完整展示推理過程,透明度不高。對此奧特曼也變相承認,稱這是為了“讓CoT更易讀,但會盡量保持對原始內容的忠實呈現。”
目前這三款模型都是免費開放,好奇的同學們可以去親自試試。話說,Anthropic的第一款推理模型什麼時候出來呢?
