OpenAI突然公開o3-mini思維鏈!首秀遭質疑,實測對比DeepSeekR1,差距太明顯

讓我們再次感謝 DeepSeek。
今天凌晨,OpenAI 宣佈公開最新模型 o3-mini 系列模型的思維鏈。
簡單來說,使用者現在可以看到 o3-mini 以及 o3-mini(high) 的「思考」過程,更清晰地瞭解模型是如何推理並得出結論的。
OpenAI 研究科學家 Noam Brown 在 X 平臺發文稱:

在 o1-Preview 釋出前,我們向大家介紹 🍓 時,看到思維鏈(CoT)即時執行往往是他們的『頓悟』時刻,讓他們意識到這將是一件大事。


這些雖然不是原始的思維鏈,但已經非常接近了。
我很高興我們能與世界分享這一體驗!

隨後,他進一步闡述道:

o3-mini 是首個能夠持續準確解答井字棋問題的大語言模型。雖然概括後的思維鏈看起來有些混亂,但從右側可以看到,模型最終還是成功找到了正確答案。」

公開了,也沒完全公開。
據外媒 TechCrunch 報道,OpenAI 仍然不會完全公開 o3-mini 的完整推理步驟,但其表示已「找到一個平衡點」,o3-mini 現在可以「自由思考」,然後整理出更詳細的推理摘要。
在此之前,出於競爭考慮,OpenAI 沒有完全公開 o3-mini 及其前身(o1 和 o1-mini)的推理步驟,僅向用戶提供推理摘要,甚至這些摘要有時並不準確。
並且,為了提高畫質晰度和安全性,OpenAI 還引入了一個額外的後處理步驟,模型會首先對「思維鏈」進行審查,剔除潛在的不安全內容,並對複雜概念進行適度簡化。
報道援引 OpenAI 發言人解釋稱,「這一後處理步驟還支援非英語使用者,確保他們可以用自己的母語檢視『思維鏈』,讓體驗更加友好和易懂。」
實際上,推理透明度在 AI 領域正在成為一個重要的競爭點,讓 AI 展示完整的推理步驟,不僅能提高使用者信任度,還能讓 AI 更容易被研究和改進。
不過,公開思維鏈可能會被競爭對手利用,比如透過蒸餾技術提取模型的推理邏輯,在上週 Reddit 的 AMA(Ask Me Anything)活動中,OpenAI 首席產品官 Kevin Weil 就曾表示:
我們正在努力展示比現在更多的推理過程——(這一變化)很快就會到來。是否展示完整的「思維鏈」仍未確定,因為這涉及競爭問題。但我們也知道使用者(尤其是高階使用者)希望看到更多細節,所以我們會找到合適的平衡點。
相比之下,DeekSeek R1 的思維鏈是無條件公開透明的,其深度思考過程更是贏得了不少網友的點贊。而 OpenAI 這次的「被迫」調整,顯然是為了應對 DeepSeek 及其他 AI 公司的壓力。
X 網友 @thegenioo 第一時間上手實測了這次思維鏈的更新。他表示,「新版本不僅提供了更流暢的使用者介面,還讓模型的思考過程更加透明。」
以下是 DeepSeek R1 與 OpenAI o3-mini(high) 在同一問題上的思考對比。
「deeepseeeeeek 有多少個 e」
DeepSeek R1
OpenAI o3-mini(high)
「假設有一個池塘,裡面有無窮多的水。現有 2 個空水壺,容積分別為 5 升和 6 升。問題是如何只用這 2 個水壺從池塘裡取得 3 升的水。」
DeepSeek R1
OpenAI o3-mini(high)
「一個人花 8 塊錢買了一隻雞,9 塊錢賣掉了,然後他覺得不划算,花 10 塊錢又買回來了,11 塊賣給另外一個人。問他賺了多少?」
DeepSeek R1
OpenAI o3-mini(high)
看完以上案例,我們會發現兩個模型截然不同的「思維風格」。
DeepSeek R1 更像文科生,它的推理過程循序漸進,思路周密細膩,這樣的好處是結果更可靠,也較少出現邏輯偏差。而 o3-mini(high) 更像理科生,推理過程簡潔明快,直指問題核心。
這種差異也進一步反映在響應速度上,DeepSeek R1 的思考時間相對較長,而 o3-mini(high)則更快。
就答案而言,DeepSeek R1 的解答往往更加完整詳實,比方說第一道測試題它還會特意加入了貼心的註解。相比之下, o3-mini(high) 則顯得「公事公辦」。
如開篇所說,此次 o3-mini 公佈的並非完整版思維鏈,因此向公眾開放後,也引發了不少質疑聲。
面對爭議,OpenAI CEO Sam Altman 也很快在 X 平臺作出解釋:「我們嘗試整理原始的思維鏈,使其更易讀,並在需要時進行翻譯,但儘量保持其原始風格。
不過,正如一位網友一針見血地指出:如果沒有 DeepSeek,我們還能看到 o3-mini 哪怕是「閹割版」的思維鏈嗎?恐怕答案不言自明。

相關文章