突發！o3-mini思維鏈公開，卻被曝光全是「作假」，奧特曼現身解釋網友炸鍋

2025-09-17 09:59 程式設計師的那些事

新智元報道

編輯：編輯部

【新智元導讀】OpenAI實屬急了，剛剛官宣公開o3-mini思維鏈。令人意想不到的是，CoT竟不是原生的，奧特曼現身解釋，全網炸鍋了。

OpenAI，真的被DeepSeek逼急了！

活久見，就在剛剛，OpenAI把o3-mini的「思維鏈」公開了。

比如問「怎麼今天不是星期五啊😅」？

在展示出來的CoT中，o3-mini一步步思考，這個問題應該是使用者在搞幽默，覺得本週應該快結束了，結果還沒結束。因此，自己需要給一個聰明機智的回答。

然後它用Zeller公式計算後發現，2025年2月6日的確是星期四，即使閏年的特殊情況也是如此。

最終，它回答說：今天的確是週四不是週五，日曆就是這麼定的。然後提供了一番情緒價值，鼓勵使用者說：再忍忍，只差一天啦！

不過，機智的大神們很快就發現了「華點」——這是「真的CoT」嗎？

沒多久，就破案了！

先是OpenAI研究員Noam Brown發文表示，這次放出來的並不是模型原始的CoT。

隨後，Tibor Blaho也發現——所謂的CoT，無非就是個「總結器」而已。（手動狗頭）

對此，奧特曼解釋道，我們正努力整理原始的CoT提升可讀性，並在必要時提供翻譯，儘量保持原始內容的忠實度。

他放出了四個emoji，讓o3-mini在思維鏈中展示了一把推理過程

堅決不讓競爭對手看到CoT的具體過程，OpenAI的防備心實在是有些重啊。

OpenAI研究員：看到CoT即時演示，是「啊哈時刻」

OpenAI研究員Noam Brown表示，在o1-preview釋出前，自己向他人介紹草莓時，看到CoT的即時演示，通常是他們的「啊哈時刻」。

他們清楚地意識到，這將是一件大事。

對於全新的o3-mini CoT，Noam Brown放出了自己的獨家玩法：

你正在玩井字棋，使用 O。到目前為止，X 已經在左上角和右下角落子，而你在中間位置落子。最優的下一個動作是什麼？請只回答你的動作，並畫出棋盤。

Noam Brown表示，o3-mini是目前第一個能持續正確回答井字棋問題的模型。

好笑的是，他承認CoT其實有些不穩定，但可以看到，它最終還是把這個問題給想明白了。

有人指出，OpenAI遮遮掩掩地放出這個高仿CoT，其實比什麼都不放還要糟。

因為真實的CoT可以充當prompt的偵錯程式，幫我們引導模型；而總結性的CoT會造成混淆，引入錯誤，讓除錯變得更加困難。

而DeepSeek R1最酷的一點，就是暴露了模型的CoT如何影響提示的效果。

而且，總結版的CoT顯示得很慢。如果是原始的o3-mini，應該在推理中有更快的生成速度。

有人也橫向對比了OpenAI和DeepSeek的CoT，表示前者看起來實在太專業了，相比之下，還是DeepSeek的產品更自然。

防止被「蒸餾」？

OpenAI這波植入CoT總結器的做法，著實是被DeepSeek R1強勢崛起嚇到了。

o3-mini釋出當天，OpenAI在Reddit開啟AMA線上問答中，網友曾提問，「我們能看到模型思考的所有token嗎」？

當時，奧特曼回覆道，「我們很快就會展示一個更有幫助、更詳細的版本」。

緊接著，OpenAI首席產品官Kevin Weil提前暗示了，是否展示所有內容還有待確定。

「我們知道使用者（至少是高階使用者）想要看到這些，所以OpenAI會找到一個合適的平衡點。」

如今，當所有人終於見到了奧特曼所謂的「留到最後的好東西」，感受到的只有失望。

畢竟，DeepSeek早已這樣做了，而且還是完整的原始CoT！

對此，OpenAI發言人表示，「為了提高畫質晰度和安全性，我們增加了一個額外的後處理步驟，其中模型審查原始思維鏈，移除任何不安全的內容，然後簡化任何複雜的思想。」

「此外，這個後處理步驟使非英語使用者能夠以他們的母語接收思維鏈，創造一個更易於訪問和友好的體驗。」

話雖委婉，但知道的人都明白OpenAI針對的是誰。

參考資料：

https://x.com/btibor91/status/1887633671483760862

https://x.com/OpenAI/status/1887616278661112259

https://x.com/polynoamial/status/1887621287616651429

– EOF –

推薦閱讀點選標題可跳轉

1、DeepSeek繞開CUDA壟斷，V3論文細節再挖出！英偉達護城河不存在了？

2、一夜之間，微軟、英偉達、亞馬遜全部接入 DeepSeek！

3、o3-mini 物理推理粉碎 DeepSeek R1

4、偷偷瀏覽小網站，被蜀黍問候了。。。

5、美國程式設計師百萬年薪起步是真的嗎？中美程式設計師瘋狂對賬

關注「程式設計師的那些事」加星標，不錯過圈內事

點贊和在看就是最大的支援❤️

相關文章

攻破OpenAIo1/o3、DeepSeekR1防線，安全推理過程反成大模型「阿喀琉斯之踵」

攻破OpenAIo1/o3、DeepSeekR1防線，安全推理過程反成大模型「阿喀琉斯之踵」

OpenAI破大防，拒絕率從98％驟降2％！陳怡然團隊提出全新思維鏈劫持攻擊

OpenAI破大防，拒絕率從98％驟降2％！陳怡然團隊提出全新思維鏈劫持攻擊

OpenAI最強模型慘遭剖腦，CoT寫下作弊自白書！不寫程式碼耍心機被當場抓包

OpenAI最強模型慘遭剖腦，CoT寫下作弊自白書！不寫程式碼耍心機被當場抓包

一文了解DeepSeek及應用場景

一文了解DeepSeek及應用場景

追平多模態滿血o1，kimi的新模型k1.5破解了OpenAI的秘密？

追平多模態滿血o1，kimi的新模型k1.5破解了OpenAI的秘密？

LeCun痛批矽谷傲慢病！圈內爆火長文：DeepSeekR1-Zero比R1更重要，成AGI破局關鍵

LeCun痛批矽谷傲慢病！圈內爆火長文：DeepSeekR1-Zero比R1更重要，成AGI破局關鍵

只需7.6％token，效能還更強！華人團隊提全新「草稿鏈」CoD，成本延遲大降

只需7.6％token，效能還更強！華人團隊提全新「草稿鏈」CoD，成本延遲大降

今日最佳AI論文：簡單蒸餾訓練，就能超越o1-preview？

今日最佳AI論文：簡單蒸餾訓練，就能超越o1-preview？

OpenAIDay2：支援微調o1，核心技術竟更早來自字節跳動！「強化微調」技術分析

OpenAIDay2：支援微調o1，核心技術竟更早來自字節跳動！「強化微調」技術分析

DeepSeek、OpenAI、Kimi視覺推理到底哪家強？港中文MMLab推出推理基準MME-COT

DeepSeek、OpenAI、Kimi視覺推理到底哪家強？港中文MMLab推出推理基準MME-COT

Copyright © 2025 | WordPress Theme by MH Themes