突發!o3-mini思維鏈公開,卻被曝光全是「作假」,奧特曼現身解釋網友炸鍋


新智元報道  

編輯:編輯部
【新智元導讀】OpenAI實屬急了,剛剛官宣公開o3-mini思維鏈。令人意想不到的是,CoT竟不是原生的,奧特曼現身解釋,全網炸鍋了。
OpenAI,真的被DeepSeek逼急了!
活久見,就在剛剛,OpenAI把o3-mini的「思維鏈」公開了。
比如問「怎麼今天不是星期五啊😅」?
在展示出來的CoT中,o3-mini一步步思考,這個問題應該是使用者在搞幽默,覺得本週應該快結束了,結果還沒結束。因此,自己需要給一個聰明機智的回答。
然後它用Zeller公式計算後發現,2025年2月6日的確是星期四,即使閏年的特殊情況也是如此。
最終,它回答說:今天的確是週四不是週五,日曆就是這麼定的。然後提供了一番情緒價值,鼓勵使用者說:再忍忍,只差一天啦!
不過,機智的大神們很快就發現了「華點」——這是「真的CoT」嗎?
沒多久,就破案了!
先是OpenAI研究員Noam Brown發文表示,這次放出來的並不是模型原始的CoT。
隨後,Tibor Blaho也發現——所謂的CoT,無非就是個「總結器」而已。(手動狗頭)
對此,奧特曼解釋道,我們正努力整理原始的CoT提升可讀性,並在必要時提供翻譯,儘量保持原始內容的忠實度。
他放出了四個emoji,讓o3-mini在思維鏈中展示了一把推理過程
堅決不讓競爭對手看到CoT的具體過程,OpenAI的防備心實在是有些重啊。
OpenAI研究員:看到CoT即時演示,是「啊哈時刻」
OpenAI研究員Noam Brown表示,在o1-preview釋出前,自己向他人介紹草莓時,看到CoT的即時演示,通常是他們的「啊哈時刻」。
他們清楚地意識到,這將是一件大事。
對於全新的o3-mini CoT,Noam Brown放出了自己的獨家玩法:
你正在玩井字棋,使用 O。到目前為止,X 已經在左上角和右下角落子,而你在中間位置落子。最優的下一個動作是什麼?請只回答你的動作,並畫出棋盤。
Noam Brown表示,o3-mini是目前第一個能持續正確回答井字棋問題的模型。
好笑的是,他承認CoT其實有些不穩定,但可以看到,它最終還是把這個問題給想明白了。
有人指出,OpenAI遮遮掩掩地放出這個高仿CoT,其實比什麼都不放還要糟。
因為真實的CoT可以充當prompt的偵錯程式,幫我們引導模型;而總結性的CoT會造成混淆,引入錯誤,讓除錯變得更加困難。
而DeepSeek R1最酷的一點,就是暴露了模型的CoT如何影響提示的效果。
而且,總結版的CoT顯示得很慢。如果是原始的o3-mini,應該在推理中有更快的生成速度。
有人也橫向對比了OpenAI和DeepSeek的CoT,表示前者看起來實在太專業了,相比之下,還是DeepSeek的產品更自然。
防止被「蒸餾」?
OpenAI這波植入CoT總結器的做法,著實是被DeepSeek R1強勢崛起嚇到了。
o3-mini釋出當天,OpenAI在Reddit開啟AMA線上問答中,網友曾提問,「我們能看到模型思考的所有token嗎」?
當時,奧特曼回覆道,「我們很快就會展示一個更有幫助、更詳細的版本」。
緊接著,OpenAI首席產品官Kevin Weil提前暗示了,是否展示所有內容還有待確定。
「我們知道使用者(至少是高階使用者)想要看到這些,所以OpenAI會找到一個合適的平衡點。」
如今,當所有人終於見到了奧特曼所謂的「留到最後的好東西」,感受到的只有失望。
畢竟,DeepSeek早已這樣做了,而且還是完整的原始CoT!
對此,OpenAI發言人表示,「為了提高畫質晰度和安全性,我們增加了一個額外的後處理步驟,其中模型審查原始思維鏈,移除任何不安全的內容,然後簡化任何複雜的思想。」
「此外,這個後處理步驟使非英語使用者能夠以他們的母語接收思維鏈,創造一個更易於訪問和友好的體驗。」
話雖委婉,但知道的人都明白OpenAI針對的是誰。
參考資料:
https://x.com/btibor91/status/1887633671483760862
https://x.com/OpenAI/status/1887616278661112259
https://x.com/polynoamial/status/1887621287616651429
– EOF –
關注「程式設計師的那些事」加星標,不錯過圈內事
點贊和在看就是最大的支援❤️


相關文章