
夕小瑤科技說 原創
作者 | 付奶茶
家人們,DeepSeek 剛推出了他們最新的類o1推理模型——DeepSeek R1-Lite。
這代表著國產大模型開始進入o1時代了。

根據官方的介紹,r1的思維鏈的長度可以達到數萬字,採用強化學習技術,推理過程涵蓋大量的反思和驗證環節。
先簡單看一眼指標表現,再拉出來練練。
整體結論是:數學和程式設計方面,這款模型與o1-preview相當,甚至一些榜單結果上超越了o1。
比如美國數學競賽(AMC)中最高難度級別的AIME,DeepSeek R1-Lite領先o1一大截!


推理時間更長了!但是效果更牛逼了!
DeepSeek提到,他們做了更強勢的推理時間越長,效能越好。
如下圖所示,DeepSeek-R1-Lite-Preview和o1-preview對比,隨著思考長度的增加,AIME 上的得分穩步提高。

預覽版可以試用了,正式版在路上
DeepSeek團隊透露,R1模型目前還在持續打磨中。
後續會推出正式版,並且開源,開放API,還會公佈完整的技術細節。我已經等不及了,勇士們快點肝!
目前線上的還是預覽版,每天可以50次免費測試~

想試試的小夥伴,連結我貼在這兒了:https://chat.deepseek.com/
拉出來比武!
既然開測試了(讓我白嫖)!那咱們就拿幾道題測測它!
首先是大名鼎鼎的草莓問題。
問題:“strawberry”幾個r?
先是不用o1,答錯了。

再開啟o1,答對了。

但是再試一遍,第一次思考了2秒,這次思考了14秒。
錯了。。(請仔細看它的思考過程,中間說了好幾遍“有兩個r”,一遍遍否定自己,有繼續得出錯誤結論)

試試openai的o1,也不對。


再來一個反轉字母!
問題:請幫我將這串字元全部的字母反著寫:QingguanzhuXixiaoyao!


家人們!我把它弄崩潰了!我看它委屈成這樣我都心軟軟!

它反覆懷疑自己,反覆懷疑題目,氮素,最後它錯的很離譜啊!
不僅字母沒有順利反轉,而且還加了字串外的字母~
而o1 就快速的做錯了,錯的簡簡單單,輕輕鬆鬆,不費力氣hh:

雖然DeepSeek-R1-Lite號稱更長的推理時間帶來了更好的效果,但是好像結果上差別不大啊,o1甚至沒有引入字串的字母,錯的都沒有DeepSeek-R1-Lite離譜!這局的勝負難定!
再來一道!
問題:9.9和9.11哪個大?


看到前面推理過程磨磨嘰嘰猶猶豫豫,奶茶還以為這把又要搞砸了,結果DeepSeek-R1-Lite窩窩囊囊中的做對了!!
而o1還是乾淨利落的做錯了hh~

還有程式設計問題,必須測一測。
問題:選了一道經典的leetcode問題,求長度最小的子陣列。
它思考了整整一分鐘,中間列印了好多步驟,最終,水靈靈滴得推理出來錯誤答案。。。

中間推理錯了答案,

最後,驗證了錯誤答案。。

openAI o1則簡短的給出了正確答案。

數學和程式設計問題就到此為止吧。
再來一道開放性題目!
問題:我很好奇大語言模型的未來,能不能幫我想個辦法未來讓大語言模型為我掙錢?
DeepSeek-R1-Lite:


o1:


這樣看下來,DeepSeek-R1-Lite在開放性答案上,想很多!
但是它輸出的方案並不是很具體,沒有什麼可以借鑑的明確路線,而o1還能說出來點有用的答案!
結語
前不久討論特別熱烈的一個話題是“Scaling Law有沒有撞南牆”,眾多大佬下場發表看法。目前業界已經開始動搖了沿著Scaling Law繼續走下去的信念,而o1是OpenAI提出來的LLM後時代的一條新路徑,獲取內部早就調轉了車頭也未可知。
僅從我們試用的一些case看,不足以代表DeepSeek-R1-Lite它的真實水平,但從中窺見,r1還有非常大的提升空間的。
但是,o1標註大模型從快思考進入慢思考,這條路還有許多可能和想象。DeepSeek這次是率先推出了國內版o1,追趕速度非常快,中國速度是牛的!要知道做事情從0-1的過程是最難的。
對於國產大模型的o1,我依然非常期待。


