496GB視訊記憶體!最壕DeepSeek玩家8臺Mac跑R1

MLNLP

社群是國內外知名的機器學習與自然語言處理社群,受眾覆蓋國內外NLP碩博生、高校老師以及企業研究人員。


社群的願景是促進國內外自然語言處理,機器學習學術界、產業界和廣大愛好者之間的交流和進步,特別是初學者同學們的進步。
轉載自 | 量子位
測評 | DeepSeek
DeepSeek-R1,正在接受全球網友真金白銀的檢驗。
花30秒用manim程式碼製作解釋勾股定理的動畫,一次完成無錯誤。
為了玩上這樣的模型,有人花上10多萬元,組7臺M4 Pro Mac mini+1臺M4 Max Macbook Pro的家用超算。
總計496G視訊記憶體(64*7+48),才能跑起個4bit量化版,但屬實算得上“家用AGI”配置了。
另一個極端是選擇R1資料蒸餾版Qwen 1.5B小模型,小到瀏覽器就能跑,每秒能輸出60個tokens。
與此同時,各種榜單也在抓緊測試,紛紛跑出了結果。

R1橫掃各大榜單

首先是LiveBench,與LiveCodeBench一樣,題目是隨時間更新的,所以相對受認可。
R1的表現在o1-preview到o1之間,其中只有資料一項超過o1。
不過再帶上成本成本約1/30這個條件看,又是不一樣的感覺,給老哥整無語了。
唯一的抱怨是上下文視窗太短。
o1系列一戰成名的ARC-AGI,測試結果分為公開資料和私有資料兩部分。
DeepSeek R1在私有資料上解決了15.8%的問題,與DeepSeek-V3相比翻倍還多。
公開資料上更是解決了20.5%的問題,與DeepSeek-V3相比上漲約46%。
總的來看,DeepSeek-R1表現與o1-preview相近,但稍低。
但同樣,帶上幾毛錢就能解決一道題,o1系列至少要10塊錢這個背景來看,又是不一樣的感覺。
考驗任務規劃能力的PlanBench,同樣的劇本再次上演。
在開發者Xeophon自己的個人測試上,甚至超過了o1-preview。
同一個測試上,R1資料蒸餾的Qwen 32B,與DeepSeek-V3,GPT-4o和Gemini Flash處於同一水平。
最後,還有人從中看到新的創業機會。
誰來構建一個平臺,能輕鬆地在DeepSeek R1上進行OpenAI風格的強化微調。
至少在短期內,是一個巨大的機會。
R1在正確資料和微調方法下,可能在特定任務上大幅提升。

參考連結:

[1]https://x.com/alexocheema/status/1881561143736664180

[2]https://x.com/reach_vb/status/1881809400995934640

[3]https://livebench.ai/#/

[2]https://x.com/arcprize/status/1881761987090325517

[3]https://x.com/TheXeophon/status/1881443117787984265

技術交流群邀請函
△長按新增小助手
掃描二維碼新增小助手微信
請備註:姓名-學校/公司-研究方向
(如:小張-哈工大-對話系統)
即可申請加入自然語言處理/Pytorch等技術交流群

關於我們

MLNLP 社群是由國內外機器學習與自然語言處理學者聯合構建的民間學術社群,目前已經發展為國內外知名的機器學習與自然語言處理社群,旨在促進機器學習,自然語言處理學術界、產業界和廣大愛好者之間的進步。
社群可以為相關從業者的深造、就業及研究等方面提供開放交流平臺。歡迎大家關注和加入我們。

相關文章