那曾被視作缺陷的阿喀琉斯之踵,卻成為了讓它振翅高飛的契機。
大家好,我是含蕭。
估計很多人都沒想到,一週過去了,X 上的 Deepseek-R1 熱潮,還是沒有消退的跡象。
為什麼它能這麼火?
模型能力強,資源消耗低,技術路徑簡單有效……
在 Arena 榜單上,DeepSeek-R1 排在第三名,得分甚至高於 o1!
作為前十榜單裡唯一的開源模型,還是來自中國大陸,它的出現本身就會備受矚目。
許多團隊驚訝於其模型能力的強大,紛紛開始嘗試復現自己的 R1 模型。
港科大近日宣佈完成了 R1 模型的復現和開源。
程式碼倉庫:https://github.com/hkust-nlp/simpleRL-reason

HuggingFace 則是 CEO 親自宣佈,要開源復現 DeepSeek-R1 模型過程中的所有內容,如今程式碼倉庫已經 2.5k 星!
程式碼倉庫:https://github.com/huggingface/open-r1

而伯克利學者則在完成復現的同時給出了關於強化學習的具體實踐結論。
伯克利:只通過強化學習,3B 的 base 模型自行發展出自我驗證與搜尋能力。
伯克利學者聲稱他們讓大模型針對 CountDown Game 進行訓練,復現了 DeepSeek-R1 論文中提到的“Aha moment”,CountDown Game 指一種使用基礎數學運算,將數字排列組合,讓結果等於目標數字的遊戲。
什麼是"Aha moment”?
論文中指出,模型在訓練過程中會開始學習重新評估其最開始使用的解題方法,為解決難題分配更多思考時間。
比如,在面對數學方程求解問題時,模型原本按常規步驟解題,但在某一時刻會暫停並重新審視之前步驟,思考是否有更好的解題方式 。

程式碼倉庫:https://github.com/Jiayi-Pan/TinyZero
在復現的過程中,伯克利學者也給出了以下觀點。
大模型本身的質量是最關鍵的
下圖所示,他們運行了引數規模為 0.5B、1.5B、3B 至 7B 的 Qwen2.5 基礎模型。
引數量為 0.5B 的模型會只猜測出一個解決方案然後停止回答。但是從 1.5B 引數規模起,模型開始自我驗證並修正它們一開始給出的解決方案,這使得它們能夠獲得比 0.5B 模型高得多的分數。

base 模型和 instruct 模型都有效
伯克利學者對比了 qwen2.5-3B 的 base 模型和其微調後的 instruct 模型,發現:
-
經過指令微調的模型再進行強化學習時,學習速度更快,但最終收斂的效能與基礎 base 模型大致相同。 -
經過指令微調的模型輸出的結果會更有條理且有更強的可讀性。
所以額外的指令微調並非必要,這也印證了 DeepSeek-R1 論文中關於 R1-Zeor 的想法。
具體的策略最佳化演算法似乎沒那麼重要
這裡伯克利學者們嘗試了 PPO,GRPO(即 DeepSeek 論文中所提及的演算法)以及 PRIME 演算法。三種路徑均有出現 Long CoT 現象,且這些演算法都表現良好。
因此,他們的初步結論是,具體的策略最佳化演算法沒有很重要的作用:

網友:人類還是沒有意識到 DeepSeek-R1 有多聰明
在許多研發團隊抓緊復現的同時,更多人還是在討論 DeepSeek-R1 本身。
許多人用 R1 去測試他們使用 o1/o1-pro 效果不佳的例子,發現效果還不錯!
有人發帖列舉了十個 DeepSeek-R1 有多聰明的例子:

比如,它可以以 60token 每秒的速度在手機上流暢執行:
比如,它可以畫出 o1-pro 也畫不出來的,在正方形裡面彈跳的黃色小球:
DeepSeek R1 (右) 和 o1-pro (左)
其他的樣例可以在帖子中檢視:
https://x.com/minchoi/status/1883188761854669147
扎克伯格:這是地緣政治之爭
在最近扎克伯格的訪談中,他提到:
“這是地緣政治之爭”

“DeepSeek 有非常先進的模型”


“中國公司非常努力,但我們希望美國公司和美國標準能夠勝出”
“如果有一個開源模型會被所有人使用,我們希望它是一個美國公司開源的模型”

DeepSeek 極低的資源開銷和極好的效能,使得外網逐漸演變出一種思想:

“美方針對中方的晶片管制,反而讓中方科技公司更加獨立自主,推動他們取得難以想象的突破”
許多人暗爽於 DeepSeek 給中美帶來的追逐者與被追逐者的角色互換,但我們仍然要明白,現在就說中國已經完全領先,仍然為時尚早。
在這場沒有終點的 AI 競賽中,雙方的差距正在逐漸縮短,
希望奮起直追的腳步中,也帶有你我的身影。


