Kimi、DeepSeek中門對狙?中外開發者大對比還暗諷OpenAI,DeepSeek新湧現被贊爆!

整理 | 褚杏娟 核子可樂
幾乎在同一天,Kimi 和 DeepSeek 同時交了“年度作業”。Kimi 分享了自稱“滿血版多模態 o1”的思考模型 k1.5,DeepSeek 推出了自己的第一代推理模型 DeepSeek-R1-Zero 和 DeepSeek-R1。
截至發稿,Kimi 1.5 在 Github 上只發布了技術報告,因此只有不到 300 stars,而 DeepSeek 選擇 MIT 許可開源,目前已有 3K stars。

Github 地址:

https://github.com/MoonshotAI/kimi-k1.5
https://github.com/deepseek-ai/DeepSeek-R1

Kimi、DeepSeek,中門對狙?
DeepSeek-R1-Zero 路線的重點是呈現了新湧現:“aha moment”(頓悟時刻)。該模型在預訓練之後完全沒有經過任何監督學習,即沒有使用任何其他思維鏈模型以及人類的輸出。也就是說,從 DeepSeek-V3 基座直接進行強化學習,即可解鎖 o1 級別的思維鏈能力。不過,R1 比 o1 的價格要便宜 30 倍。
這一點也“打臉”了 Meta。之前 Meta 在論文《Physics of Language Models》中認為,反思是必須“訓練”的,而 o1 類模型面臨的問題是得不到 pretrain 量級的反思推理。但 DeepSeek 證明了,純 RL(Reinforcement Learning,強化學習)無‌SFT(Supervised Fine-Tuning,監督微調)‌的模型,在訓練期間可以學會自發思考和反思。
DeepSeek-R1 引入了冷啟動資料和多階段訓練流程,解決模型在可讀性和語言混合方面的問題,同時進一步提升推理效能。具體包括:透過少量高質量的長 CoT 資料對基礎模型進行微調,作為 RL 訓練的起點;在冷啟動基礎上,應用大規模 RL 訓練,專注於提升模型在推理密集型任務上的表現;透過拒絕取樣生成新的訓練資料,並結合其他領域的資料進行微調,進一步提升模型的泛化能力;在最終階段,結合多種獎勵訊號和多樣化的提示分佈,對模型進行全面最佳化,使其在推理能力、有用性和安全性方面達到平衡。
DeepSeek-R1-Zero 在訓練集上的平均響應長度在強化學習(RL)過程中逐漸增加,自然地學會了透過增加思考時間來解決推理任務。
DeepSeek 還在 DeepSeek-R1 中引入了開發管線。此管線共包含兩個強化學習階段,旨在發現更佳推理模式並與人類偏好保持一致;以及兩個監督微調階段,以作為模型推理及非推理能力的種子。
此外,DeepSeek 還證明了,可以將較大模型的推理模式蒸餾成較小模型,而且與透過強化學習在小模型上發現的推理模式相比其效能更好。開源 DeepSeek-R1 及其 API 將使得研究界受益,以便未來蒸餾出質量更好的小體量模型。
使用 DeepSeek-R1 生成的推理資料,DeepSeek 對研究社群中廣泛使用的幾種密集模型進行了微調。評估結果表明,經過蒸餾的較小密集模型在基準測試中表現非常出色。現在,DeepSeek 已經向社群開源了基於 Qwen 2.5 和 Llama 3 模型家族的 1.5B、7B、8B、14B、32B 和 70B 等微調版本。由此獲得的 DeepSeek-R1-Distill-Qwen-32B 模型在各類基準測試中的表現均優於 OpenAI-o1-mini,標誌著密集模型的技術水平由此登上新的臺階。
DeepSeek-R1 蒸餾模型與其他同類模型在推理相關基準測試中的比較
而對於 Kimi 的 k1.5,其技術重點與 R1-Zero 並不相似。Kimi K1.5 的技術重點在於透過長上下文擴充套件和改進的策略最佳化方法,結合多模態資料訓練和長到短推理路徑壓縮技術,實現高效且強大的強化學習框架,以此提升大模型在複雜推理和多模態任務中的效能和效率。
  • 將 RL 的上下文視窗擴充套件到 128k,模型能夠處理更長的推理路徑,從而提升效能。該方法背後的一個關鍵思想是,使用部分展開(partial rollouts)來提高訓練效率——即透過重用大量先前的軌跡來取樣新的軌跡,避免了從頭開始重新生成新軌跡的成本。“上下文長度是透過 LLMs 持續擴充套件 RL 的一個關鍵維度。”
  • 提出了基於長推理路徑(Long-CoT)的強化學習公式,並採用線上映象下降的變體進行穩健的策略最佳化。k1.5 提出了一種專門的長到短強化學習(Long2Short RL)方法,透過長度懲罰(Length Penalty)和最大軌跡長度限制,進一步最佳化短推理路徑模型,此外透過取樣策略(如課程學習和優先採樣)最佳化訓練過程,使模型更專注於困難問題。
  • 簡潔的框架。長上下文擴充套件與改進的策略最佳化方法相結合,為透過 LLMs 學習建立了一個簡潔的 RL 框架。上下文長度的拓展讓學習到的 CoTs 表現出規劃、反思和修正的特性,增加上下文長度的效果增加了搜尋步驟的數量。因此,k1.5 可以在不依賴更復雜技術(如蒙特卡洛樹搜尋、價值函式和過程獎勵模型)的情況下實現強大的效能。
  • 多模態能力。k1.5 在文字和視覺資料上聯合訓練,具有聯合推理兩種模態的能力。該模型數學能力出眾,但由於主要支援 LaTeX 等格式的文字輸入,依賴圖形理解能力的部分幾何圖形題則難以應對。
此外,Kimi k1.5 還提出了一種混合部署框架,將訓練和推理任務部署在同一硬體上,透過共享 GPU 資源提高資源利用率。利用 Kubernetes Sidecar 容器,實現訓練和推理任務的動態切換。
對於 Kimi、DeepSeek 這次有意或無意的較量,知乎答主“ZHUI”如此總結:
1. DeepSeek 應該是最早走對 o1 路子的一家廠商,從 2024.11.20 釋出 R1-lite 算起,到今天兩個月。這兩個月(可能更早)開始在 DeepSeek-V3 的路子上走進行。個人猜測,R1-lite-preview 應該是在 v2 的小模型基礎上探索策略得到的模型,大概 11 月開始,v3 的模型訓練好了,開始迭代 R1。
2. Qwen/QwQ 我傾向於路徑是對的,如 DeepSeek Report 中,對比蒸餾與 RL 結果展示的,RL 結果與 QwQ 模型效果類似。
3.  看起來,各家應該都在 11 月上旬、中旬的時候,o1 的訓練訣竅成為了小圈子裡面較為公開的秘密了。
4. RL 訓練的 pipeline 基建,DeepSeek 應該是比較完善的,雖然報告中沒有講。kimi 1.5 中講了一些他們的 infra,感覺還是這一塊可能拖了他們一些後腿。
5. Kimi 1.5 的 report 有點趕工的嫌疑,內容組織的一般般。猜測可能提前得知 R1 的釋出時間,趕在一起發 PR,目前看說明,還沒上線。
6. 雖然 kimi 講了更多訓練細節,如怎麼限制生成長度的策略等,在原來的模型上修修補補,落了下乘。DeepSeek R1 從資料的角度解決絕對是更優雅的方案。
英偉達高階科學家 Jim Fan 也對兩者進行了總結並表示,
Kimi 和 DeepSeek 的論文驚人地得出了相似的結論:
1. 不需要複雜的蒙特卡洛樹搜尋(MCTS),只需將思考過程線性化,並進行傳統的自迴歸預測;
2. 不需要額外昂貴模型副本的價值函式;
3. 不需要密集的獎勵建模,儘可能依賴真實結果和最終答案。
而兩者的不同之處在於:
1. DeepSeek 採用 AlphaZero 方法——完全透過 RL 進行引導,無需人類輸入,即“冷啟動”。而 Kimi 採用 AlphaGo Master 方法:透過提示工程生成的推理鏈(CoT)進行輕量級的監督微調(SFT)來預熱。
2. DeepSeek 的模型權重採用 MIT 開源許可(展現了技術領導力!),而 Kimi 尚未釋出模型。
3. Kimi 在多模態效能方面表現出色(令人驚歎!),例如在 MathVista 基準測試中,需要對幾何圖形和智力測試等進行視覺理解。
4. Kimi 的論文在系統設計方面提供了更多細節:包括 RL 基礎設施、混合叢集、程式碼沙盒、並行化策略;以及學習細節:長上下文、推理鏈壓縮、課程學習、取樣策略、測試用例生成等。  
為方便對比,有網友把兩篇論文的指標重新合在了一張表格上:
不過正如網友所說,“idea 不難想到,因為實在太直觀了,我 22 年都想到過,但是做成是另一回事情。”
“我被 R1 震驚到了”
顯然,由於 DeepSeek 選擇直接開源,其在全球社群裡收穫了更多的關注。
根據測試,在數學任務中,DeepSeek-R1 的表現與 OpenAI-o1-1217 相當,大幅超越了其他模型。在程式設計演算法任務中,例如 LiveCodeBench 和 Codeforces,以推理為導向的模型在這些基準測試中佔據主導地位,DeepSeek-R1 也展現出類似的趨勢。在工程導向的程式設計任務中,OpenAI-o1-1217 在 Aider 上表現優於 DeepSeek-R1,但在 SWE Verified 上兩者表現相當。
Jim Fan 表示,“它或許是第一個展示強化學習飛輪效應(RL flywheel)重大且持續增長的開源專案。”他還暗諷了一下 OpenAI:影響力可以透過“內部實現的通用人工智慧(ASI)”或像“草莓計劃”這樣的神秘名稱來實現;影響力也可以透過簡單地公開原始演算法和 Matplotlib 學習曲線來實現。
年僅 19 歲便獲得博士學位的 StabilityAI 研究總監 Tanishq Mathew Abraham 表示,“這是迄今為止今年人工智慧領域最重要的論文。”他還表示,“我很欣賞 DeepSeek 提供的失敗案例,尤其是這些想法已經被廣泛討論用於實現 o1 風格模型。這在 AI 論文中非常罕見。”
網友 Mckay Wrigley 表示,“我被 R1 震驚到了,它的表現簡直爆表!這是一個幾乎和 o1 一樣好,但價格便宜 30 倍的模型。這就是為什麼我們需要一個高度競爭的 AI 環境——所有實驗室都會被迫推出更好但降低價格的模型。簡直難以置信。”
還有一些開發者已經迫不及待地在本地測試和使用起來了 DeepSeek R1。
蘋果機器學習研究員 Awni Hannun 在 2 塊 M2 Ultra 晶片上執行 DeepSeek R1 671B 模型,表示“執行速度比閱讀速度還快。它正在成為開源的 o1 模型,在家用消費級硬體上就能實現。”
然後,他向 DeepSeek R1 Distill Qwen 7B(4 位)提問了第一個數學難題。在 M4 Max 上使用 mlx-lm 大約 35 秒內計算出大約 3200 個 token。
網友 Matthew Berman 則評價:“DeepSeek R1 擁有我見過的最像人類的內心獨白。它實際上非常可愛。”
參考連結:https://mp.weixin.qq.com/s/BmOKGKjXP2tjmPyNdU0Hqg
https://www.zhihu.com/question/10080578443/answer/83321932961
https://x.com/MatthewBerman/status/1881399547064451167
http://xhslink.com/a/iBwXlnahqdf4
會議推薦
在 AI 大模型技術如洶湧浪潮席捲軟體開發領域的當下,變革與機遇交織,挑戰與突破共生。2025 年 4 月 10 – 12 日,QCon 全球軟體開發大會將在北京召開,以 “智慧融合,引領未來” 為年度主題,匯聚各領域的技術先行者以及創新實踐者,為行業發展撥雲見日。現在報名可以享受 8 折優惠,單張門票立省 1360 元,詳情可聯絡票務經理 18514549229 諮詢。

相關文章