
幾乎在同一天,Kimi 和 DeepSeek 同時交了“年度作業”。Kimi 分享了自稱“滿血版多模態 o1”的思考模型 k1.5,DeepSeek 推出了自己的第一代推理模型 DeepSeek-R1-Zero 和 DeepSeek-R1。
截至發稿,Kimi 1.5 在 Github 上只發布了技術報告,因此只有不到 300 stars,而 DeepSeek 選擇 MIT 許可開源,目前已有 3K stars。
Github 地址:
https://github.com/MoonshotAI/kimi-k1.5https://github.com/deepseek-ai/DeepSeek-R1
DeepSeek-R1-Zero 路線的重點是呈現了新湧現:“aha moment”(頓悟時刻)。該模型在預訓練之後完全沒有經過任何監督學習,即沒有使用任何其他思維鏈模型以及人類的輸出。也就是說,從 DeepSeek-V3 基座直接進行強化學習,即可解鎖 o1 級別的思維鏈能力。不過,R1 比 o1 的價格要便宜 30 倍。
這一點也“打臉”了 Meta。之前 Meta 在論文《Physics of Language Models》中認為,反思是必須“訓練”的,而 o1 類模型面臨的問題是得不到 pretrain 量級的反思推理。但 DeepSeek 證明了,純 RL(Reinforcement Learning,強化學習)無SFT(Supervised Fine-Tuning,監督微調)的模型,在訓練期間可以學會自發思考和反思。

DeepSeek-R1-Zero 在訓練集上的平均響應長度在強化學習(RL)過程中逐漸增加,自然地學會了透過增加思考時間來解決推理任務。
DeepSeek 還在 DeepSeek-R1 中引入了開發管線。此管線共包含兩個強化學習階段,旨在發現更佳推理模式並與人類偏好保持一致;以及兩個監督微調階段,以作為模型推理及非推理能力的種子。
此外,DeepSeek 還證明了,可以將較大模型的推理模式蒸餾成較小模型,而且與透過強化學習在小模型上發現的推理模式相比其效能更好。開源 DeepSeek-R1 及其 API 將使得研究界受益,以便未來蒸餾出質量更好的小體量模型。

DeepSeek-R1 蒸餾模型與其他同類模型在推理相關基準測試中的比較
而對於 Kimi 的 k1.5,其技術重點與 R1-Zero 並不相似。Kimi K1.5 的技術重點在於透過長上下文擴充套件和改進的策略最佳化方法,結合多模態資料訓練和長到短推理路徑壓縮技術,實現高效且強大的強化學習框架,以此提升大模型在複雜推理和多模態任務中的效能和效率。
-
將 RL 的上下文視窗擴充套件到 128k,模型能夠處理更長的推理路徑,從而提升效能。該方法背後的一個關鍵思想是,使用部分展開(partial rollouts)來提高訓練效率——即透過重用大量先前的軌跡來取樣新的軌跡,避免了從頭開始重新生成新軌跡的成本。“上下文長度是透過 LLMs 持續擴充套件 RL 的一個關鍵維度。”
-
提出了基於長推理路徑(Long-CoT)的強化學習公式,並採用線上映象下降的變體進行穩健的策略最佳化。k1.5 提出了一種專門的長到短強化學習(Long2Short RL)方法,透過長度懲罰(Length Penalty)和最大軌跡長度限制,進一步最佳化短推理路徑模型,此外透過取樣策略(如課程學習和優先採樣)最佳化訓練過程,使模型更專注於困難問題。
-
簡潔的框架。長上下文擴充套件與改進的策略最佳化方法相結合,為透過 LLMs 學習建立了一個簡潔的 RL 框架。上下文長度的拓展讓學習到的 CoTs 表現出規劃、反思和修正的特性,增加上下文長度的效果增加了搜尋步驟的數量。因此,k1.5 可以在不依賴更復雜技術(如蒙特卡洛樹搜尋、價值函式和過程獎勵模型)的情況下實現強大的效能。
-
多模態能力。k1.5 在文字和視覺資料上聯合訓練,具有聯合推理兩種模態的能力。該模型數學能力出眾,但由於主要支援 LaTeX 等格式的文字輸入,依賴圖形理解能力的部分幾何圖形題則難以應對。
此外,Kimi k1.5 還提出了一種混合部署框架,將訓練和推理任務部署在同一硬體上,透過共享 GPU 資源提高資源利用率。利用 Kubernetes Sidecar 容器,實現訓練和推理任務的動態切換。
對於 Kimi、DeepSeek 這次有意或無意的較量,知乎答主“ZHUI”如此總結:
1. DeepSeek 應該是最早走對 o1 路子的一家廠商,從 2024.11.20 釋出 R1-lite 算起,到今天兩個月。這兩個月(可能更早)開始在 DeepSeek-V3 的路子上走進行。個人猜測,R1-lite-preview 應該是在 v2 的小模型基礎上探索策略得到的模型,大概 11 月開始,v3 的模型訓練好了,開始迭代 R1。
2. Qwen/QwQ 我傾向於路徑是對的,如 DeepSeek Report 中,對比蒸餾與 RL 結果展示的,RL 結果與 QwQ 模型效果類似。
3. 看起來,各家應該都在 11 月上旬、中旬的時候,o1 的訓練訣竅成為了小圈子裡面較為公開的秘密了。
4. RL 訓練的 pipeline 基建,DeepSeek 應該是比較完善的,雖然報告中沒有講。kimi 1.5 中講了一些他們的 infra,感覺還是這一塊可能拖了他們一些後腿。
5. Kimi 1.5 的 report 有點趕工的嫌疑,內容組織的一般般。猜測可能提前得知 R1 的釋出時間,趕在一起發 PR,目前看說明,還沒上線。
6. 雖然 kimi 講了更多訓練細節,如怎麼限制生成長度的策略等,在原來的模型上修修補補,落了下乘。DeepSeek R1 從資料的角度解決絕對是更優雅的方案。
英偉達高階科學家 Jim Fan 也對兩者進行了總結並表示,
Kimi 和 DeepSeek 的論文驚人地得出了相似的結論:
1. 不需要複雜的蒙特卡洛樹搜尋(MCTS),只需將思考過程線性化,並進行傳統的自迴歸預測;
2. 不需要額外昂貴模型副本的價值函式;
3. 不需要密集的獎勵建模,儘可能依賴真實結果和最終答案。
而兩者的不同之處在於:
1. DeepSeek 採用 AlphaZero 方法——完全透過 RL 進行引導,無需人類輸入,即“冷啟動”。而 Kimi 採用 AlphaGo Master 方法:透過提示工程生成的推理鏈(CoT)進行輕量級的監督微調(SFT)來預熱。
2. DeepSeek 的模型權重採用 MIT 開源許可(展現了技術領導力!),而 Kimi 尚未釋出模型。
3. Kimi 在多模態效能方面表現出色(令人驚歎!),例如在 MathVista 基準測試中,需要對幾何圖形和智力測試等進行視覺理解。
4. Kimi 的論文在系統設計方面提供了更多細節:包括 RL 基礎設施、混合叢集、程式碼沙盒、並行化策略;以及學習細節:長上下文、推理鏈壓縮、課程學習、取樣策略、測試用例生成等。
為方便對比,有網友把兩篇論文的指標重新合在了一張表格上:

不過正如網友所說,“idea 不難想到,因為實在太直觀了,我 22 年都想到過,但是做成是另一回事情。”
顯然,由於 DeepSeek 選擇直接開源,其在全球社群裡收穫了更多的關注。

Jim Fan 表示,“它或許是第一個展示強化學習飛輪效應(RL flywheel)重大且持續增長的開源專案。”他還暗諷了一下 OpenAI:影響力可以透過“內部實現的通用人工智慧(ASI)”或像“草莓計劃”這樣的神秘名稱來實現;影響力也可以透過簡單地公開原始演算法和 Matplotlib 學習曲線來實現。
年僅 19 歲便獲得博士學位的 StabilityAI 研究總監 Tanishq Mathew Abraham 表示,“這是迄今為止今年人工智慧領域最重要的論文。”他還表示,“我很欣賞 DeepSeek 提供的失敗案例,尤其是這些想法已經被廣泛討論用於實現 o1 風格模型。這在 AI 論文中非常罕見。”

還有一些開發者已經迫不及待地在本地測試和使用起來了 DeepSeek R1。

參考連結:https://mp.weixin.qq.com/s/BmOKGKjXP2tjmPyNdU0Hqg
https://www.zhihu.com/question/10080578443/answer/83321932961
https://x.com/MatthewBerman/status/1881399547064451167
http://xhslink.com/a/iBwXlnahqdf4
https://www.zhihu.com/question/10080578443/answer/83321932961
https://x.com/MatthewBerman/status/1881399547064451167
http://xhslink.com/a/iBwXlnahqdf4
在 AI 大模型技術如洶湧浪潮席捲軟體開發領域的當下,變革與機遇交織,挑戰與突破共生。2025 年 4 月 10 – 12 日,QCon 全球軟體開發大會將在北京召開,以 “智慧融合,引領未來” 為年度主題,匯聚各領域的技術先行者以及創新實踐者,為行業發展撥雲見日。現在報名可以享受 8 折優惠,單張門票立省 1360 元,詳情可聯絡票務經理 18514549229 諮詢。
