編輯:澤南、杜偉
沒想到,Kimi 的首個基礎大模型開源這麼快就來了。
昨晚,月之暗面正式釋出了 Kimi K2 大模型並開源,新模型同步上線並更新了 API,價格是 16 元人民幣 / 百萬 token 輸出。


這次釋出趕在了最近全球大模型集中釋出的風口浪尖,前有 xAI 的 Grok 4,下週可能還有谷歌新 Gemini 和 OpenAI 開源模型,看起來大模型來到了一個新的技術節點。或許是感受到了 Kimi K2 的壓力,就在剛剛,奧特曼發推預告了自家的開源模型。不過,網友似乎並不看好。


本次開源的共有兩款模型,分別是基礎模型 Kimi-K2-Base 與微調後模型 Kimi-K2-Instruct,均可商用。
-
部落格連結:https://moonshotai.github.io/Kimi-K2/
-
GitHub 連結:https://github.com/MoonshotAI/Kimi-K2
根據 Hugging Face 頁面資料顯示,Kimi K2 的下載量在前 20 分鐘便接近了 12K。

從 LiveCode Bench、AIME2025 和 GPQA-Diamond 等多個基準測試成績來看,此次 Kimi K2 超過了 DeepSeek-V3-0324、Qwen3-235B-A22B 等開源模型,成為開源模型新 SOTA;同時在多項效能指標上也能趕超 GPT-4.1、Claude 4 Opus 等閉源模型,顯示出其領先的知識、數學推理與程式碼能力。



Kimi 展示了 K2 的一些實際應用案例,看起來它能自動理解如何使用工具來完成任務。它可以自動地理解所在的任務環境,決定如何行動,在下達任務指令時,你也不需要像以往那樣為智慧體列出詳細的工作流程。
在完成複雜任務工作時,Kimi K2 會自動呼叫多種工具實現能力邊界的擴充套件。昨天上線後,網友們第一時間嘗試,發現可以實現不錯的效果:


值得關注的是,就在昨天 Grok 4 釋出後,人們第一時間測試發現其程式碼能力飄忽不定,但看起來 Kimi K2 的程式碼能力經住了初步檢驗。

網友使用 Claude Code 連結 Kimi K2,發現效果不錯。
從網友第一時間的測試來看,K2 程式碼能力是個亮點,因為價格很低,大家發現它可能是 Claude 4 Sonnet 的有力開源平替。有網友直接說 K2 是程式碼模型的 DeepSeek 時刻:

HuggingFace 聯合創始人 Thomas Wolf 也表示,K2 令人難以置信,開源模型正在挑戰最新的閉源權重模型。

在技術部落格中,Kimi 也介紹了 K2 訓練中的一些關鍵技術。
預訓練資料 15.5T tokens
沒用傳統 Adam 最佳化器
首先,為了解決萬億引數模型訓練中穩定性不足的問題,Kimi K2 引入了 MuonClip 最佳化器。
Muon 最佳化器作為一種最佳化演算法,可以幫助神經網路在訓練過程中更好地收斂,提升模型準確性和效能。今年 2 月,月之暗面推出了基於 Muon 最佳化器的高效大模型 Moonlight,證明這類最佳化器在 LLM 訓練中顯著優於當前廣泛使用的 AdamW 最佳化器。
此次,Kimi K2 在開發過程中進一步擴充套件 Moonlight 架構。其中基於 Scaling Laws 分析,月之暗面透過減少 Attention Heads 數量來提升長上下文效率,同時增加 MoE 稀疏性來提高 token 利用效率。然而在擴充套件中遇到了一個持續存在的挑戰:Attention logits 爆炸會導致訓練不穩定,而 logit 軟上限控制和 query-key 歸一化等現有方案對此的效果有限。
針對這一挑戰,月之暗面在全新的 MuonClip 中融入了自己提出的 qk-clip 技術,在 Muon 更新後直接重新縮放 query 和 key 投影組成的權重矩陣,從源頭上控制 Attention logits 的規模,實現穩定的訓練過程。
改進後的 MuonClip 最佳化器不僅可以擴充套件到 Kimi K2 這樣萬億引數級別的 LLM 訓練,還將大幅度提升 token 效率。一個更具 token 效率的最佳化器更能提升模型智慧水平,這正是當前業界(如 Ilya Sutskever)看重的延續 Scaling Laws 的另一關鍵係數。
Kimi K2 的實驗結果證實了這一點:MuonClip 能夠有效防止 logit 爆炸,同時保持下游任務的效能。官方稱,Kimi K2 順利完成 15.5T tokens 的預訓練,過程中沒有出現任何訓練尖峰,形成了 LLM 訓練的一套新方法。

token 損失曲線
因此,相較於原始 Muon,MuonClip 取長補短,進一步放大其在預訓練過程中的優勢。自大模型技術爆發以來,最佳化器的探索方向不再是熱門,人們習慣於使用 Adam,而如果想要進行替換,則需要大量的驗證成本。Kimi 的全新探索,不知是否會成為新的潮流。
其次,為了解決真實工具互動資料稀缺的難題,Kimi K2 採用大規模 Agentic 資料合成策略,並讓模型學習複雜工具呼叫(Tool Use)能力。
本週四,我們看到 xAI 的工程師們在釋出 Grok 4 時也強調了新一代大模型的多智慧體和工具呼叫能力,可見該方向正在成為各家公司探索的焦點。
Kimi 開發了一個受 ACEBench 啟發的綜合 pipeline,能夠大規模模擬真實世界的工具使用場景。具體來講,該流程系統性地演化出涵蓋數百個領域的數千種工具,包括真實的 MCP 工具和合成工具,然後生成數百個具有多樣化工具集的智慧體。

大規模 Agentic 資料合成概覽
接下來,這些智慧體與模擬環境、使用者智慧體進行互動,創造出逼真的多輪工具使用情景。最後,由一個大語言模型(LLM)充當評判員,根據任務評分標準(rubrics)評估模擬結果,篩選出高質量的訓練資料。
一整套流程走下來,這種可擴充套件的 pipeline 生成了多樣化、高質量的資料,有效填補特定領域或稀缺場景真實資料的空白。並且,LLM 對資料的評估與篩選有效減少低質量資料對訓練結果的負面影響。這些資料層面的增強為大規模拒絕取樣和強化學習鋪平了道路。
最後,Kimi K2 引入了通用強化學習(General RL),透過結合 RL 與自我評價(self-judging)機制,在可驗證任務與不可驗證任務之間架起了一座橋樑。
在數學、程式設計等可驗證任務上,我們可以根據正確答案、任務完成情況等可驗證的獎勵訊號持續更新並改進對模型能力的評估。但是,傳統強化學習由於依賴明確的反饋訊號,因而在生成文字、撰寫報告等不可驗證任務中很難給出客觀、即時的獎勵。
針對這一侷限,通用強化學習透過採用自我評價機制,讓模型充當自己的評判員(critic),提供可擴充套件、基於 rubrics 的反饋。這種反饋替代了外部獎勵,解決了不可驗證任務中獎勵稀缺的問題。 與此同時,基於可驗證獎勵的策略回滾(on-policy rollouts),持續對評判員進行更新,使其不斷提升對最新策略的評估準確性。
這種利用可驗證獎勵來改進不可驗證獎勵估計的方式,使得 Kimi K2 既能高效地處理傳統可驗證任務,又能在主觀的不可驗證任務中自我評估,從而推動強化學習技術向更廣泛的應用場景擴充套件。
從長遠來看,Kimi K2 的這些新實踐讓大模型具備了在各種複雜環境中持續最佳化的能力,可能是未來模型智慧水平繼續進化的關鍵。
接下來,基模卷什麼
Kimi 的釋出,讓我們想起前天 xAI 的 Grok-4 釋出會,馬斯克他們宣傳自己大模型推理能力時,列出了基於通用 AI 難度最高的測試「人類最後的考試」Humanities Last Exam(HLE)上幾個重要突破節點。
其中 OpenAI 的深度研究、Gemin 2.5 Pro 和 Kimi-Reseracher 都被列為了重要的突破:

Kimi-Researcher 在上個月剛剛釋出,其採用端到端自主強化學習,用結果驅動的演算法進行訓練,擺脫了傳統的監督微調和基於規則制或工作流的方式。結果就是,探索規劃的步驟越多,模型效能就越強。
而在 Kimi K2 上,月之暗面採用了與 Grok 4 類似的大規模工具呼叫方式。
另外,我們可以看到,由於國內算力資源的緊缺局面,新一波大模型技術競爭已經逐漸放棄單純的堆引數、算力規模擴大的方式,在推動模型 SOTA 的過程中,透過演算法上的創新來捲成本和效率成為趨勢。
© THE END
轉載請聯絡本公眾號獲得授權
投稿或尋求報道:[email protected]