新版Kimi突然釋出！首個萬億開源模型不是R2是K2，OpenAI臨時推遲開源|附實測體驗

不到半年，國產開源大模型的牌局已經翻了一輪。

年初還是「AI 六小虎」齊頭並進，如今卻只剩寥寥幾家還能站上牌桌。DeepSeek 一招「開源即釋出」，憑藉高效能和極致價效比迅速佔據使用者的心智，也順勢拿下了國產大模型開源敘事的話語權。

此後，六小虎中不少公司接連遭遇融資受阻、產品停更、團隊重組，甚至逐漸淡出公眾視野。與此同時，當 DeepSeek 把開源模型卷出了實用門檻，也讓其他玩家不得不加速入局。

今天，輪到 Kimi 接棒出手，正式釋出並開源 Kimi K2 模型。

Kimi-K2-Base：未經過指令微調的基礎預訓練模型，適合科研與自定義場景；

Kimi-K2-Instruct：通用指令微調版本（非思考模型），擅長大多數問答與 Agent 任務

官方介紹稱，Kimi K2 基於 MoE 架構打造，引數總規模達 1T，啟用引數 32B，在程式碼生成、Agent 排程、數學推理等任務中具備競爭力。

在 SWE Bench Verified、Tau2、AceBench 等基準測試中，K2 均取得開源模型中的 SOTA 成績。其中，自主程式設計（Agentic Coding）、工具呼叫（Tool Use）和數學推理（Math & Reasoning）三大能力維度都有不錯的表現。

值得注意的是，上述評測中的所有模型均為非思考模型。在 Tau2-Bench 測試中，平均值按照任務加權計算。在 Swe-Bench 多語言測試中，僅評估了 Claude 4 Sonnet，因為 Claude 4 Opus 的成本過高。

實際體驗下來，寫作能力的提升是這次版本升級中比較明顯的一環。

比如面對「描寫一個夏天的午後，一碗西瓜、一個電風扇、一張舊沙發。要求不出現『熱』字，也不直接寫『我很舒服』，要讓人讀出悶熱與鬆弛」時，K2 給出的文字既有畫面感，又不失情緒的剋制表達。語言剋制、節奏鬆弛，甚至帶有文學感。

再比如這個相對複雜的案例：「寫一篇看似是『在便利店偶遇前任』的平淡故事，但要隱藏一個副線：主角其實身患重病，正在做最後的生活整理。請控制情緒層次，不能直說，結尾只用一句隱喻點明真相。」

K2 完全沒有寫出生病或死亡字眼，而是透過道具、行為、細節緩緩推進情緒張力。故事結構完整，結尾一瓶未開的汽水安靜地躺在垃圾桶頂端，成為情緒隱線的收束。令我驚喜的是，甚至還補上了人物小傳。

上下滑動檢視更多內容

不過，隱喻密度偏高且引用並不合理，卻也犯了和 DeepSeek 同樣的毛病，尤其少量句式略顯設計感過重，仍有提升的空間。

在 Agent/Coding 任務上，Kimi K2 宣稱支援 ToolCall 架構，可無縫接入 Owl、Cline、RooCode 等主流框架，具備自動指令拆解和任務鏈構建能力。目前 Agent 能力已開放 API 使用。

在程式設計類任務上，K2 雖然整體完成度高，但瑕疵也比較明顯，比如還是那個經典的天氣卡片案例，Kimi 能完成基礎的構建，但 UI 粗糙、動效生硬，在視覺體驗上遜色不少。

再拉高難度，我要求生成一個按周劃分的前端學習計劃，輸出為 HTML 頁面，支援模組展開與收起互動。這一任務對結構組織、內容節奏和 JS 邏輯的要求更高。K2 給出的結果中規中矩。

我輸入任務：「用 three.js 和 cannon-es.js 實現煙囪倒塌爆破效果」。K2 嘗試聯網查詢資料並組合程式碼，整體思路線上，執行力尚可，但視覺效果依然較弱。

當然，也有一些比較不錯的案例。比如海外博主 @chetaslua 使用提示詞「make a website that shows 3D Simulation of Asteroids hitting Earth in html」，產出效果更為成熟，得到的畫面如下：

由於 K2 相容 OpenAI 和 Anthropic 的 API 協議，網友 @Khazzz1c 也使用 K2 在 Claude Code 上開發了一個打字遊戲，並評價這個模型「cracked AF」，這是俚語，意思是「強到離譜、好得不正常」。

在 Kimi K2 背後，是月之暗面 Kimi 團隊自研的一整套技術路徑。

技術部落格顯示，他們在訓練萬億引數大模型時，摒棄傳統的 Adam 最佳化器，改用自研的 Muon 體系，並引入 MuonClip 機制，有效緩解 attention logits 過大的問題，從而確保模型在 15.5T token 訓練過程中無一次 loss spike，訓練穩定性和 token 使用效率雙雙提升。

同時，團隊還構建了一條可大規模生成多輪工具使用場景的資料合成 pipeline，覆蓋數百領域、數千種工具，並且，訓練樣本則由 LLM 自動篩選評估，確保資料質量。

在訓練策略上，Kimi K2 進一步強化了通用強化學習能力，不僅在程式碼、數學等可驗證任務上進行強化學習，還透過「自我評價」機制解決獎勵稀缺問題，顯著增強了模型的泛化能力。

開源層面，Kimi K2 的 Instruct 模型及 FP8 權重檔案已上傳至 Hugging Face，（傳送門：https://huggingface.co/moonshotai/Kimi-K2-Instruct）根據官方部署說明，Kimi K2 的 FP8 版本可在主流 H200 等平臺上執行，支援最長 128K 上下文，最低部署要求為 16 張 GPU 的叢集環境。

目前包括 vLLM、SGLang、ktransformers 在內的主流推理引擎均已支援該模型，部署路徑已被打通，但對普通開發者而言，算力的門檻仍不容忽視。

商業化方面，Kimi K2 的 API 服務也已正式上線，提供最長 128K 上下文支援，定價為每百萬輸入 tokens 收費 4 元、輸出 tokens 收費 16 元。