今天,輪到 Kimi 接棒出手,正式釋出並開源 Kimi K2 模型。Kimi-K2-Base:未經過指令微調的基礎預訓練模型,適合科研與自定義場景;Kimi-K2-Instruct:通用指令微調版本(非思考模型),擅長大多數問答與 Agent 任務官方介紹稱,Kimi K2 基於 MoE 架構打造,引數總規模達 1T,啟用引數 32B,在程式碼生成、Agent 排程、數學推理等任務中具備競爭力。在 SWE Bench Verified、Tau2、AceBench 等基準測試中,K2 均取得開源模型中的 SOTA 成績。其中,自主程式設計(Agentic Coding)、工具呼叫(Tool Use)和數學推理(Math & Reasoning)三大能力維度都有不錯的表現。
值得注意的是,上述評測中的所有模型均為非思考模型。在 Tau2-Bench 測試中,平均值按照任務加權計算。在 Swe-Bench 多語言測試中,僅評估了 Claude 4 Sonnet,因為 Claude 4 Opus 的成本過高。實際體驗下來,寫作能力的提升是這次版本升級中比較明顯的一環。比如面對「描寫一個夏天的午後,一碗西瓜、一個電風扇、一張舊沙發。要求不出現『熱』字,也不直接寫『我很舒服』,要讓人讀出悶熱與鬆弛」時,K2 給出的文字既有畫面感,又不失情緒的剋制表達。語言剋制、節奏鬆弛,甚至帶有文學感。