Kimi首個萬億引數模型開源!免費可用,超強Agent推理,附實測體驗

月之暗面開源2款旗艦模型,斬獲3項SOTA。
作者 |  陳駿達
編輯 |  心緣
智東西7月12日報道,昨夜,國內大模型獨角獸月之暗面釋出並開源了其最新一代MoE架構基礎模型Kimi K2,總引數量達到1萬億(1T),啟用引數為32B。Kimi K2已在Kimi Web端和App端中可用。
Kimi K2系是月之暗面首款開源釋出的旗艦模型,在SWE Bench Verified(程式設計)、Tau2(智慧體)、AceBench(工具呼叫)這三項基準測試中,這一模型取得開源模型中的SOTA成績。
在自主程式設計(Agentic Coding)、工具呼叫(Tool Use)和數學推理(Math & Reasoning)這三個能力維度上,Kimi K2的表現超過了DeepSeek-V3-0324、Qwen-235B-A22B等模型,但在部分基準測試中略遜於Claude 4 Opus、OpenAI GPT-4.1等模型。
Kimi K2在預訓練階段使用了“MuonClip”最佳化器實現萬億引數模型的訓練。這一最佳化器能提高Token利用效率,緩解高質量人類資料的短缺問題。月之暗面還應用了大規模Agentic Tool Use資料合成和引入自我評價機制的通用強化學習等技術。
Kimi K2 API服務也同步上線。Kimi K2 API支援最長128K上下文,計費方案為每百萬輸入tokens/4元,每百萬輸出tokens/16元,輸入輸出價格均為DeepSeek V3的2倍。
Kimi K2系列中的兩個模型版本現已開源,包括未經過指令微調的基礎預訓練模型Kimi-K2-Base和通用指令微調版本Kimi-K2-Instruct(非思考模型)。前者適合科研與自定義場景,後者則可用於大多數問答與Agent任務。
Kimi K2現已上線無問芯穹Infini-AI異構雲平臺(cloud.infini-ai.com/genstudio/),使用者能以與官方API同樣的價格呼叫Kimi K2。
開源連結:
https://huggingface.co/moonshotai/Kimi-K2-Instruct
體驗連結:
https://www.kimi.com/
01.
程式設計能力迎提升
實測效果差強人意
根據月之暗面部落格文章,在前端開發任務中,Kimi K2能生成有設計感與視覺表現力的程式碼,支援粒子系統、視覺化和3D場景等表現形式。官方Demo中,Kimi K2開發了一個支援晝夜迴圈的山川峽谷3D景觀:
還生成了粒子特效銀河:
為驗證上述能力,智東西向Kimi K2傳送瞭如下提示詞:
最終,Kimi K2交付的網頁渲染效果並未如官方Demo中那般逼真,互動性和功能豐富度也略遜一籌。
在難度較低的個人網站開發任務上,Kimi K2展現出一定規劃能力。在未收到明確指示的情況下,Kimi K2主動梳理了網站的目錄結構,打造出的網站可擴充套件性更好。
就智東西進行的個人網站開發測試而言,Kimi K2相較Kimi K1.5的UI審美水平進步有限。
▲上方為Kimi K2生成結果,下方為Kimi K1.5生成結果
同樣的任務交由DeepSeek-V3-0324進行處理,最終生成的結果如下:
02.
Agent工具呼叫能力增強
擴充套件風格化寫作能力
月之暗面稱,Kimi K2現具備複雜指令解析能力,可將需求自動拆解為一系列格式規範、可直接執行的ToolCall結構。
開發者可將Kimi K2接入owl、Cline、RooCode等Agent/Coding框架,完成複雜任務或自動化編碼。
Agent能力已可透過API使用,更多工具能力即將在Kimi上線。在月之暗面內部測試環境中的實際演示裡,Kimi K2展現出一定體驗Agentic能力。
比如,將13萬行的原始資料丟給Kimi K2,它可以幫使用者分析遠端辦公比例對薪資的影響,分析顯著差異,自動生成統計圖表與迴歸模型解讀,並用統一色調做出小提琴圖(violin plot) 、箱線圖(box plot)、散點圖(scatter plot)等專業圖表,整理成報告。 
再比如,如果使用者是Coldplay粉絲,Kimi K2可以幫忙制定今年的追星計劃,完成演唱會所在城市的機酒與旅遊規劃,並且生成日曆,再用html概括完整行程規劃併發送郵件。
Kimi K2還擁有了更強的風格化寫作能力。官方提供的Demo中,Kimi K2模仿了蘋果廣告文案風格:
此外,Kimi K2在通用知識推理、數學、規劃等任務中的表現亦有提升,比數字大小的題目已經難不住Kimi K2了。
03.
結語:探索新型最佳化器
未來將新增思考與視覺理解
根據月之暗面部落格文章,Kimi K2用MuonClip最佳化器支撐萬億引數模型訓練,提升token利用效率。結合大規模Agentic資料合成與通用強化學習,這一模型的通用智慧能力獲得提升。
為了緩解大規模訓練中的attention logits偏大問題,月之暗面拋棄了傳統的Adam最佳化器,提出MuonClip最佳化器,並將其擴充套件到萬億引數規模,提升了訓練穩定性和token使用效率。Kimi K2完成了15.5T token的訓練,全程無loss spike。
月之暗面還構建了可大規模生成多輪工具使用場景的合成pipeline,其大規模Agentic Tool Use資料合成可覆蓋數百領域、數千工具,樣本由LLM評估篩選後用於訓練。
Kimi K2在可驗證任務上(程式碼、數學)使用了強化學習,還透過引入自我評價機制(self-judging),解決了不可驗證任務的獎勵稀缺問題,實現通用強化學習,提升泛化任務表現。
目前,Kimi K2尚不支援視覺理解和思考能力,月之暗面稱這些能力將在未來陸續加入。
(本文系網易新聞•網易號特色內容激勵計劃簽約賬號【智東西】原創內容,未經賬號授權,禁止隨意轉載。)


相關文章