新版Kimi突然釋出!首個萬億開源模型不是R2是K2,OpenAI臨時推遲開源|附實測體驗

不到半年,國產開源大模型的牌局已經翻了一輪。
年初還是「AI 六小虎」齊頭並進,如今卻只剩寥寥幾家還能站上牌桌。DeepSeek 一招「開源即釋出」,憑藉高效能和極致價效比迅速佔據使用者的心智,也順勢拿下了國產大模型開源敘事的話語權。
此後,六小虎中不少公司接連遭遇融資受阻、產品停更、團隊重組,甚至逐漸淡出公眾視野。與此同時,當 DeepSeek 把開源模型卷出了實用門檻,也讓其他玩家不得不加速入局。

今天,輪到 Kimi 接棒出手,正式釋出並開源 Kimi K2 模型。
Kimi-K2-Base:未經過指令微調的基礎預訓練模型,適合科研與自定義場景;
Kimi-K2-Instruct:通用指令微調版本(非思考模型),擅長大多數問答與 Agent 任務
官方介紹稱,Kimi K2 基於 MoE 架構打造,引數總規模達 1T,啟用引數 32B,在程式碼生成、Agent 排程、數學推理等任務中具備競爭力。
在 SWE Bench Verified、Tau2、AceBench 等基準測試中,K2 均取得開源模型中的 SOTA 成績。其中,自主程式設計(Agentic Coding)、工具呼叫(Tool Use)和數學推理(Math & Reasoning)三大能力維度都有不錯的表現。
值得注意的是,上述評測中的所有模型均為非思考模型。在 Tau2-Bench 測試中,平均值按照任務加權計算。在 Swe-Bench 多語言測試中,僅評估了 Claude 4 Sonnet,因為 Claude 4 Opus 的成本過高。
實際體驗下來,寫作能力的提升是這次版本升級中比較明顯的一環。
比如面對「描寫一個夏天的午後,一碗西瓜、一個電風扇、一張舊沙發。要求不出現『熱』字,也不直接寫『我很舒服』,要讓人讀出悶熱與鬆弛」時,K2 給出的文字既有畫面感,又不失情緒的剋制表達。語言剋制、節奏鬆弛,甚至帶有文學感。
再比如這個相對複雜的案例:「寫一篇看似是『在便利店偶遇前任』的平淡故事,但要隱藏一個副線:主角其實身患重病,正在做最後的生活整理。請控制情緒層次,不能直說,結尾只用一句隱喻點明真相。」
K2 完全沒有寫出生病或死亡字眼,而是透過道具、行為、細節緩緩推進情緒張力。故事結構完整,結尾一瓶未開的汽水安靜地躺在垃圾桶頂端,成為情緒隱線的收束。令我驚喜的是,甚至還補上了人物小傳。
上下滑動檢視更多內容
不過,隱喻密度偏高且引用並不合理,卻也犯了和 DeepSeek 同樣的毛病,尤其少量句式略顯設計感過重,仍有提升的空間。
在 Agent/Coding 任務上,Kimi K2 宣稱支援 ToolCall 架構,可無縫接入 Owl、Cline、RooCode 等主流框架,具備自動指令拆解和任務鏈構建能力。目前 Agent 能力已開放 API 使用。
在程式設計類任務上,K2 雖然整體完成度高,但瑕疵也比較明顯,比如還是那個經典的天氣卡片案例,Kimi 能完成基礎的構建,但 UI 粗糙、動效生硬,在視覺體驗上遜色不少。
再拉高難度,我要求生成一個按周劃分的前端學習計劃,輸出為 HTML 頁面,支援模組展開與收起互動。這一任務對結構組織、內容節奏和 JS 邏輯的要求更高。K2 給出的結果中規中矩。
我輸入任務:「用 three.js 和 cannon-es.js 實現煙囪倒塌爆破效果」。K2 嘗試聯網查詢資料並組合程式碼,整體思路線上,執行力尚可,但視覺效果依然較弱。
當然,也有一些比較不錯的案例。比如海外博主 @chetaslua 使用提示詞「make a website that shows 3D Simulation of Asteroids hitting Earth in html」,產出效果更為成熟,得到的畫面如下:
由於 K2 相容 OpenAI 和 Anthropic 的 API 協議,網友 @Khazzz1c 也使用 K2 在 Claude Code 上開發了一個打字遊戲,並評價這個模型 「cracked AF」,這是俚語,意思是「強到離譜、好得不正常」。
在 Kimi K2 背後,是月之暗面 Kimi 團隊自研的一整套技術路徑。
技術部落格顯示,他們在訓練萬億引數大模型時,摒棄傳統的 Adam 最佳化器,改用自研的 Muon 體系,並引入 MuonClip 機制,有效緩解 attention logits 過大的問題,從而確保模型在 15.5T token 訓練過程中無一次 loss spike,訓練穩定性和 token 使用效率雙雙提升。
同時,團隊還構建了一條可大規模生成多輪工具使用場景的資料合成 pipeline,覆蓋數百領域、數千種工具,並且,訓練樣本則由 LLM 自動篩選評估,確保資料質量。
在訓練策略上,Kimi K2 進一步強化了通用強化學習能力,不僅在程式碼、數學等可驗證任務上進行強化學習,還透過「自我評價」機制解決獎勵稀缺問題,顯著增強了模型的泛化能力。
開源層面,Kimi K2 的 Instruct 模型及 FP8 權重檔案已上傳至 Hugging Face,(傳送門:https://huggingface.co/moonshotai/Kimi-K2-Instruct)根據官方部署說明,Kimi K2 的 FP8 版本可在主流 H200 等平臺上執行,支援最長 128K 上下文,最低部署要求為 16 張 GPU 的叢集環境。
目前包括 vLLM、SGLang、ktransformers 在內的主流推理引擎均已支援該模型,部署路徑已被打通,但對普通開發者而言,算力的門檻仍不容忽視。
商業化方面,Kimi K2 的 API 服務也已正式上線,提供最長 128K 上下文支援,定價為每百萬輸入 tokens 收費 4 元、輸出 tokens 收費 16 元。
而有趣的是,與 Kimi 的大方開源相比,OpenAI CEO Sam Altman 剛剛宣佈推遲原定下週釋出的開放權重模型,理由是仍需補充安全測試與高風險區域審查,且未確定延期時長。
這麼一對比,Kimi 還是敞亮太多了。
歡迎加入 APPSO AI 社群,一起暢聊 AI 產品,獲取#AI有用功,解鎖更多 AI 新知👇
我們正在招募夥伴
📮 簡歷投遞郵箱[email protected]
✉️ 郵件標題「姓名+崗位名稱」(請隨簡歷附上專案/作品或相關連結)
更多崗位資訊請點選這裡🔗

相關文章