
近日,國內大模型獨角獸月之暗面釋出並開源的最新一代 MoE 架構基礎模型 Kimi K2,不斷在海外掀起熱議。有最新資料顯示,推出不到兩天,該模型在大模型 API 聚合平臺 OpenRouter 的 token 使用量就超越了馬斯克創立的 xAI。前不久,xAI 剛釋出號稱“全球最強 AI”的 Grok 4。

據官方介紹,作為月之暗面首款開源釋出的旗艦模型,Kimi K2 的總引數量達到 1 萬億(1T),啟用引數為 32B,現已在 Kimi Web 端和 App 端中上線。有網友感嘆道,“萬億引數級模型已開始能在非英偉達硬體上流暢執行……如果中國實驗室能透過巧妙的路由策略,在更少的晶片上實現更強的智慧,那麼英偉達對 AI 硬體體系的壟斷地位就會開始動搖。這是典型的 '壓力下的創新’:拿不到高階晶片?沒關係,我們重新設計一切,讓自研硬體能發揮出更優效能。”
在程式碼、Agent、工具呼叫這三方面的相關基準測試中,該模型均取得開源模型中的 SOTA 成績。除了基準效能測試,Kimi K2 在多個實際場景中也展現出更強的能力泛化和實用性,包括在前端開發任務中生成兼具設計感與視覺表現力的程式碼、自動將需求拆解為一系列格式規範和可直接執行的 ToolCall 結構和準確控制各種輸出風格來改寫文字等。

這幾天,陸續有開發者分享測試與體驗 Kimi K2 的使用感受以及與其他國內外知名大模型的能力對比情況。值得一提的是,Kimi K2 在開發者群體中的各種實測不僅沒掉“鏈子”,而且表現似乎比官方給的預期更令人驚喜。在提到 Kimi K2 的帖子中,充斥著“不輸 Claude 4 但便宜 80%!、唯一超越 R1 的存在…”等此類評價。
與 Claude Code 能力相當,
但便宜了 80%
首先,不少使用者踴躍測試了 Kimi K2 的真實編碼能力,採取的方式為:直接將該模型連線到了 Claude Code。可以這樣操作的原因是,Kimi K2 的 API 服務具備強通用性,能夠相容 OpenAI 和 Anthropic 兩種 API 格式,也可以與各類框架良好相容。
一位開發者在對比了模型效能情況與 token 價格後,得出的結果是:K2 的編碼能力卓越,基本與 Claude 4 相當,但只需花費 Claude 4 的 20% 成本,唯一缺點是 API 有點慢。

多年 AI 行業從業者劉小排在使用「K2 版 Claude Code」後的感受則是:“Kimi K2 驅動下的 Claude Code,程式設計能力和原版 Claude Code 差別不大,能平替 85%。 如果用 DeepSeek 驅動,我認為只能平替 60%。”

有網友這樣評價,“Claude Code 可以用 Kimi K2 的模型,這件事就很有意思。它證明了 Claude 這套 Agent 架構,基本可以適用於任何模型,理論上也支援 Gemini、Grok、o3。選擇永遠都在使用者手裡,而不在大模型公司的手裡。”
此外,對於 Python 資料分析任務,Kimi K2 也能一次性搞定,還可以生成一個網站。“成本僅需幾分錢”,測試使用者表示。

還有使用者分享了用 Kimi K2 幾乎寫完一整個前端元件庫的案例,且過程完全由該模型自主實現,沒有引用任何外部元件庫。“只用非常簡單的提示詞,但是出來的效果超級好!”

其次,針對月之暗面強調的 Agent 工具呼叫能力,同樣有不少使用者進行了對比測試。
前 Anthropic AI 工程師、MagicPath 創始人兼 CEO Pietro Schirano 對 Kimi K2 的評價很高:“自 Claude 3.5 Sonnet 之後,它是第一款讓我在生產環境中使用時感到放心的模型,也是第一個我覺得可以用作代理迴圈的非 Anthropic 模型。”他表示,Kimi K2 在工具呼叫和智慧體迴圈方面表現極為出色,能夠並行且可靠地呼叫多個工具,還具備“知道何時停止”的能力。
與此同時,有測試表明,Kimi-K2-Instruct 在創意寫作、挑戰性角色扮演兩方面的評測指標上雙雙拿下榜單第一,並超越了 o3。有網友為月之暗麵點贊稱,“這是開源模型的又一勝利,太棒了。”“K2 的中文創意寫作能力應該是唯一的超越 R1 的存在。”還有使用者這樣反饋道。


那麼,如此“高性價比”的效能提升背後,Kimi 做了哪些技術創新呢?
據月之暗面介紹,Kimi K2 的預訓練階段使用 MuonClip 最佳化器實現萬億引數模型的穩定高效訓練,在人類高質量資料成為瓶頸的背景下,有效提高 Token 利用效率,找到新的 Scaling 空間。其他關鍵技術包括大規模 Agentic Tool Use 資料合成和引入自我評價機制的通用強化學習等。
“嚴格來說,在預訓練資料集近似有限且模型配置固定的情況下,token 利用率更高的最佳化器能產生更多智慧。我們此前開發的 Moonlight 專案已證明,用於大語言模型訓練時, Muon 最佳化器的效能顯著優於廣泛使用的 AdamW 最佳化器。”
值得注意的是,Kimi K2 與 DeepSeek V3 的架構高度相似,區別則在於:“注意力頭數量更少、專家數量更多。”

對此,月之暗面也在技術部落格中作了詳細解釋。其稱,Kimi K2 的設計目的是進一步擴充套件 Moonlight,其架構與 DeepSeek-V3 相似。基於縮放律分析,他們減少了注意頭的數量以提高長上下文效率,並增加了 MoE 的稀疏性以提高 token 效率。
在擴充套件過程中,他們還遇到一個持續的挑戰:由爆炸性注意力 logit 引起的訓練不穩定性,這個問題在我們的實驗中更頻繁地出現在 Muon 上,而在 AdamW 上則較少出現;現有的解決方案,如 logit 軟上限和查詢 – 鍵歸一化,被發現不足以解決問題。為此,他們才決定引入了 MuonClip 最佳化器,透過其提出的 qk-clip 技術改進 Muon。具體來說,qk-clip 透過在 Muon 更新後直接重新調整查詢和鍵投影的權重矩陣來穩定訓練,從而在源頭上控制注意力 logit 的規模。
這已經是月之暗面與 DeepSeek 第三次在技術研究方向上“撞車”了。今年 2 月,兩家公司都圍繞挑戰 Transformer 架構最核心的注意力機制方面,各自提出了在核心思想上非常一致的架構。到 4 月,又分別推出了用於數學定理證明的大模型,且在技術報告中都提到了強化學習。
至於 Kimi K2 增強的智慧體能力,源於兩個重要方面:大規模智慧體資料合成與通用強化學習。據介紹,為了讓模型掌握複雜的工具使用能力,他們借鑑 ACEBench 開發了一套全面的流程,可大規模模擬現實世界中的工具使用場景,系統性地擴充套件了包含數千種工具的數百個領域(既包括真實的 MCP(模型上下文協議)工具,也包括合成工具),隨後生成了具備多樣化工具集的數百個智慧體。
據悉,DeepSeek 0 廣告投放卻爆火後,月之暗面就叫停了在各平臺的大面積投流,之後將重心轉到基礎模型上。此前有訊息稱,其對 AI 醫療產品進行了佈局,用於提升旗下產品 Kimi 在專業領域的搜尋質量,並且探索 Agent 等產品方向,釋出了 Deep Research 等。
在 Kimi K2 釋出的當晚,其聯合創始人張宇韜在朋友圈轉發文章時直言,"Make Kimi Great Again"。顯然,月之暗面內部對 Kimi K2 寄予了厚望,並將其視作在 DeepSeek 衝擊 AI 圈後、再度站穩腳跟的關鍵成果。
參考連結:
https://x.com/jasonzhou1993/status/1944320164889284947
https://x.com/rasbt/status/1944056316424577525
https://x.com/skirano/status/1944475540951621890
https://moonshotai.github.io/Kimi-K2/
宣告:本文為 InfoQ 翻譯整理,不代表平臺觀點,未經許可禁止轉載。
🔥GenAl 應用發展的主要制約因素取決於資料質量,而非演算法。面對 GenAl 時代的資料挑戰,騰訊雲提出 Data+Al 下一代資料智慧平臺解決方案,並結合騰訊雲前沿技術探索與客戶實踐,為企業構建 GenAl 時代的高價值資料資產提供實用指南。立即掃碼或點選【閱讀原文】免費下載《Data+Al 下一代數智平臺建設指南》白皮書,解鎖企業數智化升級最優路徑。

今日薦文

你也「在看」嗎?👇