Kimi釋出首個萬億引數開源模型K2模型,哪些資訊值得關注?

7 月 11 日深夜, Kimi K2 模型釋出並同步開源。
@月之暗面 Kimi 在知乎釋出文章Kimi K2 釋出並開源,擅長程式碼與 Agentic 任務
Man is a tool-using animal… without tools he is nothing, with tools he is all.
— Thomas Carlyle, Sartor Resartus (1833–1834)
今天,我們正式釋出 Kimi K2 模型,並同步開源。
Kimi K2 是一款具備更強程式碼能力、更擅長通用 Agent 任務的 MoE 架構基礎模型,總引數 1T,啟用引數 32B。
在 SWE Bench Verified、Tau2、AceBench 等基準效能測試中,Kimi K2 均取得開源模型中的 SOTA 成績,展現出在程式碼、Agent、數學推理任務上的領先能力。
Kimi K2 使用 MuonClip 最佳化器實現萬億引數模型的穩定高效訓練,在人類高質量資料成為瓶頸的背景下,有效提高 Token 利用效率,找到了新的預訓練 Scaling 空間。其他關鍵技術包括大規模 Agentic Tool Use 資料合成和引入自我評價機制的通用強化學習等,更多細節可參考我們的技術部落格。
即日起,訪問官網 kimi.com 或升級最新版 Kimi App,即可體驗全新 Kimi K2 模型;API 服務也已同步上線,提供相容 OpenAI 和 Anthropic 的 Chat API 介面,你可以輕鬆將常用的大模型工具切換至 Kimi K2 體驗強大的 Agent/Coding 能力。
Kimi K2 是構建通用 Agent 能力的堅實基礎,但通用 Agent 還需要更高階的能力,比如思考和視覺理解。我們計劃未來為 Kimi K2 加入這些能力。
我們希望透過全面開源效能更強的模型,進一步加速 AGI 研究與應用落地的整體程序。
Kimi 釋出首個萬億引數開源模型 K2 模型,哪些資訊值得關注?
答主:toothacher17
100+ 贊同
感覺 K2 應該會是一個很強力的模型,期待更多相關人士的測評。此外 moonshot 之前非常擅長 VL 和 RL,可以期待經過一段時間後訓練之後,基於 K2 的 thinking & vision understanding 模型有機會大放異彩!
同時 moonshot 作為一家擁有蘇隱,蔣 kernel,飛來閣打手張宇等諸多高手的公司,感覺很有前途!此外 moonshot 既能把 fancy 的新技術例如 Muon 落地,也能大方承認和使用競對開發的先進技術,感覺格局還是很大的!
原回答近萬字長文
👇掃碼即刻檢視
答主:安小強
100+ 贊同
我這裡把 Kimi k2 接入 Gemini Cli,看看真實的程式設計+Agentic 能力。 
Gemini Cli 接入有點複雜,發現 Claude Code 有個 ANTHROPIC_BASE_URL可 以直接換 base url,我用這種方式把 Kimi K2 接入進去了。
工具呼叫絲滑(出現過一次工具呼叫格式不對),程式碼能力也不弱。考慮到 Claude Code 是 Anthropic 根據 Claude 定製的 prompt,直接套在 Kimi K2 上能用,還是很驚訝了(之前試過好幾個國內的模型,Kimi K2 在這裡是獨一檔)。
所以我們終於可以搞到低成本 Claude Code 了 ,開心(這個大夜沒白熬啊)。
回答持續更新中
👇掃碼即刻檢視
答主:王兆洋
100+ 贊同
DeepSeek 徹底改變格局後,Kimi 的轉向其實挺明確,而且之前 Kimi 一系列工作都在指向這個模型。
幾個關鍵點:
(1)DeepSeek 後它的撞車論文,預示它轉向開源預訓練,我們當時就說它最終是要和 DeepSeek 撞更大的車的。
(2)muon,非常關鍵的工作。
(3)最近的 agent 產品,背後開發團隊分享時,一個點最吸引人:「agent 就是模型」。
和 Kimi 這個團隊的幾次接觸,感覺還是有一口氣,要爭一爭。這次的效果就更加關鍵,接下來看看後面幾天社群的發酵和評價了。
引用一段我在 2 月的矽星人的文章裡寫的話:
月之暗面的應對思路也就變得引人注目。其中開源是必須要做的一步。而看起來月之暗面的選擇,是想要真正匹配 DeepSeek 的開源思路——目前在 DeepSeek 後出現的諸多開源大部分像是應激反應,它們還是用此前 Llama 時期的開源思路來跟隨。事實上 DeepSeek 的開源與此前的已經不同,不再是 Llama 似的防守擾亂閉源對手式的開源,而是一種能帶來明確收益的競爭策略。
月之暗面最近傳出內部「把 SOTA(state-of-the-art)結果做為目標」,看起來是最接近這種新的開源模式的策略,要開的是最強的模型,最強的架構方法,這樣反而會得到它一直渴望的在應用側的影響力。
根據兩家的論文,MoBA 已經用在月之暗面的模型和產品上,NSA 也一樣,它甚至讓外界可以對 DeepSeek 接下來的模型有更明確預期。於是接下來的看點就是,月之暗面和 DeepSeek 用 MoBA 和 NSA 各自訓練出的下一代模型,要不要再撞車一次,並且還是以開源的方式——這可能也是月之暗面在等待著的那個節點。
另外,希望下次可以中國時間白天發。像 DeepSeek 那個開源周那樣。讓矽谷徹夜無眠去吧。
(小編:強烈支援🙋
除此之外,還有哪些精彩回答呢?
答主@平凡認為,這次 kimi 技術報告裡,從下面幾個方向都有很多重要細節值得關注
1)模型架構與創新設計;
2)訓練穩定性的主要基石:
3)MuonClip 最佳化器原生工具呼叫與 Agent 架構……
點選【閱讀原文】,看更多精彩回答~
題圖來源:《我,機器人》
🔥熱門文章

本文內容來自「知乎」
點選上方卡片關注
轉載請聯絡原作者

相關文章