楊植麟交卷,Kimi萬億引數K2開源:Agent能力緊逼Anthropic,延展DeepSeek,上手實測如何?

作者週一笑、董道力、Yoky
沒有預熱,也沒有釋出會,月之暗面在2025年7月11日深夜選擇直接開源Kimi K2 。就在當天,Kimi K2模型悄無聲息地出現在Hugging Face上,官網、App和API同步開放,模型引數、訓練細節等資訊也一併放出 。
這次釋出的Kimi K2是一個萬億(1T)引數規模的混合專家(MoE)模型,啟用引數為320億 。其核心能力發生了清晰的轉向,Kimi此前的標籤是長文字,而K2則為智慧體任務(agentic tasks)做了專門最佳化。
官方展示的例子很能說明問題,比如Kimi K2可以接收一個模糊的需求,透過17次工具呼叫,自主完成包含航班和酒店預訂的旅行規劃 ;或是執行16次資料分析指令,完成一份專業的薪資分析報告。
在榜單方面,它在SWE Bench Verified(程式設計)、Tau2(智慧體)、AceBench(工具呼叫)這三項基準測試中是開源模型表現最好的
在自主程式設計(Agentic Coding)、工具呼叫(Tool Use)和數學推理(Math & Reasoning)這三個能力維度上,Kimi K2也緊逼Claude 4 Opus、OpenAI GPT-4.1等閉源模型。

月之暗面此次開源了兩個版本,一個是適合做後續研究和定製化開發的Kimi-K2-Base基礎模型,另一個是能直接用於通用聊天和智慧體場景的Kimi-K2-Instruct指令微調模型 。
任何模型都有它的取捨和待解問題。那個以超長上下文能力深入人心的Kimi,這次在K2上只配置了128K的視窗雖然以及對錶主流模型,但這背後很可能是在當前階段,優先將資源投入到提升模型的程式碼和Agent能力上。
另一個現實問題是執行門檻。官方部署指南明確指出,在主流H200等平臺上執行Kimi-K2的FP8版本並支援128k上下文,最小硬體需求是一個由16塊GPU組成的叢集 。儘管模型在vLLM、SGLang等主流推理框架上提供了詳細的部署方案,並支援張量並行、專家並行等多種策略來適配不同規模的叢集 ,但這個基礎的硬體門檻,已將絕大多數個人開發者和中小團隊排除在本地化部署之外。這種對大規模、高I/O效能叢集的依賴,是其強大能力背後普通使用者難以企及的成本。
一些開發者已經在自己嘗試把它跑在2個蘋果M3晶片的環境裡,並表示運轉良好。但要提供更好的本地和低資源環境的可用性,還需要Kimi官方的量化版本。
Kimi K2的釋出,是楊植麟在給月之暗面調整方向後,交出的一份重要答卷。
DeepSeek出現證明了開源的價值以及底層模型能力依然是競爭的基石,它甚至會“摧毀”在模型單一能力上最佳化並用在c端產品裡然後快速推廣的競爭策略。
之後Kimi開始在技術上全線轉向預訓練,並步步緊跟DeepSeek。2025年2月,兩家幾乎同時發表論文,挑戰Transformer的注意力效率問題,DeepSeek提出了NSA(原生稀疏注意力)架構,月之暗面則提出了MoBA(混合塊注意力)架構。兩者都試圖解決模型處理長文字時的效率瓶頸。清華大學教授章明星曾對此評論,這說明兩家頂尖團隊對技術演進的方向得出了相似的結論 。但這次K2在文字長度上一般,似乎還沒把MoBA徹底用上。
另外,與MiniMax等對手的做法不太相同的地方在於,Kimi此次的開源模型,架構上選擇了DeepSeek開發和依賴的MLA(多頭潛在注意力),目前技術報告還沒釋出,從Hugging Face的資訊來看,Kimi K2用了結構類似DeepSeek V3的MLA,專家數增加到了384個,啟用專家保持在8個。
在最佳化器上Kimi此前的工作也成了此次模型關鍵。要訓練萬億模型,通用的AdamW最佳化器已面臨挑戰。Kimi此前選擇了在更新的Muon最佳化器上深度投入 ,並針對大規模訓練中的不穩定性,提出了MuonClip技術,最終支撐了K2在15.5萬億token資料量下的平穩訓練。
這些技術投入背後還有一個清晰的技術賭注:“模型即Agent,Agent即模型”的理念。
在K2釋出前,月之暗面就透過Kimi-Researcher產品展示了其對智慧體的理解——追求一種“零結構”的智慧體,不依賴人類預設流程,而是透過端到端的強化學習,讓模型在真實的任務反饋中自主學習如何思考、規劃和使用工具 。為了實現這一點,Kimi K2在可驗證任務(如程式碼和數學)上進行強化學習的同時,還透過引入“自我評價(self-judging)”機制,解決了在開放性、非驗證類任務上的獎勵稀缺問題,從而提升了模型的泛化表現。
將這些線索串聯起來看,Kimi K2的開源更像是楊植麟給Kimi重新定位後交出的第一個答卷。其實看看這一路的各種動作,會發現這個團隊一直有一個明顯的特徵,他們在技術上還是想爭一口氣,這體現在他們總會有一個自己的“賭注”,此前是長文字,今天就是Agent,然後圍繞一個點,做取捨,押注,交卷。
1
實測K2,瞄準Anthropic的Agent能力
此次Kimi選擇先全線上線給使用者使用的策略,我們也第一時間上手測了測它的實際能力。
首先是一個“打字遊戲”。
我們在cline上接入kimi k2模型,並嘗試復現一箇中文版打字遊戲。
prompts:做一個“打字”遊戲,頁面上跳出來一句話,使用者需要在規定時間內,把這句話打出來。
我們在prompts中只簡單描述了一下游戲玩法,而kimi k2自動生成了“需求分析”和“技術方案”,並且針對遊戲功能還進行了補充,如進度條、得分系統等。在遊戲生成後,kimi k2寫了一份簡單的遊戲介紹,包含了操作說明和遊戲特點。
而且,kimi k2的打字遊戲一次生成完成度就很高,可以直接執行,基本沒有bug。
專案網址:https://ddlpmj.github.io/pw_kimik2_test/
此外,瀏覽網頁獲取資訊並作出規劃,也是Agent的重要能力體現之一。
prompts:我喜歡音樂節,我希望你可以幫我找一下今年各大音樂節的名稱、行程等,做成日曆清單,並以html的形式整理出來。
我們嘗試讓kimi k2幫我們做一份“音樂節日曆清單”,並以網頁的形式展現出來。和打字遊戲一樣,kimi k2除了prompts中的要求,還像個助理一樣,補充了音樂節的其他資訊,如地點、是否確認舉辦等。
在成品頁面設計中,kimi k2還做了規劃,如1-3月舉行的音樂節在同一頁面展示,4-6月的在另一頁面展示。滑鼠移動到具體的音樂節上,還會有放大的特效。

能否取得大量資料,並從中做出洞察也是我們考驗的能力之一。我們下載了近5年的上上證指數資料,共1214條,交給kimi k2進行分析。
prompts:@/000001perf.xlsx 這是一份上證指數資料,分析資料並做一份分析報告,報告中要包含圖表

可以發現,kimi k2決定用python進行報告生成,為了讀取表格檔案和生成圖表,它會自動檢查有沒有pyhton相對應的庫,並進行下載。
在指標上,kimi k2會自動挑選有代表性的進行分析,如最高/低日成交額,資料波動等。
從分析報告成品來看,kimi k2先生成圖表,後生成分析報告,最後將二者結合,邏輯比較順暢。此外,kimi k2生成的圖表形式多樣,趨勢線、熱力散點圖等都有。
並且kimi k2基本找出了上證指數的特點。

為了測試K2的風格化文字生成能力,我們選擇了一個具有挑戰性的任務:讓它模仿知名脫口秀演員付航的表演風格,創作一段300字的脫口秀段子。
測試結果顯示,K2確實展現出了一定的風格模仿能力。從表面看,生成的文字在語言節奏和表達方式上有那麼幾分相似,但仔細分析後發現,它並沒有真正捕捉到付航段子的核心特質。

初次生成的內容存在明顯的邏輯混亂問題,讀起來讓人摸不著頭腦,甚至難以理解基本的表達意圖。經過引數調整和prompt最佳化後,第二次的輸出在可理解性方面有了顯著提升,至少能夠清晰地傳達想要表達的內容,但依舊不好笑。

不過值得注意的是,K2在最近的升級中展現出了一個有趣的變化趨勢。它的文字表達風格明顯向R1靠攏,開始頻繁使用一些頗為華麗的比喻和相對複雜的措辭。這很可能也跟Kimi K2在訓練中對合成資料的使用有關。

更多的細節等待它的官方技術報告來揭秘。
在Kimi的英文技術部落格裡,它也直接取名:Kimi K2: Open Agentic Intelligence。在此之前,Anthropic的Claude是把自己和Agent能力捆綁最緊密的模型系列,並且也同樣在聚焦Agent能力同時沒有太多去提高多模態等能力。此次K2對標Claude的思路很明顯,在模型能力上也做了很明顯的取捨。
根據Kimi透露,K2現在已具備複雜指令集解析能力,可以相容Anthropic等的API介面,可以無縫接入Cline,owl等Agent框架。在社群裡,各種對K2的實測也紛紛出現。其中不少開發者也表達了對實測上手K2在Agent能力上的驚豔。甚至已經有人“開發”出把Claude Code裡的Claude模型替換成Kimi K2的方法,並且表示可以用來平替。
接下來可能可以期待Kimi 的產品上,也會像Claude那樣衍生出更多功能,預訓練模型的進展最終真正“反哺”到它C端產品上,然後Make Kimi great again。

點個愛心,再走


相關文章