楊植麟被梁文鋒叫醒了!Kimi新模型釋出即開源,1T引數全線SOTA

魚羊 雷剛 發自 紐凹非寺量子位 | 公眾號 QbitAI
172天過去,Kimi在深夜低調給出了DeepSeek衝擊波後的回應
全新Kimi K2基礎大模型,MoE架構,總引數1T,啟用引數32B,能力領先性尤其展現在程式碼、Agent、數學推理任務上。
Kimi援引多個基準評測資料,創造了開源全新SOTA
沒錯,Kimi K2,這次釋出即開源
並且Web端、App和API服務都同步上線可以使用。
作為DeepSeek R1釋出後最大的“被衝擊者”,Kimi這半年幾乎遭遇到了全方位質疑:技術領先性還有嗎?營銷投流意義幾何?以及之前非技術花邊纏身——Kimi還有技術信仰嗎?
172天后,Kimi在深夜用K2大模型給出了低調但明確的回應:
遊戲尚未結束,Kimi不下牌桌,Kimi不打算認輸。
楊植麟算是被廣東大哥梁文鋒叫醒了。

Kimi K2:1T引數MoE基礎模型

先來看Kimi K2的具體情況。
作為Kimi最新MoE基礎模型,Kimi K2強調的是程式碼能力通用Agent任務能力。
總引數量達到1T…屬實是讓本地部署黨捏了把汗,不過啟用引數是32B。
支援128K上下文。
而蟄伏許久,一上新又直接是一個開源的大動作,Kimi此番就是奔著SOTA來的。
在SWE Bench Verified、Tau2、AceBench等基準效能測試中,Kimi K2均取得開源模型中的SOTA成績。
Agent和程式設計能力:
工具呼叫能力:
數學等科學能力:
官方Demo,也把大家現在最關心的一些模型能力,直觀展示了出來。

程式碼能力提升

在前端開發任務中,Kimi K2支援粒子系統、視覺化和3D場景等表現形式。
可以生成支援晝夜迴圈的山川峽谷3D景觀:
3D粒子星系模擬的效果也很出色:

Agent工具呼叫能力提升

Kimi K2具備穩定的複雜指令解析能力,可將需求自動拆解為一系列格式規範、可以直接執行的ToolCall結構。
比如,一站式幫你追星(doge):
全年追星計劃,演唱會機酒和旅行規劃它都能幫忙做,還能生成日曆,用html概括完整行程規劃並給你傳送郵件。

上線即開源

此次Kimi K2討論度最高的一點,就是Kimi果斷走了開源路線。
開源的模型版本有兩個:
  • Kimi-K2-Base:未經過指令微調的基礎預訓練模型,適合科研與自定義場景;
  • Kimi-K2-Instruct:通用指令微調版本(非思考模型),在大多數問答與Agent任務中表現卓越。
遵循的是修改版MIT協議(Modified MIT License)。
MIT協議可以說是最寬鬆的協議(約等於怎麼用都行)。而Kimi的修改在於,如果基於Kimi K2打造的產品或服務月活躍使用者超過1億,或者月收入超過2000萬美元,那麼需要在該產品和服務的使用者介面上顯示“Kimi K2”。

技術細節

此外值得關注的是,Kimi官方此次也分享了不少技術細節。
其中關鍵的技術創新有三點:
  • MuonClip最佳化器
Kimi K2拋棄了傳統的Adam最佳化器,創新性地使用了Muon最佳化器。
為了緩解大規模訓練中的attention logits偏大問題,他們提出MuonClip,並將其擴充套件到萬億引數規模,提升了訓練穩定性和token使用效率。
Kimi K2完成了15.5T token的平穩訓練,全程無loss spike。
  • 大規模Agentic Tool Use資料合成
Kimi K2構建了可大規模生成多輪工具使用場景的合成pipeline,覆蓋數百領域、數千工具。高質量樣本由LLM評估篩選後用於訓練。
  • 通用強化學習
Kimi K2不僅在可驗證任務上(程式碼、數學)強化學習,還透過引入自我評價機制(self-judging),解決了不可驗證任務的獎勵稀缺問題。透過可驗證任務持續最佳化critic,提升泛化任務表現。

實測

模型一官宣,Kimi官網和App已經實裝。
效果究竟有沒有官方說的那麼好,我們上手實測驗證了一波。
先熱熱身,讓Kimi給Kimi K2做個宣傳網頁
提示詞很簡單,同時開啟聯網搜尋:
Kimi K2釋出並開源,做一個宣傳網頁。
審美屬於是簡潔掛的。比較有意思的是,其中“立即體驗”和“下載開源模型”按鈕,都是真的可以跳轉到正確網址的。
再加上一點物理模擬試試:
模擬高爾頓板,UI設計得好看一點。
這個UI確實不錯。另外在提示詞沒有給出具體要求的情況下,Kimi K2貼心地自動設計了行數和小球數量的調整滑桿。
不過小球下落的動畫還有最佳化空間。
可以看到,即使提示詞很簡單,Kimi K2也能理解到位,寫出效果相當不錯的程式碼。
那麼如果讓Kimi K2擔當私人助理,幫忙做做計劃,效果又會如何?
提示詞:
我想去看林俊傑的演唱會,在東亞地區的都可以,幫我安排一份觀演計劃,包括機酒和行程規劃。
乍一看還挺清晰的,但橋豆麻袋……
選的都是過期場次,並沒有什麼參考價值

不過從官方的說法來看,這可能和工具呼叫功能還沒正式上線有關。
無論如何,K2的效能成績和體驗,還是展現了Kimi一鳴驚人時的水準。
曾經的Kimi,正在迴歸。

DeepSeek衝擊波172天之後,Kimi的回應

種種跡象表明,Kimi K2帶著誠意,也帶著王者回歸的復仇情緒。
172天之前,2025年春節之前,Kimi曾是國產基礎大模型中最受關注的一個,團隊青春風暴,產品體驗優雅。
據量子位智庫統計資料,在2024年全年資料,AI智慧助手Web端市場格局已經相對穩定,特別是頭部,形成了Kimi智慧助手、豆包AI和文心一言的TOP 3格局,佔據70%市場份額。
而Kimi更是以創業獨角獸姿態,青春風暴,銳不可當。
在APP端,這種態勢就更明確,豆包和Kimi智慧助手幾乎斷崖式領先其他玩家,各維度資料佔比市場份額80%。幾乎就是雙寡頭。
但這種資料上的優勢,在2025年1月20日迎來暴擊
因為正是這一天,DeepSeek R1橫空出世,迅速引爆國內外,並在春節假期中,形成了全民話題。
在AI領域一直伺機而動的巨頭騰訊,也行動迅速,藉助DeepSeek的開源大旗,猛虎下山。
穩固的格局,一夜鉅變。
所以半年之後,AI智慧助手什麼光景?
量子位智庫最新的2025上半年資料顯示,Web端和App端,頭部格局都變成了DDKT,佔據90%市場份額。
所謂DDTK,就是位元組豆包、DeepSeek、Kimi、騰訊元寶。
Kimi依然在牌桌,然而危機的警報已經內外都能感知,增長之外的留存活躍,更是風聲鶴唳。
因為Kimi的資料增長地位,跟其之前拿著鉅額融資後燒錢投流的策略密不可分,然而如果DeepSeek和騰訊元寶,可以靠著先進模型就能快速突破,那這壁壘又何在?這燒錢投流的正當性又何在?
更何況在DDTK中,Kimi是唯一的沒有現金奶牛支撐的創業公司。
資料層面的體現,恐怕只是Kimi、月之暗面這半年來宏觀壓力下的質疑之一……
更根本性的質疑則直接關乎生死存亡——
DeepSeek之後,還需要自研基礎大模型重複造輪子嗎?
DeepSeek的衝擊,不僅是先進技術模型的衝擊,更是開源對閉源的衝擊。
如果市面上已經有如此全方位開源的領先模型,為什麼其他公司特別是創業公司,還有合理的融資理由去推進自研基礎大模型的故事?
至少在DeepSeek之後,曾經包含Kimi在內的AI大模型“六小龍”創業格局,已經一夜分崩,有至少2家放棄了大模型自研。
於是這172天之中,Kimi上上下下也好,CEO楊植麟也好,一定被不斷問及這個質疑:
Kimi如何回應?Kimi往何處去?
現在,楊植麟從輿論裡消失172天之後,Kimi用K2開源基礎大模型給出了最明確的回應——
Kimi不認輸,Kimi不會放棄自研大模型。
Kimi的路徑也已經明牌——
打造更強的開源大模型,全維度SOTA,重新證明技術的領先性。
某種程度來說,梁文鋒不光叫醒了老鄉小弟楊植麟,更幫他重新找回了競逐AGI的初心。
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!
—  —
專屬AI產品從業者的實名社群,只聊AI產品最落地的真問題

掃碼新增小助手,傳送「姓名+公司+職位」申請入群~

進群后,你將直接獲得:
 👉 最新最專業的AI產品資訊及分析 🔍 
 👉不定期發放的熱門產品內測碼 🔥
 👉內部專屬內容與專業討論 👂
🌟 點亮星標 🌟
科技前沿進展每日見

相關文章