Kimi數理化能跟o1掰手腕了?新模型k1有點兒強


2025 年,「推理」將是大模型競爭的下一個分水嶺。
作者丨西西 張進
編輯丨陳彩嫻
今天,月之暗面官方宣佈:繼 11 月 16 日釋出數學模型 k0-math 後,他們又推出了新的視覺思考模型 k1,且「數理化」的能力又上了一個新臺階,實測結果絲毫不輸 OpenAI o1!
最直接的實測例子是:當我們把楊振寧、伽利略等世界知名科學家的研究手稿拍照、上傳後,k1 居然能識別圖片中的文字,生動解讀背後的物理、天文學等科學知識,從而回答使用者的提問並給出清晰完整的推理思考過程。
例如,當我們上傳楊振寧的手稿並向 k1 提問,k1 給出了超乎小編知識範疇所能辨真偽的答案:
這是楊振寧的手稿圖片——
這是我們的詢問:這是物理學家楊振寧的手稿照片,請你一步一步分析,楊振寧在計算什麼,他可能在想什麼,當時可能是什麼背景?
這是 k1 的回答:
上下滑動檢視長圖
雖然小編既不懂電磁場、也不懂粒子動力學,但看完 k1 的答案著實大吃一驚!
並忍不住發出靈魂叩問:圖靈測試面對大模型還有效嗎?人類讀者面對這樣的問題怎麼區分 k1 與爾等使用者的區別?當 AI 大模型不斷進化,假以時日圖靈測試的標準答卷是否會變成:同一個問題的兩個不同答案,答案更高明的永遠盲選「機器」、答案更普通的永遠盲選「人類」……
更重要的是:從數學模型 k0 到視覺思考模型 k1,月之暗面(Kimi)僅用了一個月!
據瞭解,k1 是基於 k0 的模型升級。k0-math 模型數學能力出眾,但由於僅支援 LaTeX等格式的文字輸入,依賴圖形理解能力的部分幾何圖形題無法解決。而新的 k1 視覺思考模型藉助端到端的影像理解能力,解鎖了包括幾何題在內更加全面的數學能力。
當多模態智慧不斷進化,視覺模型的推理能力從文字拓展到「數理化」,我們可以大膽猜想:Kimi 大模型不僅能輕鬆解決傳統的文字與影像資訊對齊問題,連謝爾頓怎麼教佩妮學物理的難題都能解決了!
1
中國首個視覺思考模型
自 2021 年 1 月 OpenAI 釋出 DALL·E 及圖文對齊架構 CLIP 以來,事實上業內針對影像-文字任務的雙模態資訊對齊與處理提出了多樣化的解決思路,並發表了大量工作。
但過去三年來,這些模型的特徵侷限在文字資料上:
首先,以生成為主,如文生圖任務,強調圖文對齊、而非推理。例如,國內有大批廠商早在今年上半年就已推出看圖說話功能,主要應用在旅遊景點介紹、拍照生成搭配詩詞歌賦等,缺少較強的常識認知與邏輯推理等能力。
其次,不具備一步一步拆解分析數理化問題的思維鏈能力,沒有將基礎大模型的語義理解與數理化問題的深度思考需求結合起來。
此外,撇開底層基礎模型的能力差異不說,由於推理模型的產品體驗不如純文生圖或圖生影片等來得直觀,模型的思考能力需要結合模型的文字輸出能力來獲得一手觀感。而其中,長文字是展示模型推理的最佳方式之一。
而 Kimi 今天釋出的視覺思考模型 k1 ,基於強大的基礎模型,就從答案輸出的長文字能力體現了其在多模態推理上的躍升。
值得注意的是,這也是國內首個視覺思考模型!
不同於以往國內外發布的推理模型,k1 的推理能力有兩大優勢:一是數理化能力傑出,二是視覺識別與邏輯推理能力強強結合。
首先,根據官方資料披露,在 k0-math 數學模型的基礎上,k1 的能力不僅擴大到了數學領域中的幾何圖形方向,還增加了物理、化學等基礎科學能力。
在基礎教育各階段的幾何和圖形題專項基準能力測試中,k1-preview 成績打平或超過了 OpenAI 的 o1 模型:
結合端到端影像理解和深度思維鏈推理技術,在數學、物理、化學等基礎教育學科的基準能力測試中,初代 k1 模型表現接近或超過 OpenAl o1、GPT-4o 以及 Claude 3.5 Sonnet 等領先視覺模型,達到了全球一流水平:
此外,k1 還具備超強的視覺識別能力,並將視覺識別能力與語言推理能力強強結合!
k1 可以準確識別強噪聲干擾下拍攝的圖片資訊,包括但不限於灰暗燈光下拍攝、拍攝有陰影、拍攝書本彎折起伏、拍攝模糊或虛化、有手寫字跡干擾等等傳統視覺識別也難以解決的場景:
在推理模型的實際應用中,除了文字識別,涉及到公式與圖形的理工類圖文資訊識別往往是使用者直接拍照輸入解答。
傳統基於文字的推理模型,或者不支援影像資訊輸入,或者需要藉助外部 OCR/視覺模型進行轉換,效果有明顯損失。而 k1 的視覺部分針對這一問題進行了顯著改善。
據 AI 科技評論瞭解,學生群體一直是 Kimi 使用者數最廣的群體之一,更是 Kimi 崛起的重要幕後推手之一。本次 k1 的視覺思考能力,精準捕捉了學生拍照識題並深度解讀的需求,將成為掃描王等產品的強有力競爭對手!
基準測試資料顯示,在複雜拍攝條件下,例如照片影像不清晰、多題一起拍、手寫字跡干擾,甚至純手寫的題目等場景,k1 模型相比 OpenAI 和 Anthropic 的視覺思考模型,有更顯著的領先優勢:
2
k1 掀起科學家手稿識別風
相較 k0 的數學能力,k1 解鎖數理化並結合視覺識別與推理的能力,顯然擁有更廣闊的應用場景。其中,最震撼的是 k1 居然能解讀諾貝爾獎級別的科學家研究手稿或筆記!
除了開頭的楊振寧手稿,k1 的釋出還掀起了一批對伽利略、錢學森等科學家的手稿識別風:
先看伽利略的天文學研究。輸入一張伽利略的義大利語筆記圖片:
詢問 k1:請一步步推測一下這個筆記的作者是誰,筆記內容在講什麼?
k1 的回答如下:
上下滑動檢視長圖
答案簡直逆天有木有!
k1 視覺模型的體驗入口已經放在 Kimi 首頁,為此小編也抓緊去體驗了一下來自科學家的大腦暴擊!
接著我又去網上找了幾張科學家的手稿照片,這是錢學森的:
我心想圖片這麼模糊、字跡這麼別具一格,k1 總該難倒了吧,結果,k1 不僅精確識別!還邏輯清晰!振振有詞!
上下滑動檢視長圖
對於爾等文科生來說,這就好像能帶計算機進考場考數學一樣,以後行走江湖豈不是輕輕鬆鬆縱橫四海?(狗頭護身)
看到 k1 這麼輕鬆就能解答覆雜的數理化研究筆記,小編又忍不住思考:k1 能解答科學家手稿,那能解答抽象的現代美術展館的藝術展品嗎?讓我來試試。
輸入莫奈的《睡蓮》,k1 解讀依然完美:
上下滑動檢視長圖
不過,當我輸入莫奈另一幅由於戰亂輾轉導致殘缺的《睡蓮》畫作與今年香港巴塞爾藝術展上頗受關注的油彩筆所畫真人畫作時,k1 的表現則沒有解讀科學家筆記時那麼深刻、嚴謹,原因或許是因為訓練資料不足。
但在對未知或不那麼熟悉的知識領域,k1 也能以擬人、優美的文字表達,展示一步一步思考問題的能力:
輸入莫奈殘缺版睡蓮:
k1 的解讀如下:
上下滑動檢視長圖
在處理包含複雜資訊的影像上,k1 的能力無疑是當前國產模型的先鋒,尤其在包含複雜公式與幾何圖形的數理化問題上。相比藝術作品,後者更能體現底層模型的邏輯推理能力。
而從使用者的體驗角度評價,由於 k1 結合了思維鏈與長文字技術,無論面對理科還是文科問題時都能給出一份展示完整思考過程的答案,在人機互動的產品創新上依然能給我們帶來新意。
3
月之暗面的 AGI 進階之路
大模型衝刺 AGI 的下一步趨勢,主要有三塊:多模態、推理與 AI 的自我學習。
這三塊中的每一塊難題攻關,都是挑戰重重;而 k1 的釋出,至少體現了月之暗面攻克 AGI 的兩個重大命題,即多模態與推理,更是難上加難,尤其 k1 將兩者結合,無論是技術還是產品上都體現出了月之暗麵糰隊持續的創新能力。
今年下半年起,月之暗面在 Kimi 產品上頻頻推出新功能:
10 月,Kimi探索版革新「AI搜尋」,強調AI的自助搜尋能力,瞄準傳統搜尋引擎的弊端,解決了大量 AI 搜尋不痛不癢「拼湊大量資訊」問題,重新定義了「AI搜尋」。
11 月,上個月的今天月之暗面釋出了數學模型 k0-math,其數學能力對標 OpenAI o1 系列。
12 月,今天月之暗面在 k0-math 模型的基礎上再推出視覺思考模型k1,數理化能力再上一個臺階。
可以看到,這家大模型公司正在以月為單位的速度推出新技術、更新Kimi產品細節。
一年前,月之暗面釋出了支援輸入 20 萬漢字的智慧助手產品 Kimi,創造了 C 端 AI 所支援的上下文輸入長度的新紀錄,以「長文字」策略一舉打響了 C 端 AI 產品市場,贏得一大批使用者,也給其他大模型公司帶來不小壓力。
之後,Kimi的產品能力和技術實力萬眾期待,整個業界都在期待 Kimi 的下一個動作會是什麼,但在之後的整整十一個月裡,Kimi都沒有任何新的技術釋出。
而在這段時間裡,Sora、GPT-4o、GPT-o1等現象級產品一次次點燃大眾的熱情,整個大模型領域都在跟進,每天誰家又做出來「類 Sora」 產品、誰家又超過GPT-4o……好不熱鬧。
在GPT-o1釋出後,其推理能力驚豔,主要體現在數學與程式設計上。這不僅涉及到思維鏈的 scale-up,模型推理能力的資料來源、以及背後的訓練方法也十分關鍵。
早在今年 4月底清華人工智慧學院的成立大會上,多模態方向領先研究者、京東技術副總裁何曉冬就預測過,下一代大模型的訓練大機率是透過模型生成的資料和標註、以及模型互相對抗這條“類強化學習”技術路線來推進。
k0-math 釋出時,楊植麟也提出,基於強化學習的 scale-up 比簡單預測下一個 token更能提升 AI 模型的思考能力,他認為多模態最重要的也是思考與互動,但思考的重要性遠大於互動,思考決定了上限。
基幹強化學習技術,AI模型具備像人一樣思考的潛力:在遇到問題時,首先分析問題,並提出不同的解法,然後根據不同的解法進行不斷試驗、反思並改進。
自 AlphaGo 開始,深度強化學習一直被視為實現 AGI 的關鍵路徑之一。但在過去,由於深度強化學習有兩大缺陷:一是樣本效率與計算效率低,二是演算法安全性與魯棒性低,其不適用於解決現實世界中交通、醫療、金融等關鍵領域的智慧決策問題,因為這些領域的容錯率低、一旦出錯則風,險極高。
但大模型時代到來後,結合大模型的語義理解與 2022 年出現的思維鏈技術後,強化學習有了新的生命。透過在大模型產品互動中引入強化學習的過程獎勵機制,對模型的推理過程進行逐步激勵與懲罰,激勵模型生成更詳細、質是更高的推理過程。
Kimi 將基於強化學習技術的新一代模型,稱為“思考模型”。
這是月之暗面創始人楊植麟技術路線思考的直觀體現。
而在明確強化學習與AI思考能力放下之前,月之暗面也經歷過戰略調整,但最終決定要聚焦,聚焦Kimi。楊植麟稱,這是他們主動做了業務減法的結果,聚焦去做離 AGI 上限最高的事情,然後做好。
從 k0 到 k1,月之暗面都給國內的大模型發展帶來了驚喜,k1 之後,k2、k3、k4…會如何迭代呢?作為技術的領跑者,Kimi 正在定義屬於自己的 AGI 路線。
更多內容,點選下方關注:

未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社群進行轉載!
公眾號轉載請先在「AI科技評論」後臺留言取得授權,轉載時需標註來源並插入本公眾號名片。


相關文章