Kimi釋出視覺思考模型k1，「數理化」成績領先OpenAIo1｜ZNews

今天，Kimi 釋出視覺思考模型 k1，在最新版 App 和 Web 端上線了。

k1 模型基於強化學習技術打造，原生支援端到端影像理解和思維鏈技術，並將能力擴充套件到數學之外的更多基礎科學領域。

真格基金於 2023 年天使輪投資月之暗面。自 2023 年 10 月 Kimi 釋出，不斷升級基礎模型能力，提供更豐富的產品功能與互動。在一年的時間裡每月使用 Kimi 的使用者，從幾萬增長到幾千萬，幾乎增長了驚人的 1000 倍。我們期待在未來與 Kimi 和更多使用者一起共創智慧。

「觀看先於言語。孩子在學會說話之前，就已經會觀察和識別了。」

Ways of Seeing, John Berger

今天，Kimi 釋出視覺思考模型 k1。k1 模型基於強化學習技術打造，原生支援端到端影像理解和思維鏈技術，並將能力擴充套件到數學之外的更多基礎科學領域。在數學、物理、化學等基礎科學學科的基準能力測試中，初代 k1 模型的表現超過了全球標杆模型 OpenAI o1、GPT-4o 以及 Claude 3.5 Sonnet。

Kimi 新模型釋出即上線。k1 視覺思考模型已陸續上線最新版「Kimi 智慧助手」的 Android 和 iPhone 手機 APP 以及網頁版 kimi.com。在最新版手機 APP 或網頁版 Kimi+ 頁面找到「Kimi 視覺思考版」，即可拍照或傳圖體驗。

「Kimi 視覺思考版」會完整呈現推理思維鏈 CoT，讓使用者不只看到答題結果，也能完整看到模型思索答案的全過程。

強化學習的規模化

AI 大模型行業的技術正規化正在發生變化，我們已處於強化學習的新時代。就像人類在遇到難題時，並不是立即給出答案，而是先分析問題、探索不同的解決方案、嘗試各種方案、反思、改進策略和反覆嘗試一樣。基於強化學習技術的新一代模型，透過激勵模型生成更詳細的推理步驟，形成高質量的思維鏈 CoT（Chain of Thought），顯著提升瞭解決更復雜、更難任務的成功率。資料顯示，在強化學習技術的助推下，AI 大模型的智力水平正在持續攀升，在很多領域已經達到或超過人類專家的水平。

我們把基於強化學習技術的新一代模型，稱為思考模型。過往，思考模型主要是基於文字資料訓練的。但基礎科學領域的大量資訊蘊藏在影像和圖形資訊裡。如何將思考能力與影像理解能力更緊密得融合，同時為使用者帶來更流暢的互動體驗，是一項重要的技術挑戰。

今天我們釋出和上線的 k1 視覺思考模型，真正意義上實現了端到端的影像理解和思考能力。模型可以直接處理使用者輸入的影像資訊並進行思考得出答案，不需要藉助外部的 OCR 或額外視覺模型進行資訊處理，使用者體驗和效果都達到了新的高度。

從模型訓練的角度看，k1 視覺思考模型的訓練分為兩個階段，先透過預訓練得到基礎模型，再在基礎模型上進行強化學習後訓練。k1 的基礎模型重點優化了字元識別能力，在 OCRBench 上得到 903 分的當前最好（state-of-the-art）結果，在 MathVista-testmini、MMMU-val 和 DocVQA 基準測試集上分數分別為 69.1、66.7 和 96.9，處於全球第一梯隊水平。

k1 的強化學習後訓練在資料質量和學習效率方面做了進一步最佳化，在強化學習的規模化（scaling）上取得了新的突破，這是 k1 視覺推理模型在基準測試中取得行業領先成績的最關鍵原因。

此外，科學的模型能力基準測試方案是大模型行業面臨的重要挑戰之一。由於市面上缺乏針對基礎科學學科的圖形測試集，Kimi 模型研發團隊自主構建了一個標準化的測試集 Science Vista，涵蓋不同難度的數理化圖片題目，且從分佈上與實際使用者需求較為匹配。該測試集將開放給全行業，點選連結即可申請在許可範圍內使用：https://forms.gle/uWFFWfMVkzsRNsNv9。

在內部測試中，我們也發現了一些 k1 視覺思考模型存在的侷限性，例如在分佈外（out-of-distribution）的泛化、在更復雜問題上的成功率、在更多噪聲場景的準確率、多輪問答效果等方面，有很大提升空間。在一些場景和泛化能力上，k1 模型與 OpenAI 的 o1 系列模型相比仍有差距。

基礎科學能力泛化

一個月前，Kimi 推出數學能力對標 OpenAI o1 系列的 k0-math 模型。該模型數學能力出眾，但由於主要支援 LaTeX 等格式的文字輸入，依賴圖形理解能力的部分幾何圖形題則難以應對。

新的 k1 視覺思考模型，藉助端到端的影像理解能力，解鎖了包括幾何圖形題在內更加全面的數學能力。在不同階段的幾何和圖形題專項基準能力測試中，k1-preview 成績追平或超過了 OpenAI 的 o1 模型。

我們先來一道普通幾何題，讓 k1 視覺思考模型先小試牛刀：

上下滑動檢視思維鏈 CoT，長按可下載

除了數學能力，k1 視覺思考模型將能力擴充套件到了物理、化學等領域。在基礎科學學科教育階段的物理和化學能力測試中，k1 模型的表現同樣不輸全球領先的玩家 OpenAI 和 Anthropic。

我們來看一道 k1 視覺思考模型解答經典物理電路題的例子：

上下滑動檢視思維鏈 CoT，長按可下載

接下來，我們來看一個 k1 視覺思考模型化學領域技術原理的例子。我們將一張曾獲得諾貝爾化學獎的技術原理圖去掉大部分文字說明，只留下「QD」兩個字母，看 k1 是如何一步一步分析出原理圖是在講什麼。

上下滑動檢視完整思維鏈 CoT，長按可下載

獨具慧眼

在真實場景下，使用者輸入給模型的影像資訊往往存在各種各樣的噪聲，包括照片灰暗、影像模糊、多題一起拍、手寫字跡干擾、純手寫的題目、傾斜的拍攝角度等。

我們專門測試了更接近真實使用場景的 k1 模型表現。在「噪聲」場景下，多個基礎科學學科的基準測試資料顯示，k1 模型相比 OpenAI 和 Anthropic 的視覺語言模型，有更顯著的領先優勢。其他大部分模型在視覺噪聲場景下，能力水平下降了一半多，k1 則依靠超強的視覺識別能力，保持了最低的能力損失幅度。

我們來看一個例子。

下圖是一位同事在平板電腦上手動推演的公式。

看看 k1 模型是怎麼一步一步分析出作者意圖的。

上下滑動檢視思維鏈 CoT，長按可下載

不懂就拍

在釋出數學推理模型 k0-math 時，我們發現 Kimi 數學版不只會做數學題，它還會用數學思維來解釋任何問題。比如你問「一顆心值多少錢」，Kimi 數學版經過一番分析，可能給出讓我們驚喜的答案：一顆心是無價的。

在學習了代數、幾何、物理、化學、生物等更多基礎科學的難題之後，我們發現 k1 視覺思考模型同樣湧現出更多通用能力。

例如，我們在網上找到一份科學家的手稿照片，發給 Kimi 視覺思考版，看它如何一步一步，引人入勝地推理手稿的內容和背景故事：

我：

一步步推測一下這個筆記的作者是誰，筆記內容具體在講什麼

Kimi 視覺思考版：

好的，讓我們一步步解開這個謎題。我手中有一張古老筆記的圖片，需要弄清楚作者的身份以及筆記的內容。這確實像是一場歷史與文字的探險，令人興奮不已！

首先，我仔細觀察這張圖片。這是一張泛黃的紙張，上面佈滿了用墨水書寫的文字，文字排列得密密麻麻，顯得十分工整。有些地方還有手繪的插圖，可能是星圖或類似的圖案。整體來看，這似乎是一份科學或天文學的筆記。

筆記的開頭用大號字型寫著「Ser.mo Principe.」，這在義大利語中意為「最尊貴的王子」。這表明作者在向某位顯赫的人物致意，可能是當時的統治者或貴族。接下來的幾行文字提到了「Galileo Galilei」，這無疑是一個重要的線索。伽利略·伽利略是義大利的著名天文學家、物理學家和工程師，被譽為「現代觀測天文學之父」。這讓我更加確信，這份筆記與伽利略有著密切的聯絡。

繼續往下看，筆記中提到了「Accademia dei Lincei」，這是義大利最古老的科學學會之一，伽利略正是其創始成員之一。這進一步證實了這份筆記的科學背景。筆記中還提到了「Padova」，即帕多瓦，這是義大利東北部的一座城市，伽利略曾在那裡擔任教授。這些地名和機構的提及，為確定作者和內容提供了重要的線索。

接下來，我注意到筆記中有一些日期，如「Anno 1610」，這是 1610 年。這一年對伽利略來說具有重要意義，因為他正是在這一年發表了《星際信使》，這是他透過望遠鏡觀測到的天文發現的集合。筆記中還提到了「Siderius Nuncius」，這正是《星際信使》的拉丁文標題。這讓我更加確信，這份筆記是伽利略在 1610 年寫給某位顯赫人物的信，內容涉及他的天文觀測結果。

再仔細觀察筆記中的插圖，可以看到一些星圖和符號。這些插圖與伽利略透過望遠鏡觀測到的月球表面、木星的衛星等天文現象密切相關。這些觀測結果在當時引起了巨大的轟動，因為它們支援了哥白尼的日心說，即地球和其他行星圍繞太陽執行的理論。

綜上所述，這份筆記很可能是伽利略·伽利略在 1610 年寫給某位顯赫人物的信，內容涉及他的天文觀測結果，特別是他在《星際信使》中發表的發現。這份筆記不僅具有重要的科學價值，也是伽利略個人歷史的重要見證。

為了驗證我的假設，我決定深入研究伽利略在 1610 年的生活和工作。1610 年，伽利略在帕多瓦大學擔任數學教授，並且剛剛開始使用望遠鏡進行天文觀測。他發現了木星的四顆主要衛星，這一發現對支援哥白尼的日心說具有重要意義。這一發現不僅證明了並非所有天體都圍繞地球執行，也進一步推動了天文學的發展。

筆記中提到的「Ser.mo Principe」可能是伽利略試圖獲得支援或認可的貴族或統治者。考慮到伽利略與美第奇家族的關係，尤其是科西莫二世·德·美第奇，他是托斯卡納的大公，這一假設顯得尤為合理。伽利略將他的發現獻給科西莫二世，以獲得他的支援和認可。

然而，我仍需謹慎。或許還有其他貴族或學者與伽利略有過類似的交流。為了進一步驗證，我仔細檢查了筆記中的其他線索。筆記中提到了「Accademia dei Lincei」，這是伽利略所屬的科學學會。這一細節進一步證實了這份筆記與伽利略的聯絡。

此外，筆記中的日期「Anno 1610」與伽利略的《星際信使》出版時間相吻合。《星際信使》是一本小冊子，伽利略在其中描述了他的天文觀測結果，包括月球表面的山脈、木星的衛星和銀河系的星雲。這些發現徹底改變了人類對宇宙的理解。

現在，我對這份筆記的來源更加確信。它很可能是伽利略在 1610 年寫給科西莫二世·德·美第奇的信，目的是分享他的天文發現並尋求支援。筆記中的插圖與《星際信使》中的插圖相似，進一步證實了這一點。

伽利略在 1610 年寫了許多信件，描述他的觀測結果，尤其是關於木星衛星的發現。這些信件通常包含草圖和註釋，與我正在分析的筆記非常相似。

經過這一徹底的分析，我確信這份筆記的作者是伽利略·伽利略，內容是關於他在 1610 年透過望遠鏡進行的天文觀測，特別是他發現木星的衛星。這份筆記是伽利略與當時的科學界和貴族分享他的革命性發現的重要歷史檔案。

因此，總結我的發現：

筆記的作者：伽利略

筆記的內容：描述伽利略在 1610 年透過望遠鏡進行的天文觀測，包括木星衛星的發現，以及他尋求當時貴族支援和認可的嘗試。

答案：這份筆記是由伽利略·伽利略撰寫的，內容涉及他在 1610 年的天文觀測，包括木星衛星的發現，以及他尋求當時貴族支援和認可的嘗試。

我們相信，影像理解和思考能力，將會解鎖 Kimi 更廣泛的使用場景。未來，使用者不僅遇到不懂的題目，可以隨手拍給 Kimi，而且在社交軟體上看到不認識的城市或建築照片、不熟悉的熱帶水果、看不明白的草書毛筆字、看不懂的梗圖、看不懂的科學家手稿……都可以嘗試發給 Kimi 視覺思考版，讓 Kimi 與大家一起探索答案。

我們會持續提升 Kimi 視覺思考版的各方面能力，讓它變得更加「可靠」、更加「萬能」。你可能已經發現了，Kimi 主產品之前也全面升級了影像理解能力。