你好,我是郭震
Kimi重磅釋出視覺思考模型K1,衝上第一,如下圖所示:
在初級數理化、高階數理化,全面壓倒O1和Claude3.5 Sonnet模型。
在幾何圖形基準能力測試中,無論入門、初級,還是高階集合圖形測試,Kimi都超越了O1和Claude模型,取得第一名。
Kimi是否有宣傳中說的這麼強大?
下面我來實測Kimi新發的視覺思考模型K1,專挑了4個難度較高的任務,都是需要很強的視覺+推理能力才能解決好的任務。
第一個實測用例,從LeetCode最高hard級題中,再給它加大難度,選擇一道題目描述帶有文字和圖片的:
把上面的截圖扔給Kimi,再在文字框輸入:請用中文回覆此題,並在最後給出Python求解程式碼:

然後點選箭頭所示按鈕:

然後K1秒懂,思考片刻後,便開始解答此題,中間帶有詳細推理過程,牛逼特拉斯。我錄製了一個影片,影片沒有任何加速,全部保持自然進度,一共1分30秒左右 ,感興趣的可以看下:
受限於公眾號GIF幀數和內容數限制,這是Kimi思考過程開始部分的GIF動圖:

複製如下所示K1生成的程式碼到LeetCode裡,我們檢驗下這版程式碼是否能夠一次性透過:
classTreeNode:
def__init__(self, x):
self.val = x
self.left = None
self.right = None
classSolution:
defminCameraCover(self, root: TreeNode) -> int:
self.cameraCount = 0
defminCamera(node):
ifnotnode:
return2# 0: No camera, 1: Camera, 2: Covered
left = minCamera(node.left)
right = minCamera(node.right)
if left == 0or right == 0:
self.cameraCount += 1
return1# Place camera here
elif left == 1or right == 1:
return2# Covered by child camera
else:
return0# No camera needed
if minCamera(root) == 0:
self.cameraCount += 1
returnself.cameraCount
這是複製到LeetCode後截圖,然後提交submit這版程式碼:

這版程式碼不僅一次被透過(紅框Accepted所示),而且
擊敗了100%的程式碼
:這真是用實力碾壓了一眾全球程式設計師,還真是蠻
驚豔:

K1思考模型是如何做到的?我們再回到它的回答過程中,可以看到推理過程極其詳細,它會自我反思,自我修正,自動調整。
第二個實測用例:一張Web截圖直接轉程式碼
前端設計看起來容易,但是真正設計過的朋友都懂,做出一個協調美觀的還是需要來回調整。最簡單的一個方法就是模仿別人的設計介面。有了K1視覺思考模型,擷取下面這張圖,放到Kimi裡,直接得到對應html程式碼:

下面是Kimi根據Web介面截圖和一句提示詞,生成介面程式碼的推理過程,影片無加速推理思考時長大約50秒:
我拿著生成的html程式碼,執行後得到如下圖所示的Web介面,和輸入介面雖然沒有達到與輸入Web介面一模一樣,但是基本的頁面風格比較相似,缺失的幾個圖示可以手動補充,肯定比從零開發要快很多了:

第三個實測用例:
一個數據分析圖直接轉程式碼
除了能轉化頁面為程式碼,我們日常看到的資料分析圖,再也不用眼饞他們的了,只需要擷取一個圖,放到K1裡,告訴它生成Python程式碼,一鍵生成出來:

下面是Kimi根據視覺化截圖和一句提示詞,生成介面程式碼的推理過程,影片無加速推理思考時長大約60秒:
根據生成的程式碼,我複製過來儲存為py指令碼,直接執行後得到如下氣泡圖。看到能夠生成與輸入相同型別的圖形,並且有幾分相似,程式碼一次能夠執行透過,我相信已經達到很多人的要求了。

第四個實測用例
:一鍵解讀論文結果圖
論文文獻裡也好,日常看的圖片也好,比如下面8幅圖,論文作者想要傳達什麼含義,如果一時沒看懂,直接截圖一下,扔給K1,

就這個圖,如果叫我去解析,沒有個二三十分鐘是肯定完不成的,但是K1幾乎秒懂,推理過程45秒:
建議感興趣的閱讀上面推理過程,K1準確分析了論文6個子圖說明的問題,還最後做了如下的詳細分析:

其他的科學問題,數理化問題,生活問題,截個圖,提問K1,就好了。
新發模型K1使用方法
從哪裡進入Kimi視覺思考模型?
如下圖所示,進入Kimi.ai官網後,點選
戴眼鏡的Kimi
:

認準戴眼鏡的Kimi圖示
然後螢幕中上區域開始出現這樣的會話區域:

輸入圖片,再適當寫一句提示詞,K1瞬間讀懂圖片中的複雜資訊。
最後總結
本文我實測了四個很具挑戰性的任務,結果表明眼鏡版K1在視覺推理方面的硬核表現,能讀取圖片裡的每一幀,並給出中間詳細推理過程,模型表現確實夠硬。
希望透過本篇使用教程,讓朋友們及時瞭解到最新大模型,並將它應用到你的日常工作和學習中,用好了,效率指定是提速的。
最後說一句,Kimi新發的這個眼鏡版K1模型,免費使用。使用方法如下三種,或者點選文章最後的閱讀原文:
網頁:kimi.com
APP:Kimi智慧助手
小程式:微信搜尋“Kimi智慧助手”
以上全文2116字,15圖,4個錄屏影片。如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個
,謝謝你看我的文章,我們下篇再見!