測評:用Kimi新模型K2做資料分析,國內Agent有救了

本文概要:
  1. 1. 測評K2、DeepSeek、doubao 三個模型完成相同的資料分析任務,水平如何
  2. 2. 盤點此刻能自動實現全流程資料分析工作的 AI 工具
  3. 3. 使用 AI 完成資料分析的關鍵邊界和基建要求
7月11日,Kimi 低調開源釋出了 K2 模型,根據官方的描述,新的模型在推理、程式碼和 Agent 能力上有了巨大提升。

考慮到當前官網還沒上線 MCP 功能,直接讓它分析 Excel 中的資料會以上下文的形式「硬分析」,一是準確度不高(具體原因在 Part3),二是無法體現它的 Agent 能力。
接下來我們使用一個支援程式碼生成、執行的第三方客戶端,來看看官方宣稱的程式碼、推理和 Agent 能力是不是真的那麼神。
第三方客戶端:Cline-VS Code同任務對比模型:DeepSeek-V3、doubao-Seed-1.6(本來還想測一下 MiniMax M1,但是死活配置不到 Cline)

資料分析任務描述

示例資料是 1000 條客戶服務滿意度提升資料的 Excel 表格,包括服務渠道問題型別問題解決時長滿意度評分問題是否被解決

從資料包含的欄位看,使用這組資料可以至少從以下幾個維度進行分析並得出對業務有助益的洞察:
  1. 1. 分析各個服務渠道的服務質量和效率情況
  2. 2. 分析不同型別問題的處理複雜度
  3. 3. 分析不同型別問題的處理滿意度
  4. 4. 分析不同型別問題的解決結果差異
  5. 5. 分析售後問題在時間上的分佈(如每月的高峰問題時間)
為了考驗各大模型的推理能力,在提出需求時我不會告知它們這些已知的分析方向,讓模型根據欄位自行選擇分析的維度。
提示詞如下:
當前路徑下的`客戶服務滿意度提升資料.xlsx`excel表內是一組客戶服務的資料,請提取其中的欄位和部分資料,根據欄位內容和資料型別選擇可以幫助我瞭解當前客戶服務質量的全貌的視覺化資料分析報告(Markdown 格式即可),報告中要給出業務的最佳化建議。優先使用可選工具撰寫程式碼來完成資料讀取、分析和視覺化報告生成。
由於這幾個大模型特別愛逞能直接使用上下文的形式讀取表格直接貼臉分析,但是它們數學計算能力和超長上下文下的推理能力都是渣渣,所以提示詞最後一句加了一個“能用工具優先用工具”。

關於客戶端 Cline。

這原本是一個輔助程式設計工具,它能直接讀取、編輯本地檔案和終端,可以呼叫大模型完成規劃、執行、反饋的 Agent 任務,還支援自定義大模型。
以及,因為它不靠賣會員賺錢,消耗的都是使用者自己的 API 額度,所以它會以解決問題為第一目標,而不是節省 Token 糊弄事兒。
滿足我們這次資料分析任務的全部條件。

K2 的分析

整個過程消耗了 125 K Token,生成了 1 份3700 字的 Markdown 格式的報告和 1 張包含 6 張視覺化圖表的圖片。

K2 執行任務的步驟如下:
  1. 1. 先檢視要提取和分析資料的 Python 依賴庫有沒有裝好
  2. 2. 寫 Python 程式碼獲取原資料的基本資訊(表格形狀、列名、每列的資料型別)
  3. 3. 撰寫 Python 程式碼分析資料(生成圖表、簡單報告框架以及輸出分析資料)
  4. 4. 綜合歷史分析輸出,最佳化分析報告
檢視它最終給的分析報告,我們前面提到的 5 個描述性分析維度全覆蓋了,K2 完整的分析報告可以在文末獲取,我會把它開源到 Github。

DeepSeek V3 的分析

DeepSeek V3 消耗不到 70K tokens,生成了 1 份 1245 字的分析報告和 4 張視覺化圖表

DeepSeek V3 執行任務的步驟如下:
  1. 1. 編寫 Python 指令碼查看錶格資料
  2. 2. 編寫 Python 指令碼分析資料(輸出圖表+報告文件)
  3. 3. 修復生成圖表時的中文報錯(沒修復成功直接放棄)
我看了一下 DeepSeek 生成分析報告的 Python 程式碼,裡面的結論是在生成程式碼時直接寫死的
這意味著 DeepSeek 依然是“一口吃個胖子”的做事方式,沒有分步執行、逐步迭代最佳化的意識。
(K2 是先寫草稿,再綜合終端裡的歷史輸出分析結果重寫分析報告)

豆包分析產出

豆包 Seed 1.6 模型消耗 ~70K Tokens,生成了 1 份分析報告和13 張圖表。

執行任務的步驟如下:
  1. 1. 思考,然後編寫程式碼分析資料+生成報告
  2. 2. 思考,然後安裝依賴
  3. 3. 思考,輸出“工作完成”
與 DeepSeek 一樣,豆包 1.6 生成的資料分析Python程式碼裡,是包含一併生成了分析報告的內容。其中分析結論也是寫死在程式碼裡的。
這就意味著,它的結論得出,不依賴於資料分析……
也是一口吃個胖子。
以上全部三個模型的分析結果見:https://github.com/comeonzhj/K2-DeepSeek-doubao-dataanalysis

更多資料分析“Agent”

除了使用模型API + Tools的方法讓 AI 幫你分析資料以外,此刻豆包、釦子空間、智譜和混元都支援上傳表格+分析任務,一鍵全自動完成資料分析任務了。
測試下來,只有釦子空間這種 Agent 級別的工具能輸出完整的報告,並且完成度極高(報告裡用的甚至是動態視覺化圖表)。
你可以透過這個連結回看釦子空間分析的全過程:https://space.coze.cn/s/cKS0lzlsuhc/

其次是豆包,整個分析過程它是分步完成的,每個分析維度生成一個 Python 程式碼、根據程式碼輸出撰寫當前維度的結論,並且顯示圖片。
你可以透過這個連結檢視豆包分析的輸出:https://www.doubao.com/thread/w77f89e2efa2da7a0

再其次是智譜的資料分析智慧體,這個功能在 2023 年就有了,倒是最近一年幾乎沒啥迭代。它有更專業的資料分析方法論,但是因為模型的糾錯、二次規劃能力不夠看,以至於大部分任務都是在數次報錯-處理迴圈後,直接崩潰。

這個連結是順利完成分析的一次:https://chatglm.cn/share/0FSTVbDV
元寶也可以直接完成資料分析任務,但是僅限於 Hunyuan 模型。
這是相同任務的完成情況:https://yuanbao.tencent.com/bot/app/share/chat/guqjRQspQfgH

什麼叫勝任資料分析

你應該試過直接把一個 Excel 扔給 DeepSeek,讓它幫你做資料分析。
結果大部分時候都是卡好久,然後給你一頓亂回覆。
核心原因在於,把 Excel 作為附件直接扔給“沒有工具”的 DeepSeek,它只能強行把 Excel 的全部內容讀取成文字,作為上下文進行理解、分析。
這大概相當於,你用“心算”,計算這幾千行資料的平均值、相關係數、分類統計每個渠道的銷量,然後繼續用“心算”根據這些數值,得出分析結論。
並且要在 5 秒內寫成一份 1000 字的資料分析報。
像豆包、釦子空間、智譜它們,之所以能夠勝任資料分析任務,是因為它們內建類程式碼執行工具,全流程都是寫 Python-執行 Python-分析程式碼執行結果
對比剛才你的“心算”過程,相當於,你對一列值使用函式公式計算出平均值,記下來A列平均值:198,然後算其他列。最終把你記下來的這些計算結果彙總,來寫報告。
回到最前面我們使用 Cline 測試的三大模型+工具做資料分析任務的過程。
雖然 DeepSeek 和 Doubao 也用了工具,但是它們使用工具的原因大機率只是因為我在提示詞裡讓他們用工具。
它們並不是真是在使用工具來彌補自己既想“一口吃個胖子”、能力又不允許的短板。
而從 K2 完成任務的過程看,它似乎有點理解了“工具”是什麼了。K2 撰寫的 Python 程式碼,不只為了生成圖表圖表,它把每一個分析維度的分析結果都使用print()列印輸出到終端了。

在最後一步最佳化輸出的初版分析報告時,會用所有 Python 程式碼執行時輸出的資訊作為參考,來填充分析報告。
一旦解決了“一口吃個胖子”的毛病,勝任 Agent 場景就指日可待了。
K2 有前途的(非廣)。

為什麼選資料分析任務

資料分析是一個綜合了任務理解意圖識別任務規劃工具呼叫程式碼編寫反饋糾偏異常處理等可以衡量大模型 Agent 水平的各種環節的任務。
從前面的測評反饋來看,K2 和釦子空間這兩個大模型(Agent)在資料分析任務上的輸出水平已經不輸一箇中等水平的資料分析師了。
這項看起來複雜、高大上的任務,正在隨著 AI 能力提升,越來越沒有“底線”:只要你掌握了基本的資料思維方式、能夠意識到用資料來為業務洞察和決策來提供支援,你動動嘴皮子就可以讓 AI 幫你得出理性的結論。
我在 7 月 14 日會上線一套《資料分析思維養成&AI助力快速把認知落地應用》的課程,幫助大家構建這個“高階職場崗位”必備的資料分析思維
如果你在開營前(含開營當天)看到這篇文章並報名,可以領取海報中的優惠券。
只需 599,就可以掌握並在 AI 的幫助下熟練應用資料分析創造價值。
你將有很大的機會,衝擊那個一百倍於學費的薪資的高階崗位!


相關文章