Kimi在內測的深度研究有點東西,國內Agent也可以開卷了

昨天拿到了 Kimi 深度研究功能的內測許可權,測試了幾個任務,只能用“卷麻了”來形容。
我寫文章的時候,正好在讓它幫我做一個 Agent 的研究,可以先看一下動態的「卷王」
咱也不知道 Kimi 是不是算力用不完,這個新的深度研究功能會在每個任務完成以後生成一個網頁版的視覺化報告。
我測試的幾個任務,每個網頁報告的程式碼都在 10 萬字符上下,全都是毫無討巧的硬寫……
下面是上面動態 gif 完成任務以後的網頁

你可以在電腦端開啟檢視:https://www.kimi.com/preview/d1dluu2nae7a21forncg?blockId=108
過程很卷、動作也很規範,只是結果稍微有點不合預期。

Kimi深度研究淺析

下面是我下達任務的指令:
蒐集過去一個月關於 Agent 的研究和實踐經驗分享,給出當下全球範圍內 AI 領域對 Agent 開發的前沿方向、共識和非共識。注意,在研究新源方面僅參考一手資訊,即從業者或者行業團隊發出去的覆盤報告、文章或者研究報告。此刻投身 Agent 領域的團隊包括但不限於:Anthropic、OpenAI、Devin、MiniMax、Manus、Cursor、Windsurf、Cline、Genspark、Kimi、Perplexicy,確保你的檢索和研究覆蓋他們。
任務下達後 Kimi 會進行一個強制性的追問補齊,因為我上面的指令已經比較清晰了,所以它問的兩個問題不疼不癢:

注意,我這裡明確提到可以不考慮商業化相關內容,但如果你看過前面它生成的報告就能知道我為啥說它給出的結果不合預期了。
但全流程動作很標準:
先做全面檢索,得到 40 篇相關文章。

這裡有個出彩的動作因為我要求全球範圍內且主要廠牌都是國外產品,所以 Kimi 的檢索範圍主要是海外網站,包括了我們沒法開啟的 Anthropic 官網。
然後逐篇文章檢視,並且邊看邊總結髮現,並進行進一步的深入搜尋。

這個流程跟我之前“人肉”做行業研究的流程已經幾乎完全一樣了:關鍵詞 —> 搜尋 —> 閱讀 —> 發現新關鍵詞 —> 搜尋新關鍵詞 —> ……
(吐個槽:觀察 Kimi 對它開啟的每一篇文章的分析,大概有個悲哀的結論:國內的文章全是泛泛而談的行業趨勢吹水,國外的博文則都是“發現了新的技術關鍵詞,我需要進一步研究它”)
從前端顯示的研究過程看,Kimi 採用的是“隧道視野式”工作方法,找到新詞就會深度研究,一直往下挖,全然忘了整體的任務。
以至於進行了幾十步“搜尋-閱讀-總結”後,主線任務還沒完成就被終止了……

估計是超出了 50 次工具呼叫限制(這個任務經過了 8 次搜尋 + 42 次使用瀏覽器),結果就是隻能使用這些僅有的資料撰寫最終報告。
可能因為前期廣泛搜尋時有大量關於趨勢、商業化的內容,導致最終生成報告時無可奈何的偏離了最初的要求。
對比 Gemini 的深度研究,它的研究策略則是“金字塔”式:先給出整體的計劃,然後分步執行每個子任務,最後確保每個子任務執行完。
這樣的好處是可能得到的資訊不完善,但是不會偏離研究主題要求。

再說 Kimi 研究模式最卷的地方:文字報告不滿足,非要寫一個視覺化網頁!
開啟前面那個連結,檢視原始碼就是 Kimi 一個字一個字摳出來的全部程式碼,一共 7.5 萬個字元。
光輸出這些 Token,就花了至少 5 分鐘……

但是Kimi站起來了

雖然這波研究低於預期,但是比國內更早出現的其他“深度”研究好了不止一個檔次。
下面這個是國內成名已久的另一個AI搜尋工具的過程內容,滿嘴跑火車:

標紅的部分全是不相關或者胡說八道的,看到它給出的這個過程內容,我直接把視窗關掉了。
從 Kimi 的任務過程看,他背後是模型在任務理解、過程約束引導、結果篩選幾個場景下的能力提升。
別小看這幾個能力,說實話,國內的大模型沒幾個能做到……
下面是某大廠的 Agent 工具完成相同任務時的流程,基本只能做到簡單的關鍵詞拆分、組合、搜尋、總結

全程沒有對檢索結果的審視和挖掘,簡單歸簡單,好歹完成了主線任務。
另一個大廠的模型在完成這項任務時,消耗了大概 2000 個 Token 在一個學術論壇上,然後消耗了 3000 多 Token 分析 Github 上的小眾專案,整個研究過程的步驟完全脫離研究規劃

在全部深入研究過程的步驟都與研究主題不相關的情況下,強行寫出了一篇一萬兩千字的報告,我研究需求裡提到的團隊,在報告裡只有 Anthropic 和 OpenAI 出現了,還是完全不相關的行業趨勢……
DeepSeek 就不說了,在深度研究領域裡,高智商幻覺最可怕。
DeepSeek 編出來的“研究結果”能讓你幫它數錢……
這篇不是尬吹 Kimi,只是一個簡單的橫向對比。
從 Kimi 深度研究任務的表現來看,它給了我們一點信心:國內 Agent 賽道也可以捲一捲了。
之前搞不動的根本原因是模型不行,Agent 的 RaAct 迴圈中,環境感知、任務規劃和反饋迭代三個步驟,都嚴重依賴模型是不是“細節控”。
  • • 能不能捕捉到任務指令中使用者的核心意圖,確保任務方向正確
  • • 能不能把任務拆解成可控的原子單元,低耦合的執行和監控
  • • 對子任務的執行結構具不具備審視能力,能不能糾偏
這幾個能力點,從 Kimi 深度研究這個功能的執行流程看,及格已經完全沒問題。
(上面任務不達預期,個人感覺主要原因是工具呼叫超量了,Cursor 也經常這樣但是可以“續杯”)

開整吧

我整理一些關於 Agent 的資料,包括 Anthropic、OpenAI、Google 的實踐指導手冊,以及此刻頂級的 Agent 類專案的提示詞和工具列表,放在了騰訊文件正在內測的「知識空間」中。
這個空間挺有意思的,它內建一個 AI問答,可以基於空間內的知識資料回答你問題。

這個空間後續會作為「AI學習行動圈」的圈友空間,相關文件、資料都會放在這裡面。
我從 23 年開始和起點課堂一起運營「AI學習行動圈」,截止到此刻已更新 1500+主題,與接近 4000 關注 AI 的實戰派在過去 500+ 天裡每天討論、交流 AI 實戰應用。
學習圈目前有 3 個核心的學習交流“陣地”:
  1. 1. 知識星球: 知識資料技巧沉澱的核心渠道,隨時可查閱
  2. 2. 微信交流群: 目前 6 個群,每天都有圈友交流分享 AI 使用心得
  3. 3. 吹水局直播: 工作日晚 19:30-21:30,每場一個 AI 應用主題

陣地一:知識星球

我在星球裡主要維護「實戰分享」「工具箱」和「情報局」三個標籤

實戰分享是可以在日常工作和生活中直接應用的提示詞和效率工具。上面截圖裡的 Step-Back 提示詞就非常好用,堪比 o4。在公眾號、直播中演示的所有 AI 實戰應用的提示詞也都在這個標籤下。
AI 工具和鮮知道就是好用的、熱門的 AI 工具、資訊分享,我把那些太技術、太浮誇的都篩選了,放進這個標籤的都是可以直接用來的好玩兒!
星球還有一個“專欄”體系,目前的定位跟標籤差不多。

如果你正在找一個 能第一時間瞭解最新、實用的 AI 資訊和實戰技巧 ,遇到任何 AI 應用問題能 隨時找到同行人交流、請教、討論 的圈子,

陣地二:微信交流群

我們為圈友配了微信交流群,現在 6 群快滿了。
微信群裡每天一早有 AI 早報,上下午還有“讀報時間”,以及我每天不定期刷屏級的各種 AI 工具體驗、提示詞編排思考、行業新聞解讀同步。

以及,你可以在群裡討論任何與 AI 相關的工具、應用問題,幾乎都能找到答案。

如果你正在找一個 能第一時間瞭解最新、實用的 AI 資訊和實戰技巧 ,遇到任何 AI 應用問題能 隨時找到同行人交流、請教、討論 的圈子,
立刻掃碼領取 50 元立減金加入

陣地三:AI吹水局直播

剛覆盤我專門去影片號後臺看了一下直播記錄,過去一年一共為學習圈做了 130 場 AI 應用、實戰、熱點解讀相關的直播,累計肝了 257 小時!

有十幾場僅學習圈成員可觀看的閉門直播,平均觀看時長都是 1 個多小時,有時逼近接近 2 小時!

沒點乾貨,平均停留時長到不了這水平的。
如果你正在找一個 能第一時間瞭解最新、實用的 AI 資訊和實戰技巧 ,遇到任何 AI 應用問題能 隨時找到同行人交流、請教、討論 的圈子,
立刻掃碼領取 50 元立減金加入


相關文章