體驗kimi的新功能後,我為月之暗面捏把汗

轉載自 | 藍字計劃
作者 | Hayward

過去半年, AI 行業可謂是群芳爭豔。
DeepSeek R1 橫空出世成了明日之星,騰訊元寶、豆包、夸克等也搭上了 DeepSeek 的便車吃香喝辣,還有誓要在技術上和 DeepSeek R1 的一較高下的阿里通義千問捷報頻頻
唯獨去年的投放王者,鋪天蓋地出現在各個廣告位的kimi,好像一下子沒了訊息。
而就在這幾天,我們終於等到了 kimi 的“大動作”。 28 日,kimi 宣佈和財新傳媒達成合作,當用戶使用Kimi 提問財經相關內容時,Kimi “將結合財新傳媒旗下專業報道內容,透過模型生成答案,為你提供及時、可信、可證的高質量財經資訊”。
好傢伙,當我們以為 kimi 已經擺爛躺平的時候,原來還是有在暗地裡偷偷努力的。
選擇和財新網合作發力財經垂直領域, kimi 的確對 AI 工具的發展路線有了一些自己的新思考。
畢竟只比模型能力, kimi肯定不如能免費接入的 DeepSeek ,但與專業財經媒體強強聯合,甚至日後拓展到和更多垂直領域的專業媒體合作提供信源,能增強kimi 在特定垂直領域的公信力,長期來看大有可為。
不過在kimi 釋出了合作訊息後,我就第一時間測試了擁抱新功能的 kimi。從測試結果來看,我有點想收回上面劃線的這段話……
AI 幻覺開刀
kimi這波和財新網的合作,長期來看是能給其他 AI 工具帶來一些啟發的。
2025 年初AI 大爆發以來,各式各樣的 AI 工具不僅給我們帶來了便利,也帶來了一些問題,最嚴重的要數 ”AI 幻覺”
簡單來說,AI 幻覺指由 AI 生成的看似合理但實際錯誤的資訊。這些資訊可能是一段文字裡的部分資料、可能是不同場景的張冠李戴,甚至可以是某個論斷全是無中生有的。
這很容易會給 AI 的使用者帶來全方位的不安全感,這就意味著不僅你用 AI 來查資料容易得出錯誤的資訊,甚至一些學術概念、對某些事物的定義都可能是 AI 自己編造出來的。
目前業界對於 AI 幻覺的成因還沒有一個統一且準確的答案,但普遍認為 AI 幻覺和訓練 AI 資料缺陷、模型或訓練機制缺陷、生成和推理缺陷和外部環境與驗證的缺失等有關。
這幾個原因中,資料缺陷最為關鍵。如果在訓練 AI 時餵養了錯誤或過時的資料,輸出時就容易給出錯誤的答案,可以理解為 AI 教壞了
而資料又是 AI 輸出答案的“源頭”,一開始的資料就錯了,無論後期模型結構和訓練資料的方式如何調整、生成和推理過程怎麼最佳化,都很難輸出正確的答案。
特別是財經領域的內容,權威資料、專業論斷是底色,確保 AI 所引用的資料來源的權威性這件事的確非常重要。
相比過去一些 AI 工具用各種方式篩選可靠信源的做法,kimi 的確算得上“簡單粗暴”,直接和權威的信源合作,更加細化地限定了 AI 資料來源的範圍,理論上的確能在資料來源層面降低 kimi 出現 AI 幻覺的可能性。
Kimi 和財新網合作之後到底效果怎麼樣?咱們直接來實測看看。
不盡人意
剛好 29 日瑞幸釋出了2025 年第一季的的財報,當前對財報進行分析的媒體還不多,這是個測試 kimi 能不能勝任財報分析工具的好機會。
 kimi 的問題視窗中我選中「長思考」增強大模型的邏輯推理能力,提示詞為“分析一下瑞幸的最新財報”,可以看到 kimi 的確能識別到所謂的“最新財報”是指 2025 年第一季度財報。
在關鍵的資料抓取方面,總淨收入、營業利潤與利潤率還有 GMV 等沒有出現數據錯誤的問題,對於瑞幸大家比較關心的門店數量、擴張情況還有成本等資訊,kimi 也能給到了。
不過,kimi 的這份“財報分析”,更像是一種資料的提取和彙總,對於瑞幸業務的整體趨勢、變化與增長,沒有太詳細的見解。
而且更令人無語的是,問 kimi 這個問題,我根本不知道和財新網合作給 kimi 帶來了多少助力:因為整個回答的內容引用,根本沒見到財新網的影子。
難道是財新網根本沒有寫瑞幸最新財報的分析?No No No 30 日財新才新鮮出爐了一篇針對瑞幸最新財報的分析,標題為《瑞幸咖啡一季度同店銷售額重回增長 黎輝接任公司董事長》。
如果你想在讓 kimi 和財新網的內容聯結起來,得把提示詞換成“結合財新網的內容,對瑞幸最新的財報進行分析”
這時,在資料來源這一塊終於能看到帶有小藍標的財新網了。除了上面提到的財新網最新的財報分析外,還引用了不少財新網之前為瑞幸撰寫的文章,同時 kimi 也會參考第三方財經平臺的內容,對瑞幸的財報進行分析。
內容方面,調整了提示詞後新的內容的確更加紮實,在資料之外還會對內容進行進一步的概括和總結,比如在談及瑞幸的財務資料時,會結合歷史同期的資料,總結出“盈利能力正在不斷增強”的觀點。
另外,由於財新網的文章重點提到了瑞幸的管理層變更及後續影響,kimi 的財報分析也在最後段落增加了相關內容,讓分析的段落格式和財新的內容基本保持一致。
客觀來說,加入了財新網的關鍵詞後的確能提高整篇財報的可讀性,特別是部分段落融入了財新網的觀點後,讓文章內容更加豐滿,能幫助財經小白更容易看穿冷冰冰數字背後的深意。
只是,依然尷尬的點是,調整提示詞後的財報分析,只有最開始的一段資料來源是財新網,後續內容的資料依然是來自第三方網站,理想中的“財新網為 kimi 背書”的作用有限。
特別是如果不新增提示詞,kimi 大機率不會主動抓取財新網的內容作為資料來源,這對使用者的學習成本就有點高了。而且哪怕添加了專門的提示詞後來自財新的內容也不多,這毫無疑問會削弱 kimi 在財經這一垂直領域的“專業”印象。
再者,對比kimi 輸出的內容和財新原版的內容,kimi 更多隻在做提取部分內容進行總結、加工的工作,從內容專業度、權威性來考慮,可能還不如直接看財新網的報道更加簡單直接。
不過考慮到想看財新網的全部內容需要付費訂閱,或者 kimi 的意義就在於作為一個免費渠道看財新網的付費新聞?
但財新網自身的價值就在於付費訂閱業務,於情於理都不可能答應的,而Kimi 的最終目的肯定也不止於此。
所以目前看來kimi 看似和財新是“強強聯合”,但根本沒有發揮出這次合作應有的價值。
Kimi 的根本問題在於,即便有權威媒體作為信源,但依然沒有能力在 AI 生成方面結合資料生成獨特的、有價值的答案來。
這裡再淺淺對比一下 DeepSeek R1,同樣的“分析一下瑞幸的最新財報”提示詞,DeepSeek 給出的財報分析十分詳細,除了常規的財務表現、門店表現、成本和市場戰略等資料外,還主動提到了董事會調整、股權結構變化的關鍵資訊。
最後的瑞幸財報所體現的風險和未來展望,更是 kimi 的財報分析中沒有的。
在分析的細緻程度上也是 DeepSeek 更勝一籌。比如在分析成本壓力時,DeepSeek 會提到和咖啡豆的成本上漲有關,而 kimi 只用一句“成本有所上升”簡單帶過。
你看,不需要接入專業、權威信源的 DeepSeek,照樣能輸出和 kimi 不相伯仲的內容來。
你很難說 kimi 選擇的這條路線沒意義,kimi 的阿喀琉斯之踵,依然是大模型效能。
算力是一切
引用優質資料來源,只是對付 AI 幻覺、提升體驗最基礎的第一步。除此之外還需要更先進的 LLM、匹配更高算力、更強大演算法並對內容進行稽核檢驗等,多個步驟協同進化,提升大模型的整體效能,才能將 AI 幻覺降到最低。
所以你可以看到哪怕 DeepSeek 沒有像 kimi 和專業的資料來源合作,也能提供更優秀的內容,這背後是 DeepSeek  LLM 層面、算力/演算法層面全面領先的證據。
Kimi  DeepSeek 模型能力的差距,已經是引入權威信源都無法彌補的了。
同時這也揭露了當前 AI 工具領域的一個殘酷事實:算力就是一切。
大公司或技術領先公司,能拿到更多算力、能更高效運用算力、能更好的發揮演算法優勢,最終訓練出更加先進、聰明的大模型,模型能力的差距能抹平一切“彎道超車”的手段。
“力大磚飛”,可能才是 AI 的唯一齣路。
其實在測試之前,我對 kimi 還是保有很高期待的。眾所周知財經問題對資料的準確性非常高,一些事實判斷也需要非常高的專業度,這些都是使用 AI 工具諮詢財經問題時最怕出現幻覺的痛點。
本以為 kimi 和財新的合作是一次顛覆,但至少目前看來,kimi 想要開闢出一條全新的道路還“任重道遠”。
或許,AI 幻覺問題還是隻能交給萬眾期待的 DeepSeek R2 來解決了?
出品人:盧樺
主編: 角爺  責編:角爺
版式:伊妍
商務合作 | 加微信:JinjiaoBD


相關文章