全網首測! Qwen3 vs Deepseek-R1 資料分析哪家強?

作者 | 李飛
昨天凌晨,阿里巴巴開源新一代通義千問模型 Qwen3,AI Agent 廠商數勢科技的資料分析智慧體 SwiftAgent 已率先完成全面適配,併發布了 Qwen3 與 DeepSeek-R1 的測評報告,下面是具體評測內容,我們來看看在企業級的資料分析和智慧決策場景上,Qwen3 與 DeepSeek-R1 到底有哪些差異?
(宣告: 本次測評主要針對 Qwen3-32B 和 Qwen3-235B-A22B, 對比 Qwen2.5-72B 和 R1 效果)
針對資料分析 Data Agent,我們有如下關鍵節點 (如圖 1),分別是改寫,任務編排,工具選擇和引數解析,工具執行和總結等。其中資料查詢工具又涵蓋了複雜的能力,例如如何將使用者的查詢語句解析成對應的語義層要素 (時間,指標,維度,邏輯運算元等)。不同節點的準確性對最終結果都會造成較大的影響。

圖 1:資料分析 Agent 流程概要
當前在落地的過程中,不同廠商針對其中節點的準確性最佳化基本都是三種手段,分別是提示詞工程、RAG 增強判斷和模型微調等。這三種手段的實施成本是遞進的,效果也不可控。因此,數勢科技一直秉持積極擁抱最先進的開源大模型的原則,踐行第一時間適配,以提高 Agent 產品的效果,降低交付中的實施成本。先說結論,在上下文改寫、任務編排和工具呼叫、資料查詢、圖表生成、總結反思五個方面,Qwen3 對比 Qwen2.5 有極大的效果提升,對比 DeepSeek-R1 模型也不遑多讓,甚至在某些環節上還有意外的驚喜。成本上,根據阿里官方的報告,Qwen3 模型在整體部署上成本極大地降低,進一步降低了各個企業部署和使用的門檻。

本次,數勢科技的 SwiftAgent 產品針對其中的不同節點,對 Qwen3 大模型進行整體測評,並對比以往模型的效果。
上下文改寫
Chat 類產品首先接收的就是使用者的輸入語句,由於會話通常存在上下文干擾,以及使用者的輸入往往都是非標準的,因此我們必須對使用者當次的輸入語句進行改寫判斷,符合“優質進,優質出”的原則。以下測試我們分別把上下文帶入到大模型中進行改寫,讓大模型判斷使用者問題的語境並進行改寫的判斷。

總結:針對 Case1 的語境,不應該進行改寫,出乎意料的只有 Qwen3-32B 回答準確;針對 Case2,由於本輪提問的語境是絕對時間,Qwen2.5-72B 會基於上輪時間進行推理,對本輪 Query 進行改寫,其他模型則理解語境不會判斷成改寫。針對 Case3,INV 代表“當日庫存量”的縮寫,當大模型不理解該術語時,會擅自繼承上輪內容並改寫本輪 Query,4 個模型均沒辦法正確回答。
任務編排和工具呼叫

總結:Qwen2.5-72B 在資料分析任務拆解和工具呼叫選擇上,均落後於其它三個模型。其中,Case2 中我們期望透過子任務的拆解執行提高最終結果生成的準確性,DeepSeek-R1 以及 Qwen3-32B 和 Qwen3-235B-A22B 推理和非推理模式均表現優秀,Qwen2.5-72B 無法成功拆解相應任務,Case3 中,Qwen2.5-72B 在第 5 步任務中無法識別到應該呼叫歸因分析工具,其它三個模型均能做到。可見 Qwen3-32B 做到了成本下降了,效果反而更好了
資料查詢
資料要素解析中,對時間要素的識別往往是較難的,因為時間是帶動態更新和邏輯推理特性的。例如:“我行銷售額較去年增加多少”是時間的隱性推理,實際表達的時間是“今年”和“去年”。此外還有相對時間和絕對時間理解,以及周的開始和結束時間推理識別等。

總結:在這三種時間難例 Case 下,DeepSeek-R1 以及 Qwen3-32B 和 Qwen3-235B-A22B 推理和非推理模式均領先於 Qwen2.5-72B,其中 Qwen3-32B 的效果已經完全接近 R1 的識別效果。
資料要素解析中,對實體的抽取也是要素匹配的一個前提條件,實體抽取的質量好壞會干擾後面要素匹配的效果,針對以往的難例 case,不同模型的測試情況如下:

總結:DeepSeek-R1 和 Qwen3-32B 在 Case1 和 Case2 的效果優於其他模型,然而 DeepSeek-R1 在 Case3 上漏識別了維度,總體來看,實體語義識別的效果差距不大,反而 Qwen3-32B 的 Dense 模型效果要優於其他模型。
圖表生成
本次評測中,我們採用 Echart 圖表生成的方式來驗證不同模型基於資料的理解後,生成並渲染圖表的效果

總結:Qwen72B 對於資料理解和程式碼生成的能力弱於 Qwen3-32B, Case2 和 Case3 中甚至出現了資料遺漏的現象。此外,Qwen3-32B 在渲染排版上略遜色於 Qwen3-235B-A22B 和 DeepSeek-R1 模型。
總結反思
這裡,我們測試了針對生成的錯誤程式碼,大模型是否可以結合錯誤反思並生成準確的程式碼。

總結:原始程式碼存在包括【型別錯誤】【潛在的空列表錯誤】【字串與整數操作問題】等資料分析中常見的程式碼問題。經過四個不同模型反思最佳化後,Qwen2.5-72B 選擇直接丟棄不符合數值格式的資料,雖然能夠跑通,但並不是資料預處理時的最佳選擇,優化了潛在的空列表錯誤。DeepSeek-R1 對資料進行了強制轉換,但傳入無法強制轉換的型別時,依舊會報錯,且並未解決潛在的空列表錯誤。Qwen3 的兩個模型對資料型別做了最符合預期地處理,優先嚐試轉換為數值,無法強制轉換才選擇拋棄,但同樣並未解決潛在的空列表錯誤。關於潛在的空列表錯誤,在二次提示最佳化後,四個模型均給出最佳化方案,達到預期。
此外,我們還測了一些其他和資料分析相關的大模型能力,例如數學推理計算能力,我們從網上借鑑了一些數學測試題,先說結論,DeepSeek-R1 模型和 Qwen3-235B-A22B 在數學計算推理能力上要優於另外兩種模型,符合 Scale Law 的認知

具體來說,Case1 中,DeepSeek-R1 模型和 Qwen3-235B-A22B 均回答正確,其他兩個模型回答錯誤。Case2 和 Case3 中所有模型均回答準確。
綜上所述,在資料分析 Agent 構建方面,Qwen3 模型的釋出對於 Agent 的構建有極大的提升作用。無論是在任務規劃、程式碼生成、數學計算和語義識別等方面,Qwen3 模型都表現較為出色,其中 Qwen3-32B 模型也遠優於上一代模型,甚至接近於 DeepSeek-R1 模型,且部署成本更低,消費級顯示卡即可實現推理自由,對企業使用大模型來說,是重大的利好
在 Qwen3 模型釋出的首日,數勢科技 SwiftAgent 率先完成了對 Qwen3 的全面適配,並對 Agent 的中間環節進行了能力升級和創新性功能開發,為企業客戶構建 AI 驅動的資料分析和智慧決策提供了更高效能、更低成本的智慧產品。
活動推薦
AICon 2025 強勢來襲,5 月上海站、6 月北京站,雙城聯動,全覽 AI 技術前沿和行業落地。大會聚焦技術與應用深度融合,匯聚 AI Agent、多模態、場景應用、大模型架構創新、智慧資料基建、AI 產品設計和出海策略等話題。即刻掃碼購票,一同探索 AI 應用邊界!

相關文章