全網首測！ Qwen3 vs Deepseek-R1 資料分析哪家強？

作者 | 李飛

昨天凌晨，阿里巴巴開源新一代通義千問模型 Qwen3，AI Agent 廠商數勢科技的資料分析智慧體 SwiftAgent 已率先完成全面適配，併發布了 Qwen3 與 DeepSeek-R1 的測評報告，下面是具體評測內容，我們來看看在企業級的資料分析和智慧決策場景上，Qwen3 與 DeepSeek-R1 到底有哪些差異？

(宣告: 本次測評主要針對 Qwen3-32B 和 Qwen3-235B-A22B, 對比 Qwen2.5-72B 和 R1 效果)

針對資料分析 Data Agent，我們有如下關鍵節點 (如圖 1），分別是改寫，任務編排，工具選擇和引數解析，工具執行和總結等。其中資料查詢工具又涵蓋了複雜的能力，例如如何將使用者的查詢語句解析成對應的語義層要素 (時間，指標，維度，邏輯運算元等）。不同節點的準確性對最終結果都會造成較大的影響。

圖 1：資料分析 Agent 流程概要

當前在落地的過程中，不同廠商針對其中節點的準確性最佳化基本都是三種手段，分別是提示詞工程、RAG 增強判斷和模型微調等。這三種手段的實施成本是遞進的，效果也不可控。因此，數勢科技一直秉持積極擁抱最先進的開源大模型的原則，踐行第一時間適配，以提高 Agent 產品的效果，降低交付中的實施成本。先說結論，在上下文改寫、任務編排和工具呼叫、資料查詢、圖表生成、總結反思五個方面，Qwen3 對比 Qwen2.5 有極大的效果提升，對比 DeepSeek-R1 模型也不遑多讓，甚至在某些環節上還有意外的驚喜。成本上，根據阿里官方的報告，Qwen3 模型在整體部署上成本極大地降低，進一步降低了各個企業部署和使用的門檻。

本次，數勢科技的 SwiftAgent 產品針對其中的不同節點，對 Qwen3 大模型進行整體測評，並對比以往模型的效果。

上下文改寫

Chat 類產品首先接收的就是使用者的輸入語句，由於會話通常存在上下文干擾，以及使用者的輸入往往都是非標準的，因此我們必須對使用者當次的輸入語句進行改寫判斷，符合“優質進，優質出”的原則。以下測試我們分別把上下文帶入到大模型中進行改寫，讓大模型判斷使用者問題的語境並進行改寫的判斷。

總結：針對 Case1 的語境，不應該進行改寫，出乎意料的只有 Qwen3-32B 回答準確；針對 Case2，由於本輪提問的語境是絕對時間，Qwen2.5-72B 會基於上輪時間進行推理，對本輪 Query 進行改寫，其他模型則理解語境不會判斷成改寫。針對 Case3，INV 代表“當日庫存量”的縮寫，當大模型不理解該術語時，會擅自繼承上輪內容並改寫本輪 Query，4 個模型均沒辦法正確回答。

任務編排和工具呼叫

總結：Qwen2.5-72B 在資料分析任務拆解和工具呼叫選擇上，均落後於其它三個模型。其中，Case2 中我們期望透過子任務的拆解執行提高最終結果生成的準確性，DeepSeek-R1 以及 Qwen3-32B 和 Qwen3-235B-A22B 推理和非推理模式均表現優秀，Qwen2.5-72B 無法成功拆解相應任務，Case3 中，Qwen2.5-72B 在第 5 步任務中無法識別到應該呼叫歸因分析工具，其它三個模型均能做到。可見 Qwen3-32B 做到了成本下降了，效果反而更好了。

資料查詢

資料要素解析中，對時間要素的識別往往是較難的，因為時間是帶動態更新和邏輯推理特性的。例如：“我行銷售額較去年增加多少”是時間的隱性推理，實際表達的時間是“今年”和“去年”。此外還有相對時間和絕對時間理解，以及周的開始和結束時間推理識別等。

總結：在這三種時間難例 Case 下，DeepSeek-R1 以及 Qwen3-32B 和 Qwen3-235B-A22B 推理和非推理模式均領先於 Qwen2.5-72B，其中 Qwen3-32B 的效果已經完全接近 R1 的識別效果。

資料要素解析中，對實體的抽取也是要素匹配的一個前提條件，實體抽取的質量好壞會干擾後面要素匹配的效果，針對以往的難例 case，不同模型的測試情況如下：

總結：DeepSeek-R1 和 Qwen3-32B 在 Case1 和 Case2 的效果優於其他模型，然而 DeepSeek-R1 在 Case3 上漏識別了維度，總體來看，實體語義識別的效果差距不大，反而 Qwen3-32B 的 Dense 模型效果要優於其他模型。

圖表生成

本次評測中，我們採用 Echart 圖表生成的方式來驗證不同模型基於資料的理解後，生成並渲染圖表的效果

總結：Qwen72B 對於資料理解和程式碼生成的能力弱於 Qwen3-32B, Case2 和 Case3 中甚至出現了資料遺漏的現象。此外，Qwen3-32B 在渲染排版上略遜色於 Qwen3-235B-A22B 和 DeepSeek-R1 模型。

總結反思

這裡，我們測試了針對生成的錯誤程式碼，大模型是否可以結合錯誤反思並生成準確的程式碼。

總結：原始程式碼存在包括【型別錯誤】、【潛在的空列表錯誤】、【字串與整數操作問題】等資料分析中常見的程式碼問題。經過四個不同模型反思最佳化後，Qwen2.5-72B 選擇直接丟棄不符合數值格式的資料，雖然能夠跑通，但並不是資料預處理時的最佳選擇，優化了潛在的空列表錯誤。DeepSeek-R1 對資料進行了強制轉換，但傳入無法強制轉換的型別時，依舊會報錯，且並未解決潛在的空列表錯誤。Qwen3 的兩個模型對資料型別做了最符合預期地處理，優先嚐試轉換為數值，無法強制轉換才選擇拋棄，但同樣並未解決潛在的空列表錯誤。關於潛在的空列表錯誤，在二次提示最佳化後，四個模型均給出最佳化方案，達到預期。

此外，我們還測了一些其他和資料分析相關的大模型能力，例如數學推理計算能力，我們從網上借鑑了一些數學測試題，先說結論，DeepSeek-R1 模型和 Qwen3-235B-A22B 在數學計算推理能力上要優於另外兩種模型，符合 Scale Law 的認知。

具體來說，Case1 中，DeepSeek-R1 模型和 Qwen3-235B-A22B 均回答正確，其他兩個模型回答錯誤。Case2 和 Case3 中所有模型均回答準確。

綜上所述，在資料分析 Agent 構建方面，Qwen3 模型的釋出對於 Agent 的構建有極大的提升作用。無論是在任務規劃、程式碼生成、數學計算和語義識別等方面，Qwen3 模型都表現較為出色，其中 Qwen3-32B 模型也遠優於上一代模型，甚至接近於 DeepSeek-R1 模型，且部署成本更低，消費級顯示卡即可實現推理自由，對企業使用大模型來說，是重大的利好。

在 Qwen3 模型釋出的首日，數勢科技 SwiftAgent 率先完成了對 Qwen3 的全面適配，並對 Agent 的中間環節進行了能力升級和創新性功能開發，為企業客戶構建 AI 驅動的資料分析和智慧決策提供了更高效能、更低成本的智慧產品。

活動推薦

AICon 2025 強勢來襲，5 月上海站、6 月北京站，雙城聯動，全覽 AI 技術前沿和行業落地。大會聚焦技術與應用深度融合，匯聚 AI Agent、多模態、場景應用、大模型架構創新、智慧資料基建、AI 產品設計和出海策略等話題。即刻掃碼購票，一同探索 AI 應用邊界！