阿里最新開源模型Qwen3到底能不能打?不妨上「通義App」親自試試

 作者 | 付秋偉
4 月 29 日凌晨,阿里正式釋出並開源了最新的通義千問 Qwen3 模型(以下簡稱 Qwen3),並迅速登頂多項大模型測評榜單,引發了全行業的關注。
據介紹,Qwen3 在推理、指令遵循、工具呼叫、多語言能力等方面均大幅增強,尤其是旗艦模型 Qwen3-235B-A22B,在多個國際權威基準測試中重新整理了開源模型紀錄。
Qwen3 的實際表現到底如何?是否真如榜單這般?「AI 前線」在第一時間對 Qwen3 展開了多角度的實測體驗,看看 Qwen3 到底“能不能打”。感興趣的小夥伴也可以透過「通義 App」或者網頁版 tongyi.com 自行體驗 Qwen3-235B-A22B。
本次測評透過官方推薦的「通義 App」和網頁版進行,測試結果均為首次向模型提問而獲得的答案。測試內容主要包含兩大核心場景,一是程式碼、數學、邏輯推理等專業場景,二是文字創作和旅行規劃等大眾場景,希望從這兩個維度幫助大家快速理解 Qwen3 的優勢以及能力邊界。
Part 1:程式碼、數學與
邏輯推理能力優異,推理速度驚人
首先我們來測試一下 Qwen3 的推理能力,包含程式碼生成時的複雜邏輯陷阱、數學推理與嘗試邏輯、多角度論證能力三項測試,這三項測試對模型的 動態自洽性驗證 與 隱藏規則挖掘 能力、符號邏輯 與 現實語義的對映關係處理、角色立場/學科領域/倫理框架 間的動態切換等方面提出了較高要求。
01_ 程式碼生成時的複雜邏輯陷阱
指令: 請用 Python 編寫一個函式,輸入是一個整數列表,返回列表中所有偶數的平方和。注意:如果列表為空或沒有偶數,函式應返回 None。需要處理列表中的負數、零和極大值(例如 10^18),並確保時間複雜度最優。
測評點:測試模型能否正確處理空列表、負數平方的正值轉換、超大數值計算的溢位問題,以及迴圈終止條件的邏輯嚴密性。
推理過程
推理用時:44s
最終結果
首先作為 UI 控,通義返回的程式碼支援深 / 淺色版本這一點,必須給好評!並且在即時推理過程中的一些邏輯序列會用各種有趣的 Emoji 圖示呈現,相比於純文字式的顯式推理表達,在等待過程中確實更加賞心悅目,也更願意等待它的結果。
對於程式碼結果的準確性,如果看不懂或者懶得驗證,不妨用 DeepSeek R1 來校驗一下。
我們將同樣的問題傳送給 DeepSeek,同樣開啟深度思考(R1)模式和聯網搜尋,最終 DeepSeek 耗時 80s 給出了相近的結果。為方便展示,我們截取了問題和答案的頁面,如下:

有趣的是,當我詢問 DeepSeek 它的答案跟 Qwen3 有何區別時,它給出了讓我意想不到的回覆。
DeepSeek 認為 Qwen3 的程式碼結果細節上更優;而從推理耗時來看,Qwen3(44s)也比 DeepSeek R1(80s)用時也更少。
02_ 數學推理與常識邏輯
指令: 某電商平臺滿 200 減 50,會員可以在滿減基礎上額外享 9 折。使用者 A 購物車有 3 件商品,價格分別為:120 元(非會員價;會員價為 115 元)、150 元(會員價;非會員價格為 160 元)、80 元(通用價)。若使用者 A 是非會員,如何組合購買最省錢?若是會員呢?請分步驟解釋。
測評點:測試模型能否識別會員價商品的購買條件限制、計算最優組合時的邏輯完備性等。
推理過程
推理用時:36s
最終結果
當然,電商優惠算賬類題目對於大多數人而言並不難,並且上述題目也屬於非常簡單的算術級別,不用 AI 也能很快獲得相同的結果。但是對於大模型而言,多條件約束類問題其實是有一定的挑戰的,至少當我們向 DeepSeek R1 提出同樣的問題後,儘管獲得了正確答案,但是推理耗時 4min 左右,中間有段時間甚至陷入反覆推理自證的環節。
03_ 多角度論證能力
指令: 人工智慧是否會導致大規模失業?請從經濟學、倫理學、技術發展史三個角度展開分析,每部分至少提出兩個論據,最後給出綜合結論。
測評點: 論證結構的層次性、論據的多樣性(如自動化替代 vs 新職業創造)、結論的邏輯推導是否嚴謹。
推理過程
推理用時:18s
最終結果
從結果來看,無論是推理的邏輯性、表達的結構性,以及對經典理論、案例、資料的引用都無可挑剔。綜合結論採用“總分總”的方式進行簡短總結,清晰易懂,對於很多特定場景幾乎可以拿來即用,但前提是資料無誤。
同樣我們也問了 DeepSeek R1 同樣的問題。
最終,DeepSeek R1 以更快的速度(14s)給出了答案。從答案的詳細程度和綜合結論的條理性來看,Qwen3 似乎更勝一籌。
但是對於論證推理以及一些對資料要求極為嚴謹的場景而言,除了邏輯、結構外,資料準確性更重要。我們查看了 Qwen3 和 DeepSeek R1 的參考資料,發現包含部分非權威資訊渠道,使用者需要花費較多的時間去溯源、勘誤,最終反而會使效率下降。而這也是當下國內大模型使用過程中最大的痛點之一,構建權威、有效、互通的中文資料生態仍是全行業需要努力的方向。
Part 2:創意寫作效果驚豔,
旅行規劃有想象空間
除了程式碼、數學、邏輯推理能力外,對於文字工作者而言,大模型的“創意賦能”尤為重要;另外對於普通人而言,大家更關注大模型對日常生活的幫助。所以接下來,我們將圍繞大模型的創意寫作能力和旅行規劃能力,對 Qwen3 展開測評。
01_ 創意寫作能力測試
指令: 為一個科幻主題的咖啡品牌設計廣告文案,關鍵詞:太空探索感、靈感大爆炸,風格上高階但剋制,咖啡的目標使用者為寫字樓白領。要求:1)給出品牌名稱及 Slogan;2)用比喻手法描述產品口感以引發使用者共鳴;3)寫一段 500 字的品牌故事
測評點:創意新穎度、需求理解度、文字風格調性把握等。
推理用時:15s
最終結果:
說實話,對於這個結果,作為曾經的廣告人,是有點驚訝的。Qwen3 對於我想要的調性拿捏非常到位,而且它有 Get 到我需要它將咖啡品牌與打工人的特質相關聯,至少這是一版可以給我帶來很多靈感的初稿。
同樣的問題,我丟給了 DeepSeek R1。
DeepSeek R1 推理用時 23s,也算快,但是內容上給我的第一印象是:品牌名稱不夠好聽,文案的堆砌感比較重,至少沒能 get 到我說的“高階但剋制”,以及感受不到咖啡品牌對目標群體“打工人”的同理心。
總體而言,個人感覺 Qwen3 在品牌創意文案方面更勝一籌,無論是需求理解、用詞細膩度、對調性的把控等等。當然這類測評結果的主觀性較大,僅供參考。
02_ 旅行規劃能力測試
指令: 馬上就是五一了,請幫我規劃一個單人、從北京出發到深圳的三日自由行攻略,需包含:①交通方式選擇(高鐵 / 飛機對比)②酒店預訂(靠近景區且評分 4.5+)③景點路線(按時間順序排列)④預算分配(總費用不超過 5000 元)。請分步驟說明並給出每個環節的推薦理由。
評測點:任務拆解顆粒度、步驟間邏輯連貫性、引數匹配能力(如預算限制)
推理用時:20s
最終結果:
對於 Qwen3 的回答,先說結論,如果只是單純作為行程參考基本 OK。各個景點的推薦、路線、門票以及交通費用預估等,都沒什麼問題。但是對於實際的旅行而言,還需要更多的閉環,比如直接幫我規劃一個具體的、精確到小時的行程,並附上機酒和市內交通建議等。
不過值得一提的是,在回答我既有問題的基礎上,Qwen 還給了我 3 條注意事項,包含避堵建議、天氣與穿衣 / 行李建議,以及出行安全提示等,這一點確實貼心。
同樣,我們向 DeepSeek 提出了同樣的問題,但是熟悉的“伺服器繁忙”出現了,按照測試規則(僅展現首次提問的結果),我們不再做二次提問。
正好飛豬 AI 旅行助手最近很火,於是我們讓它回答了同樣的問題。從結果來看,它給的作業是稍微驗證後可以直接抄的,並且還增加了漫畫行程圖和直接預定機酒的按鈕,簡直是懶人之光、P 人福音。同為阿里系的產品,後面有沒有可能直接透過「通義 App」一站式實現旅行閉環?值得期待。
Part3 總結與展望
經過對 Qwen3 在程式碼生成、數學與邏輯推理,以及創意寫作與生活助手兩大類核心場景的初步測評(受限於測試周期、樣本多樣性和提示工程精度),其表現雖存在進一步最佳化空間,但在與 DeepSeek R1 的橫向對比中仍展現出顯著優勢——特別是在複雜任務處理效率方面,推理耗時大幅縮短,符合官網宣傳時提到的“思深,行速”。
除了 Qwen 大模型的開源進度喜人外,另一個值得外界關注的便是阿里在今年 3 月推出的「通義 App」,一經推出便接入最強 Qwen 模型,並持續迭代。「通義 App」以超級智慧體作為互動中樞,在主對話頁面實現能問、能聊、理解圖片、生成圖片、翻譯、寫作等智慧體驗。
通義產品團隊在早前的採訪中提到:“我們不僅要透過強大的 AI 技術能力幫助使用者解決實際問題,還要讓使用者在使用中感到更方便、更懂我。AI 應用的未來不僅僅是簡單的提效工具,更是一個能夠理解、陪伴並提升使用者生活質量的貼心 AI 助手。”
當大模型的底層能力足夠優異時,上層應用的體驗則是後半場 AI 競賽的關鍵。很顯然,阿里已經準備好了。
活動推薦
AICon 2025 強勢來襲,5 月上海站、6 月北京站,雙城聯動,全覽 AI 技術前沿和行業落地。大會聚焦技術與應用深度融合,匯聚 AI Agent、多模態、場景應用、大模型架構創新、智慧資料基建、AI 產品設計和出海策略等話題。即刻掃碼購票,一同探索 AI 應用邊界!

相關文章