我用Qwen3實測了9道經典難題,再聰明的AI也有犯傻的時候

編輯 | 楊文
今早一睜眼,朋友圈就被 Qwen3 刷屏了。
這次阿里一口氣開源了 8 款大模型,其中兩款 MoE 模型以及六款密集模型,而且每一款又包含更多細分版本,甚至 Hugging Face 已經上線了 22 個不同的 Qwen3 系列模型。

至於它們的表現,官方也給出了跑分結果。
在程式碼、數學、通用能力等基準測試中,旗艦模型 Qwen3-235B-A22B 與 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 等頂級模型表現不相上下。

小型 MoE 模型 Qwen3-30B-A3B 的啟用引數數量是 QwQ-32B 的 10%,表現卻更勝一籌。甚至像 Qwen3-4B 這樣的小模型也能匹敵 Qwen2.5-72B-Instruct 的效能。

目前,較大的三款模型也已經上線了 Qwen Chat 網頁版和手機 App。

體驗連結:http://chat.qwenlm.ai
老規矩,模型好不好還得親自去試試。接下來,我們就圍繞邏輯推理能力、創意寫作和編碼能力對最強大的 Qwen3-235B-A22B 進行一番實測。
1. 一根 20 米長的木棍能透過高 5 米、寬 6 米的城門嗎?
這道木棍過城門的經典題目曾難倒了一眾大模型。
Qwen3 拿到任務立馬響應,它的思考過程非常複雜,滑不完,根本滑不完。
不過,Qwen3 考慮了一圈,靜態放置、傾斜透過和三維空間對角線這幾種情況都分析了,就是沒想到讓棍子和地面平行從城門裡穿過去,最終還是給出了「無法透過」的錯誤答案。

2. 1 元錢一瓶汽水,喝完後兩個空瓶換一瓶汽水,問:你有 20 元錢,最多可以喝到幾瓶汽水?
這道益智數學題用到了「借瓶法」。當喝到第 39 瓶時,手頭就會有一個空瓶子,我們可以先向店主借一個空瓶,換來一瓶汽水喝完後,再把空瓶還給店主,所以正確答案是 40 瓶。
Qwen3 又經過一頓繁瑣的思考,前面的解題過程分毫不差,而且它也想到了借瓶,只是到了最後,Qwen3 認為借瓶是非常規假設。

3. 一架飛機從北京起飛,先向北飛了 1000 公里,再向西飛了 1000 公里,再向南飛了 1000 公里,再向東飛了 1000 公里,這架飛機可以飛回北京嗎?
由於地球是個球體,緯線長度隨緯度升高而變短,因此按照題目規定的路徑,飛機是無法飛回原地的。
Qwen3 呼叫數學和地理知識,不僅回答正確,還給出了擴充套件思考。

4. 買一臺三千塊左右的電腦大概需要多少錢?
再來一道弱智吧的題目。
Qwen3 注意到了題目中存在的矛盾 —— 提到了「三千塊左右 」的預算,但又問「大概需要多少錢 」,由此猜測是使用者想了解電腦價格或配置。
於是,Qwen3 列出了 3000 元能買到筆記本、桌上型電腦和組裝桌上型電腦,分別介紹了它們的機型、配置和缺點,並以表格的形式給出了總結建議。
[ 上下滑動檢視更多 ]
測完了數理邏輯推理,我們再來試試它的寫作能力。
我們讓它講三個能讓人笑抽風的笑話。

看來 Qwen3 沒什麼幽默細胞,講的笑話一個比一個冷,活了這麼多年還第一次聽說「蟹(諧)路狂奔」這樣小眾的表達,「鴨子從不賒賬,除非交鴨(押)金」,這諧音梗未免也太抽象了,有種前言不搭後語的感覺。
我們又讓它模仿黑旋風李逵的 style,寫一篇吐槽工作的段子。

Qwen3 很懂李逵「直爽、粗獷、說話不拐彎抹角」的江湖風格,把現代職場中的加班、甩鍋、形式主義這些點用誇張的方式表達出來,其中還摻雜著大量的俚語,整體風格也很統一,沒有偏離李逵的性格特點。
我們還測試了它的程式設計能力。
提示詞:建立一個 HTML 檔案,包含 CSS 和 JavaScript,用來生成動畫天氣卡片,卡片用不同的動畫形式直觀地表示以下天氣狀況:風 (例如移動的雲、搖曳的樹木)、雨 (例如落下的雨滴)、太陽 (例如閃耀的光線)、雪 (例如飄落的雪花、積雪),並排顯示所有卡片,底部有一個漂亮的按鈕可以切換動畫速度。
Qwen3 啪一下就給出了程式碼,任務是完成了,但美觀性不足,而且底部的「加速動畫」按鈕像個擺設,無法切換速度。
提示詞:編寫一個 Python 程式,展示一個球在旋轉的六邊形內彈跳。球應受到重力的影響,並且必須真實地反彈到旋轉的牆壁上。
有一說一,這個小球在旋轉六邊形裡彈跳的程式,Qwen3 編得真不錯,既沒有出現小球掉出來的情況,也沒有彈跳角度不合理或者程式卡死的情況。
經典的貪吃蛇小遊戲也完成得很順利,就是遊戲介面稍顯簡陋。
總之,Qwen3 系列尤其是旗艦模型 Qwen3-235B-A22B,還是拿出了自己的實力。
儘管在一些邏輯推理題中,Qwen3 的表現略顯繁複,甚至會在關鍵點上出錯,但也展現出深入分析問題的能力。在創意寫作方面,Qwen3 能準確抓住人物語氣與性格特徵,只是在幽默感的拿捏上「AI 味」濃重。至於程式設計能力,它能完成多種任務,但在介面美學與互動細節上還有進步空間。
你覺得 Qwen3 是個啥水平?評論區聊聊吧。
以後我們會帶來更多好玩有用的 AI 評測,也歡迎大家進群交流。
© THE END   
轉載請聯絡本公眾號獲得授權
投稿或尋求報道:[email protected]


相關文章