Qwen3真香!通義App滿血接入,一手實測在此

魚羊 一水 發自 凹非寺量子位 | 公眾號 QbitAI
開源大模型新王者,正在受到空前關注。
Qwen3預告一齣,直接開啟不眠夜模式。

來自編輯部本部

等到深夜正式上線並宣佈登頂全球最強開源模型,更是瞬間引爆全網熱議。
網友們的反應在meme中盡數體現(doge)。
畢竟,單看紙面引數,Qwen3就是個妥妥的大工程:
  • 8款混合推理模型全部開源,引數量從0.6B235B全面覆蓋;
  • 32B模型就有超越OpenAI o1、DeepSeek R1的效能表現,在程式設計基準測評中還超過了風頭正盛的Gemini 2.5 Pro;
  • 支援思考和非思考模式,支援119種語言和方言、加強對MCP支援……
還有網友認為,這是“又一個DeepSeek時刻”。
這一次模型開源,通義App和網頁版也趕在第一時間滿血上線Qwen3,並且有專屬智慧體體驗。
新王究竟表現如何,我們第一時間深度實測,以見真章。

Qwen3住進App,還能這樣玩兒

開啟通義App/通義網頁版首頁,目前有兩種方式可以體驗到Qwen3模型:
  • 直接用輸入框對話(程式碼/數學/翻譯類問題預設呼叫Qwen3-235B,其它問題不呼叫Qwen3)
  • 選用“千問大模型”智慧體(預設使用旗艦版Qwen3-235B-A22B)
BTW,通義網頁版近期上線了新域名tongyi.com不要走錯
OK,接下來進入正題。
官方強調了新模型在Agent、編碼方面的能力提升,還增強了對MCP的支援。具體表現如何,我們直接在通義App裡全方位實測。

第一關:程式碼生成

先來個新模型“入門挑戰”——空間內彈小球。
這個經典測試在考驗模型程式碼能力的同時,還重點關注了它對物理世界的理解,幾乎每一個新模型都會被拉出來遛一遛。
提示詞如下(p5.js指令碼、25個粒子、圓柱形容器)
而第一次接受挑戰的旗艦版Qwen3模型,用時1分鐘,唰唰唰就生成了一百多行程式碼:
將上述程式碼實際執行一下,結果be like:
雖然一眼看去沒有“小球直接衝出圓圈”這樣明顯的錯誤,但也確實缺少3D空間感。
作為對比,我們拉出官方測評圖中,和滿血Qwen3程式碼實力最相近的Grok 3模型。
重複相同操作,讓Grok 3基於同一提示詞生成程式碼,並實際執行:
二者的區別相當明顯,後者(Grok 3)的空間感肉眼可見更強。
為了進一步探究兩段程式碼的差別,我們又直接讓Qwen3“自己找找差距”(doge)。
結果,它真的很認真地進行了全方位對比,包括渲染模式、容器結構、粒子運動與碰撞測試等等。
最終結論也用表格進行了呈現,一目瞭然:
甚至,基於它提出的改進意見,我們繼續讓它出了一個新版本。
實際執行後,這次的結果已經非常符合我們的要求了。
事實上,深扒Qwen3的思考過程,我們才發現原來第一版的2D效果是它“深思熟慮”後的選擇。
這裡主要考慮到了相容性問題,所以簡化成了俯檢視來呈現。
從上面這個簡單測試,我們已經能夠窺見Qwen3的程式設計師素養確實不錯。
接下來難度升級,直接讓它幫打工人設計一個提醒喝水的電腦端App
注意,為了能快速在瀏覽器端預覽生成效果,這裡我們採用了“極簡模式”,僅保留最基礎的功能,不涉及使用任何第三方庫。
結果生成的App有模有樣,還能真實點選互動。
一旦讓具備工程能力的童鞋們上手,估計能實現更多複雜效果。

第二關:邏輯推理

接下來我們考查一下Qwen3的邏輯推理能力。
老規矩,先上一道經典邏輯陷阱題:
農夫要把一頭狼、一隻羊和一盆菜帶過一條河。河邊只有一艘小船,農夫每次只能帶一樣東西過河。如果農夫不在場時,狼會吃羊,羊會吃菜。如何安排農夫的安全過河方案?
故意關閉聯網模式後,Qwen3經過一步步推理最終給出了正確答案。
農夫應按照以下順序操作:
  1. 帶羊過河,返回。
  2. 帶狼過河,帶回羊。
  3. 帶白菜過河,返回。
  4. 帶羊過河。
此方案透過7次移動(4次過河,3次返回),確保所有物品安全抵達對岸。
而且從Qwen3的思考過程能夠看到,其思維方式和人類一樣,是透過不斷推翻各種方案來找出可行路徑。
再來一道超高難度專業數學題。
原題來自今年的普特南數學競賽,該競賽號稱最難本科數學考試,人類要考6小時,並且所選取的題目據稱前500名選手均未能完整作答。
而扔給Qwen3後,可以看到整體的思考時間確實明顯變長,最終用時5分38秒給出了正確答案。
p.s. 千問智慧體無法直接上傳圖片,最終選擇從App首頁上傳圖片,提取文字後繼續使用千問智慧體作答。
更有趣的是,扒一扒其思考過程,還能看到模型線上表演“崩潰”:
當然,雖然AI的解讀速度和正確率明顯勝於人類,但還是要和同類來比。
在國外網友的測試中,同一道題Grok 3(Think)在約8分鐘內找到了解決方案。
所以對比下來,這一局算Qwen3略勝一籌。

第三關:多語言能力

另外據介紹,Qwen3的一大亮點是支援119種語言和方言,被網友戲稱“AI屆多鄰國”(doge)。
別的不說,直接讓它來挑戰一把國內專業譯者的地位試試。
將莎士比亞《哈姆雷特》的經典選段丟給它,讓它按照“信達雅”翻譯成中文。
它還知道參考優秀譯本,並且注意避免直接抄襲造成侵權。
最終生成的結果如下(左側),對比我們熟知的朱生豪經典譯本(右側),你覺得AI味兒濃度如何?

第四關:賽博閨蜜、shopping比價、寫歌一網打盡

除了以上更側重模型基礎能力的考查,當Qwen3被塞進App後,我們還解鎖了更多玩法。
做旅遊規劃這種就不必多說了,關鍵還能充當“賽博閨蜜”,幫忙選擇更適合發朋友圈的遊客照。
日常也能用來購物比價,比如分析出當下最值得入手的3000元預算內平板。
不僅用表格清晰列出了各品牌的核心引數,還按照不同需求進行了推薦,一整個造福伸手黨。
此外,最近火上熱搜的“AI寫歌”,我們也用Qwen3嘗試了一把。
五一版·大張偉嗨歌這就新鮮出爐,光看歌詞確實有內味兒了:
Okk,以上為我們的全部實測。
小結一下,透過在通義App使用Qwen3專屬智慧體,我們能明顯感受到以下幾點:
  • Qwen3旗艦模型的生成速度非常快,體驗很絲滑;
  • 模型擅長推理,能夠解決經典邏輯陷阱和複雜數學題;
  • 程式碼能力方面,已經能夠快速實現一些簡單需求;
  • 由於載體是App,可拓展的玩法很多。
而且,通義App自上個月頁面改版後,整體設計更簡潔,互動也更加完善了。

更多網友實測

與此同時,隨著Qwen3模型的爆火,更多網友也第一時間進行了試玩。
有和“空間內彈小球”類似效果的頁面設計:
還有用阿拉伯語、法語和印地語解釋愛因斯坦相對論的玩法,該博主聲稱:
簡單到連十歲的小孩都能理解。
當然,大家一直尤為鍾愛的小遊戲開發也安排上了:

開源界的新王者

Qwen3引發熱議背後,可以看到的是,在開源影響力上,以Qwen為代表的國產大模型,已經有超越Llama之勢。
這一點,從reddit LocalLLaMA等開發者聚集的板塊的最新話題中,亦可見一斑。
不僅是基準評測資料的紙面超越,實測越多,模型實力究竟幾何就越能被客觀公允地認知。
而如今的開源格局之變,並非一蹴而就。前有DeepSeek,今有Qwen3,背後體現的是來自中國的開源力量一以貫之的努力,和一如既往的“中國速度”
以Qwen為例:
2024年11月底,開源推理模型QwQ;
2025年春節檔,連發Qwen2.5百萬上下文版本、視覺理解模型Qwen2.5-VL,還有超大規模MoE模型Qwen-2.5 Max;
2025年3月,QwQ-32B以1/10成本比肩DeepSeek-R1;
多模態方面,還有萬相Wan的持續開源和迭代……
這還只是短短5個月內的進展。
再加上更加開放和商用友好的Apache 2.0協議,開發者們的轉向,自然在情理之中。

作為普通使用者,一方面,可以在通義App這樣的官方應用上更快感知到滿血模型的能力。
另一方面,也可以期待開源,帶來更多衍生應用的可能性。
那麼,再次開啟傳送門:
tongyi.com
如果你探索到了什麼新鮮玩法,也歡迎在評論區跟大家分享~
參考連結:[1]https://x.com/YUEXINWANG61157/status/1917059240360919318[2]https://x.com/kis/status/1917090589931409750[3]https://x.com/godofprompt/status/1917147674438255021
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!
—  —
🌟 點亮星標 🌟
科技前沿進展每日見

相關文章