Qwen3真香！通義App滿血接入，一手實測在此

2025-06-29 13:22 量子位

魚羊一水發自凹非寺量子位 | 公眾號 QbitAI

開源大模型新王者，正在受到空前關注。

Qwen3預告一齣，直接開啟不眠夜模式。

△來自編輯部本部

等到深夜正式上線並宣佈登頂全球最強開源模型，更是瞬間引爆全網熱議。

網友們的反應在meme中盡數體現（doge）。

畢竟，單看紙面引數，Qwen3就是個妥妥的大工程：

8款混合推理模型全部開源，引數量從0.6B到235B全面覆蓋；
32B模型就有超越OpenAI o1、DeepSeek R1的效能表現，在程式設計基準測評中還超過了風頭正盛的Gemini 2.5 Pro；
支援思考和非思考模式，支援119種語言和方言、加強對MCP支援……

還有網友認為，這是“又一個DeepSeek時刻”。

這一次模型開源，通義App和網頁版也趕在第一時間滿血上線Qwen3，並且有專屬智慧體體驗。

新王究竟表現如何，我們第一時間深度實測，以見真章。

Qwen3住進App，還能這樣玩兒

開啟通義App/通義網頁版首頁，目前有兩種方式可以體驗到Qwen3模型：

直接用輸入框對話（程式碼/數學/翻譯類問題預設呼叫Qwen3-235B，其它問題不呼叫Qwen3）
選用“千問大模型”智慧體（預設使用旗艦版Qwen3-235B-A22B）

BTW，通義網頁版近期上線了新域名tongyi.com，不要走錯。

OK，接下來進入正題。

官方強調了新模型在Agent、編碼方面的能力提升，還增強了對MCP的支援。具體表現如何，我們直接在通義App裡全方位實測。

第一關：程式碼生成

先來個新模型“入門挑戰”——空間內彈小球。

這個經典測試在考驗模型程式碼能力的同時，還重點關注了它對物理世界的理解，幾乎每一個新模型都會被拉出來遛一遛。

提示詞如下（p5.js指令碼、25個粒子、圓柱形容器）：

而第一次接受挑戰的旗艦版Qwen3模型，用時1分鐘，唰唰唰就生成了一百多行程式碼：

將上述程式碼實際執行一下，結果be like：

雖然一眼看去沒有“小球直接衝出圓圈”這樣明顯的錯誤，但也確實缺少3D空間感。

作為對比，我們拉出官方測評圖中，和滿血Qwen3程式碼實力最相近的Grok 3模型。

重複相同操作，讓Grok 3基於同一提示詞生成程式碼，並實際執行：

二者的區別相當明顯，後者（Grok 3）的空間感肉眼可見更強。

為了進一步探究兩段程式碼的差別，我們又直接讓Qwen3“自己找找差距”（doge）。

結果，它真的很認真地進行了全方位對比，包括渲染模式、容器結構、粒子運動與碰撞測試等等。

最終結論也用表格進行了呈現，一目瞭然：

甚至，基於它提出的改進意見，我們繼續讓它出了一個新版本。

實際執行後，這次的結果已經非常符合我們的要求了。

事實上，深扒Qwen3的思考過程，我們才發現原來第一版的2D效果是它“深思熟慮”後的選擇。

這裡主要考慮到了相容性問題，所以簡化成了俯檢視來呈現。

從上面這個簡單測試，我們已經能夠窺見Qwen3的程式設計師素養確實不錯。

接下來難度升級，直接讓它幫打工人設計一個提醒喝水的電腦端App。

注意，為了能快速在瀏覽器端預覽生成效果，這裡我們採用了“極簡模式”，僅保留最基礎的功能，不涉及使用任何第三方庫。

結果生成的App有模有樣，還能真實點選互動。

一旦讓具備工程能力的童鞋們上手，估計能實現更多複雜效果。

第二關：邏輯推理

接下來我們考查一下Qwen3的邏輯推理能力。

老規矩，先上一道經典邏輯陷阱題：

農夫要把一頭狼、一隻羊和一盆菜帶過一條河。河邊只有一艘小船，農夫每次只能帶一樣東西過河。如果農夫不在場時，狼會吃羊，羊會吃菜。如何安排農夫的安全過河方案？

在故意關閉聯網模式後，Qwen3經過一步步推理最終給出了正確答案。

農夫應按照以下順序操作：

帶羊過河，返回。

帶狼過河，帶回羊。

帶白菜過河，返回。

帶羊過河。

此方案透過7次移動（4次過河，3次返回），確保所有物品安全抵達對岸。

而且從Qwen3的思考過程能夠看到，其思維方式和人類一樣，是透過不斷推翻各種方案來找出可行路徑。

再來一道超高難度專業數學題。

原題來自今年的普特南數學競賽，該競賽號稱最難本科數學考試，人類要考6小時，並且所選取的題目據稱前500名選手均未能完整作答。

而扔給Qwen3後，可以看到整體的思考時間確實明顯變長，最終用時5分38秒給出了正確答案。

p.s. 千問智慧體無法直接上傳圖片，最終選擇從App首頁上傳圖片，提取文字後繼續使用千問智慧體作答。

更有趣的是，扒一扒其思考過程，還能看到模型線上表演“崩潰”：

當然，雖然AI的解讀速度和正確率明顯勝於人類，但還是要和同類來比。

在國外網友的測試中，同一道題Grok 3（Think）在約8分鐘內找到了解決方案。

所以對比下來，這一局算Qwen3略勝一籌。

第三關：多語言能力

另外據介紹，Qwen3的一大亮點是支援119種語言和方言，被網友戲稱“AI屆多鄰國”（doge）。

別的不說，直接讓它來挑戰一把國內專業譯者的地位試試。

將莎士比亞《哈姆雷特》的經典選段丟給它，讓它按照“信達雅”翻譯成中文。

它還知道參考優秀譯本，並且注意避免直接抄襲造成侵權。

最終生成的結果如下（左側），對比我們熟知的朱生豪經典譯本（右側），你覺得AI味兒濃度如何？

第四關：賽博閨蜜、shopping比價、寫歌一網打盡

除了以上更側重模型基礎能力的考查，當Qwen3被塞進App後，我們還解鎖了更多玩法。

做旅遊規劃這種就不必多說了，關鍵還能充當“賽博閨蜜”，幫忙選擇更適合發朋友圈的遊客照。

日常也能用來購物比價，比如分析出當下最值得入手的3000元預算內平板。

不僅用表格清晰列出了各品牌的核心引數，還按照不同需求進行了推薦，一整個造福伸手黨。

此外，最近火上熱搜的“AI寫歌”，我們也用Qwen3嘗試了一把。

五一版·大張偉嗨歌這就新鮮出爐，光看歌詞確實有內味兒了：

Okk，以上為我們的全部實測。

小結一下，透過在通義App使用Qwen3專屬智慧體，我們能明顯感受到以下幾點：

Qwen3旗艦模型的生成速度非常快，體驗很絲滑；
模型擅長推理，能夠解決經典邏輯陷阱和複雜數學題；
程式碼能力方面，已經能夠快速實現一些簡單需求；
由於載體是App，可拓展的玩法很多。

而且，通義App自上個月頁面改版後，整體設計更簡潔，互動也更加完善了。

更多網友實測

與此同時，隨著Qwen3模型的爆火，更多網友也第一時間進行了試玩。

有和“空間內彈小球”類似效果的頁面設計：

還有用阿拉伯語、法語和印地語解釋愛因斯坦相對論的玩法，該博主聲稱：

簡單到連十歲的小孩都能理解。

當然，大家一直尤為鍾愛的小遊戲開發也安排上了：

開源界的新王者

Qwen3引發熱議背後，可以看到的是，在開源影響力上，以Qwen為代表的國產大模型，已經有超越Llama之勢。

這一點，從reddit LocalLLaMA等開發者聚集的板塊的最新話題中，亦可見一斑。

不僅是基準評測資料的紙面超越，實測越多，模型實力究竟幾何就越能被客觀公允地認知。

而如今的開源格局之變，並非一蹴而就。前有DeepSeek，今有Qwen3，背後體現的是來自中國的開源力量一以貫之的努力，和一如既往的“中國速度”。

以Qwen為例：

2024年11月底，開源推理模型QwQ；

2025年春節檔，連發Qwen2.5百萬上下文版本、視覺理解模型Qwen2.5-VL，還有超大規模MoE模型Qwen-2.5 Max；

2025年3月，QwQ-32B以1/10成本比肩DeepSeek-R1；

多模態方面，還有萬相Wan的持續開源和迭代……

這還只是短短5個月內的進展。

再加上更加開放和商用友好的Apache 2.0協議，開發者們的轉向，自然在情理之中。

作為普通使用者，一方面，可以在通義App這樣的官方應用上更快感知到滿血模型的能力。

另一方面，也可以期待開源，帶來更多衍生應用的可能性。

那麼，再次開啟傳送門：

tongyi.com

如果你探索到了什麼新鮮玩法，也歡迎在評論區跟大家分享~

參考連結：[1]https://x.com/YUEXINWANG61157/status/1917059240360919318[2]https://x.com/kis/status/1917090589931409750[3]https://x.com/godofprompt/status/1917147674438255021

一鍵三連「點贊」「轉發」「小心心」

歡迎在評論區留下你的想法！

— 完 —

🌟 點亮星標 🌟

科技前沿進展每日見

相關文章

不斷有人在問，這個中國模型到底有什麼魔力？

不斷有人在問，這個中國模型到底有什麼魔力？

Qwen3釋出！超DeepSeekR1登頂開源榜，還帶來了跟R1不同配方

Qwen3釋出！超DeepSeekR1登頂開源榜，還帶來了跟R1不同配方

阿里雲重磅釋出開源模型Qwen2，效能超Llama3-70及國內眾多閉源模型

阿里雲重磅釋出開源模型Qwen2，效能超Llama3-70及國內眾多閉源模型

通義千問Qwen2.5-Coder全系列來咯！強大、多樣、實用！

通義千問Qwen2.5-Coder全系列來咯！強大、多樣、實用！

通義千問Qwen3系列AI模型正式釋出繼續採用開源模式引領AI開源社群發展

通義千問Qwen3系列AI模型正式釋出繼續採用開源模式引領AI開源社群發展

深夜突襲，阿里Qwen3登頂全球開源王座！暴擊DeepSeek-R1，2小時狂攬17k星

深夜突襲，阿里Qwen3登頂全球開源王座！暴擊DeepSeek-R1，2小時狂攬17k星

阿里通義Qwen3上線，開源大軍再添一名猛將

阿里通義Qwen3上線，開源大軍再添一名猛將

阿里Qwen3深夜開源！8款模型、整合MCP，效能超DeepSeek-R1，2小時狂攬16.9k星

阿里Qwen3深夜開源！8款模型、整合MCP，效能超DeepSeek-R1，2小時狂攬16.9k星

為什麼李飛飛團隊經常cue通義千問？

為什麼李飛飛團隊經常cue通義千問？

全網首測！ Qwen3 vs Deepseek-R1 資料分析哪家強？

全網首測！ Qwen3 vs Deepseek-R1 資料分析哪家強？

Copyright © 2025 | WordPress Theme by MH Themes