AI程式設計終於“開箱即用”了？Qwen3-Coder或許是那個質變節點

7月23日，阿里通義團隊正式釋出Qwen3-Coder-480B-A35B-Instruct，這可能是AI程式設計領域的一個分水嶺時刻。該模型採用480B總引數、35B啟用的MoE架構，原生支援256K上下文，可擴充套件至1M token，在Agentic Coding、Browser-Use、Tool-Use三大類基準中多項評測的開源SOTA，效能直接對標Claude Sonnet-4。

不同於以往需要複雜配置的程式碼模型，Qwen3-Coder真正做到了“一條命令接管整個程式碼倉庫”。同步開源的CLI工具Qwen Code，讓模型能像“初級程式設計師”一樣工作——從理解需求到拆解任務，從編寫程式碼到跑測試修bug，整個過程無需人工逐行干預。這種Agentic Coding方式把大模型當做一個能在倉庫裡自主行動的Agent，既能理解自然語言需求，又能呼叫Git、瀏覽器、終端等工具。

更關鍵的是價格優勢極其明顯。每百萬Tokens最低輸入和輸出價格分別為4元和16元，平均價格為Claude 4的1/3。同時，阿里雲百鍊還推出了低至5折的限時優惠， 128K-1M長上下文價格享受五折優惠。加上完全開源免費商用的政策，讓原本高昂的AI程式設計服務真正平民化。

很多人可能還沒意識到AI Coding的真正價值——它不只是寫程式碼的工具，而是AI Agent與物理世界自由互動的關鍵底層技術。從這個角度看，Qwen3-Coder的釋出或許標誌著AI程式設計真正從“輔助工具”向“自主Agent”的躍遷，而開源+超低價的組合，可能會讓這種能力快速普及，改變整個軟體開發的遊戲規則。

我們已第一時間完成內測，對其釋出的技術細節進行解讀。

實測Agentic Coding

在實測階段，我們並沒有選擇已經被測試過多輪的貪吃蛇、彈球遊戲，而是選擇了規則更復雜、互動也更多的圍棋對戰遊戲，我們的Prompt是：製作一個圍棋對戰小遊戲，有時間計時，遵守圍棋遊戲的規則（如吃子、禁著點）。

在第一次執行時，結果不僅滿足了圍棋的最基本規則，也準確遵守了吃子、禁著點等規則（棋子被提走後，當前位置禁止再下子）的規則，，這展現了模型在理解和實現基礎遊戲邏輯方面的能力。

但是，這個圍棋對戰遊戲還是太過於簡單，例如缺少輸贏判機制，缺少倒計時等等。遊戲的完整性和使用者體驗方面仍有很大提升空間，這些功能對於一個完整的圍棋遊戲來說是必不可少的。

因此，我們又追問了一遍：製作一個圍棋對戰小遊戲，有時間計時，遵守圍棋遊戲的規則（如吃子、禁著點），還包括局勢分析和判斷輸贏。

Qwen3-coder給出了更復雜的也更成熟的遊戲頁面，甚至在沒有提示的前提下，給出了認輸的按鈕。但有一個問題是圍棋的深層次規則，除了我們在Prompt中提到的規則，一些高階規則比如“打劫”，Qwen3-coder沒有完全寫出來。

接下來，我們又嘗試讓模型來製作一個網頁，Prompt是：生成一頁純 HTML+CSS+SVG 的夢幻黃色網頁：背景從 #FFF59D 到 #FFEB3B 徑向漸變；60 顆白色粒子 6 秒漂移；5 個光暈氣泡迴圈淡入淡出；中央 ‘Dreamy Lemon’ 手寫字帶發光；點開檸檬會炸開，所有元素保持檸檬黃＋Tiffany藍主題，程式碼可直接執行。

結果如上，模型確實按照指令實現了所有的技術要求：徑向漸變背景、粒子動畫、氣泡效果、發光文字、互動功能等等。然而，對於“夢幻”這個概念的理解似乎出現了偏差，可能將其解讀為需要新增模糊效果或其他視覺濾鏡，導致整體視覺效果適得其反，整個頁面都模糊不清，

我們也測試了官方釋出的物理運動場景，只不過我們選擇了非常複雜的“三體運動”，難度上很為難模型，我們透過Cline呼叫Qwen3-Coder來測試它的Agent能力。

Prompt：做一個即時的三體運動，黑色全屏；3 個彩色小球（紅、綠、藍）只受彼此萬有引力作用，彼此吸引、環繞、拋射，必須真實運動；即時計算牛頓萬有引力 F = G·m₁m₂/r²，速度向量隨時間累積；保留彩虹漸變軌跡（800 點 FIFO），可開關；左上角提供：重力常數滑桿、速度倍率滑桿、軌跡複選框、重置按鈕；零依賴、複製即用、雙擊即可在瀏覽器看到 3 球持續運動。

這次，我們吸取了教訓，儘可能地完善了prompt來控制模型，我們發現Qwen3-Coder在完成程式設計後，呼叫了Chrome瀏覽器工具，在後臺自行演示了一遍，並核對我提出的所有要求，在逐個檢測完畢後，才進入到最終演示階段。

當然，實際物理中的三體運動肯定比演示更加複雜，這也意味著，雖然模型能夠理解並生成複雜的需求列表，但在將這些需求轉化為可工作的程式碼時，特別是涉及複雜數學計算和即時動畫的部分，還要透過多工具協同來完成。

如何讓程式碼能力“長”在模型裡？

Qwen團隊採用了一種全新的訓練思路：他們沒有把Agent能力當作後期的“外掛”，而是在訓練過程中就深度整合。透過Agent RL訓練，模型學會了真正的多輪互動、工具呼叫、錯誤處理等能力，這些能力是“長”在模型裡的，而不是外掛的。

在預訓練階段，團隊用了7.5萬億token的資料，其中70%是程式碼。這不只是簡單的資料堆積，而是像給學生準備更豐富教材的策略，既保證程式設計能力，又不丟掉通用的語言和數學能力。

更關鍵的是上下文能力的提升。模型原生支援256K上下文長度，最多可擴充套件到1M，這讓模型能同時檢視整個專案的程式碼，而不只是看片段。同時，他們用之前的Qwen2.5-Coder來“批改作業”，把低質量的程式碼資料重新清洗和改寫，確保訓練資料質量。這種做法體現了從理論學習向實戰準備的轉變。

傳統程式碼模型主要關注benchmark表現，但Qwen團隊在後訓練階段加入了執行驅動的強化學習。他們針對“難寫、易驗證”的真實任務（單測、指令碼、小工具）自動批次生成測試用例，把執行成功率當作獎勵訊號，讓模型在百萬量級程式碼片段裡反覆試錯、自我糾錯。

這種方法的核心差異在於：不只是讓模型寫程式碼，更重要的是讓程式碼能真正執行成功。透過自動生成大量測試用例，模型可以立即知道自己寫的程式碼對不對，然後不斷改進。模型的目標從“跑分”轉向了“可用”。

更進一步，真正的Agent能力是在不斷實測中產生的。團隊在SWE-Bench這類需要多輪改程式碼、跑測試、用Git提交的環境裡做強化學習，這已經接近真實的軟體開發流程。

技術突破在於環境的工業化擴充套件。他們用阿里雲構建了能同時執行2萬個獨立程式設計環境的系統，就像同時開2萬個虛擬機器讓模型練習程式設計。每個環境都能提供即時反饋，模型像實習程式設計師一樣不斷接收CI反饋、再改再跑，最終在SWE-Bench Verified拿下開源第一。

在真實場景中訓練出來的Qwen3-Coder，解決了AI程式設計工具終於突破了普及的最大瓶頸：除錯能力。此前的AI程式設計助手普遍存在一個致命問題：程式碼生成後如果出現bug，開發者仍需要手動排查和修復，這對程式設計經驗要求極高，讓普通使用者望而卻步。而Qwen3-Coder具備自我測試和除錯能力，真正做到了“寫完即可用”，這意味著即使是程式設計新手也能借助AI完成複雜的開發任務。

更重要的是成本優勢帶來的市場重塑。開發過程中往往需要多輪迭代除錯，以往使用Claude 4這類頂級模型成本高昂，許多中小團隊和個人開發者只能望而興嘆。Qwen3-Coder在保持相同效能水準的前提下，成本僅為三分之一，加上完全開源免費商用，徹底消除了成本門檻。這種效能與價格的完美平衡，正在讓其快速成為開發者的首選模型。

Qwen3-Coder的核心優勢不僅在於程式設計能力本身，更在於其強大的Agent特性。該模型能夠自主呼叫各種工具、理解複雜需求、進行多輪互動，這種能力遠超傳統的程式碼補全工具。

然而，當前市場對AI Coding重視程度遠遠不夠。實際上，程式設計能力是AI Agent的核心基礎，是AI與物理世界自由互動最關鍵的底層技術。當AI能夠理解需求、編寫程式碼、呼叫工具、處理異常時，它就具備了在現實世界中自主行動的能力。從這個維度看，AI Coding的價值被嚴重低估了。

綜合各方面來看，Qwen3-Coder可以說是目前全球範圍內，最具價效比的程式設計模型。不僅在技術性能上對標頂級閉源模型，在成本控制上更是實現了數量級的優勢，加上完全開源的策略，正在重新定義AI程式設計工具的行業標準。

當程式設計的門檻被AI徹底降低時，我們看到的是整個軟體開發生態正在走向民主化。