剛剛，阿里最強程式設計模型開源！4800億引數，Agent分數碾KimiK2，訓練細節公開

最強開源程式設計模型易主。

作者 | 陳駿達

編輯 | 雲鵬

智東西7月23日報道，就在剛剛，阿里巴巴Qwen團隊開源了其最新一代旗艦程式設計模型Qwen3-Coder-480B-A35B-Instruct。Qwen團隊稱，這是該團隊迄今為止最強大的開源智慧體程式設計模型，擁有480B引數，啟用引數為35B，原生支援256K上下文，並可透過外推擴充套件至100萬上下文（輸入），其最大輸出為6.5萬token。

在基準測試中，Qwen3-Coder在程式設計和智慧體任務上擁有不錯的效能，於Agentic Coding（智慧體程式設計）、Agentic Browser-Use（智慧體瀏覽器使用）和Agentic Tool-Use（智慧體工具呼叫）三類任務中獲得了開源SOTA，超過Kimi K2、DeepSeek V3等開源模型和GPT-4.1等閉源模型，並可與Claude Sonnet 4這一以程式設計能力著稱的模型相媲美。

Qwen3-Coder將提供多種尺寸，本次開源的是其最強大的變體，其引數量超過了阿里旗艦模型Qwen3的235B（2350億），小於Kimi K2的1T（1萬億）。據阿里官方介紹，藉助Qwen3-Coder，剛入行的程式設計師一天就能完成資深程式設計師一週的工作，生成一個品牌官網最快只需5分鐘。

除了模型之外，Qwen還開源了一個由Gemini Code分叉而來的智慧體程式設計命令列工具——Qwen Code，這一工具進行了定製提示和函式呼叫協議的適配，能更充分的釋放Qwen3-Coder在智慧體程式設計任務上的能力。

這一模型已在阿里雲旗下大模型服務平臺百鍊上線，其API採用了階梯計費的方式，根據輸入token量調整價格。在256K～1M一檔，其輸入價格為6美元/百萬token，輸出價格為60美元/百萬token。相比之下，Claude Sonnet 4的輸入輸出價格分別為3美元/百萬token、15美元/百萬token，與Qwen3-Coder 128k～256k一檔的價格持平。

Qwen3-Coder也已在Qwen Chat網頁版上線，使用者可免費體驗。此外，其480B版本已在Hugging Face、魔搭等開源社群釋出，可供下載和本地部署。Qwen還在一篇部落格文章中詳細分享了模型的技術細節。

模型開源地址：

https://huggingface.co/Qwen

Qwen Code開源地址：

https://github.com/QwenLM/qwen-code

部落格地址：

https://qwenlm.github.io/blog/qwen3-coder/

01.

深夜上線Qwen Chat

海外網友已經玩瘋了

在Qwen團隊官宣Qwen3-Coder釋出前，這一模型已經悄然在Qwen Chat官網上線，手速快的海外網友們貢獻了一批實測案例。

這一案例讓Qwen3-Coder打造一個Wordle單詞遊戲，規則是在六次嘗試中猜出一個長度為5個字母的單詞。最終，Qwen3-Coder交付的遊戲頁面和原始碼如下。

提供案例的網友稱，Qwen3-Coder在指令遵循、UI設計、動畫方面的能力驚人，大部分測試結果一次就跑通了，完全不需要推理。不過，在Wordle遊戲設計這一任務上，Qwen並沒有使用單詞解析器，也沒有引用來源，而是決定自行列舉所有5個字母的單詞。

在一則找不同遊戲的開發案例中，可以看到與昨日釋出的Qwen3-235B-A22B-2507相比，Qwen3-Coder在審美和完成度上要明顯好於前者。

智東西則嘗試讓Qwen3-Coder開發一箇中英文術語庫，並支援增刪改查的基礎功能。可以直觀感受到，由於並未開啟推理，Qwen3-Coder的開發速度極快，20多秒便完成了初步結果，在對其生成結果進行進一步修改時，速度同樣較快。

其最終生成的結果從UI角度上看的確美觀清晰，功能運轉正常，不過並沒有遵循提示詞中使用PHP+MySQL進行開發的指令。其最終交付的結果作為功能演示、原型展示完全足夠，但在真實部署場景中的可擴充套件性還需進一步最佳化。

智東西還讓Qwen3-Coder給自己出了一道3D HTML開發題，內容是建立一個3D旋轉的立方體展示臺，六個面顯示不同顏色，自動旋轉，新增光照效果和陰影等。Qwen3-Coder交付的結果完成度不錯，基本實現了主要功能，旋轉動效、陰影等處理到位。

程式設計能力之外，Qwen3-Coder還提供了許多其他的玩法，包括影像生成、影片生成等，並支援文件、圖片、影片、音訊等內容的上傳，這可能是透過工具呼叫實現的。

正式釋出後，Qwen官方也提供了Qwen3-Coder的部分用例。

例如，可以讓其打造一個基於物理的煙囪拆除模擬，具有受控爆炸。

打造可互動的太陽系模擬，行星之間的關係基本準確。

開發出的網頁小遊戲完成度不錯。

02.

預訓練仍有擴充套件空間

在20000個獨立環境進行強化學習

Qwen團隊在技術部落格中分享了Qwen3-Coder的部分訓練細節，該團隊認為，目前預訓練仍有進一步的擴充套件空間。

預訓練階段，Qwen3-Coder使用了7.5萬億token資料，其中程式碼佔比70%，因此，模型在程式設計方面表現出色，同時也保留了通用和數學能力。

上下文方面，Qwen3-Coder原生支援256K上下文，並可透過YaRN擴充套件至1M，針對倉庫規模和動態資料（例如拉取請求）進行了最佳化，從而適配智慧體程式設計場景。

Qwen3-Coder的上一代模型Qwen2.5-Coder被運用於擴充套件合成數據，具體而言，Qwen2.5清洗並重寫了噪聲資料，提升了整體資料質量。

後訓練階段，Qwen團隊認為，與普遍關注競賽級程式碼生成不同，所有程式碼任務都天然適合執行驅動（execution-driven）的大規模強化學習。該團隊在更廣泛的現實世界程式設計任務上擴大了程式碼強化學習訓練規模。

透過自動擴充套件多樣化程式設計任務的測試用例，Qwen團隊建立了高質量的訓練例項，進一步釋放了強化學習的潛力。這不僅提高了程式碼執行成功率，還為其他任務帶來了收益。

這也啟發該團隊進一步探索難以解決，卻易於驗證的任務型別，這有望成為強化學習的沃土。

在現實世界的軟體工程任務（例如 SWE-Bench）中，Qwen3-Coder必須與環境進行多輪互動，涉及規劃、使用工具、接收反饋和做出決策。在Qwen3-Coder的後訓練階段，Qwen團隊引入了長視距強化學習（智慧體強化學習），鼓勵模型透過使用工具進行多輪互動來解決現實世界任務。

智慧體強化學習的關鍵挑戰在於環境擴充套件。為解決這一問題，該團隊構建了一個可擴充套件的系統，能夠並行執行20000個獨立環境。該基礎設施為大規模強化學習提供了必要的反饋，並支援大規模評估。

因此，Qwen3-Coder在SWE-Bench Verified中實現了開源模型中的最佳效能，且無需使用推理（測試時擴充套件）。

同時開源的Qwen Code是一個用於研究目的的命令列介面（CLI）工具，基於Gemini CLI開發，針對Qwen-Coder模型進行了增強的解析器和工具支援。

除了Qwen Code，還可以使用Claude Code與Qwen3-Coder一起程式設計。只需在Dashscope平臺上申請一個API金鑰，並安裝Claude Code即可開始程式設計。

03.

結語：更多尺寸即將推出

探索程式設計智慧體自我提升

在Cursor斷供Claude等適用於程式設計領域的模型之際，Qwen3-Coder的本次開源給國內開發者提供了最新的替代選項。

Qwen團隊透露，他們仍在努力提高Coding Agent的效能，旨在讓它承擔軟體工程中複雜和乏味的任務，從而釋放人類的生產力。

Qwen3-Coder的更多模型尺寸即將推出，可維持部署成本和效能之間的平衡。此外，該團隊正在探索Coding Agent是否可以實現自我提升。

（本文系網易新聞•網易號特色內容激勵計劃簽約賬號【智東西】原創內容，未經賬號授權，禁止隨意轉載。）

dignews.cc

剛剛，阿里最強程式設計模型開源！4800億引數，Agent分數碾KimiK2，訓練細節公開

相關文章

通義千問Qwen2.5-Coder全系列來咯！強大、多樣、實用！

阿里Qwen3-Coder攜1M上下文殺來！5分鐘生成網站，開發者狂歡：Claude Code可以解除安裝了

DS豆包通義BTY王炸組合，我做了個元宵AI影片小程式

DeepSeek團隊新作：把程式碼變成思維鏈，大模型推理各種能力全面提升

最強程式碼生成大模型前10榜單，國產佔據2席…

比傳統語言模型快10倍，首個商業規模的擴散語言模型，究竟是什麼來頭？

又一開源AI神器！將機器學習論文自動轉為可執行程式碼庫

官方回應北京網約車平臺禁燃油車；阿里開源AI程式設計模型Qwen3-Coder；《阿凡達3》首張宣傳海報公佈|極客早知道

LLM推理暴漲，數學邏輯開掛！DeepSeek等華人團隊新大招，Ai2大牛狂點贊

Python這樣接入DeepSeek，一般電腦也能很快跑，確實可以封神了！