看到英偉達新開源了全新的程式碼推理模型——OpenCodeReasoning,包括7B、14B、32B三種規格,效能比肩o3-mini和o1。
但這次英偉達模型選擇的底座,卻讓我看到了一個熟悉的名字:Qwen。

並且不是單一模型,是全系選用了阿里通義千問大模型作為基礎底座。
更早之前,DeepSeek、李飛飛都也已經接入千問,Manus中文版也是依靠千問模型。
現在又多出了英偉達這樣一個國際頂級科技公司,將千問大模型作為基模的例子。

千問模型的在國內的聲量,和它在國際開源生態裡的影響,一直不太匹配。但確定的是,更多最前沿的公司,已經看到了其價值。
目前,通義千問Qwen衍生模型數量已突破10萬,超越美國Llama模型,通義成為全球第一AI開源模型。
通義千問Qwen在全球下載量超過3億,在HuggingFace社群2024年全球模型下載量中千問Qwen佔比超30%,穩居第一。
在2025年2月的Huggingface全球開源大模型榜單(Open LLM Leaderboard)中,排名前十的開源模型全部都是基於千問Qwen二次開發的衍生模型。

Huggingface Open LLM Leaderboard
在李飛飛領銜的斯坦福HAI研究所釋出的《2025年人工智慧指數報告》顯示,2024年重要大模型(Notable Models)中,阿里入選6個,按照模型貢獻度排名,阿里AI貢獻位列全球第三。
在我看來,這還只是開始……
一、中國模型出海,海外怎麼看千問?
已經成功出海的中國AI產品有很多,但作為“AI基建”,能被國際上科學家和巨頭企業認同的,非常稀少。
最近時常刷到一些AI研究者、科技企業負責人對千問的評價,特別有意思。

Trust Insights 聯合創始人兼首席資料科學家 Christopher,對為什麼 Qwen3 效果極佳感到好奇,還自己嘗試實驗室復刻相關研究。

蘋果公司 MLX 推理框架負責人 Hannun,則是對 Qwen3 的執行速度表示驚歎。

AK更是對 Qwen3 的綜合能力,無論編碼、資料還是文字等,給出了高度認可。
要知道,好奇一個模型的實力究竟強不強,最好的方式就是看從業者的選擇。一個高質量基座,決定了後續強化學習的上限。

李飛飛也特別愛 cue 千問。
可能大家還有印象,李飛飛團隊50美元復刻類 DeepSeek R1 推理模型,用的就是千問。
以千問作為基座模型打樣,僅使用16塊H100 GPU,透過26分鐘的監督微調,便打造出了效能卓越比肩OpenAI的O1和DeepSeek的R1等尖端推理模型的s1-32B模型。
DeepSeek官方也曾透露過,DeepSeek-R1 蒸餾了6個模型,其中4個來自Qwen。
媒體也報道稱,蘋果與通義千問達成了合作,並且是蘋果AI的主要合作方。

Manus聯合創始人張濤,也曾在一次直播裡直言:對於不少公司而言,千問因其效能強、尺寸全、開源等諸多優勢,實際上是唯一的選擇。
從業者的選擇,最關乎個人利益,用腳投票才是對模型能力最強的信任。
二、Qwen效能究竟強在哪?
千問系列,從Qwen到Qwen1.5,再到Qwen2、Qwen2.5,直至今日的Qwen3,已經完成了五代進化。
並且開源了超過200個模型,覆蓋大語言、多模態、數學、程式碼等多個領域。

每一次迭代,都是一次效能的躍遷和生態的拓展。
最新的Qwen3,更是將這種“硬核效能”展現得更加充分。
5月9日最新公佈的Artificial Analysis新一期大模型榜單中,千問3智慧水平更是比肩部分國外頂級閉源模型(比如o3、Grok3-mini-Reasoning(high)。
也超過了 DeepSeek-R1、DeepSeek-V3-0324 等開源模型,又一次將全球開源模型冠軍的頭銜收入囊中。

在程式碼能力這個衡量大模型智慧水平的關鍵指標上,Qwen3再次展現了其王者風範。
繼Qwen2.5-Coder橫掃LiveCodeBench等六大國際權威榜單後,Qwen3在Aider、LiveCodeBench等coding能力評測榜單中同樣摘得全球開源模型的桂冠。

在綜合能力方面,Artificial Analysis的榜單顯示,Qwen3的能力已經超越了DeepSeek R1、DeepSeek V3-0324等一眾強勁對手,表現接近閉源模型Grok3-mini-Reasoning(high)。

這不僅僅是數字的勝利,更是中國開源模型在全球舞臺上與國際頂級模型正面抗衡的有力證明。
還發現一個好玩的點。
千問3還可 API 設定“思考預算”(即預期最大thinking tokens數量),進行不同程度的思考,讓模型在效能和成本間取得更好的平衡,以滿足開發者和機構的多樣需求。

不僅科技圈、開發者,來自學術界的認可也非常多:滑鐵盧大學的陳文虎教授、清華大學的孫茂松教授等知名學者,都曾公開表示Qwen的效能優異,在某些方面甚至優於LLaMA。
這種來自一線科研人員的觀點,在我眼裡越來越更具說服力了。
從2022年到2025年,從模型到產品,不管是開發者還是使用者,都在持續見證著通義千問的變化。
三、模型即生態:開源的勝利,更是開放的勝利
如果說 AI 是新時代的“電力”,那麼 Qwen3 便是那臺讓電流更高效的變壓器。
英偉達等巨頭選擇Qwen,除了其卓越的效能,更深層次的原因在於Qwen對開源的堅定擁抱,和對「開發者生態」的積極構建。
Qwen3堅持使用 Apache 2.0 開源協議,這意味著開發者可以放心地將其用於商業用途和深度整合,極大地激發了社群的創新活力。

價格也是硬道理。
千問3模型,部署成本只有效能相近模型的1/3,而推理成本按照吳恩達的Artifical Analysis 最新報告看,不到DeepSeek-R1的三成,是Claude3.7的二十分之一。
效能最強,成本更低,免費商用,真的解決了開發者的後顧之憂。
更具突破性的是,Qwen3是全球首個原生支援MCP(Model Control Protocol,模型控制協議)的開源模型。
Qwen3+MCP的玩法,在GitHub和Huggingface上異常火爆
在BFCL(一個評估模型遵循指令和呼叫工具能力的基準)評測中,Qwen3取得了70.8分的新高。
這意味著開發者呼叫模型內建工具和外部API的門檻被大幅降低,構建複雜Agent應用變得更加得心應手。

“模型即生態”,Qwen正在將這句話變為現實。
全球已有超過10萬個基於Qwen的衍生模型,累計下載量突破3億次。
SGLang、vLLM、MXL等主流推理框架和平臺已全面接入Qwen。同時,阿里雲的百鍊(Bailian)平臺和魔搭(ModelScope)社群也配套釋出了MCP服務,進一步釋放了開發者的創造力。

魔搭(ModelScope)社群 https://modelscope.cn/organization/qwen
截至今天,透過阿里雲百鍊平臺呼叫通義大模型API的企業和開發者已超過30萬,用AI重構程式碼開發、硬體製造、智慧座艙、金融服務、藥物研發、太空探索等場景。

這不再僅僅是模型的開源,而是圍繞模型構建起了一個生機勃勃、持續進化的技術生態系統。
四、看看英偉達專家怎麼用 Qwen3
下面帶大家看看英偉達的自身總監、架構師們都是怎麼用千問的。
這是一個看到英偉達官方釋出的案例,以使用 Qwen3-4B 模型配置 PyTorch backend 為例,描述如何快捷進行基準測試以及服務化的工作。
採用類似的步驟,也可以實現 Qwen3 其他 Dense 和 MoE 模型的推理部署最佳化。
1. 首先準備 benchmark 測試資料集合和 extra-llm-api-config.yml
配置檔案:
python3 /path/to/TensorRT-LLM/benchmarks/cpp/prepare_dataset.py \
--tokenizer=/path/to/Qwen3-4B \
--stdout token-norm-dist --num-requests=32768 \
--input-mean=1024--output-mean=1024 \
--input-stdev=0--output-stdev=0>/path/to/dataset.txt
cat >/path/to/extra-llm-api-config.yml <<EOF
pytorch_backend_config:
use_cuda_graph: true
cuda_graph_padding_enabled: true
cuda_graph_batch_sizes:
-1
-2
-4
-8
-16
-32
-64
-128
-256
-384
print_iter_log: true
enable_overlap_scheduler: true
EOF
2. 透過 trtllm-bench 執行 benchmark 指令:
trtllm-bench \
--model Qwen/Qwen3-4B \
--model_path /path/to/Qwen3-4B \
throughput \
--backend pytorch \
--max_batch_size128 \
--max_num_tokens16384 \
--dataset /path/to/dataset.txt \
--kv_cache_free_gpu_mem_fraction0.9 \
--extra_llm_api_options /path/to/extra-llm-api-config.yml \
--concurrency128 \
--num_requests32768 \
--streaming
相同 GPU 環境配置下,基於 ISL = 1K,OSL = 1K,相較 BF16 基準,Qwen3-4B 稠密模型使用 TensorRT-LLM 在 BF16 的推理吞吐(每秒生成的 token 數)加速比最高可達 16.04 倍。

圖 1:Qwen3-4B 稠密模型在 TensorRT-LLM BF16 與 BF16 基準的推理吞吐效能比較
3. 透過 trtllm-serve 執行 serve 指令:
trtllm-serve \
/path/to/Qwen3-4B \
--host localhost \
--port8000 \
--backend pytorch \
--max_batch_size128 \
--max_num_tokens16384 \
--kv_cache_free_gpu_memory_fraction0.95 \
--extra_llm_api_options /path/to/extra-llm-api-config.yml
4. 模型啟動成功後,便可透過標準 OpenAI API 進行模型推理呼叫。
curl -X POST "http://localhost:8000/v1/chat/completions" \
-H "Content-Type: application/json" \
--data '{
"model": "Qwen/Qwen3-4B",
"Max_tokens": 1024,
"Temperature": 0,
"messages": [
{
"role": "user",
"content": "What is the capital of France?"
}
]
}'
僅透過幾行程式碼,開發者即可透過包括 TensorRT-LLM 在內的流行推理框架來使用最新的 Qwen 系列模型。
尤其是在把 AI 模型部署到生產環境中時,透過 Qwen3 能更好實現對效能、資源和成本的平衡。
難怪越是專業的開發者、從業者,越愛用千問!
五、撬動未來:千問3,為全棧式AI時代注入中國動力
如果說卓越的效能和繁榮的生態是Qwen的現在,那麼它對未來的企圖心則更加遠大。
Qwen3,正以其“為Agent和AI應用而生”的設計理念,積極擁抱即將到來的全棧式AI時代。

原生支援MCP協議,加上百鍊、魔搭等平臺的服務支撐,使得開發者能夠基於Qwen3快速構建起強大的Agent能力。
在阿里內部,夸克搜尋、通義APP等面向億萬使用者的前臺AI產品,其背後都離不開Qwen的強力支撐。一整套圍繞Qwen構建的工具鏈,正在成為阿里AI戰略的堅實底座。

更廣泛地看,從上游的晶片廠商(如英偉達、英特爾、高通),到中游的雲平臺,再到下游的終端應用和開源社群,整個AI產業鏈都對Qwen3的釋出和迭代展現出積極的響應。
這預示著,AI的下半場,將是技術棧深度整合、產業鏈全面協同的競爭。而Qwen,憑藉其開源基座的定位和全棧打通的潛力,正在成為這個新時代不可或缺的中國力量。

千問生態產品宇宙
千問(Qwen),這個名字正從一個優秀模型的代稱,演變為一個強大生態的象徵,一個“開源中的王者,基座中的首選”。
它不僅是阿里在AI領域深厚技術積累的體現,更是中國AI力量在全球舞臺上冉冉升起的一面旗幟。
越來越多的頂級從業者用實際行動為Qwen投票。
我們有理由相信,阿里,這家持續投入AI基礎研究和開源生態建設的公司,正穩步走向中國最重要的AI公司的行列,併為全球AI的普惠化貢獻著獨特的中國智慧。

