為什麼Qwen3,讓我看到了AI應用落地的重大利好

向開發者「對齊」,其實是 Qwen3 未被點破的一個核心戰略。
作者|張鵬
各位有沒有發現,最近大家對大模型已經有些看麻了?反正我是看到相關話題的文章流量、社交平臺上的熱度,對模型的關注度明顯有點降下來了。
比如最近 Qwen3、Gemini2.5、GPT-4.1 和 Grok-3 等這麼密集的有明顯新進展的優秀模型釋出,要是放到 2 年前,鐵定是個炸裂的一個月。
不過當我在開發者群體裡問了一圈後,發現大家實際的情況倒不是「麻了」,而是把「旁觀的興奮」變成了「行動上的提速」,開發者們對模型開始從「看」到「幹」,已經轉變了關注視角——模型的能力進步之外,是不是一個可以對自己所做的事情帶來能力明顯提升,或者說這個模型和開發者的「對齊」到底怎麼樣,開始整了一個重要視角。
比如 Qwen3 發之前身邊的很多創業者和開發者就都知道 Qwen 團隊在憋大招,不僅提早一個多月就在「蹲守」,而且也在第一時間就把他們手中正在開發的 AI 應用背後的模型切到了 Qwen3。最近跟他們聊起模型層面的新變化,發現 Qwen3 被提及的越來越多。
在他們看來,像過去兩年那樣只是看模型跑分來評價模型效能已經沒有太大意義,因為隨著模型能力的繼續提升有了明確路徑——預訓練+後訓練+強化學習,很多評測基準評估的比如像程式碼、寫作等單項能力各家都會拉平,更重要的是它已經不能反映現實環境中實際使用模型的場景,尤其是今年按下了 AI Agent 應用的加速鍵後。
從這個角度看,Qwen3 在模型基礎能力的提升之外,其實是向開發者層面的真實需求和場景做了大量「對齊」,可以說是專為開發者和企業易於採用來設計和打磨的。
舉個例子,Qwen3 整體的一個最佳化目標就是以更低的成本實現強勁的效能,讓開發者更容易能用起來、用得好,在這背後 Qwen3 其實做了大量目標拆解和技術實現,比如之前最受企業歡迎的 Qwen 模型尺寸其實是 72B,但在收到開發者反饋,說 72B 需要兩張 H800 才能跑、不方便時,Qwen 團隊探索了現在更高效的 32B,開發者也用得更好了。
Qwen3 的這條路徑其實很有啟發意義,透過在實際場景裡向開發者做「對齊」來持續最佳化,Qwen3 也正在成為企業和開發者的「AI 應用落地最優解」。有了這樣的預期,順著模型的持續、全面迭代,水漲船高地做 AI 應用也成為開發者和企業在今年最確定的事。
01
如何向開發者「對齊」
其實最近 OpenAI 研究員姚順雨(Deep Research、Operator 核心作者)在「AI 的下半場」一文中完整地聊過模型層面的變化,在創業者和開發者圈層也引起了可以說今年以來最廣泛的共鳴。
在他看來,隨著強化學習終於找到了可以泛化的路徑,不再只是在特定領域奏效,比如打敗人類棋手的 AlphaGo,而是可以做到在軟體工程、創意寫作、IMO 級別的數學、滑鼠和鍵盤操作等等各方面都做到接近人類競賽的水平。
這種情況下,比拼榜單分數、在更復雜的榜單上得更高的分數會更容易。換言之,這種評價方式已經過時了,現在比拼的是定義問題的能力。
從這個角度看模型,也才是 Qwen3 真正的含金量。因為基準評測裡模型能力都很強,但一個評測基準里名列前茅的模型,對開發者來說卻不一定是最優。
在這種情況下,開發者在實際場景中對模型更看重的東西是什麼?
大的維度上,大概是模型效能、成本、易部署等幾個角度。但在具體的場景裡,就是不同的模型及其工具的技術實現方式了。這也是為什麼 Qwen 一直採取全尺寸、全模態的智慧上限探索,也會發布不同量化精度的模型版本讓開發者在選擇上有更大的自由度。
一位開發者幫我拆解了下,他說 Qwen3 系列有 8 個模型,包括兩款 MoE(混合專家)模型和六個稠密模型,可以服務不同場景的不同需求。
在稠密模型當中,0.6B 和 1.7B 模型特別適合研究人員使用,它甚至可以在沒有 GPU、沒有獨立顯示卡的情況下就可以跑起來驗證一些資料集,做一些資料配比工作。
4B 和 8B 的模型則適合消費電子和汽車行業,因為這兩個模型適合入端;4B 模型適合手機,8B 模型可以放在 AIPC 和智慧座艙裡面。
32B 的模型則在企業大規模部署上廣受歡迎。另外對於 MoE 的兩個模型,可以直接透過伺服器做規模化部署,提高利用效率的同時、可以應用在更大規模的場景。
他覺得這麼做是對的,因為只有像這樣考慮到最多的細分需求組合,才能爭取讓各個場景裡做不同產品的開發者都能有一個拿來就用的最佳實踐模型,哪怕後續還需要開發者自己 DIY。
這次 Qwen3 在這個方向也作了進一步延伸,作為國內首個混合推理模型,將快速、簡潔響應的快思考和更深層思維鏈推理能力整合於單一模型中,實現了推理模型和非推理模型的統一,開發者甚至可以自選「思考預算」來適配多樣化任務需求。
企業場景裡,基本上都會基於開源模型,結合自己的資料做一些微調。就像 Qwen3 這次的模型升級支援了 119 種語言,在日本市場雖然 Qwen3 才釋出半個月,但已經比 Claude、GPT-4o 等模型還要更受歡迎,因為企業在開源的 Qwen3 基礎上灌一些日語場景資料,這個效果就比單純支援日語的閉源模型更靈活,可以實現四兩撥千斤的效果。
當然這些之外,開發者對 Qwen 的態度,很大程度上還是來自於他們說的最多的一點——底模好。
底模好,意味著在基座模型上做蒸餾、微調後訓練、強化學習等等都會有更好的效果。尤其是強化學習的 Scaling Law 更需要有一個優質的預訓練模型,這是模型能夠泛化的決定性因素之一。印象裡,就連 DeepSeek-R1 那篇論文裡展示的蒸餾小模型,也選了 Qwen 作為底模,透過利用 DeepSeek-R1 生成的推理資料,對 Qwen-7B 基礎模型進行微調,將 DeepSeek-R1 的推理能力透過知識蒸餾的方式傳遞給 Qwen-7B,模型效能很好。
極客公園團隊的同學和阿里雲通義大模型業務總經理徐棟專門探討過開發者體感上的底模好,到底意味著什麼?怎麼做到的?
徐棟認為每次模型能力的提升一定會體現在兩點上,知識密度和指令遵循上。這使得過去的一些做不到、或者成功率低、需要抽卡的 AI 應用場景裡,模型更「聽話」了。Qwen3 就透過資料工程和演算法迭代,進一步提升了在知識密度和指令遵循上的表現。
現在 Qwen3 可以在資料探勘的任務上,依賴模型強大的知識密度與 SFT 階段精細化訓練,從 600 頁招投標文件中精準抽取 88 個欄位;在輿情監測場景,Qwen3 可以將消費者評價抽象為「小型車輛」「轎車」等標準化標籤,避免過度擬合或籠統概括;在更常見的智慧客服場景,Qwen3 可以精準捕捉使用者需求、引導商品推薦時機,降低客戶流失率。
隨著今年整個行業開始跑步進入 Agent 領域,Qwen3 這次也非常及時地提高了 Agent 場景對模型提出的能力需求,優化了 Agent 工具呼叫和程式碼能力,同時也加強了對 MCP 的支援。結合封裝了工具呼叫模板和工具呼叫解析器的 Qwen-Agent 框架,大大降低了編碼複雜性,手機及電腦 Agent 操作等任務都開始變得更可行了。
這個最佳化還在繼續,上週在 QwenChat 的官方網頁上,我們還看到了 Deep Research(深度研究)和 WebDev(生成網頁)這兩個功能上線。這些是基於 Qwen 的 Agent 框架實現的。Qwen3 支援 agent 呼叫工具、也原生支援 MCP 協議,在對工具呼叫能力的 BFCL 評測中是頂尖模型裡表現最好的。
Qwen3 的 Agent 增強能力,也在各行各業的客戶場景中發揮作用。比如聯想百應智慧體平臺在 Qwen3 釋出後,馬上就把他們平臺背後的大模型引擎切過去。作為 IT 解決方案,百應平臺利用 Qwen3 開源和對 agent 工具呼叫、MCP 支援的特點,再加上更強的推理能力,升級了 IT 運維(AI 服務)、AI 辦公、AI 營銷等場景方案,讓中小企業在 AI 時代可以自己 DIY 垂直場景中的各種 Agent,實現了從提供生產工具到直接輸送「數字員工」生產力的躍遷,進一步實現降本增效。
圍繞開發者場景做模型的進一步迭代,向開發者做對齊,其實也是最近大模型廠商需要進行的集體轉向。
前段時間 OpenAI GPT-4.1 核心研究員 Michelle Pokrass 也指出,有時候為了最佳化基準測試而調整模型,結果看起來不錯,實際使用卻發現一些問題,比如模型不遵循指令、格式怪異,或者上下文太短。這些反饋才確定了哪些評估指標是客戶真正需要重點最佳化的。在她看來,GPT 4.1 的目標是讓開發者在使用時感到愉快。GPT-5 現在的最佳化目標是讓模型自己能分清楚什麼時候開啟聊天、什麼時候開啟深度思考,減少 OpenAI 模型供給帶給開發者的複雜和浪費問題。
中美優秀模型開始有這樣的共識,開始有意識地有了向開發者「對齊」,所以接下來的 AI 價值落地絕對是個利好。
02
「無腦入」之前破解下阿里的 COT(思維鏈)
跟用 Qwen 的開發者逐漸交流的過程,你會發現 Qwen 竟然開始有了粉絲效應一樣的信任。這個信任其實根本上是來自於長期「情緒穩定」的成長。
你會發現 Qwen 一個月一更新,甚至 Qwen3 釋出半個月,Qwen 家族就又更新了好幾個模型了,這比 Llama 開起來「更勤奮」。
我記得 Hugging Face 中國區負責人王鐵震總結他在 Hugging Face 開源社群上看到的 Qwen 為什麼受歡迎的原因是,「量大管飽、更新快、底模好」,這份確定性讓開發者確信持續會有最新最好最快的模型在手。
這個現象還挺有意思,AI 應用至少是下一個十年裡相對長期和複雜的建設,確信有一個持續投入的模型,這件事太重要了。我們都說要水漲船高地做 AI 應用,AI 應用的開發者一定會希望水流量大、水漲得快、水源源不斷,才能更安心地做應用。
想必這也是為什麼 Qwen 會成為全球擁有最多衍生模型的開源模型,建立了自己的全球影響力。估計也是看到了 Llama 雖然堅持開源,但更新速度和效能距離同時期的閉源模型有差距。Qwen 如果可以一直堅持持續、快速給大家發最好的「槍」,持續開源全模態、全尺寸的 SOTA 模型,那這個開源旗幟就應該是 Qwen 扛起來。
所有的「如果」背後都必須有邏輯鏈的支撐。那麼,阿里是不是會支援 Qwen 堅決地持續、全面開源 SOTA 模型這件事,就必須看一下阿里自己的 COT 是否和這個期待是相符的。
此前我寫的分析阿里 AI 戰略的文章梳理過,出於阿里巴巴自身的場景,一定會持續探索智慧的上限。AI 時代,阿里「讓天下沒有難做的生意」的延長線,必然還是要為千行百業的 AI 創新和轉型提供基礎設施。這意味著,從算力到模型再到應用的每一層平臺型機會——阿里雲、Qwen 模型家族及其開源生態、應用平臺都需要持續進化。其中最主要的目標,一定是追求 AGI 的實現,以此來突破現有業務的 AI 轉型升級和 AI 原生應用。
而且,不同於比如背靠 Meta 的 Llama,阿里即便把研發成本高昂的 SOTA 模型開源,也可以透過阿里雲實現業務閉環,作為亞太最大的雲廠商,這是阿里堅決開源的底氣。極客公園社群的很多創業者和開發者都跟我分享,別看開源模型好像不賺錢,只圖技術品牌,但其實,Qwen 系列開源模型給阿里雲帶來了實實在在的收入增長,可以說是過去一年多阿里雲最好的銷售。選擇了 Qwen 開源模型,一個很自然的選擇就是購買阿里雲,因為使用整個通義以及通義的衍生模型,在阿里雲上面執行效率最好。
「阿里雲是全世界唯一一家積極研發基礎大模型並全方位開源、全方位貢獻的雲計算廠商」這句話阿里雲說的其實體現了他們的目標。
因為 MaaS 已經成為阿里雲的商業模式中非常重要的組成部分。從阿里雲過往 7 個季度的增長看,使用通義 API 的客戶,會帶動相當多其他雲產品的使用,這是非常明顯的客戶關聯銷售的效果。對阿里而言,無論未來模型能力和 AI 應用如何演進,AI 和雲計算基礎設施都有非常明確的商業模式——雲計算網路。
Qwen 持續開源 SOTA,不僅和開發者、客戶的利益是一致的,與生態上下游的利益也是一致的。這也是為什麼 Qwen3 釋出的第一天,非常多的終端和晶片企業宣佈支援了 Qwen3 的模型,包括像英偉達,聯發科和 AMD。某種程度上,開源的最大的朋友就是英偉達和伺服器廠商,有了最好的開源模型,他們可以賣一體機、賣更多的 GPU。
可見只有促進了所有的生態上下游的繁榮,Qwen 本身的價值才可以在阿里更大的業務閉環裡得到價值閉環。這個邏輯下,Qwen 必然「不用揚鞭自奮蹄」要扛起開源 SOTA 大旗,這是個讓人看起來更安心的邏輯鏈。
終於有了讓開發者「無腦入」、無風險、「薅羊毛」無壓力,讓開源模型可以成為商業世界可以穩定預期的一種技術基礎,這非常重要。也是 AI 應用價值落地開始提速的重大利好。
*頭圖來源:視覺中國
本文為極客公園原創文章,轉載請聯絡極客君微信 geekparkGO  #阿里雲飛天釋出時刻
極客一問
你如何看待 Qwen3

熱點影片

雷軍再發長文,談及小米 SoC 大晶片:那不是「黑歷史」,那是來時路。
點贊關注極客公園影片號
觀看更多精彩影片

更多閱讀


相關文章