大模型下半場:Agent時代為何更需要開源模型

作者|莊洲,編輯|Evan
大模型正在上演Linux的故事
世間建築可以分為兩種,一種是集市,天天開放在那裡,從無到有,從小到大;一種是教堂,幾代人嘔心瀝血,歷盡幾十年方能完工。Eric Raymond在《大教堂與集市》中如是寫道。
而Linux的故事,更像是用集市的方式,建造一座大教堂。如今,在生成式人工智慧領域,越來越多的開源模型正在為這樣的“建造模式”貢獻新的案例。
阿里雲,是開源模型的堅定追逐者。目前,通義千問Qwen衍生模型數量已突破10萬,超越美國Llama模型,通義成為全球第一AI開源模型。
4月29日凌晨,阿里釋出新一代通義千問模型Qwen3(簡稱千問3),引數量僅為DeepSeek-R1的三分之一,為235B,成本大幅下降。
據悉,千問3是國內首個“混合推理模型”,“快思考”與“慢思考”整合進同一個模型,對簡單需求可低算力“秒回”答案,對複雜問題可多步驟“深度思考”,大大節省算力消耗。
2023年至今,阿里通義團隊已經開源了200多款模型,包含大語言模型千問Qwen及視覺生成模型萬相Wan等兩大基模系列,開源囊括文字生成模型、視覺理解/生成模型、語音理解/生成模型、文生圖及影片模型等全模態,覆蓋從小到大全尺寸引數,滿足不同的終端需求。
千問3的總引數量為235B,啟用僅需22B。千問3預訓練資料量達36T ,並在後訓練階段多輪強化學習,將非思考模式無縫整合到思考模型中。
千問3的部署成本還大幅下降,僅需4張H20即可部署千問3滿血版,視訊記憶體佔用僅為效能相近模型的三分之一。
阿里的開源模型釋出,對行業意味著什麼?開源模型的能力如何?未來的大模型競爭將會走向何方?
#01
開源大模型的能力正在後來居上
開源大模型的能力正在趕上閉源模型。
這是筆者在詢問了多位AI創業者、大廠大模型開發者及投資人後的共識。
儘管,他們也同意,如今還是閉源模型處於領先地位,但開源模型和閉源模型之間的差距正在逐步縮小,而這樣的速度,令業界始料未及。
“閉源模型先做到了90分,但如今,開源模型也能夠做到90分的水平。”一位大模型開發人員表示。Scaling Law總有瓶頸,這個瓶頸所體現的便是模型越大,能力提升、付出的成本則是成倍增加,因此給了開源模型追趕的時間。
是開源模型究竟開放了什麼?其與開源軟體有什麼區別?又與閉源模型的差異體現在哪裡?
開源軟體通常是公開原始碼的全貌,允許開發者檢視、修改,後續開發者可以很容易根據程式碼復現相應的功能實現。但開源模型一般只開源引數,至於其中用了什麼資料、如何微調、如何對齊,卻難以知曉。閉源模型則是直接提供一整套方案。可以理解為,開源模型是基於原有的材料,需要廚師自備工具、選單、研究做法,但究竟能不能做出一道好菜,全靠廚師功力。閉源模型則是預製菜,加熱即用。
但開源模型的好處在於,能夠讓更多開發者參與到模型的開發中,幫助模型提升效能、完善生態,並且靈活性強。這能夠幫助模型公司省去很多人力成本和時間成本。對於使用開源模型的一方,也是一種節省成本的方式。
不過,開源模型的成本優勢在前期,舉個例子,據計算,閉源模型GPT-4每百萬個代幣輸入的成本約為10美元,每百萬個代幣輸出的成本約為30美元,而開源模型Llama-3-70-B每百萬個代幣輸入的成本約為 60 美分,每百萬個代幣輸出的成本約為 70 美分,這使其成本大約便宜 10 倍,而效能差異卻很小。但如果涉及到後續的部署,則需要極強的技術實力和投入。
不過,阿里此次釋出的千問3,也正在逐步解決成本投入的問題,以阿里新發布的千問3為例,從部署成本看,千問3是滿血版R1的25%~35%,模型部署成本大降六/七成。旗艦版千問3模型的總引數235B啟用22B,大致需要4張H20或同等效能的GPU。對比來看,滿血版DeepSeek-R1總引數671B啟用37B,1臺8卡H20雖然可跑,但較吃緊(100w左右),一般推薦16卡H20,總價約200萬左右。
模型推理上看,千問3獨特的混合推理模型,開發者可自行設定“思考預算”,在滿足效能需求的同時實現更精細化的思考控制,自然也會節省整體推理成本。可以參考的是,同類型的Gemini-2.5-Flash在定價上的推理和非推理模式的價格相差約6倍,使用者使用非推理模式時相當於可節省600%的算力成本。
一位大廠從事大模型開發人員告訴矽兔君,開源模型更適合於有很強技術實力,但沒有足夠預算的團隊,例如學術機構。而閉源模型則適合人少錢多的公司。不過,隨著開源模型能力的提升,有41%的受訪企業計劃增加對開源模型的使用,而41%的企業認為如果開源模型和閉源模型效能相當,會轉向開源模型。在這項調查中,僅有18%的企業不打算增加對開源LLM的使用。
A16z創始人馬克·安德里森就表示,開源,讓大學重新回到競爭中,因為,如果研究者的擔心是,第一,大學沒有足夠的資金來參與AI領域的競爭並保持相關性;其次,所有大學加在一起也沒有足夠的資金來參與競爭,因為沒有人能夠跟上這些大型公司的籌資能力。而當開源模型越來越多且能力上來之後,就意味著大學可以使用開源模型進行研究。對沒有足夠資金的小公司而言,這個邏輯同樣成立。
 矽兔君製圖
#02
大模型的東方啟示
DeepSeek的橫空出世,讓諸多人發現了中國公司開源模型的能力。
“Deep Seek代表的是輕量化、低成本的AI產品。”一位中美AI投資人表示,舉個例子,混合專家模型(MoE)的調整需要極高的工藝,過去的主流模型使用MoE的並不多,是因為難,但是“小孩不信邪”,卻把這件事做成了。
但開源模型最重要的是生態,也就是說到底有多少人用。畢竟,要切換不同的模型,對使用者而言是極高的成本。不過,當DeepSeek橫空出世之後,在矽谷一些用Meta的大模型的使用者也切換到了DeepSeek,“後來者一定要比先發者有足夠的優勢。”一位大模型研發人員表示,這樣才會吸引使用者放棄前期投入的成本,切換到新的開源模型上來。
矽兔君整理了目前全球知名模型的開源和閉源情況發現,除了亞馬遜,微軟、谷歌、Meta、OpenAI都有開源模型的佈局,一些公司選擇純開源路線、一些選擇開源和閉源並行,在中國,阿里是在開源道路上走得最堅定的大廠。早在DeepSeek釋出R1前,阿里就在開源模型上押注和佈局。
全球知名模型開源情況
分類
企業
旗下主要模型
開源/閉源
海外雲廠商
微軟
Phi-3系列
開源
WizardMath系列
開源
MAI系列
閉源
谷歌
Gemini系列
閉源
Gemma系列
開源
亞馬遜
Nova系列
閉源
Olympus系列
閉源
Titan系列
閉源
海外大模型企業
Meta
Llama系列
開源
OpenAI
GPT-2
開源
GPT-3系列、GPT-4系列、o系列
閉源
xAI
Grok-1
開源
Grok-1.5Grok-2
閉源
Anthropic
Claude系列
閉源
Cohere
Command系列
閉源
Mistral AI
Mistral 系列
開源
中國雲廠商
阿里
Qwen系列
開源
通義千問系列
開源
華為
盤古大模型
閉源
騰訊
混元Large
閉源
混元3D生成模型
開源
百度
文心繫列
閉源
中國大模型企業
DeepSeek
DeepSeek-R1系列、DeepSeek-V3/R1系列
開源
MiniMax
MiniMax-Text-01MiniMax-VL-01
開源
月之暗面
Moonshot-v1系列模型
閉源
百川智慧
Baichuan 2-7B/13B
開源
Baichuan 3
閉源
智譜AI
GLM-4系列模型
閉源
GLM-4 series系列開源模型
開源
資料來源:公開資訊整理 矽兔君整理
截至2025429
根據李飛飛的《斯坦福人工智慧報告2025》,2024年中,阿里釋出的著名AI大模型數量為6個,位於全球第三,谷歌和Open AI並列第一,為7個。而在報告中所提及的2024年重要大模型排名,阿里的AI貢獻度位列全球第三
來源:《斯坦福人工智慧報告2025》
而29日釋出的千問3,作為通義千問系列最新一代大語言模型,提供了一系列稠密(Dense)和混合專家(MoE)模型。在推理、指令跟隨、智慧體能力和多語言支援方面取得了突破性的進展,具有以下特性:
1) 獨特的混合推理:支援在思考模式 (用於複雜邏輯推理、數學和編碼)和 非思考模式 (用於高效通用對話)之間無縫切換,確保在各種場景下的最佳效能。
2) 顯著增強的推理能力 :在數學、程式碼生成和常識邏輯推理方面超越了之前的 QwQ(在思考模式下)和Qwen2.5-Instruct 指令模型(在非思考模式下)。
3) 更好的人類偏好對齊 :在創意寫作、角色扮演、多輪對話和指令跟隨方面表現出色,提供更自然、更吸引人和更具沉浸感的對話體驗。
4) 智慧體能力突出 :可以在思考和非思考模式下精確整合外部工具,在複雜的基於代理的任務中在開源模型中表現領先。
5) 強大的多語言能力:支援119 種語言和方言,具備強大的多語言指令跟隨和翻譯能力。
其中所提到的“混合推理”,相當於把頂尖的推理模型和非推理模型整合到同一個模型裡去,需要極其精細、創新的設計及訓練。目前,熱門模型中只有千問3、Claude3.7以及Gemini 2.5 Flash可以做到。
具體而言,在“推理模式”下,模型會執行更多中間步驟,如分解問題、逐步推導、驗證答案等,給出更深思熟慮的答案;而在“非推理模式”下,模型會直接生成答案。同一個模型,可以完成“快思考”和“慢思考”,這類似於人類在回答簡單問題時,憑經驗或直覺快速作答,面對複雜難題時再深思熟慮,仔細思考給出答案。千問3還可API設定“思考預算”(即預期最大thinking tokens數量),進行不同程度的思考,讓模型在效能和成本間取得更好的平衡,以滿足開發者和機構的多樣需求。
Qwen3的效能情況
對中國而言,開源模型的做法也比閉源模型能夠吸引更多客戶,因為如果是閉源的模型,只能更多集中在國內市場,但開源則能夠讓更多國外公司也進行使用,舉個例子:Perplexity是一家美國公司,但使用者可以在Perplexity上使用DeepSeek R1,並完全託管在美國,使用美國的資料中心。
#03
大模型的下半場
2023年3月,在舊金山的探索館一場開源AI盛會上,羊駝漫步在會場上,致敬了Meta的開源大語言模型“LLaMA”。
2023年至今,一年多時間裡,生成式AI正在不斷發生變化。公眾的關注點已從基礎模型變為AI原生的應用。在YC W25的Demo Day中,80%的專案都是AI應用。
“開源模型將會促進更多Agent的落地。”多位業界人士向矽兔君表達了這個觀點。一方面是開源將會降低使用成本及門檻。
例如千問3 有很強的工具呼叫能力,在伯克利函式呼叫BFCL評測榜中,千問3創下70.76的新高,將大幅降低Agent呼叫工具的門檻。同時,可結合 Qwen-Agent 開源框架來充分實現Qwen3 的智慧體能力。Qwen-Agent 是一個基於 Qwen 的指令跟蹤、工具使用、規劃和記憶體功能開發 LLM 應用程式的框架,框架內部封裝了工具呼叫模板和工具呼叫解析器,還附帶瀏覽器助手、程式碼直譯器和自定義助手等示例應用程式,大大降低了編碼複雜性。千問3原生支援MCP協議,開發者要定義可用工具,可基於 MCP 配置檔案,使用 Qwen-Agent 的整合工具或自行整合其他工具,快速開發一個帶有設定、知識庫RAG和工具使用能力的智慧體。
不僅如此,阿里的千問3能夠支援不同尺寸模型,千問3對手機、智慧眼鏡、智慧駕駛、人形機器人等智慧裝置和場景的部署更為友好,所有企業都可免費下載和商用千問3系列模型,這也將大大加速AI大模型在終端上的應用落地。
另外,有從業者指出,閉源模型在To B端並沒有很好解決信任問題,很多大企業其實並不願意將自己的業務接入第三方大模型的API,因為這背後是核心資料是否會成為第三方大模型訓練的一部分,這也是開源模型的機會。
有一個說法是,開源作為早期產品,在沒有經過beta測試之前的市場推廣策略,當不知道明天會是什麼樣的時候,先開源出來,吸引開發者。當有人用起來的時候,就有了最佳實踐,緊接著就建立起了自己的生態。
不過,由於開源模型的商業鏈條較長,不如閉源模型來得快和清晰,因此業界人士表示,開源模型更多適合家裡有錢有資源的“富二代”的遊戲。以Meta來說,Meta做開源模型,更多是搭建生態,為Meta其他業務板塊提供支援。阿里做開源的邏輯,則更多是為其雲服務。阿里有很強的雲設施服務,可以在此基礎上訓練大模型,另外也可以將大模型部署在自己的雲服務商,甚至可以根據使用者部署定製專屬大模型,用這樣的方式走通商業邏輯。
“我的模式是,讓大公司、小公司和開源相互競爭。這就是計算機行業發生的事情。”馬克·安德里森曾表示。而在大模型逐漸變成如水、電、煤一樣的標準化產品,開源可能更適合未來的方向。


相關文章