一天之內,阿里、騰訊大動作!

4月29日凌晨,阿里巴巴開源新一代通義千問模型Qwen3(簡稱千問3),引數量僅為DeepSeek-R1的1/3,成本大幅下降,效能全面超越R1、OpenAI-o1等全球頂尖模型,登頂全球最強開源模型

千問3是國內首個“混合推

理模型”,“快思考”與“慢思考”整合進同一個模型,對簡單需求可低算力“秒回”答案,對複雜問題可多步驟“深度思考”,大大節省算力消耗。

千問3採用混合專家(MoE)架構,總引數量235B,啟用僅需22B。千問3預訓練資料量達36T ,並在後訓練階段多輪強化學習,將非思考模式無縫整合到思考模型中。千問3在推理、指令遵循、工具呼叫、多語言能力等方面均大幅增強,即創下所有國產模型及全球開源模型的效能新高:在奧數水平的AIME25測評中,千問3斬獲81.5分,重新整理開源紀錄;在考察程式碼能力的LiveCodeBench評測中,千問3突破70分大關,表現甚至超過Grok3;在評估模型人類偏好對齊的ArenaHard測評中,千問3以95.6分超越OpenAI-o1及DeepSeek-R1。
效能大幅提升的同時,千問3的部署成本還大幅下降,僅需4張H20即可部署千問3滿血版,視訊記憶體佔用僅為效能相近模型的三分之一
值得一提的是,記者獲悉,就在同一天,騰訊對其混元大模型研發體系進行了全面重構,圍繞算力、演算法和資料三大核心板塊,重新整理團隊部署,加碼研發投入。
調整後,騰訊成立兩個新的部門:大語言模型部和多模態模型部,分別負責探索大語言模型和多模態大模型的前沿技術,持續迭代基礎模型,提升模型能力。
同時,進一步加強大模型資料能力和平臺底座建設,其中資料平臺部專注大模型資料全流程管理與建設,機器學習平臺部則聚焦機器學習與大資料融合平臺建設,為AI模型訓練推理、大資料業務提供全面高效的PaaS平臺底座,共同支撐騰訊混元大模型技術研發。
騰訊相關人士表示,這意味著騰訊在快速調整組織架構以應對日新月異的大模型行業發展,這次調整有利於整合資源,最佳化研發流程,進一步提升騰訊在AI領域的長期技術作戰能力。
混元是騰訊自研的通用大模型,支援文字、影像、影片和3D等多種模態內容的理解與生成。今年以來,混元大模型技術迭代速度顯著加快,相繼推出快思模型Turbo S和深度思考模型T1,均在公開基準測試中達到業界領先水平,在影片生成和3D生成領域也推出多個新版本模型。混元3D生成、影片生成、DiT文生圖及千億引數MoE語言模型等模型均已對外開源,GitHub總Star數超過2.9萬。
近期,國產大模型發展按下提速鍵,生成式人工智慧正帶來產業變革。據央視網報道,目前,我國已形成覆蓋基礎層、框架層、模型層、應用層的完整人工智慧產業體系。最新資料顯示,截至2025年4月9日,我國人工智慧專利申請量達1576379件,佔全球申請量的38.58%,位居全球首位。目前,我國已累計培育400餘家人工智慧領域國家級專精特新“小巨人”企業,佔據全球1/10的人工智慧產業規模。
編輯|金冥羽 杜波
校對|陳柯名

封面圖片來源:視覺中國

每日經濟新聞綜合央視網、每經網、通義千問Qwen微信公眾號 、公開資料等

感謝關注每日經濟新聞,每天都有精彩資訊
推薦閱讀↓

相關文章