阿里巴巴,股價暴漲!最新成果公佈:“用5%的力”,效能比肩滿血DeepSeek-R1

3月6日,阿里通義千問大模型團隊宣佈,正式推出最新的推理模型QwQ-32B。
阿里巴巴稱,這是一款擁有320億引數的模型,其效能可與具備6710億引數(其中370億被啟用)的DeepSeek-R1媲美,但二者在引數量上相差將近20倍
據介紹,透過大規模強化學習,千問QwQ-32B在數學、程式碼及通用能力上實現質的飛躍,整體效能比肩DeepSeek-R1,同時大幅降低了部署使用成本,在消費級顯示卡上也能實現本地部署
在數學推理、程式設計能力和通用能力的一系列基準測試中,通義千問大模型團隊將QwQ-32B與OpenAI的o1-mini以及DeepSeek滿血版及蒸餾版進行了比較,結果顯示,在測試數學能力的AIME24評測集上,以及評估程式碼能力的LiveCodeBench中,QwQ-32B表現與DeepSeek-R1相當,遠勝於o1-mini及相同尺寸的R1蒸餾模型。
據介紹,在冷啟動基礎上,阿里通義團隊針對數學和程式設計任務、通用能力分別進行了兩輪大規模強化學習。在初始階段,特別針對數學和程式設計任務進行了強化學習訓練。與依賴傳統的獎勵模型不同,通義千問大模型團隊透過校驗生成答案的正確性來為數學問題提供反饋,並透過程式碼執行伺服器評估生成的程式碼是否成功透過測試用例來提供程式碼的反饋。
業內人士分析,QwQ-32B的成功表明,將強大的基礎模型與大規模強化學習相結合,能夠在較小的引數規模下實現卓越效能,這為未來通向通用人工智慧提供了可行路徑。
值得注意的是,儘管DeepSeek-R1擁有6710億的巨型引數量,但由於DeepSeek創新性地使用了MoE(混合專家模型)架構以及MLA(多頭潛在注意力機制)的方法,每次推理僅啟用370億引數(佔總量的5.5%)。這使得DeepSeek-R1雖然整體很大,但實際幹活時只需要動用一小部分力量,能夠做到節省資源,高效完成任務
阿里通義團隊表示,未來將繼續探索將智慧體與強化學習的整合,以實現長時推理,探索更高智慧進而最終實現AGI的目標。
目前,阿里已採用寬鬆的Apache2.0協議,將QwQ-32B模型向全球開源,所有人都可免費下載及商用,也可以透過阿里雲百鍊平臺直接呼叫模型API服務。同時,使用者也可透過通義APP免費體驗最新的QwQ-32B模型。
3月6日早盤,阿里巴巴集團(09988.HK)港股大幅高開漲超6%,截至收盤漲超8%。
3月5日晚,阿里巴巴美股大漲超8%。
此前,2月25日,阿里通義Qwen釋出基於旗艦模型Qwen2.5-Max構建的推理模型QwQ-Max-Preview預覽版,支援聯網搜尋,會和DeepSeek以及Kimi的推理模型一樣展現思考過程.
長江證券研報指出,近期,阿里在AI領域持續發力,踐行了其AI驅動戰略,隨著其後續投入的逐步提升,相關成果有望加速迭代,相關成果或將惠及相關產業鏈,加速AI應用落地,進而進一步帶動算力需求的爆發。同時,隨著阿里在AI基礎設施、基礎模型平臺及AI原生應用、現有業務的AI轉型等三方面加大投入,或將引領中國AI產業加速發展。
編輯|||孫志成 杜恆峰
校對|何小桃
封面圖自每經記者 張涵 攝
每日經濟新聞綜合自證券時報、公開資料等
感謝關注每日經濟新聞,每天都有精彩資訊
推薦閱讀↓

相關文章