4月30日,小米宣佈開源首個為推理而生的大模型Xiaomi MiMo。據稱,其在數學推理(AIME 24-25)和程式碼競賽(LiveCodeBench v5)公開測評集上,MiMo僅用7B的引數規模,超越了OpenAI的閉源推理模型o1-mini和阿里Qwen更大規模的開源推理模型QwQ-32B-Preview。

圖片來源:Xiaomi MiMo微信公眾號
受此訊息影響,今日小米股價漲5.27%,金山雲和金山軟體更是分別大漲14.20%和7.07%。業內人士認為,小米作為國產頭部的手機品牌廠商,此次開源的小引數規模模型展現了較強的效能,為AI在手機端側的應用和執行提供了更堅實的模型基礎。

圖片來源:Wind
隨著MiMo模型的開源,小米剛剛成立不久的小米大模型Core團隊也終於浮出水面。小米創始人雷軍曾在2023年表示,自2016年組建AI團隊以來,到2023年4月第一時間成立專職大模型團隊,經過多次擴充套件,小米AI團隊相關人員規模已達3000多人,逐步建立了視覺、語音、聲學、知識圖譜、NLP、機器學習、多模態等AI技術能力。
小米大力“押寶”大模型早在去年底便已有訊息傳出。DeepSeek-V3爆火之後,背後的AI“天才少女”羅福莉引發了大眾的關注,彼時就有媒體報道稱,雷軍以千萬年薪招攬DeepSeek開源大模型DeepSeek-V2的關鍵開發者之一羅福莉,領導小米AI大模型團隊。
值得一提的是,DeepSeek同日於AI開源社群Hugging Face上釋出了一個名為DeepSeek-Prover-V2-671B的新模型。據悉,DeepSeek-Prover-V2-671B使用了更高效的safetensors檔案格式,並支援多種計算精度,方便模型更快、更省資源地訓練和部署,引數達6710億,或為去年釋出的Prover-V1.5數學模型升級版本。在模型架構上,該模型使用了DeepSeek-V3架構,採用MoE(混合專家)模式,具有61層Transformer層,7168維隱藏層。同時支援超長上下文,最大位置嵌入達16.38萬,使其能處理複雜的數學證明,並且採用了FP8量化,可透過量化技術減小模型大小,提高推理效率。
中信建投研報表示,大模型能力不斷迭代增長,但模型之間差異在縮小。這些技術需要在終端裝置上應用落地,最終透過這些應用/終端實現商業價值的轉化,從而形成一個從投資到變現的完整閉環。目前,Meta、位元組、小米等巨頭已經開始大力佈局端側AI,搶奪AI Agent入口。除了手機、PC、眼鏡、耳機外,潛在的端側AI基數巨大,家電、機器人、智慧車、教育辦公裝置、玩具等都受益於端側AI的趨勢,AI嵌入將帶來廣泛的硬體升級。重點關注算力、儲存、連線、電力等硬體環節。
(宣告:文章內容和資料僅供參考,不構成投資建議。投資者據此操作,風險自擔。)
編輯|||金冥羽 杜波
校對|陳柯名
封面圖片來源:視覺中國

每日經濟新聞綜合證券時報、財聯社、Wind等
感謝關注每日經濟新聞,每天都有精彩資訊
推薦閱讀↓
