面壁WAIC新發布:新一代高效低能耗架構面壁小鋼炮、一鍵開發大模型APP的全棧工具集

作者 | 蔡芳芳
7 月 5 日,面壁智慧聯合創始人、首席科學家劉知遠在 WAIC 2024 “模型即服務(Mass)加速大模型應用落地”論壇進行了《大模型時代的摩爾定律,邁入更高效的大模型時代》主題演講,並首次對外介紹:
  • 開源新一代高效、低能耗面壁小鋼炮 MiniCPM-S 模型
  • 助力開發者一鍵打造大模型 SuperAPP 的全棧工具集 MobileCPM
演講開場,劉知遠表示:“摩爾定律揭示了積體電路可容納電晶體數目約每隔 18 個月便會增加一倍的規律,在過去幾十年中給半導體和網際網路行業的發展帶來了科學指導意義;身處大模型時代,我們亟需新的“摩爾定律”。我們根據過去幾年在大模型領域的深耕和實踐,對大模型的發展趨勢進行觀察總結,提出了 大模型時代的面壁定律:大模型的知識密度不斷提升,平均每 8 個月提升一倍。”
其中,知識密度 = 模型能力 / 推理算力消耗
如下圖所示,相比 OpenAI 於 2020 年釋出的 1750 億引數的 GPT-3,2024 年初,面壁釋出具備 GPT-3 同等效能但引數僅為 24 億的 MiniCPM-2.4B ,把知識密度提高了大概 86 倍。
不過這還不是面壁的極限,面壁持續最佳化 Scaling Law,使模型知識密度不斷提升,不斷訓練出計算更加高效且表現更強(引數規模降低,數值位寬降低,結構更加高效)的基礎大模型。面壁新一代高效稀疏架構大模型由此而生。
MiniCPM-S:新一代
高效低能耗「面壁小鋼炮」
為何人腦中的神經元數量與當代最大的基礎模型可比,但能源和時間消耗卻遠低於大模型?這背後,稀疏啟用 是大腦得以實現低能耗的一大核心“技術”,透過不同任務調取不同⼤腦分割槽神經元,能源與時間消耗⼤⼤降低。
和大腦類似,採用稀疏啟用也能夠在同等引數下減少大模型的推理能耗——稀疏度越高,每個詞元(token)啟用的神經元越少,大模型的推理成本和能耗就越少。MiniCPM-S 1.2B 採用了高度稀疏架構,透過將啟用函式替換為 ReLU 及透過帶漸進約束的稀疏感知訓練 ,巧妙地解決了此前主流大模型在稀疏啟用上面臨的困境。
和同規模的稠密模型 MiniCPM 1.2B 相比,MiniCPM-S 1.2 具備:
  • Sparse- 高稀疏低能耗:在 FFN 層實現了高達 87.89% 平均稀疏度,推理算力下降 84%;
  • Speed- 神仙推理: 更少計算,迅疾響應。純 CPU 環境下,結合 Powerinfer 推理框架,推理解碼速度提升約 2.8 倍;
  • Strong- 無損強大效能: 更少計算量,無損下游任務效能;
另外,MiniCPM-S 1.2B 將知識密度空前提升:達到同規模稠密模型 MiniCPM 1.2B 的 2.57 倍,Mistral-7B 的 12.1 倍。
面壁“高效 Scaling Law” 仍在持續演繹。
相關開源連結:
論文地址:https://arxiv.org/pdf/2402.13516.pdf
模型地址:https://huggingface.co/openbmb/MiniCPM-S-1B-llama-format
PowerInfer 可直接執行格式:
https://huggingface.co/openbmb/MiniCPM-S-1B-sft-gguf
開源大模型 APP 神器 MobileCPM:
一鍵整合端側大模型到 APP
此外面壁智慧最新開源了業內首個端側大模型工具集 “MobileCPM ",幫助開發者一鍵整合大模型到 APP。MobileCPM 開箱即用,包含了開源 端側大模型、SDK 開發套件以及翻譯、摘要等豐富的 intent ,人人都可以一站式靈活地定製出滿足不同應用場景需求的大模型 APP,低門檻速成「大模型創業者」。
MobileCPM 為開發者提供了三種模式:
  • 基礎模式:包含了豐富的適配端側⼤模型 APP 的 SDK 套件發者基於此即可⾃由靈活地搭建⼤模型 APP,但在這個過程中,基座模型和智慧體仍需要開發者⾃⾏開發和接⼊;
  • 精裝模式: 在基礎模式基礎上,提供 1.2B 引數的⾯壁新⼀代⾼效稀疏⼤模型 MiniCPM-S,並且 MobileCPM 還支援任意端側模型的整合,開發者可以根據具體需求選擇替換其它端側模型,並可以透過增加或修改 prompt 的方式定製多種 API,滿足不同業務場景需求。
  • 全包配件模式: 在精裝模式的基礎上預裝豐富的 intent,並提供保姆式教程,開發者也可使用自定義 intent,減少開發時間,⼤幅提升應⽤的豐富性。
本次釋出,MobileCPM 預設集成了面壁新一代高效稀疏架構模型 MiniCPM-S 1.2B ,一次性將智慧密度拉滿,更兼具:
  • 毫秒極速響應:得益於面壁小鋼炮 MiniCPM 系列背後的高效大模型訓練和推理工廠,MiniCPM-S 能夠在毫秒級時間內完成推理和響應,確保使用者體驗的流暢性。
  • 零推理成本:無需雲端 GPU,MiniCPM-S 專為端側裝置而生,在保證效能強大的同時大幅降低了計算資源的消耗,使得端側推理幾乎 0 成本。
  • 一鍵整合: 大模型與 APP 無縫銜接;
  • 預裝多種 intent,提供保姆式教程;
基於 MobileCPM 一鍵開發的示例 APP(端側模型由 MiniCPM-S 支援),在 iPhone 15 離線環境下毫秒級對話響應,推理速度輕鬆可達約 30 tokens/s,相當於人類語速的 18~30 倍。
MobileCPM 拉開了 端側 AI 生態序幕,基於 MobileCPM,任何開發者都可以輕鬆打造自己的 SuperAPP,有效解決推理成本問題。PC 和智慧手機時代,所有原有的應用都值得用高效端側模型嘗試一遍!
MobileCPM 現已全面支援 iOS 系統,Android 版本也即將上線,敬請期待。
開源地址:
https://github.com/OpenBMB/MobileCPM
TestFlight 外測連結:
https://testflight.apple.com/join/dJt5vfOZ
內容推薦
《大模型領航者 AIGC 實踐案例集錦(第一期)》收錄了2024 年上半年 InfoQ 釋出的代表性大模型應用案例,希望透過傳播大模型領域的先進實踐和思想理念,幫助潛在大模型應用者、創業者、開發者等做好各類決策和選型。關注「AI前線」,回覆「領航者」免費獲取電子書。
活動推薦
AICon 全球人工智慧開發與應用大會,為資深工程師、產品經理、資料分析師等專業人群搭建深度交流平臺。聚焦大模型訓練與推理、AI Agent、RAG 技術、多模態等前沿議題,匯聚 AI 和大模型超全落地場景與最佳實踐,期望幫助與會者在大模型時代把握先機,實現技術與業務的雙重飛躍。
在主題演講環節,我們已經邀請到了「蔚來創始人 李斌」,分享基於蔚來汽車 10 年來創新創業過程中的思考和實踐,聚焦 SmartEV 和 AI 結合的關鍵問題和解決之道。大會火熱報名中,7 月 31 日前可以享受 9 折優惠,單張門票節省 480 元(原價 4800 元),詳情可聯絡票務經理 13269078023 諮詢。

相關文章