他們正在打樣「榨乾」有限算力的極致解法。

作者丨朱可軒

編輯丨陳彩嫻

大模型賽跑兩年後，玩家已逐步分化為三種趨勢：一類玩家仍追隨 OpenAI 的腳步卷大引數基座模型，另外一類燒不起錢的玩家轉頭擁抱應用端，而第三類則自始至終都在摸索如何更高效打造出效能更優的模型。

目前，第一類卷向大引數的玩家也都在尋找高效解決方案，連 OpenAI 此前釋出 GPT-4o mini 切入小模型市場，Meta Llama 3.1-8B、微軟 Phi-3-vision 和 Phi-4 14B 、谷歌 Gemma 2 以及阿里 Qwen 2.5 等一系列小模型也都是頭部玩家在做的佈局。

算力存在上限已是不爭的事實，而且也並非引數越大就意味著效果一定能達到預期，更何況，如若如果每增長一倍引數規模，效果能力卻並未呈一倍增長，大模型發展起來會很慢：

OpenAI 能用百千億達到 GPT-4 的水平，其他家則可能需要投入更多資源，如此一來要追趕 GPT-5 會更難，因為在 OpenAI 的基礎上再加碼更多算力、引數的可能性不大，這對於大多數無法如同 OpenAI 一般大把燒錢的玩家而言並非理智選擇。

所以可以看到，現如今已有不少玩家選擇投身應用端，不再執著於基座大模型。而繼續堅持的玩家們，則在思考如何基於有限的資源，將每個引數的作用發揮到極致，這才是多數人一致看好的大模型訓練最終方向。不過，現階段，模型引數的能力上限還遠未完全探索到。

沿著這一思路，國內創業隊伍中，面壁和 DeepSeek 憑藉高效且開源的模型迅速引發廣泛關注，並在海外社群得到高度評價，經濟學人也曾將他們並稱為中國最具創新能力的大模型公司。

當前，在國內大模型創業玩家隊伍裡，除了受到熱捧的六小龍外，面壁和 DeepSeek 這兩隻潛力股也已先後加入戰局，大模型明顯呈現出“6+2”格局。

國內每有創新定會在海外先掀起風浪：DeepSeek 在去年釋出 DeepSeek-V2 模型因“白菜價”一舉成名後，其近期新發布的 V3 模型則收到了矽谷大佬的一致驚歎，而面壁此前則曾因 MiniCPM-Llama3-V 2.5 模型被矽谷團隊套殼抄襲一事引發熱議，後續其也因另闢蹊徑聚焦端側而得到業內密切關注。

海內外科技圈對二者技術實力的認可能夠可見一斑，值得一提的是，他們背後的團隊也均來自清北高校，面壁的核心成員大多來自清華 NLP 實驗室，DeepSeek 也偏愛吸納年輕的清北應屆人才。

不過，除前所述，雙方的差異也客觀存在：首先，在稀疏方面，DeepSeek 選擇了從頭訓練 MoE 模型，面向雲端，MoE 確為較優方案，但端側則並不適合 MoE，面壁也找到了更適配的方案，其不僅在 MiniCPM-S 系列引入了自研稀疏化方案，還提出了新型類腦高效稀疏 Configurable Foundation Model 架構；

其次，DeepSeek 的高效是高度定製的技術體系，MoE 和 MLA 強繫結，並且主要面向大叢集訓練、部署服務，用雲提供使用者服務的極致最佳化，面壁則是面向邊端算力場景進行極致最佳化，更看重單裝置服務的高效性；

再次，DeepSeek 在高效訓練層面小有所成，而面壁在高效推理方面則更為得心應手。值得一提的是，高效性實際上也是模型部署在端側需要攻克的難點問題，而這也是面壁早早開始切入的賽道。

「高效」問題何解？

近日，被稱為“大模型屆拼多多”的 DeepSeek 釋出了 DeepSeek-V3 模型，在多項評測成績上，超越了 Qwen2.5-72B 和 Llama 3.1 405B 等其他開源模型，並且實現這一點，僅用了 2048 塊 H800，作為對比，Llama 3 405B 此前共使用了 16384 塊 H100 訓練。

DeepSeek 此番也再度點燃了業內對於高效訓練大模型的熱議，無盡燒錢並非長久之計。據悉，DeepSeek-V3 模型的總訓練成本僅為 557.6 萬美元，訓練時長在 280 萬 GPU 小時。對比來看，GPT-4o 的訓練成本約為 1 億美元，Llama 3 405B 訓練時長則為 3080 萬 GPU 小時。

論文連結：https://arxiv.org/abs/2412.19437

眾所周知，基座模型最關鍵的便是解決效率問題，而效率是多樣的，稀疏化包括混合專家（Mixture of Experts，簡稱MoE）可以在增大模型引數規模的同時，保持計算成本遠低於相同引數規模的稠密模型，這也是國內算力普遍有限境況下的必然選擇。

DeepSeek 所選擇的路徑是從頭訓練 MoE，這種方式訓起來相對困難，但也能緩解一些問題。例如，基於複製複製得到的 MoE 模型的潛在問題，因為基於複製的話，專家之間會有很多知識的重疊，權重是冗餘的，引數的冗餘對各專家的支援是重疊的。同時，從頭訓練的自由度也較高，可以避免老模型的問題，爭取達到 MoE 模型上限。

面向雲端，MoE 確為當前最優解，但就端側而言，MoE 則不一定為正解，所以，面壁也給出了新的稀疏化方案來解決端側模型問題：

去年，面壁在 MiniCPM-S 系列引入了自研稀疏化方案，透過將啟用函式替換為 ReLU 及透過帶漸進約束的稀疏感知訓練來提升大模型的稀疏性，能將 Llama、MiniCPM 稀疏度提升至接近 90%。並且也能夠在保持模型原有水平的基礎上，有效降低模型推理的開銷，與之相比的 MoE 方案則會顯著影響模型效果。

去年底，清華&面壁團隊還提出了一種新型類腦高效稀疏 Configurable Foundation Model 架構。較之於 MoE，CFM 能更本質和宏觀地覆蓋從預訓練到後訓練的模組化全過程，從結果上，對於大模型“知識密度”極致提升、對於端側模型極速低能耗推理能產生更顯著作用。

據面壁官方介紹，這一架構證實了大模型本身就具有高效稀疏模組化特性——大模型神經元與人腦類似，在預訓練過程中自發地產生了功能分化與分割槽的性質，各自負責語言、數學、程式碼等能力，且每次計算過程中大模型僅有這些分割槽的神經元被啟用。

因此，CFM 將大模型拆分為預訓練階段產生的湧現模組（Emergent Brick）與後訓練階段產生的定製模組（Customized Brick），使得訓練大模型可以像搭積木一樣，透過模組的檢索、組合、更新、增長，實現複雜能力的組合。

值得一提的是，面壁其實也是國內最早把稀疏啟用這塊做起來的團隊。

早在 2021 年 6 月，面壁智慧創始人劉知遠牽頭的“悟道·文源”就釋出了千億 MoE 大模型 CPM-2 ，參與成員中也包括了面壁的初始團隊。

同年，面壁團隊釋出題為《MoEfication：Transformer Feed-forward layers are Mixtures of Experts》的論文，提出將一個稠密的模型轉化為等引數量的 MoE 模型，同樣能實現大幅度推理加速，也證明了只使用顯貴神經網路 10% 到 30% 的引數就可以保留 95% 的效能。

論文連結：https://arxiv.org/abs/2110.01786

劉知遠告訴 AI 科技評論，其創立面壁的初衷就是希望更多人能低成本使用大模型，所以那時他們也做了一套平臺模型的訓練微調，儘可能降低壓縮、微調等環節的成本。

此後，面壁也一直在沿著降本、高效這條路徑不斷探索解決方案。其曾用 MiniCPM 2.4B 的小模型實現了效能對標 Llama 2 13B，而前者具體資料的配比、引數配置都是用十分之一甚至更小的模型訓練、預測出的。

這種以小見大的路徑證明了當引數潛力被激發，小模型完全能使用更高效的訓練方式實現更好的效能，找到 20B、50B 甚至更大引數模型的最優解也同樣可能。

再回到 DeepSeek 和麵壁選擇路徑的差異繼續探討，DeekSeek 在雲端超大規模模型的訓練過程中引入了 MoE 和多頭潛在注意力（MLA）技術，使模型能以更大的 batch size 執行，減少單個請求實際的運算量，同時也降低模型在雲端 API 上的推理成本。

也有大模型從業者向 AI 科技評論分析稱，“DeepSeek 的高效是高度定製的技術體系，MoE 和 MLA 強繫結，去掉 MoE 以後 MLA 會比較廢，且其 MoE 也和流水線 Infra 並行強繫結。整體而言，DeepSeek 是面向大叢集訓練、大叢集部署服務，用雲提供使用者服務的極致最佳化。”

面壁所選擇的路徑則是面向邊端算力場景進行極致最佳化，其更看重單裝置服務的高效性，MiniCPM 在模型訓練技術上最佳化使得模型知識密度更高，繼而以小引數戰勝大引數模型，MiniCPM 系列端側模型也能夠直接在各種端側裝置上本地化執行，提供和雲端 API 相當的智慧能力，針對面壁所專注的端側場景，DeepSeek 則還沒有提供解決方案。

值得一提的是，Scaling Law 持續面臨著資料和算力資源的上限難題，去年底也曾被業內質疑或將失效。此前，面壁也一直追求在同時間、同參數下能實現更優的 Scaling Law，如今正在探索其他規律。

據劉知遠介紹，他發現大模型行業也有著和摩爾定律相似的規律——隨著資料、算力、演算法的協同發展，2020 年釋出的 GPT-3 用 1750 億引數達到的能力，到 2024 年 2 月只需要 24 億引數即可達到，大模型的能力“密度”正在提升，這正意味能用更少的引數實現相同的智慧水平。

據此，前段時日，劉知遠和團隊也提出了大模型密度定律（Densing Law）—— 模型能力密度隨時間呈指數級增長。據面壁方面介紹，“能力密度”（Capability Density）為給定 LLM 的有效引數大小與實際引數大小的比率。比如一個 3B 的模型能達到 6B 參考模型的效能，那麼這個 3B 模型的能力密度就是 2（6B/3B）。

而根據密度定律，面壁得出的推論主要有七點：實現相同能力的模型引數每 3.3 個月（約100天）下降一半；模型推理開銷隨時間指數級下降；模型訓練開銷隨時間迅速下降；大模型能力密度呈加速增強趨勢；模型小型化揭示端側智慧巨大潛力；無法透過模型壓縮增強模型能力密度；密度倍增週期決定模型存在“有效期”。

端側如何勝雲側？

這套高效最佳化把模型做小的邏輯，實際上也能順理成章解決模型部署到端側的問題。

從世界範圍的算力分佈上來看，OpenAI、Google、Meta 部署了很多大的雲端平臺，但如果算上 80 億手機上的晶片，這是非常重要的長尾。事實上，在手機中刷影片的 APP 裡並非所有需求都需要在雲側解決，有相當一部分計算是發生在本地的。

劉知遠告訴 AI 科技評論，“明明一個 13B 模型的能力可以用一個 2B 的模型去做，且可以在端側跑得非常快，沒必要去實測、發請求。大模型是計算稠密的任務，從可持續發展、實際落地的角度講，顯然端側的算力完全沒有被釋放，因此 MiniCPM 的效果極有可能就是未來方向。而且不是所有需求都得用GPT-4，有時 GPT-3 也可以滿足。”

自 MiniCPM-V 系列開始，面壁便一直聚焦解決端側模型多模態問題，此次，AI 科技評論注意到，其又推出了 MiniCPM-o 2.6 新模型，體驗連結如下：

https://huggingface.co/openbmb/MiniCPM-o-2_6

https://github.com/OpenBMB/MiniCPM-o

據面壁官方介紹，MiniCPM-o 2.6 僅 8B 個引數。

與 MiniCPM-V 2.6 相比，MiniCPM-o 2.6 不僅在視覺能力上進行了提升，如強大的 OCR 能力、可信行為、多語言支援和影片理解，也引入了即時語音對話和多模式直播的新功能，支援雙語即時語音對話，聲音可配置，還可實現情緒/語速/風格控制、端到端語音克隆、角色扮演等趣味功能，並首次支援在 iPad 等端側裝置上進行多模態直播。

MiniCPM-o 2.6 此次也全面對標了 GPT-4o 的“全模態即時流式影片理解+高階語音對話”，不僅支援影片、語音、文字輸入以及語音、文字輸出，還具備 GPT-4o 級別（人類級別）的低延遲即時互動。

不過，GPT-4o 並未部署在端側，因此存在網路延遲、伺服器頻寬/高併發情況下使用可靠性等隱憂。

除此之外，和 GPT-4o 相比，MiniCPM-o 2.6 的優勢體現在能聽到除人聲之外的背景音，比如撕紙、倒水、金屬碰撞等，值得一提的是，這一點目前市面上大多數部署在雲端的大模型也都還無法達成。

此外，面壁這次也特別強調了“真正”的影片大模型這一點。

AGI 本身其實不只是大模型，拆分其能力包括有推理、記憶、規劃以及與外界的互動，而互動則包含感知和對工具的使用，互動本質上是多模態，需要深刻理解圖片、影片和聲音。

MiniCPM-o 2.6 能夠感知使用者提問之前的畫面和聲音，並持續對即時影片和音訊流進行建模，這種方式更貼近人眼的自然視覺互動。而目前市場上有些宣稱支援即時流式影片理解的模型或產品，其實只能算作照片大模型，其僅在使用者提問後才開始對影片進行靜態圖片抽幀，無法捕捉使用者提問之前的畫面，缺乏對前文情境的感知。

AI 科技評論也從面壁方面瞭解到，能實現這些技術上的突破，MiniCPM-o 2.6 背後的技術路徑主要包括以下三個方面：

一是端到端全模態流式架構。主要採用模組化全模態能力建模架構，實現全模態能力的靈活高效構建。其中核心語言基座為 MiniCPM 3.0 的 4B 模型，透過 ViT 等模型進行視覺和語音編碼，語音生成透過自迴歸語音解碼模組實現。

整體模型以端到端方式，透過連續稠密表示連線，實現端到端的聯合學習，從而支撐較高的模型能力上限。具體地，視覺及語音輸入中非自然語言可描述的模態資訊，可透過端到端方式傳遞到語音生成內容中，從而實現生成內容的較高自然度和可控性。

二是低延遲模態併發技術。透過模態多路時分複用技術，實現低延遲的模態併發。將時間域切分成為週期迴圈的時間切片，在每個時間切片中，分別對視覺和音訊輸入訊號進行流式編碼，並對主動輸出語義時機進行判斷。為最大程度降低響應延遲，透過基座模型對使用者語音結束時機進行高階語義判斷，從而避免語音活性檢測引入的長時間等待。

三是端到端全模態流式學習。在影片中學習觀察多模態環境，根據人物身份，進行社會角色扮演。可以實現預訓練級別的監督微調，以及“外部環境-社會意圖-語言語音行為”之間的對齊關係，從而獲得高階多模態語義知識，有望實現更加高階的心智水平。這有望為全模態大模型驅動具身機器人，參與人類社會活動打下基礎。

面壁已經將端側模型的技術迭代到了新高度，但值得注意的是，把模型做小解決高效性問題是其一，小模型並不完全等同於端側模型，模型要部署在端側，硬體的發展也起到關鍵作用。

當下，端側模型要執行在終端，存在著記憶體、功耗、算力三大硬體瓶頸。根據 Apple 方面的說法，70 億半精度引數的語言模型要完全載入進終端需要超過 14 GB的 DRAM 空間，Meta 也曾指出，一個約有 5000 焦耳滿電能量的 iPhone，僅支援 7B 模型在 10 tokens/秒的 AI 生成速率下對話不足 2 小時。

但行業發展近況也還算樂觀，“首先，晶片在高度發展，最新晶片已經可以支援百億引數模型，其次，模型訓練技術在提升，兩三百億的模型也能達到 GPT-3.5 水平，關鍵問題在於如何把晶片和模型訓練接起來，這之中就需要最佳化，不過這塊技術已不成問題，只需等待時機。”面壁智慧首席研究員韓旭告訴 AI 科技評論。

務實的理想主義者

當前，許多團隊把追求實現 AGI 作為唯一賣點或奮鬥目標，但如同造計算機一般，造出更強大的計算機很重要，將計算機造得低廉，能讓整個社會受益，則需要兼顧應用層面，面壁所做的就是貢獻其中一部分。

面壁對 AGI 的看法更像是務實的理想主義者：AI 最終還是要作為人的工具，從計算機的角度來看，AI 就是為了讓計算機更智慧、有理解能力，如何讓 AI 更高效，把人從機械勞動裡解脫出來才是應當思考的問題。

在劉知遠的觀點中，未來假如按照 OpenAI 的規劃，五年實現超級智慧有太多關鍵問題要解決，scaling prediction 是其中之一，超級對齊也是關鍵問題，即當大模型在某個任務上已經超越人類，有無辦法能繼續提升也還需要探索解法。

而繼續追趕 GPT-4 也只是一個參考，跟隨 OpenAI 並不一定是最正確的選擇，面壁在未來不會只侷限於 scaling prediction，更不會把某一問題當做全部，換言之，實現 AGI 必須要堅持自身獨到路線。