
作者丨朱可軒
編輯丨陳彩嫻
大模型賽跑兩年後,玩家已逐步分化為三種趨勢:一類玩家仍追隨 OpenAI 的腳步卷大引數基座模型,另外一類燒不起錢的玩家轉頭擁抱應用端,而第三類則自始至終都在摸索如何更高效打造出效能更優的模型。
目前,第一類卷向大引數的玩家也都在尋找高效解決方案,連 OpenAI 此前釋出 GPT-4o mini 切入小模型市場,Meta Llama 3.1-8B、微軟 Phi-3-vision 和 Phi-4 14B 、谷歌 Gemma 2 以及阿里 Qwen 2.5 等一系列小模型也都是頭部玩家在做的佈局。
算力存在上限已是不爭的事實,而且也並非引數越大就意味著效果一定能達到預期,更何況,如若如果每增長一倍引數規模,效果能力卻並未呈一倍增長,大模型發展起來會很慢:
OpenAI 能用百千億達到 GPT-4 的水平,其他家則可能需要投入更多資源,如此一來要追趕 GPT-5 會更難,因為在 OpenAI 的基礎上再加碼更多算力、引數的可能性不大,這對於大多數無法如同 OpenAI 一般大把燒錢的玩家而言並非理智選擇。
所以可以看到,現如今已有不少玩家選擇投身應用端,不再執著於基座大模型。而繼續堅持的玩家們,則在思考如何基於有限的資源,將每個引數的作用發揮到極致,這才是多數人一致看好的大模型訓練最終方向。不過,現階段,模型引數的能力上限還遠未完全探索到。
沿著這一思路,國內創業隊伍中,面壁和 DeepSeek 憑藉高效且開源的模型迅速引發廣泛關注,並在海外社群得到高度評價,經濟學人也曾將他們並稱為中國最具創新能力的大模型公司。
當前,在國內大模型創業玩家隊伍裡,除了受到熱捧的六小龍外,面壁和 DeepSeek 這兩隻潛力股也已先後加入戰局,大模型明顯呈現出“6+2”格局。
國內每有創新定會在海外先掀起風浪:DeepSeek 在去年釋出 DeepSeek-V2 模型因“白菜價”一舉成名後,其近期新發布的 V3 模型則收到了矽谷大佬的一致驚歎,而面壁此前則曾因 MiniCPM-Llama3-V 2.5 模型被矽谷團隊套殼抄襲一事引發熱議,後續其也因另闢蹊徑聚焦端側而得到業內密切關注。
海內外科技圈對二者技術實力的認可能夠可見一斑,值得一提的是,他們背後的團隊也均來自清北高校,面壁的核心成員大多來自清華 NLP 實驗室,DeepSeek 也偏愛吸納年輕的清北應屆人才。
不過,除前所述,雙方的差異也客觀存在:首先,在稀疏方面,DeepSeek 選擇了從頭訓練 MoE 模型,面向雲端,MoE 確為較優方案,但端側則並不適合 MoE,面壁也找到了更適配的方案,其不僅在 MiniCPM-S 系列引入了自研稀疏化方案,還提出了新型類腦高效稀疏 Configurable Foundation Model 架構;
其次,DeepSeek 的高效是高度定製的技術體系,MoE 和 MLA 強繫結,並且主要面向大叢集訓練、部署服務,用雲提供使用者服務的極致最佳化,面壁則是面向邊端算力場景進行極致最佳化,更看重單裝置服務的高效性;
再次,DeepSeek 在高效訓練層面小有所成,而面壁在高效推理方面則更為得心應手。值得一提的是,高效性實際上也是模型部署在端側需要攻克的難點問題,而這也是面壁早早開始切入的賽道。
近日,被稱為“大模型屆拼多多”的 DeepSeek 釋出了 DeepSeek-V3 模型,在多項評測成績上,超越了 Qwen2.5-72B 和 Llama 3.1 405B 等其他開源模型,並且實現這一點,僅用了 2048 塊 H800,作為對比,Llama 3 405B 此前共使用了 16384 塊 H100 訓練。
DeepSeek 此番也再度點燃了業內對於高效訓練大模型的熱議,無盡燒錢並非長久之計。據悉,DeepSeek-V3 模型的總訓練成本僅為 557.6 萬美元,訓練時長在 280 萬 GPU 小時。對比來看,GPT-4o 的訓練成本約為 1 億美元,Llama 3 405B 訓練時長則為 3080 萬 GPU 小時。

論文連結:https://arxiv.org/abs/2412.19437
眾所周知,基座模型最關鍵的便是解決效率問題,而效率是多樣的,稀疏化包括混合專家(Mixture of Experts,簡稱MoE)可以在增大模型引數規模的同時,保持計算成本遠低於相同引數規模的稠密模型,這也是國內算力普遍有限境況下的必然選擇。
DeepSeek 所選擇的路徑是從頭訓練 MoE,這種方式訓起來相對困難,但也能緩解一些問題。例如,基於複製複製得到的 MoE 模型的潛在問題,因為基於複製的話, 專家之間會有很多知識的重疊,權重是冗餘的,引數的冗餘對各專家的支援是重疊的。同時,從頭訓練的自由度也較高,可以避免老模型的問題,爭取達到 MoE 模型上限。
面向雲端,MoE 確為當前最優解,但就端側而言,MoE 則不一定為正解,所以,面壁也給出了新的稀疏化方案來解決端側模型問題:
去年,面壁在 MiniCPM-S 系列引入了自研稀疏化方案,透過將啟用函式替換為 ReLU 及透過帶漸進約束的稀疏感知訓練來提升大模型的稀疏性,能將 Llama、MiniCPM 稀疏度提升至接近 90%。並且也能夠在保持模型原有水平的基礎上,有效降低模型推理的開銷,與之相比的 MoE 方案則會顯著影響模型效果。
去年底,清華&面壁團隊還提出了一種新型類腦高效稀疏 Configurable Foundation Model 架構。較之於 MoE,CFM 能更本質和宏觀地覆蓋從預訓練到後訓練的模組化全過程,從結果上,對於大模型“知識密度”極致提升、對於端側模型極速低能耗推理能產生更顯著作用。
據面壁官方介紹,這一架構證實了大模型本身就具有高效稀疏模組化特性——大模型神經元與人腦類似,在預訓練過程中自發地產生了功能分化與分割槽的性質,各自負責語言、數學、程式碼等能力,且每次計算過程中大模型僅有這些分割槽的神經元被啟用。
因此,CFM 將大模型拆分為預訓練階段產生的湧現模組(Emergent Brick)與後訓練階段產生的定製模組(Customized Brick),使得訓練大模型可以像搭積木一樣,透過模組的檢索、組合、更新、增長,實現複雜能力的組合。

值得一提的是,面壁其實也是國內最早把稀疏啟用這塊做起來的團隊。
早在 2021 年 6 月,面壁智慧創始人劉知遠牽頭的“悟道·文源”就釋出了千億 MoE 大模型 CPM-2 ,參與成員中也包括了面壁的初始團隊。
同年,面壁團隊釋出題為《MoEfication:Transformer Feed-forward layers are Mixtures of Experts》的論文,提出將一個稠密的模型轉化為等引數量的 MoE 模型,同樣能實現大幅度推理加速,也證明了只使用顯貴神經網路 10% 到 30% 的引數就可以保留 95% 的效能。

論文連結:https://arxiv.org/abs/2110.01786
劉知遠告訴 AI 科技評論,其創立面壁的初衷就是希望更多人能低成本使用大模型,所以那時他們也做了一套平臺模型的訓練微調,儘可能降低壓縮、微調等環節的成本。
此後,面壁也一直在沿著降本、高效這條路徑不斷探索解決方案。其曾用 MiniCPM 2.4B 的小模型實現了效能對標 Llama 2 13B,而前者具體資料的配比、引數配置都是用十分之一甚至更小的模型訓練、預測出的。
這種以小見大的路徑證明了當引數潛力被激發,小模型完全能使用更高效的訓練方式實現更好的效能,找到 20B、50B 甚至更大引數模型的最優解也同樣可能。
再回到 DeepSeek 和麵壁選擇路徑的差異繼續探討,DeekSeek 在雲端超大規模模型的訓練過程中引入了 MoE 和多頭潛在注意力(MLA)技術,使模型能以更大的 batch size 執行,減少單個請求實際的運算量,同時也降低模型在雲端 API 上的推理成本。
也有大模型從業者向 AI 科技評論分析稱,“DeepSeek 的高效是高度定製的技術體系,MoE 和 MLA 強繫結,去掉 MoE 以後 MLA 會比較廢,且其 MoE 也和流水線 Infra 並行強繫結。整體而言,DeepSeek 是面向大叢集訓練、大叢集部署服務,用雲提供使用者服務的極致最佳化。”
面壁所選擇的路徑則是面向邊端算力場景進行極致最佳化,其更看重單裝置服務的高效性,MiniCPM 在模型訓練技術上最佳化使得模型知識密度更高,繼而以小引數戰勝大引數模型,MiniCPM 系列端側模型也能夠直接在各種端側裝置上本地化執行,提供和雲端 API 相當的智慧能力,針對面壁所專注的端側場景,DeepSeek 則還沒有提供解決方案。
值得一提的是,Scaling Law 持續面臨著資料和算力資源的上限難題,去年底也曾被業內質疑或將失效。此前,面壁也一直追求在同時間、同參數下能實現更優的 Scaling Law,如今正在探索其他規律。
據劉知遠介紹,他發現大模型行業也有著和摩爾定律相似的規律——隨著資料、算力、演算法的協同發展,2020 年釋出的 GPT-3 用 1750 億引數達到的能力,到 2024 年 2 月只需要 24 億引數即可達到,大模型的能力“密度”正在提升,這正意味能用更少的引數實現相同的智慧水平。
據此,前段時日,劉知遠和團隊也提出了大模型密度定律(Densing Law)—— 模型能力密度隨時間呈指數級增長。據面壁方面介紹,“能力密度”(Capability Density)為給定 LLM 的有效引數大小與實際引數大小的比率。比如一個 3B 的模型能達到 6B 參考模型的效能,那麼這個 3B 模型的能力密度就是 2(6B/3B)。
而根據密度定律,面壁得出的推論主要有七點:實現相同能力的模型引數每 3.3 個月(約100天)下降一半;模型推理開銷隨時間指數級下降;模型訓練開銷隨時間迅速下降;大模型能力密度呈加速增強趨勢;模型小型化揭示端側智慧巨大潛力;無法透過模型壓縮增強模型能力密度;密度倍增週期決定模型存在“有效期”。

這套高效最佳化把模型做小的邏輯,實際上也能順理成章解決模型部署到端側的問題。
從世界範圍的算力分佈上來看,OpenAI、Google、Meta 部署了很多大的雲端平臺,但如果算上 80 億手機上的晶片,這是非常重要的長尾。事實上,在手機中刷影片的 APP 裡並非所有需求都需要在雲側解決,有相當一部分計算是發生在本地的。
劉知遠告訴 AI 科技評論,“明明一個 13B 模型的能力可以用一個 2B 的模型去做,且可以在端側跑得非常快,沒必要去實測、發請求。大模型是計算稠密的任務,從可持續發展、實際落地的角度講,顯然端側的算力完全沒有被釋放,因此 MiniCPM 的效果極有可能就是未來方向。而且不是所有需求都得用GPT-4,有時 GPT-3 也可以滿足。”
自 MiniCPM-V 系列開始,面壁便一直聚焦解決端側模型多模態問題,此次,AI 科技評論注意到,其又推出了 MiniCPM-o 2.6 新模型,體驗連結如下:
https://huggingface.co/openbmb/MiniCPM-o-2_6
https://github.com/OpenBMB/MiniCPM-o
據面壁官方介紹,MiniCPM-o 2.6 僅 8B 個引數。
與 MiniCPM-V 2.6 相比,MiniCPM-o 2.6 不僅在視覺能力上進行了提升,如強大的 OCR 能力、可信行為、多語言支援和影片理解,也引入了即時語音對話和多模式直播的新功能,支援雙語即時語音對話,聲音可配置,還可實現情緒/語速/風格控制、端到端語音克隆、角色扮演等趣味功能,並首次支援在 iPad 等端側裝置上進行多模態直播。
MiniCPM-o 2.6 此次也全面對標了 GPT-4o 的“全模態即時流式影片理解+高階語音對話”,不僅支援影片、語音、文字輸入以及語音、文字輸出,還具備 GPT-4o 級別(人類級別)的低延遲即時互動。
不過,GPT-4o 並未部署在端側,因此存在網路延遲、伺服器頻寬/高併發情況下使用可靠性等隱憂。
除此之外,和 GPT-4o 相比,MiniCPM-o 2.6 的優勢體現在能聽到除人聲之外的背景音,比如撕紙、倒水、金屬碰撞等,值得一提的是,這一點目前市面上大多數部署在雲端的大模型也都還無法達成。

此外,面壁這次也特別強調了“真正”的影片大模型這一點。
AGI 本身其實不只是大模型,拆分其能力包括有推理、記憶、規劃以及與外界的互動,而互動則包含感知和對工具的使用,互動本質上是多模態,需要深刻理解圖片、影片和聲音。
MiniCPM-o 2.6 能夠感知使用者提問之前的畫面和聲音,並持續對即時影片和音訊流進行建模,這種方式更貼近人眼的自然視覺互動。而目前市場上有些宣稱支援即時流式影片理解的模型或產品,其實只能算作照片大模型,其僅在使用者提問後才開始對影片進行靜態圖片抽幀,無法捕捉使用者提問之前的畫面,缺乏對前文情境的感知。
AI 科技評論也從面壁方面瞭解到,能實現這些技術上的突破,MiniCPM-o 2.6 背後的技術路徑主要包括以下三個方面:
一是端到端全模態流式架構。主要採用模組化全模態能力建模架構,實現全模態能力的靈活高效構建。其中核心語言基座為 MiniCPM 3.0 的 4B 模型,透過 ViT 等模型進行視覺和語音編碼,語音生成透過自迴歸語音解碼模組實現。
整體模型以端到端方式,透過連續稠密表示連線,實現端到端的聯合學習,從而支撐較高的模型能力上限。具體地,視覺及語音輸入中非自然語言可描述的模態資訊,可透過端到端方式傳遞到語音生成內容中,從而實現生成內容的較高自然度和可控性。
二是低延遲模態併發技術。透過模態多路時分複用技術,實現低延遲的模態併發。將時間域切分成為週期迴圈的時間切片,在每個時間切片中,分別對視覺和音訊輸入訊號進行流式編碼,並對主動輸出語義時機進行判斷。為最大程度降低響應延遲,透過基座模型對使用者語音結束時機進行高階語義判斷,從而避免語音活性檢測引入的長時間等待。
三是端到端全模態流式學習。在影片中學習觀察多模態環境,根據人物身份,進行社會角色扮演。可以實現預訓練級別的監督微調,以及“外部環境-社會意圖-語言語音行為”之間的對齊關係,從而獲得高階多模態語義知識,有望實現更加高階的心智水平。這有望為全模態大模型驅動具身機器人,參與人類社會活動打下基礎。
面壁已經將端側模型的技術迭代到了新高度,但值得注意的是,把模型做小解決高效性問題是其一,小模型並不完全等同於端側模型,模型要部署在端側,硬體的發展也起到關鍵作用。
當下,端側模型要執行在終端,存在著記憶體、功耗、算力三大硬體瓶頸。根據 Apple 方面的說法,70 億半精度引數的語言模型要完全載入進終端需要超過 14 GB的 DRAM 空間,Meta 也曾指出,一個約有 5000 焦耳滿電能量的 iPhone,僅支援 7B 模型在 10 tokens/秒的 AI 生成速率下對話不足 2 小時。
但行業發展近況也還算樂觀,“首先,晶片在高度發展,最新晶片已經可以支援百億引數模型,其次,模型訓練技術在提升,兩三百億的模型也能達到 GPT-3.5 水平,關鍵問題在於如何把晶片和模型訓練接起來,這之中就需要最佳化,不過這塊技術已不成問題,只需等待時機。”面壁智慧首席研究員韓旭告訴 AI 科技評論。
當前,許多團隊把追求實現 AGI 作為唯一賣點或奮鬥目標,但如同造計算機一般,造出更強大的計算機很重要,將計算機造得低廉,能讓整個社會受益,則需要兼顧應用層面,面壁所做的就是貢獻其中一部分。
面壁對 AGI 的看法更像是務實的理想主義者:AI 最終還是要作為人的工具,從計算機的角度來看,AI 就是為了讓計算機更智慧、有理解能力,如何讓 AI 更高效,把人從機械勞動裡解脫出來才是應當思考的問題。
在劉知遠的觀點中,未來假如按照 OpenAI 的規劃,五年實現超級智慧有太多關鍵問題要解決,scaling prediction 是其中之一,超級對齊也是關鍵問題,即當大模型在某個任務上已經超越人類,有無辦法能繼續提升也還需要探索解法。
而繼續追趕 GPT-4 也只是一個參考,跟隨 OpenAI 並不一定是最正確的選擇,面壁在未來不會只侷限於 scaling prediction,更不會把某一問題當做全部,換言之,實現 AGI 必須要堅持自身獨到路線。


更多內容,點選下方關注:

未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社群進行轉載!
公眾號轉載請先在「AI科技評論」後臺留言取得授權,轉載時需標註來源並插入本公眾號名片。
未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社群進行轉載!
公眾號轉載請先在「AI科技評論」後臺留言取得授權,轉載時需標註來源並插入本公眾號名片。