量子位智庫量子位 | 公眾號 QbitAI
在大模型爭霸的時代,算力與效率的平衡成為決定勝負的關鍵。
端側部署一直是大模型落地的最後一公里,卻因算力瓶頸困難重重。
面壁智慧和清華走出了一條與MoE不同的路徑——神經元級稀疏啟用,讓模型在保持效能的同時大幅降低資源消耗。
這次技術探索的背後,是一個融合腦科學靈感與工程創新的故事。

△《Configurable Foundation Models: Building LLMs from a Modular Perspective》論文
本期「大模型創新架構」主題訪談,量子位邀請到面壁智慧&清華CFM論文作者肖朝軍,聊聊這場算力與效率的博弈以及大模型架構創新的未來。
以下為量子位與面壁智慧&清華CFM論文作者肖朝軍的對話實錄整理:
探索原生稀疏
量子位:能簡單介紹一下CFM(Configurable Foundation Models)技術的核心優勢嗎?
肖朝軍:CFM是一種原生稀疏技術,利用模型本來就有的稀疏啟用性質,相比MoE可以極大提升模型引數效率。
量子位:引數效率是什麼?極大提升引數效率意味著哪些優勢?
肖朝軍:引數效率是指模型單位引數的有效性,一般能夠反映在相同引數規模下,模型是否表現更好。引數效率提升最直接的影響就是省視訊記憶體、省記憶體。
尤其手機端不可能像雲端一樣用好幾臺GPU伺服器一起推幾千億引數規模的模型。手機記憶體有限,作業系統佔一部分,個人應用需要一部分,如果大模型把記憶體佔滿,那手機基本上就不可用了,所以引數效率在端側應用裡非常重要。
量子位:CFM與MoE(Mixture of Experts)的區別在哪裡?
肖朝軍:我們的稀疏粒度更細,更強調神經元級別的稀疏,可以說CFM的顆粒度比其他許多在FFN層做稀疏化改進的工作要更細,在稀疏化上走得更極致。
現在超大引數規模的MoE稀疏化可能已經成為主流,但不適合端側。MoE的稀疏粒度是專家級別,CFM是神經元級別,而且CFM動態性也強於MoE。MoE固定啟用Top k個expert,CFM是靠模型自己的啟用函式來定義具體啟用多少expert。
任務難的話可能需要啟用10-100個,任務簡單可能就啟用1-2個。

△CFM積木式組合構建高效任務模型
量子位:為什麼MoE不使用你們這種更強的動態性?
肖朝軍:本質是引數效率原因。
MoE的目的是增大模型引數,比如600B的模型無法在一臺機器上放下,必須在訓練過程就卡死啟用專家的數量,必須限制住最多啟用top k或top p個專家,要不然就可能算不下了。
他們必須在訓練階段就要有負載均衡的loss,使每個expert和每個token大致均衡。而我們引數效率高,所有引數可以放在一起像傳統稠密模型的FFN一樣計算。

△湧現模組的形成過程示意圖
模型架構之爭
量子位:你怎麼看待像Mamba、RWKV這些計算複雜度為線性的非transformer架構模型帶來的挑戰?
肖朝軍:從模型效果上來說,transformer仍是天花板最高的架構。當前所有其他的非transformer架構探索都是在做效率,而不是效果。
我觀察目前最佳化路徑大概有兩種:
一種是線性派,包括Mamba、Linear Attention、Gated Linear Attention、RWKV等;
另一種是基於transformer,但對KV cache做管理,比如KV eviction、KV compression等。做FFN改進的其實不多,我們強調的稀疏可能是FFN改進中非常重要的一點。
量子位:很多非transformer架構都在多個測試集上打敗了主流transformer模型,你怎麼看?
肖朝軍:需要辯證看待。
首先要考慮公平性,比如Mamba實際上有固定的memory,在短文字時可能memory size更大,這可能是用更多儲存換取更好效果。
像RULER等一系列長文字評測中,線性模型目前還是打不過transformer。大家報的結果都是”在某方面比transformer好”,但為什麼沒有廣泛應用?因為沒辦法全面打敗transformer。
量子位:今年1月份大模型六小強中的一家訓的千億引數線性attention模型在RULER上打敗了GPT-4o、Claude-3.5-Sonnet等transformer模型,你怎麼看?肖朝軍:他們的模型是混合架構,純線性很難做到同樣的表現。但能有這樣的成績說明他們混合之後的效果還是很厲害的。
量子位:如何才能客觀評價模型架構之間的優劣?
肖朝軍:確實很難有一個放之四海而皆準的評判方式。transformer之所以取代CNN和RNN成為主流,是因為它真的能scaling。
之前的架構是scaling不了的,transformer帶來了一種新可能性:我們可以訓練很大的模型,用很多資料獲得更多智慧。而且它不需要任何trick,不需要人為調參就能獲得好效果。
量子位:你認為transformer成為主流架構有偶然性嗎?
肖朝軍:既有偶然性也有必然性。有個概念叫“硬體彩票”。
軟體往往走在硬體前面,我們會開發很多演算法,但真正實現加速的是被硬體廠商選中的那種。transformer高強度對著GPU設計,真能打滿GPU利用率,所以踩中了硬體彩票。
現在的Mamba、RWKV誰能踩中下一波硬體彩票,誰也說不準。

△硬體彩票內涵
小模型與智慧未來
量子位:目前一個小模型的定義是多大size?最小能在什麼尺寸的模型裡壓縮排主流大模型的能力?這個極限在哪?
肖朝軍:現在小模型的大小沒有明確定義,基本上端側的話,可能還是在2-3B的範圍算小模型。
關於模型壓縮極限,我們發表過Densing Law的論文,但極限在哪裡我們確實還不知道。很多人問未來是不是用64個位元就能放下GPT-4,那顯然不可能,但具體極限還不明確。
量子位:智慧的本質是壓縮嗎?
肖朝軍:這樣說有點怪。之前有一篇“語言模型即壓縮”的論文,只是把壓縮率和PPL做了轉換,這很難說成本質。
Ilya最早提出智慧本質是壓縮這個思想的時候,強調的是“壓縮器”能夠很好地建模資料分佈規律,而不是直接用語言模型來構建資料壓縮器。
Hinton說過,智慧的本質是學習,就是學習能力才是智慧的本質。我認為抽象能力可能更接近智慧本質。你看語言本身就是一種符號,能表徵世間萬物,承載人類知識,是抽象和總結的載體。
量子位:面壁智慧的小模型落地情況如何?
肖朝軍:我們開源的最大模型是是MiniCPM-3-4B,也有一些未開源的專案級模型可能有幾十B。
我們的端側場景很廣泛,包括手機端、電腦端、智慧家居等都在射程範圍。

△面壁智慧官網
量子位:精度最佳化方面,你們怎麼看FP8等低精度計算?
肖朝軍:精度降低後模型效果會變差,需要非常多的設計才能保證效果。
但現在DeepSeek已經開源FP8運算元部分了,只要跟著做一些補全就行,現在再訓新模型的只要有卡肯定都上FP8了,25年會更多人做FP8,做的更實用更激進。未來還會有FP4,一步步發展。
量子位:小模型在多模態方面有限制嗎?
肖朝軍:效果都挺好的。小模型在多模態這塊,從打榜上看差異沒有那麼大。你會發現多模態現在還沒有一個非常漂亮的scaling law。
而且也還沒有一個統一共識的多模態模型架構。知識能力上,小模型可能還有差距,差距主要體現在對知識的排程和理解上。
量子位:你怎麼看o1的這條技術路線?
肖朝軍:o1主要是用強化學習和高質量資料,強調強化學習和推理的scaling。當前強化學習整個推理過程很慢,硬體利用率也不高,這會使強化學習過程需要使用大量算力但模型思考步數不深、探索空間不夠。
未來肯定會繼續往高效的深思考方向發展,讓模型能夠生成超長的思維鏈,之後會像pre-training一樣,先把強化學習的訓練規模做上來,然後再往小做、往高效做。
量子位:超長文字推理會是transformer架構的下一個突破點嗎?
肖朝軍:對,CoT(思維鏈)是目前很重要的方向。這種長思考一定是下一波大家要突破的點。
目前o1這種長思維鏈和普通的長文字大海撈針完全不同。大海撈針只是找到資訊就完事了,而o1的長思維鏈需要回到當時的狀態,重新做推理、重新搜尋。
思考的時候走一條路走到底之後,可能還要繼續之前考慮過的另一條路。現有測試集都很難全面評測o1這種長思維鏈能力。

△直接推理與思維鏈區別示意
o1之後,我覺得下一步還有一個很重要的問題是創新能力的問題。就像OpenAI的技術規劃,到後面有個innovation。
現在的搜尋還是在已有的語義空間去搜索,但是真的要讓AI去做創新出之前沒有的東西,去探索一些新的未知的事物的時候,它一定要跳出之前預訓練階段見過的所有的東西去突破,但這個事情咋做?還不知道。
量子位:對於長文字推理,線性架構會有優勢嗎?
肖朝軍:目前沒有實證研究證明純RNN模型的推理能力,我個人認為類RNN的線性架構技術路線大機率會失敗,混合架構另當別論。
效果為王,解決不了效果問題,談效率是不現實的。
現有RNN模型其實等價於滑動視窗,在推理中會對記憶不斷乘一個遺忘係數。即使遺忘係數連續一萬步都是0.999這麼大,那一萬步之前的內容也會遺忘完,上限天然太低。
量子位:大模型不可能三角(大模型無法同時實現低計算複雜度、高效能和並行化)問題有解決方案嗎?

△大模型不可能三角示意
肖朝軍:這個問題依舊存在,Mamba也依然沒有解決。如果真解決了,現在大家都會用起來。
Mamba等線性模型在短文字上能與transformer打平或更好,但長文字上仍有壓縮,而壓縮一定代表資訊損失。我們還是無法兼顧計算複雜度和效果。
這個問題也許長期來看可以解決,因為人類思考也不是O(n²)複雜度的,不需要把之前所有KV都算一遍。但人腦儲存可能是分級的,有長期記憶和短期記憶,還可能利用外部工具如筆記本。具體怎麼解決,目前還沒有摸到答案。
論文地址:https://arxiv.org/abs/2409.02877
— 完 —
智庫在研|大模型創新架構專題研究報告
模型架構層創新正掀起人工智慧深度變革,我們堅信transformer架構創新改進及非transformer架構創新探索 是探索AGI的重要路徑,本次對話是專題系列對話的第二篇,量子位智庫真誠邀請與行業內其他大模型架構創新者建立連線,分享前沿認知及最佳實踐,合作請聯絡。
