清華大學發現新的大模型定律，LLM的能力密度每3.3個月翻一番

2025-08-24 04:25 夕小瑤科技說

清華大學孫茂松老師、劉知遠老師研究組，最近發表了一篇論文，提出了一個新的大模型定律——叫密度定律（Densing Law）：

模型的能力密度隨時間呈現指數級增長，LLMs 的能力密度大約每 3.3 個月翻一番。

按照這個速度推測，到 25 年底，就能擁有僅 8B 引數的 GPT-4 級別的模型。知道 Scaling Law，但這個 Densing Laws 又是幹什麼的呢？

我們都知道，Scaling Law 並非是什麼科學定律，就是長期實踐的經驗法則，給大模型的演進提供了方向。但是隨著 GPT-5 遲遲沒有訓練出來和算力、電力資源的緊缺，讓我們明白，Scaling Law 也只不過是在現有技術條件和資源約束下的最優實踐而已。

而目前普遍關注的問題是：模型規模與計算效率如何權衡？

這篇論文的出現，便是給解答這個問題提供了一些思路。

論文標題：

Densing Law of LLMs

論文連結：
https://arxiv.org/pdf/2412.04315v2

這條定律裡出現了一個新概念——能力密度（Capability Density），論文裡給它的定義是：

LLM 的有效引數量與實際引數量的比率。

那接著就會問了，什麼是有效引數量呢？

有效引數量是指，如果達到與目標模型同等效能，所需的參考模型的引數數量。

說了半天，通俗點講就是：一個 100B 的模型，另一個 10B 的模型就能達到和 100B 相同的效能，這個 10B 模型的能力密度就是 100/10=10。

全文最核心的就是這張圖，下面展開分析分析。

（灰色的實線是模型的能力密度數值，紅色的虛線代表隨著時間的進展趨勢。）

3.3 個月是怎麼得出來的

（下面是建模過程，我已經儘可能精簡了，如果不想看，可以跳過這趴）

為了計算能力密度，首先要測算出有效引數量，也就是參考模型達到與目標模型同樣效能所需的引數量。所以，研究團隊需要擬合一個關聯（參考模型引數量和效能）兩者的函式 S=f⁢(N) ，其中 S 表示下游效能， N 表示參考模型的引數量，求一階導得到 N 的大小（也就是有效引數）：

對於具有 Nℳ 引數的目標模型 ℳ ，假設其在下游任務上的效能得分為 Sℳ 。根據能力密度的公式，可以得到：

最關鍵地還是測算出這個擬合函式，S=f⁢(N) ，確定了這個函式，就能利用上面的公式輕鬆得到能力密度了。

為此，研究團隊特意採用了兩步估計法。第一步是損失估計，即引數量和 Loss 之間的關係；

第二步是效能估計，即 Loss 與效能之間的關係。

效能與引數量的關係就被建模成了

為此，清華研究團隊特意訓練了一系列不同引數規模的參考模型，逼近 29 個開源模型在 5 個基準測試上效能。

團隊收集了從 23 年 3 月份以來發布的開源大模型，一共 29 個開源模型，包括 Llama 系列（Llama-1 系列、Llama-2 系列、Llama-3 系列、Phi 系列（Phi-1、Phi-1.5、Phi-2 系列）、Gemma 系列、Mistral-7B、Falcon-40B、MiniCPM 系列。

5 個基準測試包括 MMLU、BBH、MATH 、HumanEval 和 MBPP。

最終，擬合出這個線性函式，擬合得到斜率 A ≈ 0.007, B是個常數。

其中 t 是自 Llama-1 釋出日期以來的時間間隔（單位：天）， ρ 是 t 時刻的能力度值。

3.3 個月的具體的推算過程，直接看這個就明白了。

按照這個定律推測，在 2025-12 年，我們可以擁有僅 8B 引數的 GPT-4 級別 LLM。

除了 Densing Law，還有 5 個推論

另外，論文裡還提出了 5 個比較置信的推論，我覺得也值得分享出來。

推理成本呈指數下降
邊緣人工智慧變得越來越重要（摩爾定律 × 密度定律）
大模型的能力密度還在繼續增強
模型壓縮 ≠ 能力密度提升
每個模型都有一個較短的“最佳價效比期”

大模型推理成本呈指數下降

這點毋庸置疑，ChatGPT 剛推出來時每百萬 token 是 20 美元，現在 Gemini1.5 Flash 已經超過了 ChatGPT，價格才是 0.0075 美元。降了 266 倍。

端側奇點在加速到來

代表晶片電路發展規律摩爾定律和代表模型有效性和效率的密度定律，如果同時持續發展，兩條曲線交匯處，代表端側 AI 的奇點到來，PC、手機、機器人等端側裝置將能夠執行效果足夠好的模型，到那時候就會迎來一個繁榮的端側智慧生態。

大模型的能力密度還在繼續增強

ChatGPT 是 22 年 11 月釋出，在此之前，以每 4.8 個月翻番，釋出之後以每 3.3 個月翻番。

這代表 ChatGPT 激起了國內外的百模大戰，開源模型的發展速度更快，以更快的速度出現更高質量的開源模型。

模型壓縮 ≠ 能力密度提升

論文中還提到一點，之前的模型壓縮演算法不等同於提高模型密度，因為實驗表明，大多數的壓縮模型的密度都低於原始模型。

每個模型都有一個較短的“最佳價效比期”

隨著模型的能力密度在加速增強，每隔幾個月就能出現更小、更精悍的模型，這說明這個模型它的最佳價效比視窗期在算短，淘汰速度也會變得更快。

比如，谷歌 Gemma-2-9B 推出倆月之後，面壁智慧的 MiniCPM-3-4B 小鋼炮就做到了同樣效果。

這篇論文提出的密度定律，給 LLM 的發展提供了一種新的視角，不再是隻追求模型引數量的暴力增長，而是轉向思考一個更務實的問題，如何能以最小的計算開銷實現最佳的模型效果。

直觀上，如果一個模型能夠在相同規模的引數下取得更好的效能，那麼該模型的密度就更高。

所以，在計算資源有限的部署裝置上，未來我們應該花大力氣提高模型的密度，而不是僅僅增加模型引數規模來獲得更好的效能。

相關文章

大模型隱藏玩家上桌：DeepSeek向左，面壁向右

大模型隱藏玩家上桌：DeepSeek向左，面壁向右

ICLR2025|阿里等提出LLaVA-MoD，用MoE+蒸餾訓練輕量化多模態大模型

ICLR2025|阿里等提出LLaVA-MoD，用MoE+蒸餾訓練輕量化多模態大模型

Linux系統安全及應用：你以為只是簡單的“防火牆配置”？

Linux系統安全及應用：你以為只是簡單的“防火牆配置”？

蘋果發現原生多模態模型ScalingLaws：早融合優於後融合，MoE優於密集模型

蘋果發現原生多模態模型ScalingLaws：早融合優於後融合，MoE優於密集模型

晚點獨家丨位元組啟動SeedEdge，加碼AGI研究

晚點獨家丨位元組啟動SeedEdge，加碼AGI研究

英偉達含量為零！華為密集模型效能比肩DeepSeek-R1，純昇騰叢集訓練

英偉達含量為零！華為密集模型效能比肩DeepSeek-R1，純昇騰叢集訓練

劉知遠詳解DeepSeek出圈背後的邏輯：自身演算法的創新以及OpenAI的傲慢

劉知遠詳解DeepSeek出圈背後的邏輯：自身演算法的創新以及OpenAI的傲慢

NpjComput.Mater.：有效哈密頓量的“主動學習”新正規化

NpjComput.Mater.：有效哈密頓量的“主動學習”新正規化

從零到一：深度解析2025年雲上大模型與端側小模型協同部署實戰

從零到一：深度解析2025年雲上大模型與端側小模型協同部署實戰

文末贈書|微信、百度都接入的DeepSeek，企業靠啥玩轉其私有化與垂直訓練？

文末贈書|微信、百度都接入的DeepSeek，企業靠啥玩轉其私有化與垂直訓練？

Copyright © 2025 | WordPress Theme by MH Themes