MLNLP

社群是國內外知名的機器學習與自然語言處理社群，受眾覆蓋國內外NLP碩博生、高校老師以及企業研究人員。

社群的願景是促進國內外自然語言處理，機器學習學術界、產業界和廣大愛好者之間的交流和進步，特別是初學者同學們的進步。

來源 | Deep (Learning) Focus

編譯 | 機器之心

Scaling Law 撞牆了嗎？這算得上是近段時間 AI 領域最熱門的話題之一。近日，資深機器學習研究科學家 Cameron R. Wolfe 更新了一篇超長的部落格文章，詳細介紹了 LLM scaling 的當前狀況，並分享了他對 AI 研究未來的看法。

原文連結：https://cameronrwolfe.substack.com/p/llm-scaling-laws

近些年來，AI 領域的大部分研究進展（尤其是 LLM）都是基於 scaling。也就是說，只要使用更多資料訓練更大模型，就能得到更好的結果。這種關係可以被更嚴格地定義成 Scaling Law，這是一個可以描述 LLM 的測試損失隨某個量（如訓練計算量）的增長而降低的公式。Scaling Law 可幫助我們預測當投入更多資源進行更大規模訓練時的效果，這能給我們提供繼續投資 scaling 的必要信心。

「如果你有一個龐大的資料集並且訓練了一個非常大的神經網路，那麼成功是肯定的！」——Ilya Sutskever

過去多年時間裡，Scaling Law 一直指引著 AI 研究前進的方向。事實上，像 OpenAI 這樣的早期前沿實驗室的成功甚至可以歸功於他們對 Scaling Law 的虔誠信仰。然而，最近有報道稱，頂級研究實驗室正在努力訓練下一代更好的 LLM。這些說法可能會讓我們懷疑：scaling 之路會撞牆嗎？如果會，還有其他前進的道路嗎？

本文將從頭開始回答這些問題，首先是深入解釋 LLM Scaling Law 和相關研究。Scaling Law 的概念很簡單，但公眾對 Scaling Law 存在各種誤解 —— 這項研究背後的科學實際上非常具體明確。利用對 Scaling Law 的詳細理解，我們將討論 LLM 研究的最新趨勢以及導致 Scaling Law「停滯」的因素。最後，我們將利用這些資訊更清楚地說明 AI 研究的未來，重點關注一些可能繼續推動進步的關鍵思想 —— 其中也包括 scaling。

LLM 的基礎 scaling 概念

為了理解 LLM 的 scaling 現狀，我們首先需要對 Scaling Law 有一個總體的瞭解。我們將從頭開始建立這種理解，首先是理解冪律的概念。然後，我們將探討冪律在 LLM 中的應用研究，最終得出我們今天使用的 Scaling Law。

什麼是冪律？

冪律是 LLM scaling 的基本概念。簡而言之，冪律描述了兩個量之間的關係。對於 LLM 來說，第一個量是 LLM 的測試損失（或其他一些相關的效能指標，例如下游任務準確率 [7]），另一個量是我們想要 scaling 的一些設定，例如模型引數量。例如，在研究 LLM 的 scaling 屬性時，我們可能會看到類似以下的陳述。

「有了足夠的訓練資料，驗證損失的 scaling 與模型大小的函式關係應該大致上是平滑冪律。」 – 摘自 [4]

這樣的陳述告訴我們，模型的測試損失和模型引數量之間存在可測量的關係。其中一個量的變化將導致另一個量發生相對的、無關尺度的變化。換句話說，我們可基於這種關係瞭解到：增加模型引數量（假設已滿足其他條件，比如訓練資料充足）將導致測試損失降低某個可預測的程度。

冪律公式。基本的冪律可表示為以下公式：

這裡研究的兩個量是 x 和 y，而 a 和 p 是描述這些量之間關係的常數。如果我們繪出這個冪律函式，我們會得到如下所示的圖。這裡提供普通和對數度量的圖，因為大多數研究 LLM scaling 的論文都使用對數度量。

x 和 y 之間的基本冪律圖

但很多時候，展示 LLM scaling 的圖看起來並不像上面的圖，而通常是上下顛倒的；請參閱下面的示例。

這只是逆冪律，可用如下公式表示：

逆冪律與標準冪律的公式幾乎相同，但我們通常會對 p 使用負指數。使冪律的指數為負數會使圖顛倒過來；請參閱下面的示例。

x 和 y 之間的逆冪律圖

當使用對數度量繪製此逆冪律時，會產生大多數 LLM Scaling Law 特有的標誌性線性關係。本文中涵蓋的幾乎每篇論文都會透過這樣的圖來研究 Scaling Law 的各種不同的因素（例如規模、計算、資料等）對 LLM 的效能的影響。現在，讓我們更實際地來看看冪律，也就是看看最早的一些在 LLM scaling 語境中研究冪律的論文。

神經語言模型的 Scaling Law

在語言模型的早期，我們還不瞭解規模對效能的影響。語言模型是一個很有前途的研究領域，但當時的模型（例如原始 GPT）功能有限。我們尚未發現更大模型的力量，而建立更好的語言模型的途徑還不明確。模型的形狀（即層的數量和大小）重要嗎？使模型更大是否有助於其表現更好？訓練這些更大的模型需要多少資料？

「損失隨模型大小、資料集大小和用於訓練的計算量呈冪律變化，有些趨勢跨越了七個數量級以上。」 – 摘自 [1]

在 [1] 中，作者的目標是透過分析多個因素（例如模型大小、模型形狀、資料集大小、訓練計算和批大小）對模型效能的影響來回答這些問題。透過此分析，我們瞭解到 LLM 效能會隨著以下因素的增加而平穩提升：

模型引數的數量。
資料集的大小。
用於訓練的計算量。

更具體地說，當效能不受其他兩個因素的瓶頸限制時，可以觀察到這些因素中的每一個與 LLM 的測試損失之間存在冪律關係。

實驗設定。為了擬合冪律，作者在 WebText2 語料庫的子集上預訓練了最大 1.5B 引數的 LLM。這些子集的 token 數量從 22M 到 23B 不等。所有模型都使用固定的 1024 個 token 的上下文長度和標準的下一個 token 預測（交叉熵）損失進行訓練。在留存測試集上測量相同的損失並將其用作主要效能指標。此設定與大多數 LLM 的標準預訓練設定相匹配。

（來自 [1]）

LLM scaling 的冪律。在 [1] 中訓練的 LLM 的效能（就其在 WebText2 上的測試損失而言）會隨著引數、資料和計算量的增加而穩步提高。這些趨勢在計算量方面跨越了八個數量級，在模型大小方面跨越了六個數量級，在資料集大小方面跨越了兩個數量級。上圖提供了確切的冪律關係和擬合每個冪律關係的方程。這裡的每個方程都與我們之前看到的逆冪律方程非常相似。但是，我們設定 a = 1 並在括號內新增一個額外的乘法常數。

[1] 的作者注意到一個小細節，並且這個細節對於正確擬合這些冪律是必要的。在計算模型引數的總數時，不包括位置或 token 嵌入，從而可以得到更清晰的 scaling 趨勢；如下圖所示。

（來自 [1]）

不過，只有當訓練不受其他因素阻礙時，這些冪律才適用。因此，為了獲得最佳效能，應該同時增大這三個分量（模型大小、資料和計算量）。如果我們單獨增大其中任何一個分量，我們就會達到某個收益遞減點。

冪律意味著什麼？雖然 [1] 中提供的冪律圖看起來很有希望，但我們應該注意到這些圖是基於對數度量的。如果使用普通度量繪製，我們會得到下面的圖 —— 可以看到冪律的形狀類似於指數衰減。

考慮到網上關於 scaling 和 AGI 的大量言論，這樣的發現似乎違反直覺。在許多情況下，我們被灌輸的直覺似乎是：隨著計算量的對數增加，LLM 的質量呈指數級提高，但事實並非如此。實際上，隨著規模增大，提升 LLM 的質量會變得越來越困難。

其他有用的發現。除了 [1] 中觀察到的冪律之外，我們還看到，研究中涉及的其他因素（例如模型形狀或架構設定）對模型效能的影響微乎其微；見上文。規模是打造更好 LLM 的最大因素 —— 更多的資料、計算量和模型引數可以平穩地提高 LLM 的效能。

「較大的模型具有更高的樣本效率，因此最佳的計算效率訓練涉及在相對適量的資料上訓練非常大的模型，並在收斂之前停止。」 – 來自 [1]

有趣的是，[1] 中的實證分析表明，較大的 LLM 往往具有更高的樣本效率，這意味著它們在資料較少的情況下可達到與較小模型相同的測試損失水平。因此，對 LLM 進行預訓練以使其收斂（可以說）不是最優的。相反，我們可以在較少的資料上訓練更大的模型，在收斂之前停止訓練過程。這種方法在訓練計算使用量方面是最優的，但它沒有考慮到推理成本。實際上，我們通常會在更多資料上訓練較小的模型，因為較小的模型託管成本較低。

作者還廣泛分析了模型大小與用於預訓練的資料量之間的關係，發現數據集的大小不需要像模型大小那樣快速增加。模型大小增加約 8 倍需要訓練資料量增加約 5 倍才能避免過擬合。

（來自 [1]）

[1] 中發現的 Scaling Law 也在其他幾個資料集上得到復現，我們發現在向測試損失新增固定偏移量後，相同的 Scaling Law 仍然成立（即考慮到資料集不同）；見上文。這些結果為 LLM scaling 提供了令人信服的案例。我們透過更長時間、在更多資料上訓練較大的模型獲得了非常明顯和可衡量的收益，這激發了人們對更大規模預訓練 LLM 的興趣。

「這些結果表明，隨著我們適當擴大模型大小、資料和計算，語言建模效能會平穩且可預測地提高。我們預計，更大的語言模型將比當前模型表現更好，樣本效率更高。」 – 來自 [1]

Scaling Law 的實際用途

大規模預訓練非常好，但這一事實卻帶來了一些困境。續為了得到最好的模型，需要大量資料進行大規模模型訓練。然而，這些訓練成本很高，這意味著它們也會帶來很大的風險。如果我們花費了 1000 萬美元，結果訓練了一個不符合我們期望的模型，這可如何是好？考慮到預訓練的費用，我們無法執行任何特定於模型的調整，我們必須確保我們訓練的模型表現良好。我們需要制定一個策略來調整這些模型並預測它們的效能，同時無需花費太多錢。

（來自 [11]）

這就是 Scaling Law 的用武之地。到目前為止，我們已經看到了一些實證分析，這些分析是為了證明 Scaling Law 的存在而進行的，但這些 Scaling Law 在 AI 研究中也有非常實際的用例。特別是，我們可以：

使用各種訓練設定訓練一堆較小的模型。
根據較小模型的效能擬合 Scaling Law。
使用 Scaling Law 推斷更大模型的效能。

當然，這種方法有侷限性。從較小的模型預測較大模型的效能很困難，而且可能不準確。模型可能因規模不同而表現不同。然而，研究社群已經提出了多種方法來使這更可行，Scaling Law 現在通常用於此目的。使用 Scaling Law 預測較大模型的效能的能力讓我們作為研究人員更有信心（和安心）。此外，Scaling Law 提供了一種簡單的方法來證明對 AI 研究的投資是合理的。

scaling 和預訓練時代

「這就是我們今天看到的所有進步的驅動力 —— 在龐大的資料集上訓練的超大型神經網路。」 – Ilya Sutskever

Scaling Law 的發現成為了 LLM 研究的大部分最新進展的催化劑。為了獲得更好的結果，我們只是在更大（更好！）的資料集上訓練越來越大的模型。基於這一策略，OpenAI 打造了 GPT 系列模型，此外 OpenAI 之外也有很多模型。在這裡，我們將更深入地解讀這一 scaling 研究的進展 —— 最近被 Ilya Sutskever 描述為「預訓練時代」。

GPT 系列模型：GPT、GPT-2、GPT-3 和 GPT-4

LLM Scaling Law 最廣為人知和最明顯的應用是 OpenAI 打造的 GPT 系列模型。我們將主要關注該系列中早期的開放模型 —— 直到 GPT-3—— 因為：

這些模型的細節更公開。
除了 scaling 預訓練過程外，後期的模型還極大受益於後訓練研究。

我們還將介紹一些已知的 scaling 結果，如 GPT-4。

（來自 [2]）

最早的 GPT 模型 [2] 實際上非常小 — 總共 12 層和 117M 個引數。該模型首先在 BooksCorpus 上進行預訓練，BooksCorpus 是一個包含約 7000 本書原始文字的資料集。然後，使用監督訓練目標併為每個任務建立單獨的分類頭來微調模型以解決各種不同的下游任務；見上文。這篇論文是第一批對僅解碼器 Transformer 進行大規模自監督預訓練的論文之一，其中得到了一些有趣的發現：

對純文字進行自監督預訓練非常有效。
使用長而連續的文字跨度進行預訓練非常重要。
以這種方式進行預訓練後，可以對單個模型進行微調，使其能以最領先的準確度解決各種不同的任務。

總體而言，GPT 並不是一個特別值得關注的模型，但它奠定了一些重要的基礎（即僅解碼器 Transformer 和自監督預訓練）。

（來自 [3]）

GPT-2 [3] 誕生在 GPT 之後不久，是多個模型的集合，其中最大的有 1.5B 引數；如上所示。這些模型與 GPT 模型具有相同的架構，並使用相同的自監督語言建模目標進行預訓練。然而，與 GPT 相比，GPT-2 對預訓練過程進行了兩大改變：

預訓練資料集改成了 WebText，它比 BooksCorpus 大得多，並且是透過從網際網路上抓取資料建立的。
這些模型沒有針對下游任務進行微調。相反，是透過使用預訓練模型執行零樣本推理來解決任務。

GPT-2 模型在大多數基準測試上都達不到最先進的效能，但它們的效能會隨著模型的大小而不斷提高 —— 擴大模型引數的數量會帶來明顯的好處；如下所示。

（來自 [3]）

[3] 的作者還透露，儘管 GPT-2 模型取得了很亮眼的結果，但似乎仍然沒有擬合 WebText 語料庫。基於這一發現可以推斷，繼續 scaling LLM 預訓練（無論是模型還是資料大小）應該是有益的。儘管 GPT-2 模型並不是特別強大，但這些模型所呈現的分析為「繼續 scaling 並最終達到 AI 研究的轉折點」提供了所需的信心。

「具有足夠體量的語言模型將開始學習推斷和執行自然語言序列中演示的任務，以便更好地預測它們，無論它們的方法如何。」 – 來自 [3]

GPT-3 [4] 是 AI 研究的一個分水嶺，它明確證實了大規模預訓練對 LLM 的好處。該模型有超過 1750 億個引數，比最大的 GPT-2 模型大 100 多倍；如下所示。

（來自 [4]）

同樣，GPT-3 使用的僅解碼器模型架構與之前的模型非常相似，但預訓練卻是基於 CommonCrawl 的更大資料集。這個資料集比之前的 WebText 資料集大約大 10 倍，[4] 中的作者將更大的預訓練資料集與其他幾個預訓練資料來源相結合，建立了不同語料庫的混合；如下所示。

（來自 [4]）

[4] 中的 GPT-3 主要透過使用少樣本學習方法進行評估。少樣本提示（GPT-3 使用）、零樣本提示（GPT-2 使用）和微調（GPT 使用）之間的差異如下所示。

（來自 [4]）

少樣本學習是一種新正規化：LLM 學習如何根據放置在其上下文視窗內的示例執行任務。[4] 中的作者將此概念稱為「上下文學習（in-context learning）」。在這種情況下，LLM 實際上並沒有「學習」—— 模型的權重根本沒有更新。相反，模型輸入中的示例被用作上下文，以生成更準確的輸出。在 [4] 中可以看到，GPT-3 是一個能力很強的少樣本學習器，似乎表明上下文學習是較大模型的一種湧現能力；如下所示。

（來自 [4]）

當在各種語言理解任務上評估 GPT-3 時，研究者發現使用較大的模型時，可顯著提高少樣本學習的效能，如下圖所示。與較小的模型相比，較大的模型可以更好、更有效地利用其上下文視窗中的資訊。GPT-3 能夠透過少樣本學習在多個任務上超越 SOTA，並且模型的效能隨著規模的擴大還能平穩提升。

（來自 [4]）

單個模型能夠在如此多的任務中表現如此出色，這一事實在當時震撼了很多人。解決這些任務時，不需要對底層模型進行任何微調或更改 —— 只需要調整模型的提示詞。GPT-3 是最早釋出的真正基礎模型之一。該模型開創了 AI 研究的下一個時代，並引入了一種與 LLM 互動（即提示詞）的全新直觀正規化。

超越 GPT-3。GPT-3 的出色表現引發了人們對 LLM 研究的極大興趣。這些興趣主要集中在大規模預訓練上。OpenAI 釋出的接下來幾個模型 ——InstructGPT [8]、ChatGPT 和 GPT-4 [5]—— 結合了大規模預訓練和新的後訓練技術（即監督微調和 RLHF），大大提高了 LLM 質量。這些模型非常吸引眼球，甚至引爆了公眾對 AI 研究的興趣。

「GPT-4 是一個基於 Transformer 的模型，經過預訓練可以預測文件中的下一個 Token 。訓練後的對齊過程可提高事實性和遵守期望行為的衡量標準。」 – 來自 [5]

自那以後，OpenAI 開始更少釋出研究細節。相反，新模型只是透過他們的 API 釋出，這使得公眾無法瞭解這些模型是如何建立的。幸運的是，可以從 OpenAI 釋出的材料中收集到一些有用的資訊。例如，ChatGPT 的前身 InstructGPT [8] 有一篇相關論文，詳細記錄了該模型的後訓練策略；如下所示。鑑於該論文還指出 GPT-3 是 InstructGPT 的基礎模型，我們可以合理地推斷，該模型的效能提升與 scaling 預訓練過程基本無關。

（來自 [8]）

與 ChatGPT 相比，GPT-4 的功能有了明顯的提升。然而，研究者只是選擇性地分享 GPT-4 的極少技術細節。GPT-4 的技術報告 [5] 只是告訴我們：

GPT-4 是基於 Transformer 的。
該模型使用了下一個 token 預測進行預訓練。
使用公開和授權的第三方資料。
該模型透過 RLHF 進行了微調。

儘管如此，scaling 的重要性在這份技術報告中也非常明顯。作者指出，這項工作的一個關鍵挑戰是開發一種可 scaling 的訓練架構，該架構在不同規模上的行為可預測，從而可以基於較小規模的執行結果進行外推，以提供對更大規模（且成本更高！）訓練實踐的信心。

「經過適當訓練的大型語言模型的最終損失…… 可透過用於訓練模型的計算量的冪律近似。」 – 來自 [5]

大規模預訓練成本非常高，因此研究者通常只有一次機會來做對 —— 根本沒有針對具體模型調整的空間。Scaling Law 在此過程中起著關鍵作用。研究者可以使用少成千上萬倍的計算量來訓練模型，並使用這些結果來擬合冪律。然後，這些冪律可用於預測更大模型的效能。特別是，研究者在 [8] 中看到，可使用衡量計算和測試損失之間關係的冪律來預測 GPT-4 的效能；如下所示。

用於訓練 GPT-4 的 Scaling Law 公式（來自 [5]）

此表示式看起來與我們之前看到的幾乎相同，但它增加了一個不可約損失項，以解釋 LLM 的測試損失可能永遠不會達到零的事實。一旦擬合，Scaling Law 就可用來以非常高的準確度預測 GPT-4 的最終效能；請參見下面的描述。在這裡，我們應該注意，該圖沒有使用對數尺度，可以看到損失的改善隨著計算量的增加而明顯開始衰減！

（來自 [5]）

[5] 中的作者還指出，測試損失不是一個容易解釋的指標，他們也嘗試了預測各種其他效能指標。例如，Scaling Law 適合預測 LLM 在 HumanEval 編碼基準上的透過率。首先，根據 HumanEval 中的問題的難度將其分成幾類。然後，Scaling Law 適合預測 LLM 的透過率。研究者在 [5] 中看到，基於所需計算量少 1000 倍的實驗，使用這種方法可以在 HumanEval 上準確預測 GPT-4 的透過率；如下所示。

（來自 [5]）

如我們所見，scaling 預訓練過程很有價值。然而，大規模預訓練也成本非常高。Scaling Law 使這個過程更可預測，使研究者能夠避免不必要或過多的計算成本。

Chinchilla：訓練計算最優的大型語言模型

（來自 [9]）

在 [1] 中，作者認為在 scaling LLM 預訓練時，模型大小的增加速度要快於資料集的大小。然而，GPT-3 之後的大多數預訓練研究表明研究者應該做相反的事情。研究者訓練的模型明顯大於 GPT-3—— 例如 530B 引數 MT-NLG [9] 模型 —— 但用於訓練這些模型的資料集的大小與 GPT-3 相似；如上所示。這些模型並沒有在 GPT-3 之上實現效能提升，而使用更多引數和更多資料組合的模型（例如 Gopher [10]）表現要好得多；如下所示。

（來自 [10]）

計算最優的 Scaling Law。受這些觀察的啟發，[6] 的作者完全重新考慮了 [1] 中最初提出的 Scaling Law 的最佳實踐。[6] 中的 Scaling Law 分析是使用更大的模型進行的，得出的結果與以前略有不同。更具體地說，使用大小從 70M 到 17B 引數的 LLM，在大小超過一萬億個 token 的資料集上進行訓練；如下所示。

（來自 [10]）

透過使用許多不同的模型和資料大小組合訓練 LLM，我們可以發現一個冪律，該冪律可以根據這些因素預測 LLM 的測試損失。

根據這些冪律，研究者可以確定哪種訓練設定最適合給定的計算預算。[6] 的作者認為，計算最優的訓練應該按比例 scaling 模型和資料大小。這一發現表明，大多數 LLM 都訓練不足，無法擬合其規模 —— 使用大量資料訓練現有的 LLM 將對研究者大有裨益。例如，[6] 中擬合的 Scaling Law Gopher 應該使用再大 20 倍的資料集進行訓練！

「預計所需的訓練資料量遠遠超出了目前用於訓練大型模型的資料量。」 – 來自 [6]

Chinchilla。[6] 中提供的分析強調了資料規模的重要性。大型模型需要使用更多資料進行訓練才能達到最佳效能。為了驗證這一發現，作者訓練了一個 700 億引數的 LLM，稱為 Chinchilla。與之前的模型相比，Chinchilla 較小，但擁有更大的預訓練資料集 —— 總共 1.4T 個訓練 token。Chinchilla 使用與 Gopher [10] 相同的資料和評估策略。儘管比 Gopher 小 4 倍，但 Chinchilla 的表現始終優於更大的模型；如下所示。

（來自 [6]）

Chinchilla [6] 提出的 Scaling Law 在此後多年成為 AI 研究的標準。「Chinchilla-optimal」現在是一個常用術語。即使在今天，在發表了各種各樣的其他 scaling 研究之後，Chinchilla 及其相關的 Scaling Law 仍不斷被提及。

Scaling Law 之「死」

Scaling Law 最近成為 AI 研究中的一個熱門（且有爭議）話題。正如我們在前文中所看到的，在整個預訓練時代，scaling 推動了 AI 的大部分進步。然而，隨著 2024 年下半年模型釋出和改進的速度放緩，我們開始看到對模型 scaling 的廣泛質疑，這似乎表明 AI 研究（尤其是 Scaling Law）可能會遇到瓶頸。

路透社稱，OpenAI 正在改變其產品戰略，因為其在 scaling 當前方法方面遇到了瓶頸。
The Information 稱，GPT 模型的改進速度開始放緩。
彭博社強調了幾個前沿實驗室在嘗試構建更強大的 AI 時面臨的困難。
TechCrunch 稱，scaling 開始產生收益遞減。
《時代》雜誌發表了一篇細緻入微的文章，強調了導致 AI 研究放緩的各種因素。
Ilya Sutskever 在 NeurIPS’24 的獲獎演講中表示，「我們所知的預訓練將會終結」。

與此同時，許多專家則持相反觀點。例如，Dario Amodei（Anthropic CEO）表示，scaling「可能……會繼續」，而 Sam Altman 則堅持「沒有牆」。本文將透過提供 scaling 的當前狀態和可能存在的各種問題的合理解釋，為這一討論增添更多色彩。

scaling 變慢：這是什麼意思？為什麼會發生這種情況？

「這兩種說法都可能是真的：scaling 在技術層面上仍然有效。針對使用者的進步速度正在放緩。」 – Nathan Lambert

那麼……scaling 速度正在放緩嗎？答案很複雜，並且高度依賴於研究者對「放緩」的確切定義。到目前為止，我看到的對這個問題最合理的回答是：兩個答案都是正確的。

因此，本文不會嘗試回答這個問題。本文將更深入地介紹相關研究，以便研究者能夠對 LLM 的當前（和未來）scaling 建立更細節的理解。

Scaling Law 能告訴我們什麼？首先，研究者需要回顧一下 Scaling Law 的技術定義。Scaling Law 基於冪律定義了訓練計算量（或模型 / 資料集大小）與 LLM 的測試損失之間的關係。然而，這種關係的性質常常被誤解。透過對數增加計算來獲得指數級效能改進的想法是一個神話。Scaling Law 看起來更像是指數衰減，這意味著隨著時間的推移，研究者必須更加努力才能獲得進一步的效能改進；如下所示。

（來自 [5]）

換句話說，Scaling Law 會隨著時間的推移自然地趨平。這樣一來，研究者目前經歷的「放緩」可以說是 LLM Scaling Law 的預期部分。

「實踐者經常使用下游基準準確度作為模型質量的代理指標，而不是在困惑度評估集上的損失。」 – 來自 [7]

定義效能。研究者如何衡量 LLM 是否在改進？從 Scaling Law 的角度來看，LLM 效能通常透過預訓練期間模型的測試損失來衡量，但較低的測試損失對 LLM 能力的影響尚不清楚。較低的損失會導致下游任務的準確性更高嗎？較低的損失會導致 LLM 獲得新功能嗎？Scaling Law 暗含的東西和我們真正關心的東西之間存在脫節：

Scaling Law 告訴我們，增加預訓練的規模將平穩地降低 LLM 的測試損失。
我們真正關心的是獲得「更好」的 LLM。

根據你的身份，你對新 AI 系統的期望 —— 以及用來評估這些新系統的方法 —— 將有很大的不同。普通 AI 使用者往往專注於一般的聊天應用程式，而實踐型研究者通常關心 LLM 在下游任務上的表現。相比之下，頂級前沿實驗室的研究者似乎對 AI 系統抱有很高的（而且非常特殊的）期望；例如，撰寫博士論文或解決高階數學推理問題。鑑於 LLM 具有如此廣泛的能力，評估是很困難的，而且研究者可以從許多角度來看待 LLM 的表現；如下所示。

（來自 [15]）

鑑於對模型的期望存在巨大差異，提供 scaling「有效」的確鑿證據註定會有很大爭議。研究者需要對 Scaling Law 的成功做出更具體的定義。如果科學告訴我們更大的模型將實現更低的損失，這並不意味著新模型將滿足所有人的期望。未能實現 AGI 或超越頂級人類數學家的能力並不能證明 scaling 在技術層面上仍然不起作用！換句話說，人們可以爭辯說，scaling 的「放緩」是一個感知和期望問題，而不是與 Scaling Law 相關的技術問題。

資料死亡。為了 scaling LLM 預訓練，研究者必須同時增加模型和資料集的大小。早期的研究 [1] 似乎表明資料量並不像模型大小那麼重要，但研究者在 Chinchilla [6] 中看到資料集大小同樣重要。此外，最近的研究表明，大多數研究人員更喜歡「過度訓練」他們的模型 —— 或者在超出 Chinchilla 最優大小的資料集上對它們進行預訓練 —— 以節省推理成本 [7]。

「scaling 研究通常側重於計算最優的訓練方案…… 由於較大的模型在推理時成本更高，因此現在對較小的模型進行過度訓練是一種常見的做法。」 – 來自 [7]

所有這些研究都給研究者帶來了一個簡單的結論 ——scaling LLM 預訓練將需要研究者建立更大的預訓練資料集。這一事實構成了對 LLM Scaling Law 的主要批評之一的基礎。許多研究者認為，可能沒有足夠的資料來繼續 scaling 預訓練過程。作為背景，當前 LLM 使用的絕大多數預訓練資料是透過網路抓取獲得的；如下所示。鑑於研究者只有一個網際網路，找到全新的大規模高質量預訓練資料來源可能會很困難。

甚至 Ilya Sutskever 最近也提出了這一論點，聲稱 i) 計算正在快速增長，但 ii) 由於依賴網路抓取，資料沒有增長。因此，他認為研究者不能永遠 scaling 預訓練過程。我們所知的預訓練將會終結，我們必須為 AI 研究找到新的進步途徑。換句話說，「我們已經實現了峰值資料」。

預訓練的下一代規模

scaling 最終會收益遞減，以資料為中心反對繼續 scaling 的論點既合理又令人信服。然而，仍有幾個研究方向可以改進預訓練過程。

合成數據。為了將預訓練過程 scaling 幾個數量級，研究者可能需要依賴合成生成的資料。儘管人們擔心過度依賴合成數據會導致多樣性問題 [14]，但我們可以看到合成數據的使用有所增加，而且似乎取得了成功 [12]。此外，課程學習 [13] 和持續的預訓練策略透過調整預訓練資料帶來了多種有意義的改進；例如，在預訓練結束時更改資料混合或新增指令資料。

（來自 [7]）

實踐型 Scaling Law。最近的研究試圖解決基於測試損失的 Scaling Law 的侷限性。例如，[7] 中的作者定義的 Scaling Law 可用於預測 LLM 在 LLM Foundry 下游基準測試中的表現；如上所示。對人類來說，解釋這些指標要容易得多。研究者可能不知道測試損失減少 5% 意味著什麼，但在研究者感興趣的基準測試中從 85% 到 90% 的準確率通常很容易理解。其他幾項研究也探討了使用 Scaling Law 來提供更實用、更有意義的 LLM 效能估計的想法；例如，在訓練後和量化 [16] 之後或在預訓練過程中 [17]。

DeepSeek-v3。儘管最近對 Scaling Law 的爭議頗多，但我們仍然看到了透過 scaling LLM 預訓練過程而取得的進步。例如，最近釋出的 DeepSeek-v3 [18]—— 一個 671B 引數的混合專家 (MoE) 模型。除了開源之外，該模型還在 14.8T 文字 token 上進行了預訓練，並超越了 GPT-4o 和 Claude-3.5-Sonnet 的效能；請參閱下圖瞭解模型的效能。作為參考，LLaMA-3 模型是在超過 15T 的原始文字資料上進行訓練的。

（來自 [18]）

能夠超越 GPT-4o 等模型對於開放權重 LLM 來說是一個重大飛躍 —— 即使是最大的 LLaMA 模型也未能達到這一目標. DeepSeek-v3 採用了許多有趣的技巧：

基於 DeepSeek-v2 的最佳化版 MoE 架構。
用於平衡 MoE 負載的新型無輔助損失策略。
多 token 預測訓練目標。
從長思維鏈模型（類似於 OpenAI o1）中蒸餾推理能力。

該模型還經過了後訓練，包括監督微調和 RLHF，以使其符合人類偏好。

「我們在 14.8T 高質量和多樣化的 token 上訓練 DeepSeek-V3。預訓練過程非常穩定。在整個訓練過程中，我們沒有遇到任何無法挽回的損失峰值或不得不回滾。」 – 來自 [8]

然而，DeepSeek-v3 令人印象深刻的表現的最大關鍵是預訓練規模 —— 這是一個在同樣龐大的資料集上訓練的龐大模型！由於各種原因（例如 GPU 故障和損失峰值），訓練如此大的模型很困難。DeepSeek-v3 具有令人驚訝的穩定預訓練過程，並且訓練成本以 LLM 標準來說也很低；如下所示。這些結果表明，隨著時間的推移，更大規模的預訓練會變得更易於管理和更高效。

（來自 [18]）

將規模增大一個數據集。要繼續測試 Scaling Law，我們必須訓練比當前模型高几個數量級的 LLM。拋開對 scaling 效用的看法，仍然存在各種限制阻礙這種規模的模型訓練。研究者需要：

更大的計算叢集。
更多（和更好的）硬體。
大量電力。
新演算法（例如，用於更大規模分散式訓練的演算法，可能跨越多個數據中心）。

訓練下一代模型不僅僅要確保獲得更多用於購買 GPU 的資金，它是一項多學科的工程壯舉。如此複雜的事情需要時間。作為參考，GPT-4 於 2023 年 3 月釋出，距離 GPT-3 釋出已近三年（具體為 33 個月）。可以合理地預期，解鎖另一個 10-100 倍規模增長的時間線（如果不是更長的話）也差不多。

「在 scaling 的每一個數量級，都必須找到不同的創新。」—— Ege Erdil（Epoch AI）

AI 研究的未來

現在我們更深入地瞭解了預訓練的 scaling 狀態，讓我們假設（純粹出於討論目的）預訓練研究將突然遇到障礙。即使模型能力不久後就無法繼續進步，AI 研究仍可以透過多種方式繼續快速發展。我們已經討論過其中一些主題（例如合成數據）。在本節中，我們將特別關注當前流行的兩個主題：

LLM 系統/智慧體。
推理模型。

構建有用的 LLM 系統

當今大多數基於 LLM 的應用都採用了單一模型範式。換句話說，我們在解決任務時，會將任務傳遞給單個 LLM 並直接使用該模型的輸出作為答案；如下所示。

如果我們想改進這樣的系統（即以更高的準確度解決更困難的任務），我們可以簡單地改進底層模型的功能，但這種方法依賴於更強大的模型。相反，我們可以超越單一模型範式，構建一個基於 LLM 的系統，其可組合多個 LLM 或其他元件來解決複雜任務。

LLM 系統基礎。LLM 系統的目標是將複雜任務分解成更小的部分，這些部分對 LLM 或其他模組來說更容易解決。我們可以使用兩種主要策略來實現這個目標：

任務分解：將任務本身分解成更小的子任務，這些子任務可以單獨解決，然後彙總形成最終答案。
鏈式處理：透過對 LLM 進行多次順序呼叫而不是單次呼叫來解決任務或子任務。

這些策略可以單獨使用或結合使用。例如，假設我們要構建一個用於總結書籍的系統。為此，我們可以首先將任務分解成總結書中的每一章。然後我們可以：

將任務進一步分解成更小的文字塊來總結 (即類似於遞迴 / 層次分解)。
將多個 LLM 呼叫連結在一起；例如，讓一個 LLM 提取章節中所有重要的事實或資訊，然後另一個 LLM 基於這些關鍵事實生成章節總結。

然後，我們可以透過讓 LLM 對連線的章節總結進行總結來彙總這些結果，從而形成完整小說的總結。大多數複雜任務都可以分解成容易解決的簡單部分，這使得這樣的 LLM 系統非常強大。隨著我們進行更廣泛的分解和連結，這些系統可以變得非常複雜，使其成為應用人工智慧研究的一個有趣 (且影響深遠) 領域。

構建基於 LLM 的產品。儘管 LLM 取得了成功並廣受歡迎，但 LLM 的實際 (且廣泛採用的) 用例數量仍然很少。目前 LLM 最大的用例是程式碼生成和聊天，這兩者都是 LLM 相對明顯的應用；如下所示。

考慮到 LLM 存在如此多潛在的應用領域，應用型 AI 研究的一個重要方向其實就是基於 LLM 構建更多真正有用的產品。我們已經擁有了非常強大的模型，但使用這些模型來構建一個值得使用的產品是一個完全不同的問題。解決這個問題需要了解如何構建可靠且強大的 LLM 系統。

（來自 [19]）

智慧體（Agent）。LLM 系統和智慧體之間的界限很模糊，因為「智慧體」這個術語已在 AI 社群中被過度使用。然而，我們需要理解的關鍵概念是 LLM 系統可以透過多種有趣且有意義的方式進行擴充套件。例如，我們可以透過教會 LLM 在解決問題時使用工具（如計算器、搜尋引擎等）來增強它們的能力。此外，我們可以允許 LLM 執行自己的程式甚至為我們執行操作，例如預訂酒店或傳送電子郵件。可以與 LLM 整合的眾多模組和工具為構建更強大和更有用的 LLM 系統提供了無限可能。

穩健性是構建更強大的 LLM / 智慧體系統的最大障礙之一。假設我們有一個 LLM 系統需要呼叫 LLM 十次。此外，假設每次 LLM 呼叫的成功率為 95%，並且所有呼叫都需要成功才能生成正確的最終輸出。儘管該系統的各個元件的準確率相當高，但整個系統的成功率僅為 60%！

（來自 [20]）

隨著我們新增更多元件，這個問題會呈指數級惡化，這限制了我們可以構建的 LLM / 智慧體系統的複雜性。構建更復雜的系統將需要大幅提高每個系統元件的穩健性。最近的研究表明，透過擴充套件可以提高穩健性。但是，我們也可以透過更好的元生成（meta-generation）演算法來提高穩健性。這些演算法不是從 LLM 生成單一輸出，而是使用並行解碼、（步級）驗證、評判等方法來獲得更精煉和準確的輸出。

（來自 [20]）

這個研究領域正在快速發展，並可能成為 AI 研究進展的關鍵驅動力。隨著元生成演算法的提升，LLM 將變得更加穩健，我們將能夠構建越來越複雜的 LLM / 智慧體系統。

推理模型和新的 scaling 正規化

針對早期 LLM，一個常見的批評意見是它們僅僅是記憶資料，而缺乏推理能力。然而，過去幾年中，LLM 無法推理的說法已基本被推翻。從最近的研究中我們瞭解到，這些模型很可能一直具有內在的推理能力，但我們需要使用正確的提示詞或訓練方法來激發這種能力。

思維鏈（Chain of thought, CoT）提示是首批展示 LLM 推理能力的技術之一。這種方法簡單且基於提示詞。我們只需要讓 LLM 在生成實際響應之前提供其響應的解釋。當 LLM 生成解釋其得出響應的步驟過程的理由時，其推理能力會顯著提高。此外，這種解釋是人類可讀的，可以使模型的輸出更具可解釋性！

（來自 [22]）

思維鏈的概念既通用又強大。實際上，思維鏈已成為提高 LLM 推理能力的關鍵概念，我們已經看到這種技術被多種方式重新應用：

LLM-as-a-Judge 風格的評估模型通常會在生成最終評估結果之前提供評分理由。
已有研究者提出用於教導較小 / 開放 LLM 寫出更好思維鏈的監督微調和指令調優策略。
LLM 經常被要求反思並批評或驗證自己的輸出，然後基於這些資訊修改輸出。

複雜推理是一個快速發展的活躍研究課題。教導 LLM 在推理過程中納入（步級）驗證的新訓練演算法已經展現出有希望的結果，隨著新的更好的訓練策略出現，我們可能會繼續看到改進。

OpenAI o1 推理模型標誌著 LLM 推理能力的重大飛躍。o1 使用的推理策略在很大程度上基於思維鏈。類似於人類在回答問題前先思考，o1 會在提供回答前花時間「思考」。從實際角度來說，o1 生成的「思考」只是長長的思維鏈，模型用它們來思考問題、將問題分解成更簡單的步驟、嘗試各種解決問題的方法，甚至糾正自己的錯誤。

「OpenAI o1 是一個使用強化學習訓練的新型大型語言模型，可以執行復雜的推理。o1 在回答之前會思考 —— 它可以在回覆使用者之前產生一個很長的內部思維鏈。」 – 來自 [21]

o1 的確切訓練策略細節尚未公開。但是，我們知道 o1 是使用「大規模強化學習」演算法進行推理的，該演算法「資料效率高」，並專注於改進模型生成有用思維鏈的能力。根據 OpenAI 研究人員的公開評論和最近關於 o1 的言論，該模型似乎是使用純強化學習進行訓練的，這與之前的觀點相矛盾，即 o1 可能在推理時使用某種形式的樹搜尋。

GPT-4o 與 o1 在推理密集型任務上的比較（來自 [21]）

如前所述，o1 在複雜推理任務上的表現令人印象深刻。o1 在幾乎所有推理密集型任務上都勝過 GPT-4o；見上文。作為 o1 推理能力的一個例子，該模型：

在 Codeforces 的競爭性程式設計問題中排名第 89 位。
在美國數學奧林匹克（AIME）資格賽中達到美國學生前 500 名水平。
在研究生水平的物理、生物和化學問題（GPQA）上超過人類博士生的準確率。

（來自 [22]）

從 o1 到 o3。o1 最有趣的方面之一是，透過在推理時使用更多計算，可以提高模型的推理能力。為了解決日益複雜的問題，模型可以簡單地生成越來越長的思路鏈；請參閱此處的示例。使用更多的推理時間計算來生成這些更長的思路鏈，可以平穩提高模型的推理效能；見下文。

「我們發現，隨著強化學習的增加（訓練時間計算）和思考時間的增加（測試時間計算），o1 的效能會持續提高。」 – 來自 [22]

同樣，我們在上圖中看到，隨著研究者透過強化學習將更多計算投入到訓練中，o1 的效能會平穩提高。這正是建立 o3 推理模型所遵循的方法。OpenAI 於 2024 年底預覽了該模型的評估結果，目前公開分享的有關 o3 的細節非常少。然而，鑑於該模型是在 o1 釋出後不久（即三個月後）釋出的，o3 很可能是 o1 的「放大版」，即使用了更多計算來做強化學習。

在撰寫本文時，o3 模型尚未釋出，但透過 scaling o1 所取得的結果令人印象深刻（在某些情況下甚至令人震驚）。o3 最吸睛的成就如下：

在 ARC-AGI 基準測試中得分為 87.5%，而 GPT-4o 的準確率僅為 5%。o3 是第一個在 ARC-AGI 上超過人類水平（85%）的模型。該基準測試曾被稱為 AGI 的「北極星」，五年多來一直未被攻克。
在 SWE-Bench Verified 上的準確率為 71.7%，在 Codeforces 的 Elo 得分為 2727，這使 o3 的水平達到了全球前 200 名參賽的人類程式設計師。
EpochAI 的 FrontierMath 基準測試的準確率為 25.2%，比之前最先進的 2.0% 的準確率有所提高。陶哲軒曾表示，此基準「極其困難」，並且很可能在「至少幾年內」都無法被 AI 系統解決。
OpenAI 給出了 o3 的精簡版本 o3-mini 的預覽，它的效能非常好，並且計算效率得到了顯著提升。

（來自 [21]）

scaling 的新正規化。閱讀完本文後，o1 和 o3 表現出的許多圖（見上文）可能看起來非常熟悉 —— 這些是對數尺度的圖，我們可以看到隨著計算量的增加，效能呈平滑、線性增長！換句話說，我們看到這些推理模型的效能與兩個不同數量之間存在明顯的冪律關係：

訓練時間（強化學習）計算。
推理時間計算。

scaling o1 式模型不同於傳統的 Scaling Law。這不再是擴大預訓練過程，而是擴大投入到訓練和推理後的計算量。這是一個全新的 scaling 正規化，到目前為止，scaling 推理模型所取得的成果非常好。這一發現向我們表明，除了預訓練之外，顯然還存在其他 scaling 途徑。隨著推理模型的出現，我們發現了下一座要攀登的山峰。儘管它可能以不同的形式出現，但 scaling 將繼續推動 AI 研究的進步。

結語

現在，我們已經對 Scaling Law 有了更清晰的認識。我們也瞭解了它們對 LLM 以及 AI 研究未來發展方向的影響。此外，最近對 Scaling Law 也存在一些批評：

Scaling Law 正在自然衰減。
對 LLM 能力的期望差異很大。
大規模跨學科工程研究的沒有想預期那麼快。

這些問題是有效的，但它們都無法說明 scaling 不如預期。對大規模預訓練的投資將（也應該）繼續，但隨著時間的推移，提升將變得越來越困難。因此，其他進展方向（例如，智慧體和推理）將變得更加重要。然而，隨著我們對這些新的研究領域的投資，scaling 的基本思想將繼續發揮巨大作用。問題不在於 scaling 是否會繼續。真正的問題是我們下一步將 scaling 什麼。

參考文獻

[1] Kaplan, Jared, et al. "Scaling laws for neural language models." arXiv preprint arXiv:2001.08361 (2020).

[2] Radford, Alec. "Improving language understanding by generative pre-training." (2018).

[3] Radford, Alec, et al. "Language models are unsupervised multitask learners." OpenAI blog 1.8 (2019): 9.

[4] Brown, Tom, et al. "Language models are few-shot learners." Advances in neural information processing systems 33 (2020): 1877-1901.

[5] Achiam, Josh, et al. "Gpt-4 technical report." arXiv preprint arXiv:2303.08774 (2023).

[6] Hoffmann, Jordan, et al. "Training compute-optimal large language models." arXiv preprint arXiv:2203.15556 (2022).

[7] Gadre, Samir Yitzhak, et al. "Language models scale reliably with over-training and on downstream tasks." arXiv preprint arXiv:2403.08540 (2024).

[8] Ouyang, Long, et al. "Training language models to follow instructions with human feedback." Advances in neural information processing systems 35 (2022): 27730-27744.

[9] Smith, Shaden, et al. "Using deepspeed and megatron to train megatron-turing nlg 530b, a large-scale generative language model." arXiv preprint arXiv:2201.11990 (2022).

[10] Rae, Jack W., et al. "Scaling language models: Methods, analysis & insights from training gopher." arXiv preprint arXiv:2112.11446 (2021).

[11] Bhagia, Akshita, et al. "Establishing Task Scaling Laws via Compute-Efficient Model Ladders." arXiv preprint arXiv:2412.04403 (2024).

[12] Bai, Yuntao, et al. "Constitutional ai: Harmlessness from ai feedback." arXiv preprint arXiv:2212.08073 (2022).

[13] Blakeney, Cody, et al. "Does your data spark joy? Performance gains from domain upsampling at the end of training." arXiv preprint arXiv:2406.03476 (2024).

[14] Chen, Hao, et al. "On the Diversity of Synthetic Data and its Impact on Training Large Language Models." arXiv preprint arXiv:2410.15226 (2024).

[15] Guo, Zishan, et al. "Evaluating large language models: A comprehensive survey." arXiv preprint arXiv:2310.19736 (2023).

[16] Xu, Zifei, et al. "Scaling laws for post-training quantized large language models." arXiv preprint arXiv:2410.12119 (2024).

[17] Xiong, Yizhe, et al. "Temporal scaling law for large language models." arXiv preprint arXiv:2404.17785 (2024).

[18] DeepSeek-AI et al. "DeepSeek-v3 Technical Report." https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf (2024).

[19] Schick, Timo, et al. "Toolformer: Language models can teach themselves to use tools." arXiv preprint arXiv:2302.04761 (2023).

[20] Welleck, Sean, et al. "From decoding to meta-generation: Inference-time algorithms for large language models." arXiv preprint arXiv:2406.16838 (2024).

[21] OpenAI et al. “Learning to Reason with LLMs.” https://openai.com/index/learning-to-reason-with-llms/ (2024).

[22] Wei, Jason, et al. "Chain-of-thought prompting elicits reasoning in large language models." Advances in neural information processing systems 35 (2022): 24824-24837.

[23] Liu, Yang, et al. "G-eval: Nlg evaluation using gpt-4 with better human alignment." arXiv preprint arXiv:2303.16634 (2023).

[24] Kim, Seungone, et al. "Prometheus: Inducing fine-grained evaluation capability in language models." The Twelfth International Conference on Learning Representations. 2023.

[25] Ho, Namgyu, Laura Schmid, and Se-Young Yun. "Large language models are reasoning teachers." arXiv preprint arXiv:2212.10071 (2022).

[26] Kim, Seungone, et al. "The cot collection: Improving zero-shot and few-shot learning of language models via chain-of-thought fine-tuning." arXiv preprint arXiv:2305.14045 (2023).

[27] Weng, Yixuan, et al. "Large language models are better reasoners with self-verification." arXiv preprint arXiv:2212.09561 (2022).

[28] Lightman, Hunter, et al. "Let's verify step by step." arXiv preprint arXiv:2305.20050 (2023).

[29] Zhang, Lunjun, et al. "Generative verifiers: Reward modeling as next-token prediction." arXiv preprint arXiv:2408.15240 (2024).

技術交流群邀請函