長文字有了專屬困惑度！北大、MIT、阿里推出LongPPL新指標

隨著大模型在長文字處理任務中的應用日益廣泛，如何客觀且精準地評估其長文字能力已成為一個亟待解決的問題。

傳統上，困惑度（Perplexity, PPL）被視為衡量模型語言理解與生成質量的標準指標——困惑度越低，通常意味著模型對下一個詞的預測能力越強。由於長文字可被視為一般文字的擴充套件，許多研究自然地透過展示模型在長文字上的低困惑度來證明其長文字泛化能力的有效性。但你知道，這個評估方式可能完全錯了嗎？

近期研究發現，困惑度在長文字任務中的適用性存在顯著侷限性：某些在困惑度指標上表現優異的模型，在實際長文字應用中卻未能達到預期效果。如圖 1（上）所示，在 9 種主流長文字大模型上，困惑度（y 軸）與模型在長文字任務中的真實表現（x 軸）之間的相關性極低。這一反常現象引出了一個關鍵問題：為何困惑度（PPL）在長文字場景下失效？

圖 1 大模型的困惑度 (PPL) 和長文字困惑度 (LongPPL) 與長文字任務集 LongBench 分數的相關性。

針對這一問題，北京大學王奕森團隊與 MIT、阿里一道開展了深入研究，探討困惑度在長文字任務中失效的原因，並提出全新指標 LongPPL，更精準反映長文字能力。

透過實驗，他們發現長文字中不同 token 對長距離上下文資訊的依賴程度存在顯著差異。其中，對長上下文資訊依賴較強的 token 在評估模型的長文字處理效能時起到關鍵作用，但這類 token 在自然文字中只佔少數。這表明，困惑度失效的原因在於其對所有 token 進行平均計算，無法充分關注這些與長文字能力關係密切的關鍵 token。

為此，他們將困惑度的計算限制在長文字的關鍵 token 上，從而定義出能夠反映模型長文字處理能力的長文字困惑度（LongPPL），該指標表現出與長文字任務效能極高的相關性 (如圖 1（下）)。此外，他們還基於這一設計思想提出長文字交叉熵損失（LongCE），顯著提升了模型透過微調增強長文字處理能力的效果。

論文題目: What is Wrong with Perplexity for Long-context Language Modeling?
論文地址: https://arxiv.org/abs/2410.23771
程式碼地址: https://github.com/PKU-ML/LongPPL

並非所有 token 都反映模型長文字能力

為探討困惑度在長文字任務中失效的原因，作者首先分析了長文字與短文字在本質上的差異。直觀來看，一段文字中不同詞語對長距離上下文的依賴程度存在顯著差異。例如，在小說中，某個情節的發展可能需要與數章之前埋下的伏筆相呼應，而某些語法上的固定搭配則通常無需依賴較遠的上下文。在長文字場景下，這種依賴程度的差異較短文字更為顯著。

為了量化並驗證這一直觀認識，本文首先考慮了一個簡單的任務場景——LongEval 長文字鍵值對檢索任務（圖 2（a））。在此任務中，模型根據問題在長上下文中檢索出與給定鍵相匹配的值。本文將問題的標準回答劃分為非答案部分（藍色）和答案部分（橙色）。顯然，非答案部分的生成僅依賴短上下文，即最後的問句內容；而答案部分則需要模型聚焦於完整的長上下文資訊。

圖 2 (b)(c) 表明，答案部分的困惑度與模型在此任務中的實際表現高度相關，而非答案部分的困惑度幾乎與任務表現無關。由此可見，依賴長上下文資訊的關鍵 token 在評估模型的長文字能力時更加重要。

圖 2（a）LongEval 任務示意圖（b）(c) LongEval 的答案 / 非答案部分的困惑度與任務表現的相關性。

透過長-短上下文對比在自然文字中定位關鍵 token

在上述結果的啟發下，一個自然而然的想法是：若將困惑度指標限定於依賴長上下文資訊的關鍵 token 上，便可更有效地評估模型處理長文字的能力。

然而，實際應用中存在一個挑戰：在自然文字中，無法像 LongEval 基準中那樣明確標註哪些 token 依賴於長距離上下文，因此迫切需要一種指標來自動識別這些關鍵 token。

為了解決這一問題，本文提出了一種長-短上下文對比的方法。具體而言，本文將每個 token x_i 的長上下文 l_i=(x_1,…,x_(i-1)) 截斷成短上下文 s_i=(x_(i-K),…,x_(i-1))，然後計算模型 θ 在長 / 短上下文下生成同一 token 的（對數）機率差距 (Long-short difference, LSD):

這一指標用於量化長上下文對模型預測準確度的提升。圖 3 表明，在 LongEval 任務中，LSD 幾乎能夠完美區分答案部分和非答案部分。與長上下文資訊相關的答案部分 LSD 值普遍大於 2，而與長上下文資訊幾乎無關的非答案部分 LSD 值普遍在 – 0.5 到 0.5 之間。這一結果初步驗證了該指標在定位關鍵 token 方面的有效性。

圖 3 LongEval 標準回答中不同型別的 token 按 LSD 分類的分佈。

此外，本文發現模型基於長文字的（對數）生成機率 (Long-context likelihood, LCL) 也有助於定位關鍵 token（在此不做展開）:

困惑度無法反映模型長文字能力的原因

進一步，本文在 GovReport 政府報告資料集上計算了按 LSD 分類的 token 分佈。如圖 4 所示，大部分 token 的 LSD 集中在 [-0.5, 0.5) 範圍內，而 LSD 大於 2 的 token 佔比不到 10%。這意味著在自然文字中，只有非常少數的 token 與長上下文中的資訊有強相關性，而絕大部分的 token 只需要依賴短上下文的資訊即可生成。

這一結果表明，困惑度在長文字上失效的原因在於其對所有 token 進行平均計算，未能充分關注長文字中這些少數的關鍵token。

圖 4 GovReport 資料集中 token 按 LSD 分類的分佈。

長文字困惑度——長文字能力評估指標的改進

基於上述分析，為了克服傳統困惑度指標在長文字場景下的侷限性，本文提出了一個新的評估指標——長文字困惑度（LongPPL）。具體設計為：

其核心思想在於透過 LSD 和 LCL 指標，將困惑度的計算限制在長文字的關鍵 token 上，從而聚焦於關鍵 token 的預測質量，以更準確地反映模型的長文字能力。

實驗結果表明，模型在自然文字上的 LongPPL 和長文字任務的實際表現高度相關。如圖 1（下）所示，在 GovReport 資料集上，9 個主流長文字大模型的 LongPPL 與在 LongBench 任務集上表現的皮爾遜相關係數達到了 – 0.96。

長文字交叉熵——長文字訓練方法的最佳化

除了用於評估長文字能力外，本文還基於 LongPPL 的思想提出了一種改進的訓練損失 —— 長文字交叉熵（LongCE）：

在提升模型長文字能力的微調過程中，LongCE 會賦予關鍵 token 更高的權重，使得模型在訓練中更加聚焦提升這些關鍵 token 的預測準確性，從而增強模型在長文字任務中的表現。

為了驗證 LongCE 的有效性，研究團隊在 Llama-2-7b 模型的基礎上進行了多組對比實驗。

實驗設計涵蓋了不同的訓練資料集（包括 PG-19 書籍資料集和 Pile-arxiv 論文資料集）以及不同的訓練方法（包括熵感知基調整 EABF 和位置插值 PI，其中 EABF 與 Deepseek-v3 採用的 YaRN 插值方法相似）。實驗評估採用了 LongBench、LongEval 和 RULER 這三個廣泛使用的長文字測試任務集。

實驗結果表明，在各種實驗設定下，採用 LongCE 進行微調的大模型在長文字處理能力上均顯著優於使用傳統交叉熵損失函式進行微調的模型。這表明，不僅是評估，長文字的訓練也應根據其特點來設計損失函式，而非簡單地沿用短文字場景的損失函式！

值得注意的是，由於當前主流的長文字泛化方法主要集中於模型架構和引數的最佳化，而未涉及訓練損失函式的改進，因此 LongCE 可以與這些方法實現無縫結合，展現出廣闊的應用前景和強大的效能提升潛力。