大模型是否有自知之明？新研究發現LLM可以知曉自己的知識範圍

機器之心報道

編輯：Panda

對於人工智慧，有一個話題總會時而冒出來：「AI 是否或能否具有自我意識」？對於這個問題，目前還沒人能給出非常確切的答案，但近日 Chandar Research Lab 和 Mila – 魁北克人工智慧研究所等機構的一項研究卻揭開了這神秘問題的一角。

他們發現，大型語言模型（LLM）有自知之明，也就是說，只要規模夠大，它們就能夠知道自己對某個主題的瞭解程度。該論文中寫到：「雖然不同架構湧現這種能力的速率不同，但結果表明，知識意識（awareness of knowledge）可能是 LLM 的一個普遍屬性。」

論文標題：Do Large Language Models Know How Much They Know?
論文地址：https://arxiv.org/pdf/2502.19573

方法

那麼，該團隊是如何發現這一點的呢？很容易想見，這個研究問題的核心在於分析瞭解模型記憶和回想資訊的能力。為了避免現有資料的影響，該團隊生成了一些新資料，從而可以確保模型在預訓練階段從未見過這些資料，由此防止結果被汙染。

本質上講，該方法包含三個階段：

生成訓練文件；（這裡採用了日記作者的日記文件設定）
使用其預訓練目標來微調語言模型，讓其記住這些文件；
測試語言模型回憶所有相關文件的能力。

有關這些階段的詳細過程，請參閱原論文，這裡我們更關注其得到的結果。

實驗結果：LLM 有自知之明

實驗中，該團隊使用了兩種型別的多個不同引數量的模型：

僅解碼器模型：OPT（7M 到 2.7B）和 OPT（7M 到 2.7B）；
編碼器 – 解碼器模型：Flan-T5（80M to 3B）。

架構和規模的影響

首先，該團隊評估了架構、模型大小和資料集大小對效能的影響。結果見圖 2，其中橫軸表示模型大小，縱軸表示正確回答問題的百分比。圖上的每條線對應於一個特定的架構（例如 OPT），從最小到最大的模型，並在一個特定的資料集大小上進行了訓練。

對於 OPT 模型，可以觀察到一個總體趨勢：隨著模型大小和資料集規模增長，效能會提高。從由 7M 引數組成的最小變體開始，效能最初會隨著資料集的擴大而提高，在 4K 個日記作者時達到峰值。但是，超過此閾值後，資料集的進一步擴充套件會導致效能下降。實驗結果的這種模式表明，雖然更大的資料集可以增強泛化能力，但也會讓模型的容量飽和，從而導致收益遞減甚至效果下降。

相比之下，125M 引數的 OPT 模型表現明顯不同。該模型足夠大，即使資料集大小增加到最大測試值（64K 日記作者），效能也會持續提升。

此外，在保持資料集大小不變的情況下，增加模型大小通常可以帶來效能提升。

Pythia 模型表現出了與 OPT 模型類似的趨勢：隨著模型大小和資料集大小的增加，效能會提高。

然而，在比較這兩種架構時，出現了一個有趣的區別：OPT 模型的效能提升比 Pythia 更快出現。具體而言，在這裡最大的資料集上訓練時，125M 引數的 OPT 模型明顯優於 160M 引數的 Pythia 模型。這種差異表明，所研究的能力出現的速度取決於底層模型架構的差異。

最後，與其他架構相比，Flan-T5 模型表現出了獨特的模式。在最小的資料集上，僅增加模型大小不會帶來任何明顯的改進。效能提升僅在 783M 引數時才開始出現，即使如此，也只有在兩個最大的資料集上訓練時才會出現。

該團隊也談到了這個實驗的侷限性：「由於計算限制，我們無法在我們最大的資料集上測試具有 2.8B 引數的最大 Flan-T5 模型。然而，總體結果表明，這種能力確實會在足夠規模下湧現 —— 儘管其發展速度因模型架構而有不同。」

分散式資訊的影響

他們還使用一組更加簡單的設定，訓練了另外一組模型，並比較了它們的效能。

具體來說，這一組模型是在相同的資料集上進行訓練的，但同一個人撰寫的所有日記條目都會被合併到單個訓練文件中，而不是每個條目都是一個單獨的文件。

這種方法相當於直接在答案上訓練模型，要求它們簡單地記憶和回憶單個文件。

這兩種設定之間的效能差異表明：處理分散在多個訓練文件中的資訊時，還會有額外的難度。這種分散式情況可能會影響資訊在模型引數中的儲存方式，可能會使模型在資訊更分散時更難整合資訊。

圖 2 中以虛線展示了使用這種更簡單設定訓練的模型結果。在所有情況下，與使用分散式設定訓練的相同基礎模型相比，這些模型都有顯著的效能提升。有趣的是，所有 Flan-T5 模型在這種簡化設定下都實現了近乎完美的準確度，而 OPT 和 Pythia 模型則沒有，不過它們的表現也不錯並且會隨著規模的擴大而不斷改進。

圖 3 中提供了清晰的視覺化，可以更好地說明兩種設定之間的效能差距。其中，縱軸給出了「簡化」設定和「標準」設定之間的準確度差距。

對於 OPT 模型，隨著資料集大小的增加，差距會縮小，最小的模型除外。對於 Pythia ，似乎只有在足夠大的資料集上訓練更大模型，這個差距才會縮小。對於 Flan-T5，除了在最大資料集上訓練的 780M 引數模型外，隨著資料集和模型規模的擴大，效能差距幾乎沒有縮小。

目前尚不清楚為什麼 Flan-T5 模型在更簡單的設定中表現如此出色，但在標準設定中表現如此糟糕。鑑於該模型在前一種情況下具有近乎完美的準確性，其在後一種情況下的糟糕表現不能歸因於方法論問題，因為兩種情況下的過程是相同的。唯一的區別是，在後一種情況下，模型必須從多個文件而不是單個文件中回憶資訊。因此，該模型可能在這方面存在問題。

對於所有模型，研究者暫時無法確定它們在兩種設定中的表現是否會隨著規模的擴大而繼續提高，以及差距是否會最終消失。

文件數量的影響

該團隊研究了要合併和回憶的文件數量對模型效能的影響。

圖 4 報告了按目標答案中的文件數量分組的準確度（橫軸）。線條顏色表示模型大小。為了保持清晰度，這裡僅給出在 8K 日記作者資料集上訓練的模型的效能，因為在其上觀察到的趨勢與其他資料集一致。

令人驚訝的是，當需要回憶更多日記條目時，模型並沒有表現出效能下降。鑑於要生成的內容增加，人們可能會預期模型答案中出現錯誤的可能性會更高。然而，這一觀察結果可能歸因於模型的容量足夠，並且只有在回憶更多數量的文件時才可能出現效能下降。

為了更深入地瞭解模型行為，該團隊還分析了模型回憶的文件數量與目標文件數量的比較（圖 5 和 6）。

對於在 8K 日記作者資料集上訓練的 OPT 和 Pythia 模型，較小的模型似乎可以回憶起隨機數量的文件。然而，隨著模型規模的增加，準確確定要回憶的適當文件數量的能力會逐漸顯現。

相比之下，無論模型規模如何，在相同的 8K 日記作者資料集上訓練的 Flan-T5 模型則會始終檢索看似隨機數量的文件。有趣的是，當擴充套件到 32K 日記作者的資料集時，Flan-T5 會表現出與 OPT 和 Pythia 類似的模式 —— 隨著模型規模的增加，識別應回憶多少文件的能力會逐漸顯現。

更多具體的實驗資料請參看原論文。

綜合分析

深挖前面的實驗觀察，可以看到這些模型的能力所在與失敗之處，包括：

當規模足夠大時，模型回憶的文件通常長度正確且沒有錯誤。
在簡化設定下訓練的模型成功地回憶起了單個訓練文件中的資訊。因此，關鍵似乎不在於回憶的文件的內容，而在於回憶的文件數量。
如果規模不合適，模型似乎無法回憶正確數量的文件，而是會回憶隨機數量的文件。
最小的 Pythia 模型如果從隨機權重而不是預訓練權重開始進行微調，其效能會更好，這表明預訓練權重的糟糕表現不能完全歸因於架構原因。相反，問題部分在於預訓練權重未能學習到一種可以泛化到回憶正確數量文件問題的解決方案，而不僅僅是記住訓練樣本。

關於 Flan-T5，考慮到從頭開始微調的最小模型的效能與從預訓練權重微調的模型一樣差，效能不佳的根本原因可能是架構或超引數設定不對。

此外，模型的大小似乎會影響其效能。由於 Flan-T5 採用編碼器 – 解碼器架構，與 OPT 和 Pythia 等模型的僅解碼器結構不同，其引數在編碼器和解碼器之間大致相等。因此，第二大 Flan-T5 模型的解碼器大小與第三小 Pythia 模型的解碼器大小相當，這與 Pythia 效能開始提高的點相吻合（如圖 2 所示）。Pythia 系列模型中小於此閾值的模型沒有表現出顯著的效能提升。然而，最小的 Pythia 模型在從頭開始訓練時，在類似條件下的表現優於 Flan-T5。這凸顯出架構因素可能會阻礙相同大小模型的能力的湧現。

至於規模，該團隊的假設是較小的模型缺乏開發執行此任務所需迴路的能力，但要了解這些較小模型面臨的挑戰，還需要進一步的研究。

整體來說，這項研究證明了足夠規模的 LLM 確實具有知識意識（awareness of knowledge），即能夠知曉自己的知識範圍。你認為這是否暗示了 LLM 存在自我意識呢？

轉載請聯絡本公眾號獲得授權

投稿或尋求報道：[email protected]