2024 年 12 月，真是大模型的殺瘋了的一個月。

前有《智譜 GLM-4V-Flash API 釋出即免費》、《Gemini2.0 即時全模態炸場》、《GPT-4o 視訊通話對波 Gemini》、《無問芯穹全模態端側模型開源》，《Kimi 上線了視覺思考，並和海螺、豆包打了一架》…

大模型的的釋出固然令人欣喜，但是各類測評也是忙壞了眾多 AI 工作者。大模型推理的幻覺問題向來是 AI 測評的重災區，諸如 9.9>9.11 的經典幻覺問題，各大廠家恨不得直接把問題用 if-else 寫進來。

而在聖誕節來臨之際，Google DeepMind 團隊開源了其關於 LLMs 訓練規則推理庫的程式碼，詳細展示了其對於大模型推理幻覺的問題的解決方法。

像非十位制計算和親戚檢索這種極易產生幻覺的問題，GPT-4 將透過專門的規則庫進行學習，從而提高 LLMs 的可解釋性和可遷移性，強化模型推理能力。

話不多說，讓我們一起來看看吧

論文標題：
Large Language Models can Learn Rules
論文連結：
https://arxiv.org/pdf/2310.07064
程式碼連結：
https://github.com/google-deepmind/LLMs_can_learn_rules

1.推理、事實、規則

在開始學習大佬們的論文之前，我們先來科普一下關於推理的基本概念。

推理從事實推導規則的過程。事實是當前的資訊，而規則是潛在的邏輯關係。推理可以分為兩大類：演繹推理和歸納推理。我們先來看看演繹推理。

演繹推理

演繹推理旨在根據已知的事實和規則推匯出新的事實，下面舉一個經典的三段論推理：

小瑤是學習 AI 的女生（事實 1）

學習 AI 的女生都是美女（規則 1）

—> 小瑤是美女！（事實 2）

從上面的例子可以看出來，三段論演繹推理可以概括為事實 + 規則-> 事實。

歸納推理

歸納推理專注於從觀察到的事實中推匯出一般規則，簡單描述就是事實 + 事實 +…+ 事實-> 規則。例如：

小瑤是美女（事實 1）

兔子是美女（事實 2）

奶茶也是美女（事實 3）

—> 小瑤編輯部全是美女！（規則 1）

LLMs 的推理的難點在於，如何描述的事實匹配到對應的規則。例如在上面的例子當中，將小瑤、兔子、奶茶歸集到小瑤編輯部中形成規則。用網際網路黑話講，就是對齊顆粒度！

2.從假設到理論

為了解決 LLMs 在推理上的難題，DeepMind 團隊提出了從假設到理論（HtT，Hypotheses-to-Theories ）的框架，使用規則庫來解決測試樣本，並透過注入歸納偏好以確保模型的泛化能力。

HtT 由歸納階段和演繹階段組成，兩者都透過少量樣本提示實現。

在歸納階段，在一組問答示例上生成和驗證規則，收集並過濾這些規則以形成一個規則庫。

在演繹階段，提示模型從規則庫中明確檢索規則以回答測試問題。

這兩個階段類似於神經網路的訓練和測試階段，只不過 LLMs 學習的文字規則而不是模型引數。

歸納階段

歸納階段的目標是在沒有規則註釋的情況下，從訓練示例中學習規則。

對於每個訓練示例（一個問題-答案對），訓練要求 LLMs 生成回答問題的規則，並從訓練示例中收集規則和準確性指標。

為了過濾規則庫中的規則，Deepmind 遵循規則挖掘的原則，以覆蓋度和置信度作為標準。覆蓋度表明它將被重用的可能性，置信度表明它正確的可能性。

傳統 LLMs 的歸納過程使用兩個單獨的提示進行生成和驗證，一個提示基於問題生成規則，一個提示應用規則推斷答案。常見的提示方法包括 CoT（Chain-of-Thought，鏈式推理）和 LtM（Least-to-Most，聚式推理）。

DeepMind 提出了從演繹中歸納，使用一個演繹推理提示用於規則生成和驗證。透過這種方式，歸納和演繹階段都使用相同的基礎提示，在執行演繹時明確宣告一個相同規則，以提升推理準確率。

演繹階段

在演繹階段，DeepMind 應用歸納階段的規則庫來解決測試問題。在演繹過程中，DeepMind 將規則庫新增到演繹推理提示之前，並修改示例以教導 LLMs 在需要生成規則時從庫中檢索規則。

然而在實踐中，即使強大如 GPT-4，當庫以未結構化的方式包含大量規則時也會遇到檢索困難，對此，DeepMind 開發了一個純粹的提示解決方案：將規則庫組織成層次結構，並使用 XML 標籤來明確引用我們想要從層次結構中檢索的叢集。

HtT 可以學習親屬關係規則、數值規則，甚至是轉換列表的自由形式規則。並且根據覆蓋度和置信度標準，提取必要規則和排除無效規則，從而超越傳統 LLM 的效能。

3.推理測試

為了驗證 HtT 框架效果，DeepMind 分別將 HtT 規則庫應用於 GPT-3.5 和 GPT-4，進行關係推理、數值推理、概念學習三個測試，並透過消融實驗，對 HtT 進行更深一步理解。

關係推理

關係推理實驗採用的資料集為 CLUTRR。CLUTRR 資料集查詢家譜中兩個家庭成員之間的關係，其有兩種形式：僅包含實體及其關係的符號版本，以及用故事描述關係的文字版本。

HtT 透過兩種模型一致性地提高了 CoT 和 LtM 提示的平均準確率 11.1-16.4%。由於歸納比演繹更具挑戰性，DeepMind 進一步評估了由 GPT-4 歸納規則的 GPT-3.5。值得注意的是，使用 GPT-4 的規則，HtT 將 CoT 在 GPT-3.5 上的效能提高了 27.2%。