2024 年 12 月,真是大模型的殺瘋了的一個月。
前有《智譜 GLM-4V-Flash API 釋出即免費》、《Gemini2.0 即時全模態炸場》、《GPT-4o 視訊通話對波 Gemini》、《無問芯穹全模態端側模型開源》,《Kimi 上線了視覺思考,並和海螺、豆包打了一架》…
大模型的的釋出固然令人欣喜,但是各類測評也是忙壞了眾多 AI 工作者。大模型推理的幻覺問題向來是 AI 測評的重災區,諸如 9.9>9.11 的經典幻覺問題,各大廠家恨不得直接把問題用 if-else 寫進來。
而在聖誕節來臨之際,Google DeepMind 團隊開源了其關於 LLMs 訓練規則推理庫的程式碼,詳細展示了其對於大模型推理幻覺的問題的解決方法。
像非十位制計算和親戚檢索這種極易產生幻覺的問題,GPT-4 將透過專門的規則庫進行學習,從而提高 LLMs 的可解釋性和可遷移性,強化模型推理能力。

話不多說,讓我們一起來看看吧
論文標題:
Large Language Models can Learn Rules
論文連結:
https://arxiv.org/pdf/2310.07064
程式碼連結:
https://github.com/google-deepmind/LLMs_can_learn_rules
Large Language Models can Learn Rules
論文連結:
https://arxiv.org/pdf/2310.07064
程式碼連結:
https://github.com/google-deepmind/LLMs_can_learn_rules

1.推理、事實、規則
在開始學習大佬們的論文之前,我們先來科普一下關於推理的基本概念。
推理從事實推導規則的過程。事實是當前的資訊,而規則是潛在的邏輯關係。推理可以分為兩大類:演繹推理和歸納推理。我們先來看看演繹推理。
演繹推理
演繹推理旨在根據已知的事實和規則推匯出新的事實,下面舉一個經典的三段論推理:
小瑤是學習 AI 的女生(事實 1)
學習 AI 的女生都是美女(規則 1)
—> 小瑤是美女!(事實 2)

從上面的例子可以看出來,三段論演繹推理可以概括為事實 + 規則-> 事實。
歸納推理
歸納推理專注於從觀察到的事實中推匯出一般規則,簡單描述就是事實 + 事實 +…+ 事實-> 規則。例如:
小瑤是美女(事實 1)
兔子是美女(事實 2)
奶茶也是美女(事實 3)
—> 小瑤編輯部全是美女!(規則 1)

對於 LLMs,歸納推理可以視為其訓練建立規則的過程,而演繹推理則是將資訊匹配,計算結果的過程。
LLMs 的推理的難點在於,如何描述的事實匹配到對應的規則。例如在上面的例子當中,將小瑤、兔子、奶茶歸集到小瑤編輯部中形成規則。用網際網路黑話講,就是對齊顆粒度!

2.從假設到理論
為了解決 LLMs 在推理上的難題,DeepMind 團隊提出了從假設到理論(HtT,Hypotheses-to-Theories )的框架,使用規則庫來解決測試樣本,並透過注入歸納偏好以確保模型的泛化能力。

HtT 由歸納階段和演繹階段組成,兩者都透過少量樣本提示實現。
在歸納階段,在一組問答示例上生成和驗證規則,收集並過濾這些規則以形成一個規則庫。
在演繹階段,提示模型從規則庫中明確檢索規則以回答測試問題。
這兩個階段類似於神經網路的訓練和測試階段,只不過 LLMs 學習的文字規則而不是模型引數。
歸納階段
歸納階段的目標是在沒有規則註釋的情況下,從訓練示例中學習規則。
對於每個訓練示例(一個問題-答案對),訓練要求 LLMs 生成回答問題的規則,並從訓練示例中收集規則和準確性指標。

為了過濾規則庫中的規則,Deepmind 遵循規則挖掘的原則,以覆蓋度和置信度作為標準。覆蓋度表明它將被重用的可能性,置信度表明它正確的可能性。

傳統 LLMs 的歸納過程使用兩個單獨的提示進行生成和驗證,一個提示基於問題生成規則,一個提示應用規則推斷答案。常見的提示方法包括 CoT(Chain-of-Thought,鏈式推理)和 LtM(Least-to-Most,聚式推理)。
DeepMind 提出了從演繹中歸納,使用一個演繹推理提示用於規則生成和驗證。透過這種方式,歸納和演繹階段都使用相同的基礎提示,在執行演繹時明確宣告一個相同規則,以提升推理準確率。
演繹階段
在演繹階段,DeepMind 應用歸納階段的規則庫來解決測試問題。在演繹過程中,DeepMind 將規則庫新增到演繹推理提示之前,並修改示例以教導 LLMs 在需要生成規則時從庫中檢索規則。

然而在實踐中,即使強大如 GPT-4,當庫以未結構化的方式包含大量規則時也會遇到檢索困難,對此,DeepMind 開發了一個純粹的提示解決方案:將規則庫組織成層次結構,並使用 XML 標籤來明確引用我們想要從層次結構中檢索的叢集。

HtT 可以學習親屬關係規則、數值規則,甚至是轉換列表的自由形式規則。並且根據覆蓋度和置信度標準,提取必要規則和排除無效規則,從而超越傳統 LLM 的效能。
3.推理測試
為了驗證 HtT 框架效果,DeepMind 分別將 HtT 規則庫應用於 GPT-3.5 和 GPT-4,進行關係推理、數值推理、概念學習三個測試,並透過消融實驗,對 HtT 進行更深一步理解。
關係推理
關係推理實驗採用的資料集為 CLUTRR。CLUTRR 資料集查詢家譜中兩個家庭成員之間的關係,其有兩種形式:僅包含實體及其關係的符號版本,以及用故事描述關係的文字版本。

HtT 透過兩種模型一致性地提高了 CoT 和 LtM 提示的平均準確率 11.1-16.4%。由於歸納比演繹更具挑戰性,DeepMind 進一步評估了由 GPT-4 歸納規則的 GPT-3.5。值得注意的是,使用 GPT-4 的規則,HtT 將 CoT 在 GPT-3.5 上的效能提高了 27.2%。

經評估,HtT 在關係推理領域有兩個優勢:
(1)HtT 不需要預定義的關係詞匯表。
(2)HtT 學到的規則可以直接轉移到文字輸入。
數值推理
非十位數加法的系統與傳統十進位制系統不同,是一個需要 LLMs 進行推理問題。Arithmetic 是一個含了在多種基數系統中的 2 到 4 位數字的加法問題的資料集,DeepMind 在該資料集上評估 GPT-3.5 和 GPT-4 的效能。

從表中結果可知,HtT 顯著提升了 CoT 和 LtM 提示的準確率。由於 GPT-4 基準的準確率更高,HtT 對於 GPT-4 提升幅度高於 GPT3.5。

概念學習
概念學的的評估在 List Functions 資料集上進行。該資料集旨在識別一個函式,該函式將每個輸入列表對映到其對應的輸出列表。根據識別難度,可以分為
P1:在 0 到 9 之間的數字上進行簡單操作
P2:在 0 到 99 之間的數字上進行簡單操作
P3:在 0 到 99 之間的數字上進行困難操作

表中結果分為原始準確率(Raw Accuracy)和任務準確率(Task Accuray)。HtT 在兩個模型上都一致性地提高了 4 次 CoT 的表現,原始準確率提高了 18.5-18.7%,任務準確率提高了 10.2-14.5%。

GPT-4 可以在 List Functions 中發現一些非常複雜的規則,在涉及大數字(P2)或困難操作(P3)的任務上,GPT-3.5 的表現急劇下降,而 GPT-4 在不同難度級別上更為穩定。
值得注意的是,有了 GPT-4 學到的規則,GPT-3.5 的任務準確率可以提高到 34.4%,這表明 GPT-3.5 能夠理解 GPT-4 學到的大多數規則,即概念學習的挑戰更多在於歸納而不是演繹。
消融實驗
為了進一步探究 HtT 的原理,DeepMind 在 GPT-4 上對上述資料集進行了消融實驗,並得出了下面的結論。
HtT 是否減少了錯誤規則的發生?
DeepMind 手動分析了 CoT 和 CoT+HtT 在 CLUTRR 和 Arithmetic(16 進位制)上的 100 個測試示例的預測,並將預測歸類為 3 類:正確、錯誤規則和其他。圖 2 繪製了錯誤案例的分佈。可以看到,HtT 的大部分效能提升來自於錯誤規則的減少。

HtT 學到的規則是否可由隨機規則替換?
之前的研究發現,在 LLMs 上下文學習中,隨機標籤的表現與優秀標籤相似,即模型是在學習隨機規則而不需要學習規則庫。
為了驗證 HtT 是否符合該規律,DeepMind 將學到的規則中的結論替換為隨機答案。表 6 顯示,隨機規則顯著損害了效能,表明 HtT 中學習到的規則的必要性。

HtT 在歸納階段需要多少樣本?
DeepMind 用不同數量的樣本進行實驗,結果與監督學習的擴充套件規律一致,不同資料集所需的最小樣本數量各不相同。CLUTRR 和基數-11 需要 500 個樣本才能獲得顯著提升,而在 List Functions 上,每個任務 1 個樣本就足以獲得提升。

HtT 發現了多少規則?
為了研究這個問題,DeepMind 將 HtT 與一個總能從示例中歸納出所有必要規則的預言者進行比較。圖 4 顯示了預言者和 HtT 歸納出的規則數量,以及 HtT 中真正的陽性規則數量。我們可以看到,HtT 在所有資料集中發現了超過 85% 的規則。

4.全文總結
HtT 是 DeepMind 開發的有助於 LLMs 學習顯式規則並將它們應用於推理問題的框架。透過實驗分析,HtT 顯著提高了關係推理、數值推理和概念學習問題上 LLMs 的推理效能,消除模型幻覺。
目前 HtT 還面臨著受限於模型基礎能力和上下文長度限制的問題,但是該框架仍具備較大潛力,為使用 LLMs 獲取知識規則,消除推理幻覺開闢了新的方向。


