準確率飆升46％！耶魯——斯坦福「自更新記憶庫」新框架，重塑LLM化學推理能力

論文連結：

https://openreview.net/forum?id=kuhIqeVg0e

程式碼連結：

https://github.com/gersteinlab/chemagent

研究背景：化學推理的挑戰與痛點

在 LLM 不斷強大的今天，化學推理任務仍然是一個極具挑戰性的研究方向。化學推理通常涉及複雜的多步驟過程，要求精確的計算和嚴謹的推理，即使是微小的錯誤也可能導致連鎖失敗。

雖然先進 LLM 能夠處理一些簡單的科學任務，但當涉及需要複雜推理的化學場景時，其表現顯著下降。我們可以將這些挑戰概括為三個關鍵問題：

首先，大型語言模型在有效利用領域特定公式方面存在困難。化學公式不僅包含特殊符號，還需要模型理解公式背後的應用場景和限制條件。即使是當前最先進的語言模型，也常常難以準確應用這些專業公式。

其次，模型在執行推理步驟時容易出錯。如 Liao 等人（2024）[1] 的研究所示，即使在相對簡短的推理鏈中，單個錯誤也會產生級聯效應，降低答案質量並增加額外錯誤的機率。這一現象在化學計算中尤為明顯，因為後續步驟往往依賴於前一步驟的精確結果。

第三，當嘗試將文字推理與 Python 程式碼計算相結合時，語言模型常常產生語法錯誤，導致程式碼無法編譯執行。Zhong 等人（2024b）[2] 指出，這種程式碼整合問題嚴重限制了語言模型在需要精確計算的化學任務中的應用。

現有的方法在應對這些挑戰時存在明顯侷限。Ouyang 等人（2024）[4] 提出的 StructChem 雖然嘗試透過分解推理過程，將化學推理格式化為公式生成、詳細的逐步推理和基於置信度的審查等階段，但仍然缺乏靈活性。

與人類學習者能夠從經驗中持續學習不同，這些方法嚴重依賴人工策劃的知識或固定的工作流程，無法自我進化和適應新情境。人類解題者通常會從先前任務中抽象並存儲定理或解決策略，並在未來解題過程中利用這些記憶，而現有 AI 方法缺乏這種能力。

圖 1 生動地展示了這些挑戰。在解決氫原子能量躍遷問題時，我們可以觀察到三種不同的方法及其結果：

（a）標準的 Chain-of-Thought 方法在步驟 3 和 4 中出現計算錯誤，導致最終結果偏離正確答案。這反映了 Wang 等人（2024a）[3] 提出的問題——即使是先進的語言模型，在多步計算過程中也容易累積錯誤。

（b）StructChem 方法（Ouyang 等人，2024）[4] 雖然引入了公式生成和結構化的逐步推理，但由於在步驟 1 和 4 中使用了不正確的常數和單位轉換，最終導致結果錯誤。這說明僅僅改進推理結構是不夠的，模型還需要對化學專業知識有深刻理解。

（c）本文提出的 ChemAgent 方法透過任務分解、從記憶庫檢索相關記憶和結構化推理，成功得出了準確答案。這展示了記憶增強框架在提高化學推理準確性方面的潛力。

ChemAgent：基於自更新記憶庫的創新框架

基於上述洞察，耶魯大學、斯坦福大學、上海交大、UIUC 等研究團隊提出了 ChemAgent 框架，引入了動態“記憶庫”（LIBRARY）系統，以促進迭代問題解決，並基於任務分解持續更新和精煉其內容。這一系統從人類認知機制獲取靈感，旨在模擬人類如何透過結構化記憶組織和檢索過往經驗來解決複雜問題。

如圖 2 所示，ChemAgent 的整體框架包含兩個核心部分：（a）基於記憶庫的推理和（b）記憶庫構建。圖的左側展示了 ChemAgent 如何利用記憶庫解決新問題，而右側則說明了如何透過任務分解和驗證構建記憶庫。這種雙重機制確保了系統能夠不斷自我完善，提高解決問題的能力。

2.1 記憶庫的三重結構設計

ChemAgent 中的記憶庫並非簡單的知識儲存，而是一個精心設計的結構化系統，包含三種互補的記憶元件。

如圖 3 所示，給定一個計算電子動量的任務 P，ChemAgent 會從記憶庫中提取相關記憶例項。這三種記憶型別分別為：

規劃記憶（Planning Memory, Mp）儲存高層次策略和解決複雜問題的方法論。這類似於人類在解決問題時所依賴的抽象策略和方法。

在圖 3 的右上角，我們可以看到規劃記憶包含相關任務（計算電子的德布羅意波長）和解決策略（描述波粒二象性、動量計算方法等）。規劃記憶使模型能夠理解“如何”解決特定型別的問題，而不僅僅是“做什麼”。

執行記憶（Execution Memory, Me）包含特定問題上下文及其詳細解決方案，作為具體的執行計劃。這類似於人類對具體問題解決步驟的記憶。圖 3 左側展示了執行記憶的結構，包含目標、檢索到的公式、詳細的推理過程和最終答案。執行記憶為模型提供瞭解決特定子任務的詳細藍圖。

知識記憶（Knowledge Memory, Mk）儲存基礎化學原理、常數和公式，作為隨時可用的參考。圖 3 右側的知識記憶包含思考過程、相關公式解釋等資訊，確保模型在計算過程中使用正確的化學常數和理論基礎。

這三種記憶元件被儲存在結構化的樹狀格式中，允許系統在解決問題過程中高效檢索。與之前關於 LLM 外部記憶系統的研究不同，ChemAgent 將這些元件精心整合到一個完整的智慧體框架中，並允許它們動態更新。

2.2 基於記憶的推理流程

ChemAgent 的推理過程是一個動態且自適應的流程。在測試階段，系統首先將問題分解為幾個子任務。對於每個子任務，系統檢索與當前子任務相似度超過預定義閾值 θ 的記憶單元 Ur 來協助解決。相似度透過 Llama3 的嵌入計算：

相似度 (Ta, Tb) = Embed(Ta)·Embed(Tb) / (||Embed(Ta)|| × ||Embed(Tb)||)

當執行記憶中不存在相似子任務時，ChemAgent 會啟動自我改進機制，透過利用 LLMs 的內部引數知識來豐富記憶。系統指導 LLM 識別給定子任務的主題（如量子化學或熱力學），並生成與該主題相關的自創化學問題，從而形成一種“合成”執行記憶。

更重要的是，記憶庫在執行時會不斷更新，加入新解決的子任務及其解決方案：

Me = Me ∪ {(Cj, Tj, Oj)}

Mp = Mp ∪ {(Tj, Kj)}

其中，Kj 代表用於解決子任務的整體策略知識（如公式、概念、解決順序）。這種動態更新確保記憶庫不斷進化，持續提高問題解決能力。

實驗設計與效能評估

為了評估 ChemAgent 的有效性，作者在 SciBench 的四個化學推理資料集上進行了嚴格評估。這些資料集覆蓋了不同化學領域：QUAN（量子化學）、CHEMMC（量子力學）、ATKINS（物理化學）和 MATTER（化學動力學）。

表 1 展示了在四個資料集上的實驗結果。ChemAgent 在所有資料集上均優於基線方法：

在 CHEMMC 資料集上，ChemAgent 達到了 74.36% 的準確率，比直接推理方法提高了 46%，比 StructChem 提高了 15.39%。這一顯著提升說明 ChemAgent 在處理量子力學問題時尤為有效。

在 MATTER 資料集上，ChemAgent 的準確率為 48.98%，比最佳基線方法 StructChem 高出 18.31%。這表明 ChemAgent 在化學動力學領域也有明顯優勢。

在 ATKINS 資料集上，ChemAgent 的準確率為 61.18%，雖然相對於 StructChem 的提升較小（1.37%），但仍然是所有方法中表現最好的。

在 QUAN 資料集上，ChemAgent 與少樣本 + Python 方法達到相同的準確率（44.12%），比 StructChem 高出 2.94%。

平均而言，ChemAgent 的準確率為 57.16%，比當前 SOTA 方法 StructChem 提高了約 10%，比直接推理方法提高了 37%。這些結果清晰地表明，ChemAgent 的記憶庫和自我改進機制能顯著提升化學推理任務的效能。

此外，研究還將 ChemAgent 應用於開源模型，如 Llama3-7b、Llama3-70b 和 Qwen2.5-72b。結果顯示，隨著基礎模型能力的增強，ChemAgent 帶來的效能提升更為顯著。例如，在 Llama3-70b 上，ChemAgent 將平均準確率從 29.48% 提高到 42.52%，提升了 13.04%。

深入分析：ChemAgent 成功的秘訣

為什麼 ChemAgent 能在化學推理任務上取得如此顯著的成功？研究團隊透過多角度分析揭示了幾個關鍵因素。

4.1 計算和單位轉換的精確性提升

ChemAgent 在計算和單位轉換方面實現了顯著更高的準確率，這得益於兩個關鍵設計：

首先，在記憶庫中，每個子任務的示例都包含相應的 Python 程式碼，這使模型能夠參考正確的程式碼結構和實現。當面對新問題時，模型可以借鑑這些示例，減少語法錯誤和實現錯誤。

其次，ChemAgent 在長期規劃記憶中儲存了單位轉換步驟，建立了一個可靠的單位轉換知識庫。這解決了化學推理中常見的單位轉換錯誤問題，確保計算過程中使用一致的單位系統。

這兩個因素共同作用，大大降低了化學計算中的錯誤率，提高了最終結果的準確性。

4.2 記憶相似度與解決方案質量的關係

研究團隊對記憶相似度與問題解決成功率的關係進行了深入分析。如圖 8 所示，當解決給定問題 P 時，系統會呼叫一系列記憶 [U1, …, Un]，它們與問題的相似度記為 [S1, …, Sn]，平均相似度為 Smean,P。

成功解決的任務（藍色區域）和失敗任務（紅色區域）的相似度分佈有明顯差異。成功解決的任務平均相似度通常高於 0.82，而失敗任務的相似度集中在 0.80 左右。圖中虛線表示參考值 0.805，可用作判斷是否有可靠記憶的閾值。

研究還進行了 Chi-Square 獨立性檢驗，評估相似度閾值（> 0.805）與解決方案正確性之間的關係。檢驗統計量為 8.77，p 值為 0.003，表明這種關係具有統計顯著性。這一發現說明，提高呼叫記憶與問題的相似度是提升問題解決效能的重要途徑。

4.3 記憶呼叫數量的影響

研究還分析了呼叫記憶數量對效能的影響。如圖 9 所示，隨著呼叫記憶數量（shots）的增加，平均準確率總體呈上升趨勢，但變異性也隨之增大。

這表明，更多的記憶例項能提供更豐富的知識，幫助模型更準確地解決問題。然而，過多的記憶例項也可能引入噪聲和不相關資訊，增加混淆的風險。最終，研究選擇了 4-shot 配置，在效能和穩定性之間取得了良好平衡。

有趣的是，研究發現 Execution Memory（Me）中一些看似不相關的資訊有時可以增強 LLM 在解決特定子任務時的創造力，使 4-shot 設定在最大準確率方面表現優異。這表明，適度的“噪聲”資訊可能有助於模型探索更多解決方案路徑，特別是在處理困難和未知任務時。

4.4 錯誤分析與侷限性

為了更全面地理解 ChemAgent 的侷限性，研究團隊對失敗案例的軌跡進行了分析，發現了三類主要錯誤：

第一類是問題理解不足。如圖所示（Error1），當問題文字包含關鍵隱藏資訊（如“可逆”和“絕熱”）或過多冗餘細節時，模型可能無法正確把握問題要點。這種挑戰是可以理解的，因為即使人類解題者也可能被這些資訊誤導。這類錯誤通常獨立於所採用的方法，可能是 LLM 固有的限制。

第二類是推理不準確。如圖所示（Error 2），LLM 的規劃能力在處理複雜問題時仍然不足。錯誤的規劃會導致推理鏈出現問題，因為後續決策和操作都基於初始問題分解。這個問題會持續存在，直到評估與精煉模組檢測到錯誤，但有時糾正可能為時已晚。

第三類是記憶選擇不當。如圖所示（Error 3），雖然帶有記憶的 ChemAgent 表現優於沒有記憶的設定，但有時它會呼叫誤導性資訊，即使呼叫記憶與問題的相似度很高。這表明需要更復雜的記憶檢索和利用策略。

圖 7 中的例子展示了一個熵變和焓變問題。雖然呼叫的記憶和子任務 1.1 有相當的相似度——都涉及壓縮過程中的熵變，但細微的差別在於當前問題涉及絕熱過程，而記憶中的例子不是。

這種看似微小的差異可能導致解題策略的重大改變。區分誤導性和有益的記憶仍然是一個挑戰，因為呼叫的記憶和問題文字在語義上可能相似，但在關鍵方面存在差異。

化學領域的廣泛覆蓋

ChemAgent 的一個重要優勢是其對化學領域的廣泛覆蓋能力。如圖 10 所示，四個資料集涵蓋了 15 個化學子領域，從量子力學到氣體定律等。

QUAN 資料集主要涉及量子化學、光子學和光譜學等領域，側重於原子和分子結構的量子力學描述。

CHEMMC 資料集專注於量子力學及其在化學鍵閤中的應用，包括波粒二象性、光電效應等主題。

MATTER 資料集研究化學動力學和反應機制，探討反應速率、反應機理和熱力學過程。

ATKINS 資料集覆蓋物理化學的廣泛領域，包括熱力學、化學平衡、反應動力學等。

ChemAgent 在這些多樣化領域均取得了顯著的效能提升，證明了其記憶庫和自我進化機制的泛化能力。這種廣泛的領域覆蓋使 ChemAgent 成為一個真正通用的化學推理框架，能夠應對從基礎理論到應用化學的各類問題。

研究意義與未來展望

ChemAgent 的創新不僅在於其顯著的效能提升，更在於它為 AI 系統在專業領域的自我進化能力開闢了新途徑。透過將化學推理問題分解為可管理的子任務，並構建動態自更新的記憶庫，ChemAgent 模擬了人類學習者如何從經驗中學習並應用知識的過程。

儘管 ChemAgent 展現了令人矚目的效能，記憶機制在處理前所未見的特殊案例時仍有待改進。未來研究方向包括：探索更高效的記憶檢索機制、開發更精細的子任務分解策略、擴充套件到其他科學推理領域以及與工具增強方法的結合。

ChemAgent 的創新意義還在於它展示了自更新記憶庫可以作為一種通用機制，幫助語言模型在各種專業領域實現持續自我提升。這一方法有潛力應用於藥物發現、材料科學等更廣泛的化學應用，以及其他需要精確推理和專業知識的領域。

參考文獻

[1] Liao, C., Yu, Y., Mei, Y., & Wei, Y. (2024). From words to molecules: A survey of large language models in chemistry. arXiv preprint arXiv:2402.01439.

[2] Zhong, X., Du, Y., Ouyang, S., Zhong, M., Luo, T., Ho, Q., Peng, H., Ji, H., & Han, J. (2024b). ActionIE: Action extraction from scientific literature with programming languages. In Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pp. 12656–12671.

[3] Wang, X., Hu, Z., Lu, P., Zhu, Y., Zhang, J., Subramaniam, S., Loomba, A. R., Zhang, S., Sun, Y., & Wang, W. (2024a). SciBench: Evaluating college-level scientific problem-solving abilities of large language models. In Forty-first International Conference on Machine Learning.

[4] Ouyang, S., Zhang, Z., Yan, B., Liu, X., Choi, Y., Han, J., & Qin, L. (2024). Structured chemistry reasoning with large language models. In Forty-first International Conference on Machine Learning.

更多閱讀