

近日,根據近年來大語言模型在資訊整合和推理方面的強大能力,以及人類科學家提出新的科學假設時需要的大量人力、物力資源和時間成本,來自美國芝加哥大學的一支課題組提出一套利用大模型來做生成科學假設的新型科研輔助工具。
傳統的假設生成方法大致可以分為兩類:
第一種是理論驅動方法:透過回顧現有文獻生成假設。這種方法通常能產生新穎、有效且對研究者有用的假設,同時是基於已有的科學知識。其侷限性在於:依賴高質量的文獻、難以適應新資料、缺乏現實資料支援。
第二種是資料驅動方法:透過發現數據中的規律生成假設。這種方法能適應新的資料並在解釋資料方面表現出色。其侷限性在於:往往過於依賴特定資料集,可能導致泛化能力不足。
當前這兩類方法各有優劣,但尚未有人探索兩者是否可以互補。因此,本研究提出整合文獻和資料的假設生成方法,以彌補單一方法的不足。

(來源:arXiv)
據介紹,本研究旨在解決以下問題:
其一,研究理論與資料結合的可能性:探討是否可以透過整合文獻中的洞見與資料中的模式,生成更全面、更有效的假設。
其二,提升假設生成的泛化能力和實用性:透過結合文獻和資料,生成更適合多種任務的高質量假設。
其三,驗證 AI 生成假設對人類決策的幫助:驗證 AI 生成的假設在檢測虛假/欺騙性資訊和 AI 生成內容檢測等任務中,是否能夠提升人類決策的準確性。
研究中,該團隊提出了首個將文獻資訊與現實觀察資料結合之後,使用大模型驅動假設生成的方法,並開發出一種協作機制,讓文獻驅動和資料驅動方法在假設生成和更新過程中互相補充。
其還提出了兩種整合策略:
第一種策略是精煉生成:在資料驅動生成的假設基礎上加入文獻洞見,透過多輪迭代提高假設質量。
第二種策略是合併生成:其能分別生成基於文獻和資料的假設集,並在消除冗餘後進行合併。
在五個資料集上的大模型推理實驗顯示,整合文獻和資料的假設生成方法在泛化能力上顯著優於其他傳統方法:比基於例子的學習方法提高 8.97%;比僅基於文獻的方法提高 15.75%;比僅基於資料的方法提高 3.37%。
在兩項人類評估實驗中,AI 生成的假設顯著提高了人類決策準確性:在虛假/欺騙性資訊檢測任務中提高了 7.44%;在 AI 生成內容檢測任務中提高了 14.19%。
同時,文獻驅動和資料驅動方法提供了互補的資訊,一個方法生成的假設中常包含另一個方法無法提供的新資訊。假設生成可以不僅幫助模型提高大模型的預測效能,還能為人類決策提供實用的指導。
總的來說,該項研究首次提出將文獻洞見與資料模式結合的假設生成方法,填補了理論驅動與資料驅動方法結合的空白。同時,本次方法設計全面且實用,能夠生成泛化性強且質量高的假設。此外,實驗設計嚴謹,覆蓋五個資料集,並結合自動評估與人類評估驗證了方法的有效性,尤其在人類評估中展示了顯著提升決策能力的潛力。
理論上,本成果能被用於任何基於資料分析或觀測現實資料的科學領域,包括但不限於生物學、化學、醫療、神經科學、環境與地質科學、商業分析和經濟學等。它為科研工作者提供了一個強有力的輔助工具,不僅能夠顯著減少提出新科學假設所需的資源和時間成本,還能提升假設的質量和泛化能力。
實踐中,該成果還具有更廣泛的潛在應用,例如幫助最佳化教學方法、改進醫療診斷與治療方案、支援商業與政策決策、提升人工智慧模型的解釋性與效能,以及推動跨學科研究的創新等。

圖 | 劉昊琨(來源:劉昊琨)
日前,相關論文以《文學與資料相遇:生成假設的協同方法》(Literature Meets Data: A Synergistic Approach to Hypothesis Generation)為題發在 arXiv[1],美國芝加哥大學博士生劉昊琨是第一作者。

圖 | 相關論文(來源:arXiv)
本次假設生成方法雖然是現階段最全面並且擁有最好的評估結果,但這類研究整體還屬於初步階段。研究人員無法回答“什麼是最好的自動化驗證假設的方法”,或“能不能證明這些生成的假設能真正推動各個領域的科研”這類問題。
所以,該團隊正在考慮設計一套完善的假設生成的 benchmark,或者嘗試與社科領域的專家合作,利用他們生成的假設來開展新的科研專案。透過此,希望能夠完善各個模組,讓文獻搜尋和整理模組可以實現自動化。
參考資料:
1.Liu, H., Zhou, Y., Li, M., Yuan, C., & Tan, C. (2024). Literature meets data: A synergistic approach to hypothesis generation. arXiv preprint arXiv:2410.17309.
運營/排版:何晨龍


