
在許多科學領域,大語言模型改變了我們處理文字和其他模態資料的方式,在各種應用中實現了卓越的效能,並輔助研究人員進行科學發現。然而,以往對科學領域大語言模型的綜述通常集中在一兩個領域或單一模態上。在本文中,我們旨在透過揭示科學領域大語言模型在架構和預訓練技術方面跨領域和跨模態的相似之處,為該方面的研究提供更全面的視角。

下圖展示了不同科學領域的大語言模型訓練時的共通之處。圖中共有 3 列,每一列對應一種預訓練策略。對於每種策略我們給出 4 個示例(即,型別 A 到 D)。

在第 1 列中,遵循 BERT 和 RoBERTa,現有研究使用掩碼語言建模(masked language modeling)來預訓練編碼器語言模型。在這裡,輸入資料可以是天然的序列(例如,論文標題和摘要,FASTA 格式表示的蛋白質、DNA 和 RNA)或人為序列化的(例如,SMILES 格式表示的分子,學術圖譜中的會議、作者、論文等節點形成的序列)。
在第 2 列中,受 GPT 和 LLaMA 的啟發,先前的研究採用下一個詞預測(next token prediction)來預訓練解碼器語言模型,其中一些進一步採用指令調優和偏好最佳化。
除了純文字輸入(例如,來自知識庫或考試的問題-答案對),我們看到更多序列化複雜科學資料的方法,例如展平表格單元格和使用粒子座標描述晶體。即使對於更難以序列化的影像資料,在幾何學和醫學影像學中也分別有研究利用視覺編碼器將影像投影到多個視覺 token 上,並將它們置於文字 token 之前,作為大語言模型的輸入。
在第 3 列中,遵循 DPR 和 CLIP,兩個編碼器透過對比學習預訓練,將一對相關資料在表示空間中對映得更近。當一對資料的兩種模態都是天然的序列(例如,文字-文字或者文字-蛋白質),模型就建立在兩個編碼器之上。當我們希望保持一種模態的非順序性質(例如,分子圖、胸部 X 光片和航拍影像),可以使用相應的圖或影像編碼器。

模型綜述
GitHub:
https://github.com/yuzhimanhua/Awesome-Scientific-Language-Models


在科學發現中的應用
針對不同領域,我們介紹大語言模型如何透過幫助科學發現過程中的不同方面和階段(如假設生成、理論證明、實驗設計、預測)來惠及科學。
首先,大語言模型在想法生成和評估中被廣泛應用。之前的研究者(1)將它們整合到搜尋引擎中,用於發現科學挑戰和方向;(2)利用大語言模型生成基於先前文獻的新科學理念;(3)依靠大語言模型為每篇提交論文尋找專家審稿人;(4)使用 GPT-4 為論文提供建設性的反饋以促進自動審稿生成。
具體到每個領域,數學大語言模型在提供證明方面具有巨大潛力。例如,AlphaGeometry 結合大語言模型和符號推理引擎解決了國際數學奧林匹克中的 30 個經典幾何問題中的 25 個。
透過在 AlphaGeometry 中新增吳方法,可以進一步解決了 30 個問題中的 27 個,超越了人類金牌得主。FunSearch 將大語言模型與程式搜尋整合,在組合最佳化中找到對 Cap Set 問題的新解決方案。這些生成的解決方案可以比人類專家設計的更快更有效。
化學大語言模型促進了自動的化學研究並幫助藥物和催化劑設計。例如,Bran 等提出了一個化學大語言模型 Agent,ChemCrow,可以整合專家設計的有機合成、藥物發現和材料設計工具。
Boiko 等開發了一種大語言模型賦能的智慧系統 Coscientist,能夠設計、計劃和執行化學研究;ChatDrug 使用帶有提示模組、領域反饋模組和對話模組的大語言模型進行藥物編輯;DrugAssist 透過人機對話進行分子最佳化;Sprueill 等使用大語言模型作為 Agent,通過蒙特卡洛樹搜尋和原子神經網路模型的反饋尋找有效的催化劑。
生物和醫學大語言模型也被用於自動化實驗研究。例如,CRISPR-GPT 透過領域知識增強的大語言模型 Agent 改進 CRISPR 基因編輯實驗的設計過程。此外,大語言模型可以編碼生物序列以捕捉結構特性,指導蛋白質設計,並評估病毒變體的進化適應性。
例如,ESM-2 可以在沒有昂貴且耗時實驗的情況下準確預測蛋白質結構;Ferruz 和 Höcker 在蛋白質資料上微調大語言模型,可以生成高度分化但仍具有潛在功能的新序列;Hie 等開發了可以預測病毒逃逸突變的大語言模型。

總結
在這篇綜述中,我們調研了科學領域大語言模型預訓練所用的資料、架構和任務,並探討了它們在科學發現中的下游應用。特別是,我們強調了在不同領域和模態中觀察到的類似架構、任務和趨勢。除了回顧先前的研究,我們還提出一些挑戰以激發對這一主題的進一步探索。
深入細粒度的主題大多數現有的科學領域大語言模型針對的是粗粒度的領域(例如化學),而某些任務依賴於細粒度主題的專業知識(例如,鈴木偶聯反應)。當科學領域大語言模型在更粗粒度的語料庫上進行預訓練時,頻繁出現的訊號可能會主導模型引數空間,而領域特定的尾部知識可能會被抹去。我們認為,自動建立細粒度的、主題集中的知識圖譜並使用它們來指導生成過程將是解決這一問題的一個有前途的方向。
推廣到分佈外的科學資料在科學領域,測試分佈與訓練分佈發生偏移是常見的:新發表的論文中不斷湧現新的科學概念;測試過程中可能出現具有分佈外骨架的分子和具有分佈外肽鏈數量的蛋白質。處理這種資料仍然是科學領域大語言模型的一個挑戰。據我們所知,不變學習可以作為分佈外分析的理論基礎,而如何將其整合到大語言模型預訓練中值得探索。
更多閱讀

#投 稿 通 道#
讓你的文字被更多人看到
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝 稿件基本要求:
• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標註
• 稿件建議以 markdown 格式撰寫,文中配圖以附件形式傳送,要求圖片清晰,無版權問題
• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬 投稿通道:
• 投稿郵箱:[email protected]
• 來稿請備註即時聯絡方式(微信),以便我們在稿件選用的第一時間聯絡作者
• 您也可以直接新增小編微信(pwbot02)快速投稿,備註:姓名-投稿

△長按新增PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜尋「PaperWeekly」
