AI科學家用2.5個月發現疑難雜症藥物,從假設到驗證全程自主完成

近日,一家名為 FutureHouse 的非營利組織宣佈推出一款名為 Robin 的新型人工智慧(AI)工具,聲稱其能夠極大加速生物學等領域的科學研究程序,該系統不僅能夠自主完成從假設提出、實驗設計到資料分析等關鍵科研環節,更在實際應用中,僅歷時約 2.5 個月便成功為乾性年齡相關性黃斑變性(dAMD,dry age-related macular degeneration)這一複雜眼疾發現了一種新的潛在治療藥物。相關成果已透過預印本論文形式在 arXiv 平臺釋出,並引起了科研領域和 AI 界的廣泛關注。
多個智慧體構成的全自動科研流程
這家由前谷歌 CEO Eric Schmidt 支援的組織創立於 2023 年,總部位於美國加州舊金山市。由執行長 Sam Rodriques 和科學主管 Andrew White 聯合創立,其宏偉願景是構建能夠自主進行科學研究的AI 科學家或 AI 系統,從而加速疾病治療方法的發現、氣候變化解決方案的探索以及其他推動人類社會發展的技術創新。
圖丨FutureHouse 主要團隊,從左到右:Andrew White,FutureHouse 科學負責人兼聯合創始人;Michael Skarlinski,技術人員;以及 Sam Rodriques,執行長兼聯合創始人(來源:FutureHouse)
此前,FutureHouse 已經推出了一系列專門用於自動化科學發現過程中特定環節的 AI 智慧體(AI Agent),例如用於文獻搜尋與綜合的 Crow、Falcon 和 Owl,用於化學合成設計的 Phoenix,以及用於複雜資料分析的 Finch。而近期推出的 Robin 系統的突破在於,它成功地將這些獨立的 AI 智慧體(在此次釋出的版本中,主要是 Crow、Falcon 和 Finch)整合到一個統一的工作流程中,實現了整個科學研究過程中關鍵智力步驟的自動化。
Robin 系統透過協調其內部的 AI 智慧體來工作,針對特定的人類疾病提出新的治療方法並進行臨床前驗證。其核心運作模式是一個包含假設生成、實驗設計和資料分析的迭代迴圈。科學家首先透過提供目標疾病的名稱來引導系統。隨後,Robin 利用 Crow 和 Falcon 等文獻搜尋智慧體進行廣泛的背景研究,並據此生成初步的科學假設。接著,系統會提出具體的實驗方案,包括選擇合適的體外檢測模型來驗證這些假設。
圖丨Robin 系統的架構(來源:arXiv
不過,儘管 Robin 能夠自主生成實驗大綱,並完成所有假設的提出、實驗方案的選擇、資料分析以及研究手稿中主要圖表的繪製,但具體的實驗還是需要由人類研究員承擔。
實驗完成後,研究人員將原始或半處理資料上傳至系統,Robin 隨即便會部署像 Finch 這樣的資料分析智慧體,對資料進行自主分析與解讀。Finch 擅長處理如 RNA 測序和流式細胞術等複雜實驗所產生的資料,它透過在 Jupyter notebook 中執行分析程式碼,提供可解釋且能夠復現的分析結果與視覺化圖表。
為了有效應對生物資料解釋本身固有的模糊性,以及語言智慧體隨機性可能導致的分析結果差異,Robin 設計了可以啟動多個 Finch 分析軌跡的機制,讓每個軌跡獨立分析實驗資料,最終透過元分析綜合所有輸出,從而形成基於共識的可靠結論。
根據這些分析結果,Robin 會從中提煉出具有實際應用價值的科學見解,並將這些見解用於指導下一輪的治療假設生成,由此形成一個持續反饋和不斷最佳化的閉環研究系統。這個迭代迴圈將持續進行,直至研究人員最終篩選出令人滿意的新型候選藥物為止。

Robin 的首個發現:為乾性年齡相關性黃斑變性找到新療法
為了驗證 Robin 系統的實際能力,FutureHouse 將其應用於尋找乾性年齡相關性黃斑變性的潛在新療法。dAMD 是發達國家導致不可逆失明的主要原因,目前治療方案有限。僅在美國,就有約 150 萬人患有威脅視力的 dAMD,另有 60 萬人因此法定失明,且隨著人口老齡化,預計到 2050 年這一數字將增加近兩倍。
在針對 dAMD 的研究中,Robin 首先透過識別和審查 151 篇論文,提出了 10 種與 dAMD 相關的生物學機制進行檢測。在對疾病機制和相應實驗策略進行排序後,Robin 提出透過增強視網膜色素上皮 (RPE) 細胞的吞噬作用來治療 dAMD,並建議在流式細胞術檢測中測試藥物提高 RPE 細胞吞噬能力的效用。
圖丨Robin 為乾性 AMD 生成治療候選假設,並分析體外試驗的實驗資料(來源:arXiv
隨後,Robin 利用 Crow 對大約 400 篇關於 RPE 吞噬作用和 dAMD 治療前景的論文進行了文獻綜述,並綜合結果提出了 30 種已有的候選藥物進行實驗測試。Falcon 智慧體則為這些分子製作了綜合評估報告,並透過一個由大語言模型評判的錦標賽機制對它們進行了排名。
研究團隊選擇了排名前五的候選藥物進行實驗測試,包括 Exendin-4、Fingolimod、MFGE8、Y-27632 以及 AICAR 和 TUDCA 的組合。實驗採用了 pHrodo 微珠,這種微珠在溶酶體的低 pH 環境中會被熒光啟用,從而可以透過流式細胞術檢測單細胞的吞噬作用。
實驗資料顯示,ROCK 抑制劑 Y-27632 在細胞培養中顯著增強了 RPE 的吞噬作用。這一發現與臨床前模型的研究結果一致,即 Y-27632 可以恢復 RPE 細胞的吞噬效率,證實了 Robin 基於文獻提出的候選方案的合理性。
為了更深入地探究其作用機制,Robin 接著提出進行一項 RNA 測序實驗,目的是確定 Y-27632 是否透過誘導特定的基因表達變化來增強 RPE 細胞的吞噬功能。FutureHouse 的研究團隊執行了該實驗,隨後 Finch 智慧體對獲取的 RNA 測序資料進行了細緻分析,結果發現 Y-27632 能夠顯著上調 ABCA1 基因的表達。
圖丨用ROCK 抑制劑 Y-27632 處理的 ARPE-19 細胞的 RNA 測序分析(來源:arXiv
ABCA1 是 RPE 細胞中一種關鍵的脂質外排泵,對於健康的 RPE 功能至關重要,它能促進膽固醇和磷脂從質膜主動轉運到受體蛋白,然後再將其排出細胞。有趣的是,ABCA1 與先前已被確定為黃斑變性發病機制中治療靶點的 ABCA4 屬於同一轉運蛋白家族。
此外,ABCA1 的脂質受體——載脂蛋白 E (Apo-E),也已被確定為 dAMD 的潛在治療靶點。這些由 Robin 提出實驗、Finch 分析資料得出的機制性見解,不僅識別了有效的治療化合物,還揭示了疾病通路中原本可能未被探索的新分子靶點。
在對 Y-27632 進行 RNA 測序分析的同時,Robin 還進行了後續的候選藥物假設迭代。研究團隊對其中 10 種藥物進行了實驗測試,並將資料再次交由 Finch 分析。Finch 的分析結果顯示,利舒地爾 (ripasudil),一種在日本已獲批用於治療青光眼的 ROCK 抑制劑,其效果優於 Y-27632,與 DMSO 對照組相比,可使 RPE 細胞的吞噬作用增加 7.5 倍。儘管需要進一步在不同劑量和更長孵育時間下進行測試以獲得最終比較,但利舒地爾相對於 Y-27632 的初步優越表現,證明了 Robin 透過迭代實驗和反饋逐步完善治療假設的能力。
AI For Science 也需要一個星際之門
Robin 系統的成功應用,特別是在 dAMD 治療候選藥物的發現上,或將是 AI 驅動科學發現的一個新正規化。它首次將基於文獻的假設生成與實驗資料分析整合到一個持續的反饋系統中,實現了科學過程中關鍵智力步驟的自動化。
FutureHouse 認為,儘管 Robin 最初應用於藥物研發領域,但其內建的 AI 智慧體具有通用性,未來可應用於從材料科學到氣候技術等多個不同領域的廣泛發現。
為了推動該領域的進一步發展,FutureHouse 計劃在當地時間 5 月 27 日將 Robin 的程式碼、資料和完整的智慧體軌跡進行開源釋出,希望透過這種簡單工作流程編排智慧體的方法能激勵其他研究者構建自己的自動化發現系統。
然而,FutureHouse 的聯合創始人兼 CEO Sam Rodriques 在最近的採訪和此前的部落格文章中也坦誠地指出了構建真正AI 科學家所面臨的挑戰。他認為,當前的 AI 系統,包括流行的聊天機器人如 ChatGPT 或 Claude,乃至此前走紅的 Sakana 的AI 科學家,雖然可以在文獻檢索和資料分析方面提供幫助,甚至生成一些初步的指令碼和圖表,但這與真正的科學發現仍有距離。
圖丨相關博文(來源:Sam Rodriques)
Rodriques 強調,科學研究是一個高度開放性的問題,需要 AI 具備在無限的假設空間和觀察空間中有效導航的能力,並能產生真正新穎的、甚至是顛覆性的概念,而不僅僅是增量式的想法。目前,AI 在假設生成方面仍存在主要差距,尤其是在產生具有反向思維的、未經測試的新穎假設方面(甚至也有人質疑 Robin 系統此次的發現也並不新穎)。為此,FutureHouse 計劃訓練自己的反向推理模型,以期彌補這一不足。
圖丨Rodriques 對此次發現並不新穎的回應(來源:X)
另一個關鍵挑戰在於 AI 與物理實驗的緊密結合。如何讓 AI 理解哪些實驗是可行的(構建可供性模型),如何評估實驗結果的可靠性,識別潛在的偏見或混淆因素,並有效地利用這些多模態證據(如影像、測序資料等)來更新其對世界的認知,這些都是亟待解決的問題。
目前,實驗室機器人的靈巧性尚不足以完成許多精細的實驗操作,這成為了自動化科學研究的主要瓶頸之一。Rodriques 甚至呼籲政府支援一項類似星際之門的計劃,投入巨資(他提議至少 1000 億美元)來推動 AI 驅動的科學研究和實驗自動化。
此外,對 AI 科學家系統的準確性和可靠性進行穩健且可擴充套件的評估至關重要。FutureHouse 內部已經建立了擴充套件人工評估的基礎設施,並建立了 LAB-Bench,一個針對多種科學任務的開放評估集。同時,他也指出,不能期望大型語言模型在零樣本情境下總能表現良好,需要建立能夠模擬科學研究核心環節並提供高質量獎勵訊號的環境,以便大規模訓練 AI 科學家智慧體。這可能還需要強化學習領域的基礎性突破,以適應高度複雜和開放的環境。
就 Robin 系統本身而言,FutureHouse 也認識到其仍有持續發展的空間。例如,雖然 Robin 能生成實驗大綱,但未來的迭代版本旨在提供更詳細、精確且可執行的實驗方案,以最大限度地減少實驗室執行所需的人工轉譯。
在資料分析方面,其核心智慧體 Finch 目前在很大程度上仍需依賴領域專家的精心設計的提示工程來確保產生可靠且高質量的分析結果;未來的發展方向是賦予 Finch 更強的自主性,使其能夠獨立生成分析提示,或至少能夠根據不同的資料模態智慧調整現有提示,從而實現一個更為自主高效的科學發現流程。
最後,雖然 Robin 目前採用的是一種由大模型擔當裁判的錦標賽機制來篩選和提名治療相關的科學假設,但 FutureHouse 認為,未來的工作重點之一將是更好地將 AI 的假設生成和評估過程與人類頂尖科學家的專業判斷和直覺進行深度對齊與融合,以期能夠更穩定、更可靠地產生具有突破潛力的的高質量科學假設。
參考資料:
1.https://arxiv.org/pdf/2505.13400
2.https://www.linkedin.com/company/futurehouse/
3.https://techcrunch.com/2025/05/06/futurehouse-previews-an-ai-tool-for-data-driven-biology-discovery/
4.https://www.theinformation.com/articles/startup-building-ai-scientist?rc=qjiy7u
5.https://www.sam-rodriques.com/post/what-does-it-take-to-build-an-ai-scientist
6.https://x.com/SGRodriques/status/1925024623948902801
排版:初嘉實


相關文章