


嘉賓:黃柯鑫
訪談:Penny、Cage

隨著語言模型在強化學習和 agentic 領域的進步,agent 正在從通用領域快速滲透到垂直領域,科學和生物醫藥這類高價值領域尤其受到關注。如果說 AlphaFold 在 foundation model 層面是生命科學的重要里程碑,AI scientist 就是在 agent 層面,能夠給科研帶來和 alphafold 同樣重要的影響。
今年 5 月,前谷歌 CEO Eric Schmidt 投資的 AI lab FutureHouse 推出了四款 AI scientist agent,一個月後,他們又宣佈自己的 AI 系統 Robin 成功發現了新藥。兩天前,OpenAI 也釋出部落格強調 AI 在生物學領域的能力正在不斷增強。AI scientist 已經在改寫科研和藥物開發正規化。
隨著 multi-agent 技術的發展,AI 可能不再只是“工具箱”,而是能自主完成跨學科複雜研究,從而推動科學發現走向全新模式。
最近,斯坦福大學也釋出了一個生物醫學通用 agent Biomni,Biomni 搭建了一個適合 agent 的環境,透過整合不同的工具、資料庫、專業軟體,讓 agent 能夠自主完成生物科研任務,目前可以在 biomni.stanford.edu 免費註冊和使用。
AI scientist 到底是什麼?通用 agent 為何難以勝任?AI for Science 是否真的能改變科學發現?為了更好了解 AI scientist,我們訪談了 Biomni 第一作者、斯坦福大學 CS 博士生黃柯鑫:
• AI scientist 實際上就是模擬人類科學家,本質是 agentic system,能夠自主提出假設、設計實驗並迴圈修正;
• 當前通用 agent 無法成為 AI scientist 的原因在於缺乏合適的環境和專家的 know-how;
• Biomni 構建了整合數百種專業工具、資料庫與軟體的開放環境,未來是 multi-agent 系統的基礎;
• AI scientist 可以使用 AlphaFold 這類工具來完成一些任務,兩者是同樣重要的機會;
• AI for Science 會出現像 Cursor 或 Devin 這樣的機會,會帶來千億級別的機會。
……

💡 目錄 💡
01 AI+生物領域在發生什麼?
02 AI scientist 本質是 agentic system
03 通用 agent 做不好 AI scientist
04 Biomni 的核心在於打造了一個 agent 環境
05 AI scientist 是使用 AlphaFold 的 Agent 系統
06 如何設計 AI biology 的 benchmark?
07 AI for Science 也存在“Cursor”的機會

01.
AI+生物領域
在發生什麼?
海外獨角獸:先請柯鑫做一個自我介紹。
柯鑫:我叫黃柯鑫,現在是 Stanford CS 的四年級博士生,導師是 Jure Leskovec,本科在 NYU,碩士在 Harvard。我從本科大三開始就一直在做 AI+生物醫藥方向的研究,生物醫藥的各個領域都有做過相關研究,包括藥物研發,clinical notes 之類。在 AI 方面,我最近主要的研究內容是 AI scientist,也就是用 AI agent 做生物醫學的研究。
海外獨角獸:柯鑫同時在 AI 和 biology 這兩個方向都進行研究,在這兩個方向做研究會有什麼不一樣的挑戰和收穫嗎?
柯鑫:我覺得這兩個方向有比較顯著的差異。我自己是主要從事 AI+生物方向的研究,同時也涉及一些純生物的領域。我可以從三個方向來分別闡述。
首先,AI 研究更傾向於方法驅動型的研究。通常我們有一個既定的 benchmark,研究的目標就是超越 benchmark,這樣的任務相對更好定義且邊界明確。
相較之下,生物醫藥研究更像是結果或問題驅動型的研究。研究者們可能不太關注方法,更關注結果和影響,比如在生物學的期刊中,結果部分通常緊隨在引言之後,而方法部分則會放在線上補充材料中。因此,識別問題的 taste 是至關重要的。
而在 AI+生物方向,既有方法驅動也有結果或問題驅動的研究。現在 AI+生物領域有許多的 task benchmark,很多研究者致力於超越這些 benchmark。因為這是一個相對新興的領域,存在許多新的研究空白,這會促使研究者去發現新的應用,定義新的問題,建立新的 benchmark 和 task。
我個人更多地從事 AI+生物方向的研究,更偏向去尋找新的生物問題,進行從零開始的研究。這類研究通常沒有現成的 baseline,需要自己定義 baseline 並且確定研究目標。這樣的研究影響力通常比較大,但挑戰也更多,因為需要與生物學家合作,去找到既有意義又適合機器學習的問題。
我更傾向於解決實際的生物學問題。我不會為了 AI 問題而去專門開發一種方法,而是通常從生物學問題出發,當現有方法無法解決時,才開發新的方法或者新的 machine learning model。如果這個新的模型能解決之前的 ML model 無法解決的問題,並且可以推廣到生物學以外的領域,我們就會發表一篇 AI 方向論文。
海外獨角獸:能否說明一下什麼樣的生物學工作屬於這種從 0 到 1 的研究?
柯鑫:我可以舉個例子。在我博士一年級時,我做了一個叫做 GEARS 的專案,目標是想解決藥物研發中的一個根本性的任務,就是細胞如何響應擾動來推斷疾病靶點。因為在 CRISPR 技術出現後,研究人員可以敲除某些基因,然後觀察整個細胞的反應。這是一個全新的任務,我們透過與許多生物學家交流,發現這個問題很重要且根本。
CRISPR 技術是一種基因編輯工具,能在特定 DNA 序列上進行高效、精準的剪下和修改,廣泛用於基因功能研究和疾病治療開發。
最近有個熱門概念叫 virtual cell ,其本質上就是要解決這個問題。如果你能預測任何擾動對細胞的影響,那麼你實際上就擁有了一個 virtual cell。這只是實現 virtual cell 的一種方法,還有很多其他方法。
Virtual cell 是使用多模態、生物與分子資料訓練的神經網路模型,目的是在計算機環境中模擬細胞在不同狀態下的行為與功能,為預測細胞動態和治療響應提供虛擬實驗平臺。
這個例子就是想說明,我們在三四年前發現了這個新的生物學問題,然後設計了新的 machine learning model 來嘗試解決這個任務。
海外獨角獸:如果真的能做成 virtual cell 的話,相當於把人體的細胞甚至器官都能完全模擬了。這聽起來是一個非常困難的任務。
柯鑫:確實非常難和複雜。Virtual cell 這個概念其實在 1990 年代就已經出現了,每過 15 年都會有這樣一波熱潮。2010 年的時候,Markus Covert 等人做了一個 Whole-Cell Modeling,他們使用 ODE 系統(常微分方程,Ordinary Differential Equations),把幾千條方程式組合起來,然後擬合一些實驗資料。最近因為 AI 這一波,基礎模型火起來以後,大家又開始討論 virtual cell 這個概念,因為它確實是聖盃級的目標。
如果你真的有一個全面的模型,輸入任何擾動,都能夠精準地預測結果。這樣的話,很多實驗都不用做了,你可以非常快速地在計算機中進行實驗模擬,可以快速地嘗試各種各樣的擾動,然後觀察結果,進而找到哪個基因能夠導致特定的結果。如果真能達到這個水平,那將會解決生物醫學領域的一個根本性問題。但從現實的研究角度來說,我們離這個目標還是非常遠,在資料和模型方面都存在各種各樣的問題。
海外獨角獸:Virtual cell 是生物醫藥領域裡面的王冠或者聖盃的這個比喻是很恰當的。想要完全去模擬一個人體或者生物體這種非常複雜的組織和構造,聽起來是個幾乎不可能實現的任務。如果說機器學習或者 AI 能夠稍微接近這個目標,即使最終不能完全模擬,它最多能逼近到哪個程度?
柯鑫:其實有兩種方式的 virtual cell。第一種就是把生物系統中所有錯綜複雜的細節都進行建模,那是不太實際的,因為生物系統是一個 multiscale 的複雜系統,基本上不可能把所有細節都整合在同一個模型裡。
另一種方式是把 virtual cell 作為黑盒來建模。我們知道它的輸入是什麼,如果模型能夠精準地預測結果,那這個黑盒模型在某種程度上就成為了一個有效的 virtual cell。
這種方法更加現實。假設我們有大量資料,涵蓋各種擾動輸入、基因、化學物質,在各種 cell context 下都能精準預測結果,我們就可以說這個 virtual cell model 在某種層面上一定獲取了一些有趣的訊號,比如基因與基因之間的關係,或是更加高階、更加錯綜複雜的關係,這是可能達到的。
因為最近出現了一些新的實驗技術,使我們能夠大規模地進行擾動實驗,並在各種 cell context 下收集資料。假設有足夠大量的資料,這其實是一個比較自然的機器學習問題:我們有輸入和期望的預測結果,可以直接訓練模型去擬合。但現在最大的挑戰是資料不夠,因為資料生成非常緩慢。所以問題不在於模型不夠好,而在於資料不足。
02.
AI scientist
本質是 agentic system
海外獨角獸:市場普遍認為,LLM 和 RL 的進步可以從比較通用的領域擴散到垂直領域,而科學和生物醫藥可能是最高價值的垂直領域之一。今天想先從 AI scientist 這個概念聊起,你會怎麼定義 AI scientist ?它與我們一般說的通用 agent 有什麼相同或不同的地方?與大家熟悉的 AlphaFold 等底層 AI 模型又有什麼區別?
柯鑫:通用模型是 Deep Research, computer use 這類 agent,包括 Cursor,AI scientist 和它們相同的地方在於它本質上也是一個 agentic system,只是應用和目標是執行科學研究。
要理解 AI scientist 的具體工作,我們可以參考人類科學家的日常工作流程。拿生物學家來說,他們通常會從一個假設開始,如某基因會導致特定的表型。為了證明這個假設是對的,他們會進行各種實驗,包括溼實驗、生物資訊學分析、資料庫搜尋等。透過執行這些行動,他們可以獲得反饋和新的觀察,為後面的實驗提供參考。之後他們有可能會修正現有的假設,也有可能會直接轉向下一個新的假設,構建新的實驗。
幹實驗 VS 溼實驗:幹實驗通常指不直接操作生物材料的計算或理論工作,比如用計算機進行基因序列分析、建模模擬等;溼實驗是指在實驗室中直接操作生物樣品(如細胞、蛋白質、DNA)進行的實驗,如 PCR、培養、染色等。
我們希望用 AI 來自動化這個"Hypothesis-Experiment-Observation"的 loop。具體有兩個層面:首先是 automation,自動化日常任務;其次是 discovery,實現完全自主的 AI scientist,AI 能夠自行提出假設、設計實驗、從環境中觀察結果,並由此來提出或修正新的假設,透過自己來進行發現。
但這仍然是使用底層大語言模型作為 intelligence layer,利用 tool use 能力進行實驗並觀察結果,由此指導下一步行動,本質上來說還是一個 agentic system。
海外獨角獸:FutureHouse 是 AI scientist 理念的先行者,它們最近釋出了一系列不同功能的 agent,並且號稱用 AI agent 能開發出了新的 dAMD 藥物。FutureHouse 是怎麼用 AI agent 來開發新藥的?相較於你前面提到的兩種系統的狀態,它們的 AI agent 系統更接近哪一種?

FutureHouse 釋出了四個 agent
柯鑫:FutureHouse 過去兩年一直在做 AI scientist 方向的研究。他們目前做的是相當於有幾個獨立的 agent,其中三個是做文獻研究,比如找一些相關的論文,這有點像 Deep Research,但更偏向學術文獻。還有一些 agent 會去找文獻中的矛盾,檢查是否有人之前做過這類研究。他們在文獻研究這方面做了很多工作。最近他們又開發了一個數據分析 agent。
最近他們開發了一個系統,將各種 agent 串聯在一起,讓它們能夠執行更加高階的任務,比如如果想要針對 dAMD 開發一種新藥,他們就可以讓這個 agent 去端到端地執行整個開發過程,從識別相關論文到進行分析,最後輸出一種藥物。他們做得更像是藥物重定位,即已知這種藥物可能對其他疾病有效的情況下,讓它重新用於一種新的疾病。
他們在論文中做了一些非常初步的計算驗證,聲稱這是一個發現,因為它還沒有被完全驗證。如果要驗證一個藥物還需要進行臨床試驗等,所以這更像是有了一些初步的證據,表明這是一個潛在的發現。
結合 automation 和 discovery 這兩個層面,他們的獨立 agent 更貼近 automation,而這個多 agent 系統則更像是在做 discovery。
海外獨角獸:FutureHouse 所說的發現一種新藥,這個概念聽起來可能非常吸引人,或者聽起來好像已經超越了現在的人類,甚至有點像是 AGI 或 ASI。但這個概念是否有一些包裝的成分在?我們真的可以理解為發現了一種新藥嗎?
柯鑫:科學領域有一個比較有趣的點是,你可以提出任何假設,關鍵是要驗證它是否有效。你也可以說你有了一個新的發現,為這個疾病發現了一種新藥,但如果它沒有被驗證,那麼實際上就不能聲稱這是一個真正的新發現。
我認為 FutureHouse 肯定有一些 PR 的成分,說這是一個真實的發現,但 FutureHouse 所展示的肯定是一個非常有意思的 demo,AI agent 可以端到端地基於一個疾病輸出一種藥物,但我不認為是一個真實的發現。
具體來說,藥物重定向是過去 10 年一直都存在的任務,之前是用更加傳統的模型去做,輸入一些藥物、疾病的資訊,然後做出一些預測,然後進行藥物重定向,也有大量的論文說模型發現了新藥。但這次主要還是因為這是 AI scientist 第一次去做這件事,所以大家會非常興奮。
03.
通用 agent
做不好 AI scientist
海外獨角獸:OpenAI Deep Research、Manus 這樣型別的通用 agent 為什麼沒有辦法真正做好一個 AI scientist?真正要去端到端完成的最後一公里是什麼?
柯鑫:Deep Research 能做很多科研任務,因為科研過程中其實有很多基於文獻的任務,這一點 Deep Research 應該能做得很好。但科研還包含各種其他的任務,比如進行一些分析、做溼實驗等。
我認為最後一公里的核心問題是缺少一個合適的環境。這裡的環境指的是生物學領域裡海量的專業工具、資料庫和軟體,這些都是目前 LLM 還無法訪問的。整理這些資源非常耗時耗力,因為生物學裡面這些資源太分散了。構建這個環境本身就是一個巨大的工程挑戰。這是第一個缺失的方面。
第二個缺失的方面是專家的 know-how,生物學中存在很多隱形的知識,這些知識往往是存在於專家的腦子裡,傳播往往依賴口口相傳,因為它們沒有被記錄在網際網路的任何文件上,所以大模型的預訓練語料很難捕捉到。因此這也是最後一公里的一個巨大的挑戰:如何構建一個途徑,可以讓這些專家的 know-how 可以被編碼成 agent 能夠訪問的資源。
當然還有其他挑戰,比如要做科研探索,模型就必須非常嚴謹,幻覺的問題就必須要解決;模型還需要有創造力,生物學不僅要做分析做研究,也需要想出問題,這需要一些想象力來真的做出一些創新的假設;很多人也在嘗試解決 long-horizon 的問題,因為一項真正的科學發現,通常需要人類科學家花費數年時間才能完成,這也是目前 agent 可能還不太擅長的一點。
海外獨角獸:通用的 Deep Research 無法自助地進行生物學研究,而專用環境、專業資料、工具整合以及創新能力,都是成為 AI scientist 的必要條件,在理想情況下,AI scientist 最終交付給人類科學家的會是怎樣的結果?
柯鑫:交付的成果可以分為兩個大類。第一類更像是科學家的 copilot,比如,我想對一個 well-defined 的資料集去做分析,agent 可以代替他去執行,執行完畢後生成一份報告,裡面有一步一步的日誌、輸出結果和可以直接用於論文發表的圖表。這是一種最直接的 copilot 模式的交付結果,是目前最合理、且能立刻看到應用價值的。
另一類,如果它真的在進行自主科研,那將會是一個完全自主的系統。它可能會花費幾天時間,進行各種 tool use 和推理,可能經過上千步的思考後,產出一個新的發現,比如一個附上依據的新假設。這也是一個非常有意思的輸出,但這個場景離我們還比較遙遠。
海外獨角獸:是否可以理解成:在目前的 copilot 模式下,AI scientist 給出的結果其實並未超出人類的能力範圍?也就是說,它可能無法提出真正創新假設,包括 Futurehouse 提出的假說其實也完全在人類的能力範圍之內,它更多是完成了一些自動化的工作?
柯鑫:是的,大部分任務目前其實主要是自動化。但有些任務也確實進入到了智慧的層面,這取決於任務本身的屬性。
有些任務是簡單的自動化,比如重複執行十次 GWAS 分析,基本是相似的流程。但有些任務需要高度的智慧,當你把這類任務委託給 agent 時,它可能會比人類做得更好,比如罕見病診斷,這個任務就需要大量的 tool use 和 reasoning。
GWAS(Genome-Wide Association Study,全基因組關聯研究)是一種透過比較大量個體的基因組變異與表型差異,尋找與疾病或性狀相關的遺傳位點的方法。
另一方面,這也取決於使用者是誰。大部分使用者本身是某個領域的專家,比如一個讀了五年博士的學生,但可能只精通一個非常細分的領域,當他想做其他方向的研究時,就需要找別的專家合作。在這種情況下,一個 AI copilot 雖然還比不上其他領域裡的世界頂級專家,但在那個領域完全有可能比這位使用者做得更好,那也是有價值的。
04.
Biomni 的核心在於
打造了一個 agent 環境
海外獨角獸:最近柯鑫作為核心成員,參與開發了一個名為 Biomni 的 biomedical agent。可不可以給大家介紹一下這個專案?

Biomni 是生物醫學領域的一個通用 agent
柯鑫:Biomni 的核心是構建一個環境,讓 AI agent 能夠執行大量的研究任務。目前,大部分 bio agent 都稱之為 specialist agent,它們是針對特定任務設計的,比如單細胞分析。研究團隊會整合大量相關工具,將已知的一些 know-how 融入到 specialist agent 中。
我同伴之前做了很多這方面的工作,比如 spatial agent,還有一個合作者做了 target discovery agent,還有最初的 CRISPR GPT,這是一個專門用於 CRISPR 實驗設計的 specialist agent。
Spatial agent 在生物學中通常指在空間上具有自主行為或能對區域性環境做出反應的個體(如細胞、動物、植物),行為和分佈受到空間位置和周圍鄰居的影響。
CRISPR 實驗通常指應用 CRISPR-Cas 系統對特定 DNA 進行剪下、修飾或調控的實驗,常用於基因敲除、基因敲入或基因表達調控,廣泛應用於基礎研究、疾病模型構建及潛在治療開發。
我們後來意識到一個問題,生物研究可以有無限數量的任務,而預定義的工作流不可能遍歷所有內容。
其次,如何讓它能夠進行跨生物醫學子領域的研究,這也是我們的動機。我們想開發一個通用的生物醫學 AI agent,具有高度靈活性,可以執行大量任務,並能在生物醫學子領域之間進行交叉研究。因為一般這樣才能獲得更多 insights。
在有了這個目標後,我們開始構建環境。
首先遇到的問題是世界上存在太多專業化工具、資料庫和軟體。我們用了一個比較系統化的方法來尋找這些資源:透過文獻挖掘,從 biorxiv 中為每個主題找到約 100 篇論文,然後使用我們稱為 Action Discovery agent 的另一個 agent 來閱讀每篇論文,識別對研究結果很重要的工具、資料和軟體。經過這些處理後,我們總是能發現大量的新工具、軟體和資料庫。
過去一年,我們有大約 5 個團隊成員進行了大量工程工作,去構建這個環境。這個環境目前包含了幾百個工具、幾百個軟體和幾十個資料庫。構建完成後,我們想要開發一個通用的 AI agent 來利用好這個環境,完成各種任務。
我們的 agent 實際上是一個非常簡單的 code as action,因為我們意識到程式碼是一種非常靈活的方法。它可以同時使用資料庫、軟體和一些專業化工具,還可以實現更復雜的邏輯,如 if-else 語句、for 迴圈等,是一個通用的任務處理工具。使用這個 agent 後,我們進行了大量驗證。
比如說我們與一個溼實驗實驗室合作,他們有一個 cloning design 的任務,Biomni 就幫助他們設計了一個 step by step 的 cloning protocol。他們完成了這個 protocol,又根據這個 protocol 做了一系列溼實驗,最後發現這個溼實驗成功了。這是在溼實驗方面的應用。
在幹實驗方面,我們與 Michael Snyder Lab 合作,他們有大量的 wearable data(可穿戴資料),這類資料很多都沒有被分析,因為缺乏相關的人員。我們幫他們做了分析後,發現了一些有趣的假設,而生物資訊學家需要 3 周完成同樣的任務,讓 agent 來做的話只花了 30 分鐘,這大大提高了生產力。
Michael Snyder Lab 是由斯坦福大學 Michael Snyder 教授領導的著名研究實驗室,該實驗室在個人化醫療、基因組學以及利用可穿戴裝置進行大規模健康資料監測等前沿領域的研究中處於世界領先地位。
Wearable data,即可穿戴裝置資料,指的是透過智慧手錶、健康追蹤器等便攜裝置持續收集的個人生理與活動資料,如心率、體溫、睡眠模式、血氧飽和度、步數等。在生物醫學研究中,這類高密度的時間序列資料被用於即時健康監測、疾病早期預警和個性化健康管理。
我們的論文中還有更多結果,我這裡只是簡單地提一下。做完這個專案之後,我們也開發了一個平臺,讓所有科學家都可以直接使用 Biomni。如果有研究型的任務,他們可以直接請求 Biomni 來幫助完成任務,而且這個平臺也是免費使用的。
海外獨角獸:生物學領域有哪些特殊工具和資料庫?最終構建的環境與大家熟悉的 chatbot 或 Deep Research 的環境有什麼不同?
柯鑫:我們將它分為三類:專業化工具、資料庫和軟體。
軟體主要是指一些比較主流的生物資訊學軟體,比如用於單細胞分析的 Scanpy,現在可以在 scanpy 上建立無數個 tool,但我們更希望構建一個通用 agent。我們在網際網路上已經能看到大量 LLM 使用這些軟體的例子,所以我們只需要告訴 LLM 它可以訪問已安裝好的軟體環境。我們有大約 100 多個常用的生物資訊學軟體。
Scanpy 是一個基於 Python 的開源分析工具包,專門用於處理和分析單細胞 RNA 測序(scRNA-seq)資料。它是生物資訊學領域進行單細胞分析的主流軟體之一,能夠幫助研究人員對細胞進行聚類、識別細胞型別、發現新的生物學標記等。

a 指的是 scanpy 的分析功能,b 是 scanpy 相較於 Cell Ranger R 工具包的加速效果,圖 c 是 130 萬個細胞的資料視覺化與聚類
資料庫在生物領域非常重要,因為大量原始生物資料都儲存在資料庫中。我們將所有主流的資料庫都納入了 agent,如 Open Targets Genedics、ClinVar、RegulomeDB、gnomAD 等。我們開發了專門的工具,讓 LLM 可以輕鬆訪問這些資料庫。
專業化的工具指的 LLM 可能難以自行編寫出程式碼的工具,比如一些 know-how,例如,我們與生物實驗室合作,獲取了他們的實驗 protocol,雖然有些 free parameters 需要 agent 來自行輸入,但我們提供了 protocol 的模板。像這類就是專業化工具。
此外,我們也把一些 AI 工具如 AlphaFold 和 DiffDock 這些模型定義為專業化工具,因為讓 LLM 自己寫任務和安裝環境還是比較困難的。總共差不多有幾百個各種各樣的工具,所以這是一項大規模的工程化工作。
海外獨角獸:確實聽起來是個很大的工作量。我們做成這個專案,團隊一共有多少人?是否需要各個實驗室甚至整個開源社群一起來作貢獻,把更多的工具和資料庫整合進來?
柯鑫:我們的第一個版本現在大約有 5 個核心學生在做,他們來自不同的實驗室,比如 Michael Snyder Lab、Arc Institute 以及 Genentech。我認為這是一個非常具有協作性的專案,因為確實整合這個環境不是一個人能做好的。這也是我們想要開源的原因。
這個環境還是第一代版本,我們只是完成了這個模板,但實際上還有更加大量的專業化工具、專業知識、軟體和資料庫還沒有被納入其中。所以這就是為什麼我們 Biomni 不僅開源,還提供了非常簡單的 contribution guideline,並且建立了一個 slack 社群。如果我們把這個環境構建好了,所有人都可以在此基礎上進行開發,而不用再去做重複的工作。
海外獨角獸:Manus general agent 有一個很經典的產品設計理念叫 “less structure,more intelligence”,很多 agent 在使用工具或採取行動時,更多地依賴於底層模型的能力,而較少依賴於預先的設計。但是在生物學這樣一個非常專業、垂直化的領域裡,有大量的 know-how。你們在設計這個 agent 的時候,是更多地讓模型底層自己去使用各種工具的路徑,還是因為它非常垂直,所以你們反而要預先給它很多的設計?
柯鑫:這是一個非常好的問題。我們其實很受 “less structure,more intelligence ”這個理念的啟發。Biomni 實際上也是一個沒有任何預定義結構和工作流的系統,完全依賴底層的 LLM 來設計如何使用這些工具、軟體和資料庫。在實際應用場景中,我們發現這種 general purpose agent 雖然能夠處理很多工,覆蓋面很廣,在大概 50%的任務上都已經達到了非常好的水平,但的確在一些較為精細和專業的任務上,目前的 LLM 還沒有達到理想的水平。部分原因可能是 LLM 還不夠好,還有一個原因是因為有很多專家 know-how。這種情況下,就需要提前告知 LLM,比如人類專家執行任務時的步驟,然後讓 agent 根據這些指令來完成任務。
因此, Biomni 的下一步計劃是建立一個資源分類,讓人們可以貢獻他們在特定任務和專業知識方面的經驗,讓 agent 去自主地選擇。當有新任務時,agent 可以挑選合適的任務模板,檢索之前專家的處理方法,由此來更好地完成任務。
另一方面,我們也在考慮如何讓 agent 變得更智慧,因為之前這個過程還是偏人工完成的,我們需要收集各類資料、工具,也要找各類專家來讓 agent 學習。我們最近在進行一些強化學習專案,讓 agent 自己學習和自動找出解決方案。
建立 Biomni 的另一個原因就是,有了環境之後,你可以進行一些強化學習任務。如果這個任務是可驗證的,在定義好獎勵之後,它就可以自己訓練,自主地使用工具和推理,從而獲得更好的效能。我們最近在一些任務上使用強化學習,確實看到了有趣的效能表現。由於我們是在開源模型上做的試驗,所以效果可能不如閉源模型那麼好。但是我們也才剛開始做這方面的研究。
海外獨角獸:現在你們用強化學習做推理相關的工作,在實際操作過程中哪些任務更適合最強的通用模型,哪些需要專門微調一些小的模型?這裡你們會如何區分這些能力?會將它們劃分為幾個層次?
柯鑫:在訓練 RL agent 和 LLM 方面,由於資源有限,我們只能在一些較小的模型上進行嘗試。我們可以明顯看到 Biomni 效果比小模型本身好很多,但還沒有達到最強大的閉源通用模型的水平,目前我們部署的 Biomni 和 Web 平臺都是使用通用模型來做的。這主要是因為我們現在的 RL 方向還處於探索階段。對於之後的一些定義非常明確、有清晰的獎勵系統、有大量樣本和資料點的任務,我們可以嘗試專門訓練一些小模型,讓它們達到比最強的通用模型更好的效果。
05.
AI scientist 是使用 AlphaFold 的 Agent 系統
海外獨角獸:我們之前一直討論的是 coding 和數學才可以用形式化語言來驗證,只有這樣的任務才有明確的 reward 或更易於設計的 reward。生物學裡哪些任務特別適合做 RL?
柯鑫:生物領域裡,可以分為兩個型別的 reward。
第一類是任務空間是有限。比如總共有 2 萬個基因,我們想要設計一個篩選機制去找出 50 個基因,而我們其實已經透過實驗,知道了這 2 萬個基因分別對應的真實結果。這時可以讓 LLM 設計那 50 個基因的組合,無論它設計哪 50 個,我們都能計算出 reward。這種情況下,整個答案空間或解決方案空間都是完全掌握的,但這種任務在生物學中是比較少見的,因為整合梳理這樣的任務也是非常耗時耗力的。
另一種情況是在生物領域中有一些具體任務,它們有一個明確定義的 oracle,這個 Oracle 可能是一個 machine learning model,比如 AlphaFold 2。在蛋白質設計中,可能有一個任務是大家需要花費很多精力來設計一個穩定性很好的蛋白質,現在比較常用的穩定性檢測方法是,使用 AlphaFold 2 執行一遍,檢視 uncertainty score(pLDDT Score)如何,這實際上就是一個可以直接用於最佳化的獎勵,所以也會有針對每個任務的特定 oracle。
Oracle 指理想化的、能為某個特定問題提供絕對正確或黃金標準的模型或系統。
pLDDT Score 是 AlphaFold 2 輸出的一個關鍵指標,表示模型對所預測的蛋白質結構中每個氨基酸殘基位置的置信度,分數越高,代表模型對該區域性區域的結構預測越有信心,結構也更可能可靠。
因為生物領域的任務非常分散,所以每個任務都需要具體檢視是否有一個 reward 是清晰定義的。同時,找到任務也很困難,我們花了很長時間進行頭腦風暴。
海外獨角獸:除了 oracle 模型之外,AlphaFold、Evo 2,以及我們前面提到的 virtual cell 模型,未來與你正在開發的 agent 之間的關係會是怎樣的?它們之間是會協同一起並行地向前進步嗎?
柯鑫:我覺得它們實際上是一種相互獨立又互補(orthogonal)的關係,AI scientist 可以使用 AlphaFold 這類工具來完成一些任務,然後根據 AlphaFold 的結果,我們可以決定下一步該使用什麼工具來完成整體目標。
Virtual cell 模型、AlphaFold 這些生物學領域的基礎模型都是為了解決具體的某一步驟,而 AI scientist 更像是如何將各種工具、各種步驟協調在一起,以完成一個更高階的目標。目前來說,我認為 AI scientist 會使用像 AlphaFold 這類工具。
從另一個角度來說,在未來,因為目前 AI scientist 裡還有真正從事 AI 研究的科學家,他們可能也會開發出新的 AlphaFold,就像 Google 的 AlphaEvolve,它可以解決像構建生物學領域的基礎模型這樣的問題。這可能就會形成一個閉環:AI scientist 先設計這些新模型,然後 AI scientist 也同時可以使用這些模型進行發現,又會推動 AI scientist 製作新工具。這可能是未來非常長遠的發展方向。
AlphaEvolve 是 DeepMind 2025 年推出的進化式 coding agent,透過不斷生成、評估和最佳化程式碼,能夠自主改進演算法並發現新方案,目前已在矩陣乘法、資料中心排程和晶片設計等領域實現突破。
海外獨角獸:AI Science 領域的 AlphaEvolve 其實是一個很有趣的話題。如果 AI agent 可以自主設計自己所使用的工具,那麼科學上可以探索的空間就會更大。這是否是未來完全自主 AI biologist 所必須實現的終極目標?
柯鑫:我認為 AlphaEvolve 確實是一個非常有趣的應用,因為它與現在 AI scientist 所做的任務有些不同。現在 AI scientist 還是在自動化一些任務,進行一些研究發現,而 AlphaEvolve 是從根本上改變了如何執行任務。所以我覺得這仍然是一個相互獨立又互補(orthogonal)的方向,兩者都是互相受益的。
海外獨角獸:除了這個目標之外,我們的 agent 現在處於哪個階段,接下來還有什麼期待?AI scientist agent 未來持續進步的方向和里程碑是怎麼樣的?
柯鑫:有很多很多方向,首先是環境。現在的環境還是初始的版本,相較於 LLM 和之前的通用 agent 來說,agent 的確能夠完成大量 task,但仍有很多工它是完全做不到的,所以這需要社群的努力來構建高質量的環境。
其次,有了環境後,如何達到超越人類的智慧,這種情況可能就需要 RL,需要 well-defined verifiable tasks,讓 LLM 自己搞清楚如何利用環境來實現前所未有的發現。這是一個非常令人期待的方向。
另一個方向是落地應用,AI scientist agent 可能會有尚未探索到的新能力。比如 agent automation ability 就意味著它可以進行大量的規模化。生物學領域很多問題本質上其實就是搜尋問題。之前因為科學家做不到人工地去搜索各種各樣的東西,而 agent 現在具備人類的推理能力,也可以大規模地進行搜尋,這就導致它會產生新的能力。
比如我們先前做過一個叫 popper 的專案,把一堆資料集餵給 agent,提供了幾百個檔案和資料庫,讓它像黃金礦工一樣挖掘資料,然後 agent 就可以大量地產生各種假設,這是之前沒有 agent 無法實現的能力。可能還有很多這樣我們沒想到的新能力。
Agent 在某種程度上其實是從根本上改變了我們做科研的方法。之前的階段性方法都是 observation-hypothesis-experiment 這樣一個線性的過程,但 agent 開闢了更 open 的方向。這些新方向只有提出來後才會意識到。
Popper 是柯鑫作為核心作者開發的一個 multi-agent 系統,設計靈感源於科學家 Karl Popper 的可證偽性原則,目的是自動化“假設生成-實驗驗證”的科學發現迴圈:由一個 agent 負責從海量資料中提出科學假設,另一個 agent 則負責設計實驗來驗證或證偽這些假設,從而大規模地挖掘潛在的科學洞見。

Popper 是柯鑫作為核心作者開發的一個 multi-agent 系統
海外獨角獸:生物領域裡很多問題都是搜尋的問題。應該怎麼理解搜尋,是不是分為兩層?一層是傳統意義上的搜尋,比人更多地查詢資料,更多地將不同學科的知識和資料庫串聯起來;另一層是很多結構或基因序列本身就存在,但人類之前沒有能力在如此大的搜尋空間中找到這些結果。
柯鑫:是的,因為在生物領域,比如有 2 萬個基因,我想知道哪個基因導致了某種疾病。現在因為人力的限制,通常只能最多研究 50 個基因。但如果讓 agent 來執行這個任務,它可以自動化和規模化這個過程,直接分析全部的 2 萬個基因,得到全新的 insight。
對於更大的搜尋空間,比如基因的組合問題,agent 可以自己設計最合理的基因組合,使用它的先驗知識來更好地搜尋下一個 multi-gene 實驗應該是什麼。
海外獨角獸:也就是說,不再是做選擇,而是 AI 或 agent 有能力把所有可能性都遍歷一遍。
柯鑫:是的,或者是更加智慧地去搜索這個 space。
海外獨角獸:除了 LLM,即語言這個模態之外,其他很多模態的資料都不是那麼輕易能夠獲得的。因為語言模態的大部分資料都是在網際網路上現存的,做資料清洗和獲取都比較容易。其他不管是多模態、機器人還是生物領域的資料,獲取成本都比較高。如果只看生物領域,現在的資料獲取成本是什麼樣的?如果很多資料還是需要來自於溼實驗,那 AI 能夠怎麼樣去幫助大家更好地整合這些實驗中不同模態、大量且多尺度的資料?
柯鑫:資料在生物領域是最大的瓶頸,其實很多時候有了新資料,如果資料中真的有 signal,很容易直接揭示那個 insight。
最近有一些有意思的工作,是讓 AI agent 去整合組織這些資料。我們之前一個同伴所在的 Arc Institute 做了一個 scBaseCamp。
scBaseCamp 是一個由 AI agent 驅動、持續更新的單細胞 RNA 測序資料儲存庫。
生物領域的資料一方面是私有的,另一方面是分散,遍佈在整個網際網路上,agent 可以自己去搜索,做 web search、compute use,自己去抓取各種資料,把它整合組織在一起。讓 agent 進行資料整理是一個比較有意思的角度。
另一個角度是,有沒有可能讓 agent 自己去指導人類如何生成資料。現在有那種完全自動化的實驗室:AI agent 讀了很多文章,看了之前的實驗結果,它可以告訴 robotics lab 下一步要做哪些實驗,然後 robotics lab 把實驗結果告訴 agent,這樣就形成了一個全自動化的閉環。這樣也能在總體上提升資料生成的規模。
還有一種 scale up 是讓 AI agent 自己去根本性地改變實驗和技術的實現方式。現在為什麼很多實驗資料量還不夠大,是因為實驗技術還沒到那個程度。比如基因組的測序,20 年前測一個基因組就需要花十億美元,現在幾百美元就可以。這 20 年間實驗技術有很大變化,這些技術的進步就是 research 的結果,其實就是人類推理加各種實驗試錯的結果。所以從另外一個角度上,AI 也可以做這方面的事情,去加速溼實驗設計、實驗技術本身,我認為這也是 AI agent 產生更多資料的一種方式,但這可能是更遠的方向,因為它需要很多創新。
海外獨角獸:現在我們獲取生物資料的成本在顯著下降,其中一個原因是我們可以用 reasoning 去設計溼實驗。可能以前的觀念是把前期的幹實驗和溼實驗分開,但實際上 AI 也可以透過 reasoning 的方式加速溼實驗?
柯鑫:剛才說的是一種方式。現在溼實驗也有很多 dry 的部分,比如我要設計實驗 protocol,AI agent 現在也可以幫忙更好地設計實驗 protocol。
海外獨角獸:Biomni agent system 的主要使用者會是誰?
柯鑫:我認為使用者可以分為多個部分。第一個部分肯定是學術機構中的 researchers 和 individual scientists。AI 可以幫助他們自動化日常任務。但因為這些任務往往很通用,所以在藥企、醫院、以及為藥企提供服務的外包公司中都會遇到。
我們可以將任務分為幾種型別:第一種是文獻研究。例如,我想了解某個變數的具體機制,Biomni 可以搜尋各種資料庫和網頁,組織整理成一份報告。這是偏 Deep Research 型別的任務。
第二種是資料分析。無論在學校還是在藥企,都會遇到這個問題,比如我有一個數據想要進行標準化的分析。我們的 AI agent 可以幫助完成這類任務。
第三種是溼實驗的 protocol 設計。對於溼實驗的科學家來說,在進行實驗之前需要制定 step by step 的 protocol,包括這一步的溫度設定、下一步的試劑使用等。AI agent 可以輔助設計這些 protocol。
最後,可能還會有一些臨床應用,如疾病診斷和臨床決策支援。總的來說,這是一個通用型的 AI agent。
海外獨角獸:你之前在 Genentech、Pfizer 等多家制藥公司工作和合作過,這些經歷對你的研究和做 Biomni 產生了哪些影響?
柯鑫:我個人是非常喜歡去這些 domain 的公司,與他們深度合作,並瞭解他們的需求和興趣。這些經歷對我最實際的影響是讓我更好地感知問題,明白哪些問題值得研究,哪些問題他們關心,哪些問題會產生更大的影響。所以在 Biomni 中,我們有許多用例是製藥公司比較關注的,比如設計靶點發現、預測藥物性質、虛擬篩選、分子對接等。這些 Biomni 的關鍵用例都是基於我之前與製藥公司合作的各種專案經驗。
06.
如何設計 AI biology 的 benchmark?
海外獨角獸:生物領域缺乏像 ImageNet 或 SWE-bench 這樣統一的標準。前不久姚順雨也發了文章,提到 AI agent 和 RL 的下半場 benchmark 非常重要。如果讓你來設計 AI biology 的 Benchmark,你會如何設計?有哪些重要的核心指標或任務?
柯鑫:設計 benchmark 有各種各樣的途徑。在 Biomni 裡,我們就自己建立了一個新的 benchmark,主要是整理了八個新的 research task。這些任務都有一個由領域專家預先定義好的標準答案,可以用來衡量 agent 在真實世界裡研究任務上的表現。
在這之前,學術界也有一些 question answering 和 multiple choice research 形式的 benchmark,用於評估 agent 有沒有基礎知識或使用工具的能力,但那更像是考試形式的 benchmark,而不是真正的科研型的 benchmark。我們最想評估的還是 agent 在實際研究任務上的表現,這一點的維度其實非常廣。因為生物領域有太多工,我們不可能為所有任務都定義好明確的 benchmark 和標準答案。
所以,我最近也在考慮一種新的方式,有點像 Chatbot Arena 的模式,做一個 preference-based 的 benchmark。可以設定一些明確的科研任務,然後讓兩個不同的 agent 去完成並生成結果,最後讓一位生物學家來評估,哪個結果更好。這種方式也會有很多問題,但我認為這也是 benchmark 的一個值得探索的方向。
Chatbot Arena 是一個由 LMSYS Org 和伯克利 SkyLab 於 2023 年 5 月啟動的公開 LLM 效能評測平臺。
海外獨角獸:我覺得基於偏好的說法很有意思,Chatbot Arena 的偏好是基於使用者更喜歡哪個回答,而在這裡,研究員的偏好可能也是基於他的科學品味,這有時不完全等同於事實?
柯鑫:的確,真的要組織好這個模式其實挺麻煩的。我們可以讓輸出的結果儘可能的 factual。比如,一個任務是我想要設計 50 個基因來進行篩選,agent 就只輸出這 50 個基因。這樣就可以讓研究員只評估輸出結果的表現,而排除報告的語言、語法等潛在的干擾因素。
但即便如此,它仍然依賴於使用者的個人偏好。對同樣一份 50 個基因的列表,不同的研究員可能會有不同的 taste。特別是對於一些開放式問題,可能連人類科學家自己都無法給出一個完美的評判標準。所以,這是一個非常有意思的問題,目前還沒有一個明確的答案。
07.
AI for Science
也存在“Cursor”的機會
海外獨角獸:我們的聽眾可能對生物領域,以及研究者們的日常工作比較陌生。這些研究者無論在藥企還是在學術機構,大家日常工作裡佔用大量時間的工作大概有哪幾類?有了 Biomni 之後,哪些工作能真的地把研究者解放出來?
柯鑫:我認為有這麼幾大類。第一個肯定是生物資訊學的資料分析,這是一個基礎的基於 coding 的工作,而 LLM 在 coding 能力上非常強。所以這肯定是能解放研究者大量的時間和成本的方面。我們瞭解到,在藥企或大型生物實驗室裡,經常有 70%-80%的資料是被閒置的,就是因為缺少足夠的生物資訊學家去做分析。所以如果有了 agent 之後,他可以去大量地分析新資料,然後再從中產生新的發現。這是最立竿見影的應用。
第二大類是溼實驗的方案設計,這也是一個非常大的類別。因為設計一個實驗方案其實非常花時間。之前和一位溼實驗科學家聊,他說他有一半的時間花在電腦上設計實驗,另一半時間才是親手去做實驗。如果能將設計實驗的這個過程自動化,也是非常有價值,而且見效很快。
海外獨角獸:Biomni 這個系統是由一個 agent 還是多個 agent 組成的?每個 agent 都扮演什麼樣的角色?
柯鑫:目前 Biomni 實際上是一個 single agent,它可以作為通用 agent 執行各種任務。當然,在設計時,我們內部也加入了一些 sub-agent,比如我們專門有一個 tool retrieval sub-agent,負責幫助從環境中檢索相關工具。對於一些資料庫,我們也是用 sub-agent 來進行資料庫查詢。但是 Biomni 的整體結構還是一個 single agent,只是將這些 sub-agent 作為工具的形式來使用。
我認為這是 multi-agent 的一個基礎,single agent 可以執行各種任務,multi-agent 在之後可以將各種類似 Biomni 的 agent 串聯在一起,每個 Biomni 執行不同的任務,形成 multi-agent 系統來完成更高階的任務。
比如,給定一種疾病去找到對應的藥物,這種複雜度較高的任務可能更適合使用 multi-agent,因為需要執行多個步驟;我們之前的 popper 專案也是 multi-agent 系統,一個 agent 提出假設,另一個驗證假設,兩個 agent 可以都是 Biomni,只是 system prompt 不同。這個 multi-agent 系統可以迭代地證偽和調整假設。
所以,我們目前的想法是 Biomni 是一個 multi-agent 的基礎,我們可以構建各種 agentic system 來實現更高階的任務。
海外獨角獸:Bioinformatics 與 coding 任務比較接近。過去一年中,AI coding 和 AI for science 是發展特別快的兩個方向。你在開發 agent 的過程中,是否認為在未來 AI for science 領域也會出現像 Cursor 或 Devin 這樣的機會?
柯鑫:我認為必然會出現更加大的機會。Cursor 和 Devin 是在規模化 coding 這項專業能力,而 AI scientist 是規模化生物醫學領域或者其他科學領域的專業知識。
生物醫藥的研發成本是一個數千億美元的市場,其中有巨大的低生產力環節和大量重複性的任務。生物醫藥產業的效率其實非常低,研發一個新藥就需要 10 年,消耗 30 億美元,整個行業已經習慣了這種長週期、高失敗率的場景。現在的一個風向其實也是降低各種成本,提高生產力。所以這是一個巨大的市場,而且這僅僅是自動化一些任務。
如果是做 discovery 的話,那將是另一個更大的市場。一種新藥做出來的話,可能可以帶來數十億美元的銷售額。因此,如果 AI agent 真能發現新藥,那將是一個千億級的市場,肯定會出現像 Cursor 或 Devin 這樣的機會。
海外獨角獸:隨著 AI biologist 從 automation 到 discovery 的發展,如果我們展望稍遠一些,大概 3 到 5 年後,你預期 2030 年左右,那時候藥廠以及所有的生物實驗室會以什麼樣的形式運營?
柯鑫:這是一個很有意思的問題。因為到 2030 年,實際上也只有 5 年時間,我認為隨著時間的推移,演變的第一步肯定是像 cursor 一樣提升人類能力,有一個 workspace for biologists,它可以自動化大量的資料任務。
第二步則是 autonomous agent,它可以自己進行一些發現,提出一些假設。人類更像是一個監督者,每週可以與 agent 進行一對一交流,agent 會向你報告實驗結果和新發現。我認為這相當於之後,比如一個博士生手下可能有 4 個 agent,它們可以幫人完成工作,然後博士生就可以總結並向 PI(專案負責人)彙報。
第三步可能更像是一個組織,我們之前設想過一個概念叫 Virtual Pharma,有沒有可能在未來一個 agent 就是一個 pharma,它可以進行藥物的設計,甚至直接做一些機器人實驗室和溼實驗室的編排工作等,這有點像一個人的十億美元創業公司的概念,可能是一個人或一個 agent 創造價值十億美元的 Biotech 公司。我覺得這種生物技術完全有可能實現,也許不是 2030 年,可能是 2050 年。
在學術界,PI 可能會僱用更少的博士生,甚至在未來,可能會出現一個 PI 一個實驗室的情況。因為我們最近已經看到一些生物資訊的任務完全可以用 agent 來自動完成,所以以後可能會越來越傾向於這種一個 PI 一個實驗室的模式。
海外獨角獸:未來可能一個人帶著很多 AI agent 作為同事來運作多個研究方向,對於那些想要進入 AI for science 或 AI for biology,或者其他如材料科學領域的 AI scientist,你有什麼建議嗎?
柯鑫:我的建議是深度地去和生物學家進行合作,設身處地去考慮他們的需求是什麼。不是說我要創造一個工具然後去解決他們的問題,而是與他們交流,瞭解他們的問題是什麼,瞭解他們的日常工作是什麼樣的,形成合作關係。我覺得這是一個比較好的方式。
我認為最近也是一個非常好的時機,因為確實能感受到生物學家現在對 AI 非常開放。我從 7 年前開始做這個工作,最初的 5 年裡,生物學家對 AI 並不是很 open。他們認為這只是一種技術,不會影響到他們。但是最近兩年明顯能感受到他們非常願意合作,甚至非常積極地想要使用 AI,他們自己也會使用一些 AI 工具。所以我覺得這是一個很好的時機。
海外獨角獸:我們也經常聽到一些可能本身不寫程式碼的生物學研究員,現在都開始用 cursor 寫程式碼了。我感覺這確實是他們擁抱 AI 和 AI 產品的一個很好的時機。
柯鑫:是的,大型藥企裡面也是一樣。這也是一個比較有趣的現象,現在有一個自上而下的 AI 擁抱浪潮,從高層管理和資深人員開始,他們整天在思考如何讓公司更好地應用 AI。這與五六年前非常不同,那時候做 AI 藥物發現的公司對此其實是非常保守的。
海外獨角獸:從你的瞭解來看,這些藥企首先肯定要有一筆預算去做 AI 方面的投入。之前對他們來說,一定會花錢去買的 AI 工具有哪些?在我們的概念裡可能只知道 AlphaFold,最近你感覺到有什麼新的變化嗎?
柯鑫:AlphaFold 確實有一些藥企在使用,但最多的其實還是 ChatGPT,他們會用企業版。其他外部的 AI 工具我感覺使用得其實非常少,有一些資料庫分析工具,但我感覺不是那種非常核心的研究方面的 AI。
海外獨角獸:這些藥企主要用 ChatGPT 來做什麼呢?
柯鑫:開一家藥企,除了科學研究以外,還涉及很多方面。比如 business intelligence,你想要知道某個靶點是否有其他藥企在用;比如我想要做一個臨床試驗,那我要怎麼設計這個標準;然後甚至做一些文獻研究。當然,在科學方面也會用到很多。
ChatGPT 是一個非常基礎且通用的工具,所有藥企都會使用,他們也會構建一個定製的版本,把藥企的私有文件和資料都連線到 ChatGPT 裡面。
海外獨角獸:從這個角度來看,如果要開發一個垂直領域的 AI scientist 或 AI biologist,在某種程度上還是與 ChatGPT 存在一定的競爭關係?
柯鑫:但 ChatGPT 因為沒有這個環境,所以它更偏向處理一些基於文字的任務。我認為它不像是那種真正的科研任務,而更像是非研究性質的公司業務。
也不排除 ChatGPT 之後會做 scientific discovery 方面的研究,他們最近支援了 RDKit 的相關功能。
RDKit 是一個在化學資訊學和計算化學領域被廣泛使用的開源工具包,可用於分子的讀取/寫入、結構繪製、化學指紋計算、分子相似性搜尋等任務。
海外獨角獸:你在與這些使用者合作的過程中,有沒有看到一些 Biomni 特別有意思的 use case 可以分享一下?比如說 ChatGPT 做不了的,或者是使用者對 AI 能做到這個程度感到非常驚訝的案例。
柯鑫:因為我們現在還沒有正式釋出,所以我們目前的 data point 相對較少。但是在我們目前與實驗室的合作過程中,我發現使用者對此的期望並不是很高,他們現在認為 ChatGPT 能做的就是回答一些問題。所以當我們向他們展示我們的成果時,比如我們把他們的一個 GWAS analysis 從頭到尾直接運行了一遍,然後生成了許多高質量圖表,他們會覺得這個工具非常好用,立即就想使用它。
這是一個比較實際的例子,很多人在研究任務中並不知道 AI 能做什麼,所以當 Biomni 完成了這個任務,然後把報告給他們之後,他們會感到相當驚訝。因為生物學家群體還是相對比較保守的,雖然他們對新技術,特別是計算技術的開放程度,正在逐漸提高,但總體上還是比較保守。包括他們對技術輸出是否非常可靠還是存在一些擔憂,他們也不太瞭解這項技術目前的進展程度,比如我們現在的 autonomous agent 能夠幫助他們完成分析,但他們實際上並沒有這樣的預期。
海外獨角獸:這種 aha moment 真的能幫他們解決問題,其實也很好。就像 Cursor 光是 tab 去做程式碼的自動補全,這樣看似非常簡單的任務,也是之前就有的功能,但如果把這個任務解決到極致,理論上這些使用者就會有非常好的體驗。
柯鑫:是的,我認為就是需要很多這種 aha moment 。
海外獨角獸:Biomni 不僅利用了模型的能力,更重要的是為研究人員和生物醫藥學家提供了一個新的使用者介面,讓他們能直觀地感受到模型和 AI agent 能夠做什麼,相當於降低了他們使用 AI 的門檻。
柯鑫:確實如此。過去一個月,我們一直在開發使用者介面,因為生物學家通常不會寫 code,他們需要無程式碼的解決方案。我們也在思考應該如何設計使用者介面,能夠讓生物學家使用起來感覺很順暢。
這涉及許多細節問題,我們也與許多生物學家進行了交流,他們關注的點往往非常不一樣。我們需要從頭設計介面來滿足他們的需求,讓他們收穫 magical experience。我認為這是一個很有意思的問題。
海外獨角獸:今天我們討論了很多 AI scientist 方面的問題。你認為 AI scientist 發展到什麼程度,取得什麼樣的進展,會讓你覺得比較理想,讓大家都感到非常興奮?
柯鑫:我認為會有各種各樣的里程碑。最終的里程碑肯定是 agent 做出了諾貝爾獎級別的研究發現,就像發現 CRISPR 這樣級別的突破。
還可能有其他里程碑,比如找到一個被驗證的全新疾病靶點,如果 agent 能找到第一個被驗證的靶點,就說明它能找到更多其他的靶點;甚至 agent 有可能可以從頭到尾設計出一個藥物,因為這是一個端到端的藥物研發過程,解決一個之前沒有人能解決的罕見疾病。
AI scientist 實際上就是在模擬人類科學家,所以如果它能做人類科學家能做的事情,甚至做得更好,達到了超級智慧的水平,這肯定是最終目標。
海外獨角獸:聽起來你認為 AI scientist 的進展與 AlphaFold 這樣的科技突破同樣令你興奮。
柯鑫:是的,最初的 5 年我其實沒有在做 agent 方面的工作,我更多是在做像 AlphaFold 這樣的模型,使用生物資料進行建模這樣的工作。然後我明顯感覺到 AI scientist 是一種不同的能力,它能解決大量不同的任務,引入的是 human intelligence 這樣的元素,所以它能開啟完全不同的能力和創新發現,因此我感覺這是一個非常令人興奮且有很多開放問題的方向。
排版:範詩翎

延伸閱讀









