科學匠人|劉海廣:發揮“生物多樣性”法則的力量,尋找科學的新答案

(本文閱讀時間:11分鐘)
編者按:劉海廣是一位典型的跨學科研究者,他的學術足跡遍佈物理、生物、計算機科學和人工智慧等多個領域,在跨學科的學習與研究中不斷探索和突破。如今,作為微軟研究院科學智慧中心(Microsoft Research AI for Science)的首席研究員,劉海廣在跨學科研究中取得了哪些成果?他和團隊又將如何利用人工智慧技術來加速科學研究程序,並推動科研成果向實際應用轉化?
從清華大學轉學至香港浸會大學,為什麼會做出這個選擇?熟悉劉海廣的人都會對此感到好奇。“性格所致。我一直渴望探索未知,見識不同的世界。人生本來就很短暫,我們應該堅定地追隨內心的信念。特別是當你對某件事充滿熱情時,無論選擇哪條路,最終都會朝著內心的目標前進。所以無論是留在清華大學還是浸會大學,我最終依然會投身於科學研究,現在看來都是殊途同歸的。”劉海廣說道。
劉海廣始終堅持“心之所想,力之所及”的做事準則,他堅信科學研究的目標是造福於人。2022年,帶著“讓科學研究成果在現實世界落地實用”的想法,劉海廣從純學術研究領域來到了微軟研究院。在加入微軟之前,他在學術道路上不斷探索跨學科研究的深度與廣度,而微軟研究院則為他提供了一個更具創新性和影響力的平臺。如今,作為微軟研究院科學智慧中心(Microsoft Research AI for Science)的首席研究員,劉海廣正藉助前沿的人工智慧技術,加速科學研究程序,推動科研成果向實際應用轉化,逐步將自己的願景變為現實。
微軟研究院科學智慧中心首席研究員劉海廣
探索科學領域的隱藏角落
劉海廣可謂是跨學科研究的資深探索者。1999年,劉海廣被清華大學錄取,由此開啟了他以物理學為起點的學術生涯。在清華的學習生涯剛剛開始,一次轉變的機會就出現在了劉海廣的面前——香港浸會大學面向內地高校招生。渴望“拓寬視野”的劉海廣抓住了這次機會,轉而在香港浸會大學繼續他的物理專業學習,師從著名統計物理學家湯雷翰教授。
但不同的是,這一次他選擇了一個融合了物理學與計算機科學的交叉專業,同時學習物理系和計算機系兩個學科的核心課程。最後的畢業論文研究則將計算方法應用於了生物物理體系中,特別是針對蛋白質結構與動力學的研究。“這一專業融合了計算機、物理、生物學三個學科,讓我自然而然地跨越了物理學,進入了計算機科學與生物學的交叉領域。”劉海廣說。
大學畢業後,劉海廣選擇出國深造,在美國加州大學戴維斯分校獲得了博士學位。在這一時期,他的研究側重於運用物理思維來抽象生物學機制,並透過計算的方法模擬生物分子的動力學變化過程。隨著對交叉學科研究的深入,劉海廣發現這種跨學科研究存在一些侷限性。
首先,受當時計算能力的限制,即使是用當時最先進的超級計算機也無法精確描述上萬個原子組成的蛋白質分子體系,所以只能將其重要特徵抽象為物理模型,但這在科學研究中不夠嚴謹;其次,從計算物理角度出發的跨生物學科研究,對生物體系的抽象描述由於模型自身的缺陷,即便擁有強大的計算資源能夠進行模擬,獲得的結果的置信度和可靠性也不能替代實驗測量。
因此,在博士畢業後的職業選擇上,劉海廣明確了目標:致力於跨學科研究。彼時,美國勞倫斯伯克利國家實驗室正在研發一種方法利用 X 光探測生物分子結構和動力學變化,急需相應的計算方法解讀資料,這正是劉海廣能夠發揮專長的機會。在伯克利國家實驗室,他不僅運用計算方法將複雜的生物資料轉化為有意義、有價值的模型,而且實驗室的生物實驗也加深了他對跨學科知識的理解。在這裡,劉海廣真正實現了從純粹的計算研究向與實驗相結合的交叉領域研究的轉變。
(可能是)第一個在美國SLAC國家實驗室吃螃蟹的人
沿著這一研究方向,劉海廣又在亞利桑那州立大學物理系/BioXFEL 中心完成了博士後工作。在取得了一系列成果之後,他選擇了回國發展,加入北京計算科學研究中心,組建了自己的科研團隊,與國內外大學和研究機構合作,透過整合多種實驗手段和計算方法,深入探索生物分子的結構、動力學和功能,持續在計算機與生物學領域進行跨學科的研究與創新。
做實用主義的科學研究
隨著計算能力的提升和人工智慧技術的發展,計算方法與跨領域研究的結合日益緊密,顯著加快了科學發現的步伐。在2015至2022年的七年時間裡,劉海廣帶領團隊取得了一系列突破性成果。然而,這些成果往往只停留在論文階段。“我更希望將這些研究成果轉化為實用工具,讓更多人受益。但在純粹的學術界,這些研究很難直接應用於實踐。”劉海廣說。
“微軟研究院提供了一個既能進行科學技術研究,又能緊密對接工業需求的絕佳平臺,讓我們可以專注於科學研究的探索、技術產品的轉化及其實際應用。例如,科學智慧中心的一些研究成果已經轉化為工具,並在微軟 Azure 雲平臺上部署,使更多人能夠受益於創新技術。”這便是劉海廣眼中的微軟研究院,也是他選擇加入的原因。
目前,微軟研究院科學智慧中心的研究方向涵蓋了面向自然科學的人工智慧模型、基於人工智慧的科學計算和科學發現等多個領域,具體包括藥物研發、生命科學、材料科學等。劉海廣的研究重點集中在與人類健康緊密相關的藥物研發領域:基於靶點蛋白質的化合物設計以及對蛋白質本身的深入研究。
針對特定靶點蛋白的化合物設計,劉海廣及團隊開發了化合物研究工具 TamGen,相關論文已被《自然-通訊》(Nature Communications)雜誌接收。與透過計算篩選預定義化合物庫的虛擬篩選方法相比,基於靶點蛋白結構的從頭藥物設計能夠提供新的候選藥物。TamGen 是集成了 Transformer 靶標感知分子生成器的生成解決方案,能夠直接從零開始為特定靶點生成候選藥物,擴大了現有化合物的篩選範圍,為新藥發現提供了更多可能性。
TamGen 示意圖
對於蛋白質本身的研究,劉海廣及團隊專注於蛋白質結構及其動力學性質,以及氨基酸突變性質的探索。在藥物研發中,對靶點蛋白的深入理解至關重要,因為一旦靶點蛋白髮生突變,可能導致藥物效果降低甚至完全失效。傳統的分子動力學模擬方法在分子結構取樣分析時存在侷限,往往只能捕捉到分子的初始狀態,無法全面描述其在不同條件下的行為。
針對這一問題,劉海廣和同事們開發了用於分子結構平衡分佈預測的深度學習框架 Distributional Graphormer(DiG)。這項創新技術能夠快速生成多樣化的分子構象,為從單一結構預測到平衡分佈預測的突破奠定了基礎。DiG 的開發不僅為分子科學開闢了新的研究方向,也為藥物設計和材料科學領域提供了新的工具。相關研究成果已發表在《自然-機器智慧》(Nature Machine Intelligence)雜誌上。
Distributional Graphormer 示意圖
此外,作為一名擁有豐富跨學科研究經驗的研究員,劉海廣積極致力於推動不同領域間的合作。微軟研究院科學智慧中心會定期舉辦科學論壇,邀請全球的專家學者分享領域知識和前沿研究成果,促進學術界與工業界的交流與合作,加速科技成果的落地應用。
今年5月,科學智慧中心與西湖大學聯合舉辦了一場學術研討會,雙方分享了在藥物研發、生命科學和材料科學領域的最新成果。“我們還與全球健康藥物研發中心(GHDDI)合作,利用 TamGen 平臺為肺結核和冠狀病毒等全球性傳染病設計了高效的新候選藥物,為治療這些疾病提供了新的希望。”劉海廣介紹道。
科學智慧中心與西湖大學學術研討會影片回顧
AI for Science:加速跨學科研究的智慧引擎
在 AI for Science 的研究中,人工智慧的最大優勢在於其提升效率和知識提取的能力。微軟研究院科學智慧中心運用機器學習技術,顯著加快了藥物研究和材料發現的計算速度,實現了數十甚至數百倍的提升。“在我讀博期間,一次模擬模擬需要兩三個月才能完成,現在一兩天就能得出結果。”劉海廣說,“在資訊爆炸的今天,人工智慧和大語言模型還能幫助我們更快地發現和理解其他領域的知識,並定期更新我們的知識庫。人工智慧像一位博學多才的助手,能夠觸類旁通,這對於跨學科和跨領域的研究至關重要。”
劉海廣認為,人工智慧技術在生物研究的各個環節都能發揮重要作用,促進我們對分子結構和相關資料的深入解讀。以眼睛感光蛋白——視黃素蛋白的研究為例,這種蛋白位於細胞膜上,能在光照下利用光能完成對離子或者訊號的傳輸。研究視黃素蛋白的工作原理需要依賴多種實驗方法,包括結構生物學、光譜學、分子動力學模擬和高精度超快的顯微拍攝技術等。而現在,人工智慧可以應用於這些研究的每個環節,提升計算效率,加速科學發現的程序。
與此同時,人工智慧作為一項融合了多學科和多領域知識的技術,無論是在其自身發展過程中,還是在與各行各業的跨界融合中,都迫切需要跨領域人才的支援。微軟研究院匯聚了來自不同領域和背景的頂尖人才,並與眾多高校和企業保持深入合作,不僅推動了創新技術在現實世界中的應用,更有助於推動跨領域的科學研究。
劉海廣(右一)與同事們訪問蓋茨基金會
“這裡的研究員充滿活力且富有個性,我們可以隨時交流和辯論,這種多樣性和包容性是一個優秀研究機構不可或缺的特質。這就如同細菌群落需要保持多樣性一樣,如果群落僅由單一型別的細菌構成,當環境變得不利時,很容易導致整個群落的消亡。相反,生物多樣性的存在意味著只有部分型別的細菌會受到影響,而細菌群落整體仍能存續。正是具備這種韌性和多樣性,微軟研究院才得以在過去的三十多年中一直穩步發展,並始終保持著創新的活力。”劉海廣說。
相關連結:
Distributional Graphormer:從分子結構預測到平衡分佈預測
https://www.msra.cn/zh-cn/news/features/distributional-graphormer
TamGen: Target-aware Molecule Generation for Drug Design Using a Chemical Language Model
https://www.biorxiv.org/content/10.1101/2024.01.08.574635v2.full.pdf
你也許還想看:

相關文章