AI怎樣改變所有學科?從“工具的革命”到“革命的工具”

   4.11‍‍‍‍‍‍‍
知識分子
The Intellectual

圖片來源:Pixabay.com

編者按
本文繫上海人工智慧實驗室主任、清華大學惠妍講席教授周伯文在2025年中關村論壇上的講稿。
在周伯文看來:科學研究,是研究者、研究工具和研究物件一切關係的總和,當前的AI for Science在單點取得了可觀的進展,實現了工具層面的革新,然而要成為“革命的工具”,需要採用“通專融合AGI”方式。
撰文 | 周伯文
●                  ●                   
202315日,《自然》雜誌發表了一篇具有重要影響力的封面論文,對過去七十年間多個學科領域每篇論文的平均影響力進行了系統性分析。研究結果顯示,儘管在這一階段全球科研論文發表數量和專利數量持續增長,但其實際影響力卻快速下降。這一現象廣泛存在於生命、物理、社會等學科領域,也包括計算機科學。
與此同時,人工智慧領域正在加速發展。自2012年以來,arXiv平臺上的人工智慧相關研究論文數量已呈現指數級增長,且在去年獲得諾獎。這些宏觀背景促使我們深入思考,人工智慧與科學研究如何深度融合?科學論文和專利影響力下降的原因,並不是科學家的能力或素質比此前下降了,而是因為科學這座大廈經過100多年的修建已經越來越完善,每個學科變成一個小房子”——如何打通這些小房子之間的壁壘?如何讓每個領域的工作帶來更大影響力?這對研究者和研究工具提出了更高的要求。
在上述背景下,運用人工智慧幫助科學研究已經成為普遍共識。這一共識體現在美國頂尖人工智慧研究機構的行動上,例如OpenAI宣佈與美國多個國家級實驗室開展緊密合作,運用人工智慧助力重大科研突破;AnthropicxAIThinking Machines等多家企業也把理解宇宙、幫助科學、更好地思考設為遠期目標。
01
“工具的革命”正在悄然發生
從科學研究最新進展來看,在生命科學、數學、生物、材料科學等具體領域,用人工智慧助力科學研究已經不再是新鮮事——科學研究工具的革命已經悄然發生。在這個重要的時間節點上,如何系統性思考,進行頂層設計,面向ScienceAI進行有組織的科研,是需要思考和討論的重要話題。
2024年諾貝爾化學獎得主,DeepMind公司CEO Demis Hassabis在諾獎頒獎典禮上總結了適合AI發展的科研領域的三個標準:第一,存在巨大的組合搜尋空間;第二,具備清晰明確的目標函式;第三,擁有大量可靠資料,或者具有高效準確合成數據的方法。這三個標準在過往的成功案例中已經得到了充分驗證,但是尚未充分考慮到AI在未來三到五年的發展可能帶來的巨大潛力。
我認為,AI對所有科研工作的作用都可以歸納為它如何幫助研究物件、研究工具,以及研究者三個層面。上述關於研究領域的選擇標準都可以被歸納為研究工具,即如何利用人工智慧更高效地解決計算問題AI for Computation。然而,完整的科學研究過程不僅包含計算環節,還涉及多個重要方面:首先是對研究物件,AI如何提升對研究物件的觀察、理解和表徵,這些表徵最終都會轉化為資料AI for Data。在這些資料的表徵、理解、獲取和修改等各個環節,AI分別能發揮哪些作用是一個重要問題,同時也是重大機會。其次是研究者AI for Innovator,即科學家本身。科學研究的天花板往往取決於研究者自身的認知侷限。隨著學科劃分越來越細,要做出具有重大影響力的工作,僅靠單一領域的專業知識和經驗已經遠遠不夠。如何幫助科學家提出更好的問題、找到更有價值的研究方向,都是AI for Science應該著力解決並且可能帶來巨大回報的領域。
02
AI for Science的核心到底是什麼?
這就引申出另一個問題——如何定義AI for Science,如何將AI for Science翻譯成中文?
針對這個問題,我們曾訪談了來自不同學科領域的上百位科學家,特別是青年科研人員。主要存在兩種觀點:第一種觀點認為,AI for Science主要是指人工智慧作為科研工具,重點在於如何具體應用;第二種觀點則認為,for Science是修飾語,AI是核心詞,重點是打造真正能驅動科學研究的AI這一懸而未決的問題。DemisAI科學家最後都把問題收斂成AI for Computation,而要讓AI在科學研究中取得實質性突破,還有大量工作要做。
那麼,什麼才是for ScienceAI
科學家通常同時具備廣博的通識能力和精深的專業知識,這種通專融合的能力正是優秀科學家的核心特質,這一理念也恰好與人工智慧的發展趨勢不謀而合。
人工智慧的發展路徑可以抽象成一個二維路線圖:橫軸表示專業深度,縱軸表示泛化能力。在Transformer架構出現之前,人工智慧發展主要沿著專業深度方向推進,從深藍到AlphaGo都是典型代表。GPT系列模型出現後,透過智慧壓縮,在提升模型泛化能力方面取得重大突破,但此類模型專業深度嚴重不足。目前學界已經開始認識到這一發展路徑的侷限性,透過在預訓練後增加後訓練來提升模型推理深度,但其專業度仍然有限。要真正透過通專融合的路徑來解決科學問題,AI方面仍然有很多工作要做。
高泛化性+高專業性的右上角區域是最具價值的領域,當前的技術路線都在迂迴曲折地向這個方向逼近,那麼有沒有更高效的方法?
在單點的科學研究上,人工智慧已經成為非常重要的新型研究工具,可謂帶來了工具的革命。如果能找到通專融合的突破口,就可能創造出革命的工具,進而透過工具的革命發現更具革命性的新工具。
基於對科學研究的長期思考,我認為科學研究是研究者、研究工具和研究物件一切關係的總和。任何科學研究都離不開三大要素:研究者、研究工具和研究物件。研究者在認知驅動或好奇心驅使下,選擇合適的工具來理解研究物件,提出新的理論並進行驗證。
在傳統的科研關係中,人類研究者通常是單一領域的專家,對研究工具具備一定知識,對研究物件採用單維或低維的資料表徵。AI for Science可以在多個層面發揮作用:在單一節點上,可以幫助研究者理解文獻、增強計算工具的能力,或豐富研究物件的表徵維度。當前的AI for Science在這些方面已經取得了可觀的進展,在單點上實現了工具層面的革新。
03
AI for Science的未來:推動科研正規化的系統性變革
AI的價值遠不能止步於此。當我們將整個科研過程視為研究者、工具和物件三者之間的動態系統而非孤立節點時,人工智慧將發揮更大價值,促成三者之間相互作用、協同演進、螺旋式上升的新型科研正規化大變革,進而創造出真正革命性的工具。
具體而言,人工智慧可以幫助研究者在多個方面獲得提升:在研究者層面,可以幫助研究者更好地產生跨領域的想法,幫助判斷哪些科研假設更具價值;在研究工具層面,能夠自主構建新工具,或實現已有工具的創新性組合,完成組合爆炸;在研究物件層面,可以實現高度泛化、無失真壓縮和體量龐大的資料獲取。一個關鍵問題在於,研究者對研究物件的表徵往往受限於自身的認知水平,很多潛在有價值的資訊由於儲存或頻寬限制而被捨棄。在人工智慧的加持下,研究者就可以更全面、更交叉地審視研究物件,這種深入理解又會促使研究工具的改進,進而提升研究者的認知水平;認知提升後,研究者就能提出更優質的科學問題和工具組合,從而形成良性迭代迴圈。這正是AI for Science的最大機遇所在——不在於單點突破,而在於推動整個科研正規化的系統性變革。
整個變革過程可以分為三個層次:首先是AI for Data,即對研究物件的表徵;其次是AI for Computation,即對計算正規化的革新;最後是AI for Innovator,即對研究者能力的提升。這三個層次最終將融合形成一個完整的閉環系統。以下為幾個例子:
第一個例子是突破對研究物件的理解。我們在上海人工智慧實驗室開發了一個基於注意力機制的大氣資料表徵模型,該模型能夠捕獲多維特徵,同時保持線性計算複雜度。透過無損資料壓縮,可以在更大規模上研究氣象變化。這種方法具有很高的普適性,已成功應用於神經科學和生物學等領域,獲取的資料在廣度和深度上相比傳統方法提高2-3個數量級,使得許多以往被忽視的現象得以顯現。後續還有很多工作,例如探索如何更低成本地獲取高質量資料。
第二個例子是推動計算正規化的革新。在氣象建模中採用多模態模型進行表徵,計算精度相比傳統基於物理方程的方法顯著提升。以一次颱風登陸上海的過程為例,黃線是實際觀測路徑,藍色虛線是歐洲氣象中心基於物理模型的預測路徑,而粉線是我們大模型的預測路徑。結果顯示,人工智慧模型在臺風登陸後的短期預報精度上比物理模型提高10倍以上,在中長期預報方面也有突破性進展。
我們主要在清華完成的蛋白質多組學資料研究PROTEUS,則進一步展示了人工智慧如何融合研究物件、研究工具和研究者,並最終對科學研究形成迴圈推動作用。該研究的資料來源非常廣泛,遠超單個科學家所能掌握的範圍;而且除了現有的組學資料外,全球範圍內還在持續產生大量新資料。透過融合這些資料,並結合對數百萬篇文獻的理解,可以產生眾多有價值的科研方向,包括基礎研究領域的疾病機制解析、臨床應用中的治療靶點篩選等。面對如此繁雜的研究物件和海量分散的資訊,很少有科學家能夠全面掌握並提出最優的科學假設。傳統科研模式下,科學家通常在區域性資料和有限認知基礎上提出假設,而這些假設是否滿足全域性最優則無從得知。
引入AI的研究方法完全顛覆了這一模式:首先將多組學資料視為AI for Innovator(研究物件)的擴充套件,採用多種方法整合這些資料;然後透過對現有文獻和新發表成果的分析,自動識別資料中呈現的現象;根據現象分類,系統自動呼叫多種生物資訊學工具進行組合分析,初步提出新的研究方向;經過深度推理後,自動生成科學假設;最後將這些假設呈現給科學家,透過人機協作方式評估其科學價值。使用以上方法在10個不同資料集上生成360多條科學假設後,將這些假設與人類科學家提出的假設進行匿名對比評估,結果顯示,人工智慧生成的假設在新穎性和相關性方面顯著優於人類專家的假設。
需要強調的是,上述對比關注的是質量而非數量,因為在數量上AI毫無疑問具有絕對優勢。這一突破性進展促使我們重新思考科學假設的生成方式,包括如何採集新資料或從新角度觀察現有資料。在這個過程中,AI系統獲得了一個新任務:對已有觀察結果提出新的資料解析,並在此過程中構建新工具,然後對資料和工具再次提出新假設;基於這些新資料和工具,又將開啟下一輪研究迭代。目前我們正在進行第二階段工作:根據AI生成的假設設計新的觀測方案和工具,開展驗證實驗——這意味著研究物件、研究工具和研究者三者之間已經形成了互相賦能,良性螺旋式上升的迭代迴圈。
以下的研究框架圖可以更好地說明這一機制:研究者的主要作用是提供基礎研究方向,將研究方向作為命題輸入AI系統。AI系統會對研究物件、現有資料和文獻進行全面分析,提出新的研究問題和物件。在傳統科研中,不同科學文獻之間往往缺乏聯絡,而AI能夠發現這些潛在關聯,這些新關聯就是創新的科學假設。AI系統會呼叫合適的工具對假設進行初步驗證,然後將結果反饋給人類研究者,由他們決定後續研究方向、假設驗證和新實驗設計。目前這一迴圈的基礎版本已經實現,隨著各個環節的不斷完善,將會進一步顯現更大的價值。
04
從“工具的革命”到“革命的工具”
最後總結一下核心觀點:第一,For Science需要新的AI;第二,科學研究需要人工智慧在包含研究者、研究工具、研究物件的全要素總和中發揮系統性作用,而非僅限於單點突破。如果AI僅做單點突破,人與人之間的交流成本還會持續提升;只有讓AI發揮系統性作用,才能有效降低交流成本。由於資訊吞吐率的本質差異,人與人之間的交流成本始終高於AIAI、模型與資料,因此迫切需要促進AI內部的高效資訊互動,而非單純提升人際交流效率。第三,一旦完成以上兩步,AI將從工具的革命過渡到革命的工具
AI for Science目前仍處於工具的革命階段,就像從計算器到計算機程式,無論是Basic語言、Python語言還是現在的自然語言,都是在工具上進步。但是科學革命需要革命的工具。為了推動AI for Science的發展,上海人工智慧實驗室創新性地啟動了AI4S攀登者行動計劃,打造一個科學工作者和AI工作者雙向奔赴、協同攻關的新模式。該計劃在今年春節前釋出,目前已收到來自全世界500多個不同科研機構的申請,顯示大家對AI for Science領域寄予厚望。
該計劃除了強調AIScience的雙向奔赴之外,也在組織模式上進行了多處創新:一是目標導向,聚焦重大科學問題攻關,要求大規模協同創新;二是緊密組織地進行科研,要求AIScience的研究人員必須在一起,組成一個初創團隊;三是開放,因為這類研究課題往往沒有標準答案和既定流程,需要學術機構的自由探索氛圍。該計劃希望透過融合企業、創業團隊和學術機構的優勢,形成獨特的組織形式。
按照科技部的指導方針,設立以下幾個重點攻關方向:一是聚焦重大科學問題的創新突破;二是沉澱共性關鍵技術問題,如提升AI for Science的系統性能力;三是打造產業標杆,將AI for Science的價值最終體現在新材料、新工藝等實際應用上,產生經濟效益和社會效益。
目前第二批申請已經啟動,採取滾動支援機制,歡迎感興趣的科研團隊積極參與。
最後給讀者留下幾個值得深思的問題:第一,大語言模型能解決所有科學問題嗎?如果不能,我們怎麼提升它的能力?第二,當前的科研評價體系是對科學家進行評估,AI與人類科學家的價值是否應該有差異化的評估體系?第三,包括推理、執行時計算等在內的Scaling Law能否帶來革命的工具?是否還有新的技術路線?
以上就是今天的分享,謝謝大家。

作者簡介:周伯文,上海人工智慧實驗室主任、首席科學家,清華大學惠妍講席教授、電子工程系長聘教授。)
親愛的讀者們,不星標《知識分子》公眾號,會錯過每日科學新知!星標《知識分子》,緊跟前沿科學,一起探索科學的奧秘吧!

請戳上圖卡片新增星標

關注《知識分子》影片號
get更多有趣、有料的科普內容

END

相關文章