海歸學者發起的公益學術平臺
分享資訊,整合資源
交流學術,偶爾風月


合成數據對於大多數化學領域來說是不熟悉的詞彙,特別是“合成”在化學中有著特定的含義。但事實上,所有的實驗研究都會透過設計實驗、改變實驗條件等來製造產生資料的方式。另一方面,合成數據對於計算化學家來說則很熟悉。計算化學家和所有領域中的計算科學家一樣,透過模型和理論以及在計算機上實現的計算,產生資料,來解釋和預測各種現象。
因此,泛泛地講,計算科學家的工作首先是製造資料、合成數據。同時,近年來,合成數據對於機器學習和人工智慧越來越重要。如大語言模型正在耗盡資料,為了訓練下一代模型,需要更大、更新的人類語言和知識資料集,即使是網際網路和文學作品中的數十億詞彙也不足以滿足這些模型日益膨脹的胃口。解決方案之一便是透過機器模型生成資料集來訓練其他機器,構建“無限的資料生成引擎”,合成數據,讓這些貪婪的模型自行進食。

圖源:pixabay.com
在醫學和金融等領域,合成數據通常被用來代替來自真實人物的真實資料,以解決隱私問題,或處理資料不平衡問題。例如,當某些族裔的人群在資料集中的代表不足,個人醫療記錄等資料量不足或詳細程度不夠時,透過合成數據以及模型的訓練來反映真實資料的統計特徵。合成數據從真實資料中來,但不回溯到原始的個人資料。與之相對的,在化學問題中,合成數據更多地與分子的行為有關而不是人有關,因此,合成數據的使用基於不同的原因。
“合法編造”資料在化學領域並不是新鮮事,分子設計以及“模擬”或“計算”長期以來一直在產生資料以擴充套件對化學空間的探索。現在不同的是,無論是合成、模擬還是計算“製造”的資料都廣泛被用來與機器學習模型結合使用。AI 模型是能夠理解大量資料的演算法,而所需的訓練集可以是真實的實驗資料或者製造出來的資料,或者是兩者的綜合。AI模型學習資料中的各種模式,並使用它們進行分類和預測,從而提供有價值的新的資料和見解,無論機器是如何得出這些見解的。
因此,合成數據不但是 AI 模型的輸入,也是 AI 模型的輸出。Jacobsen將合成數據定義為“由演算法生成,也用於演算法”的資料[3],雖然化學家可能並不關心如此嚴格的定義。例如,一些合成數據的建立技術與“深度偽造”有關,像機器生成逼真的形象和語音一樣,生成化學結構。Antunes,Butle和Grau-Crespo開發的APP利用大語言模型,透過對話提示,輸入化學式,由機器產生化合物的假想晶體結構[4]。這類應用的更高階形式是預測具有目標性質的化合物、材料和生產可行性。

圖源:Annu. Rev. Phys. Chem.74:313-36
SMILEStranslator
合成數據的另一個例子是斯坦福大學Martinez團隊開發的ChemPix[5],透過識別手繪化學結構來給出機器可讀的分子的SMILES表示式。機器學習需要的是大量資料,而真實手繪化學結構所能構建的資料集是有限的。Martinez等人採取的策略是,透過RDKit產生50萬個化學結構影像,將其透過影像增強、影像降質以及背景新增等一系列影像處理,製造了合成數據。將合成數據與真實手繪合併,訓練機器學習的結果實現了對手繪化學結構識別的70%的準確率。而單純用乾淨的RDKit影像訓練僅能實現56%的準確率。Martinez等進而在綜述文章[6]中探討了機器學習、影像處理以及雲計算支援的互動式量子化學計算。正如Martinez所說,“化學領域中有很多問題——實際上,我認為大多數問題——缺乏足夠的資料來真正應用機器學習方法。”,使用合成數據可以節省的成本可能比分子識別示例中的成本要高得多,因為在其他地方,這些製造的資料不僅僅是用來替換那些花費幾秒鐘才能繪製的資料,而是來自昂貴的真實實驗中的資料。

計算機可以為未知的無機化合物(如KRb)生成看似合理的結構 KRb2TiF6(左)和 LiTa2NiSe5(右)
圖源:© Luis M Antunes et al
另一方面,即使有海量的實驗資料,如果未經標籤化,對機器學習來說也毫無意義,因為需要訓練機器學習模型識別標籤,從而產生有價值的新的資料。例如,英國盧瑟福阿普爾頓實驗室歷年來產生了千兆級的中子散射資料,但對這些實驗資料的標籤化非常昂貴,而合成數據則可以同時對資料產生標籤。在解釋真實光譜方面,理論計算的乾淨結果同樣不適於機器學習,也需要像Martinez團隊製作假的手繪化學結構一樣,對理論計算結果進行粗糙化。Butler等人[7]將包括噪聲在內的實驗偽影新增到乾淨的理論計算資料中,透過由此得到的合成數據,對深度神經網路做了訓練,首次實現了對非彈性中子散射實驗資料的機器學習分析。他們的工作表明瞭可解釋的機器學習可以是分析非彈性中子散射的有力工具。
合成數據與AI的結合可能產生重大影響的另一個領域是藥物發現。如在Gurvic, Leach和Zachariae的研究中[8],首先透過已知抗生素訓練了一個機器學習模型,有效地預測了針對革蘭氏陰性菌的其它化合物;進而將這些預測的化合物作為合成數據,作為輸入資料,透過機器學習來預測有藥物活性的分子結構單元和化學特徵,包括胺、噻吩和鹵素等基團。而這些對於尋找新的革蘭氏陰性菌抗生素意義重大。
合成數據的直觀目的是為機器學習模型提供大資料集。合成數據的“隱藏”動機是透過足夠的輸入資料讓我們能夠理解為什麼機器學習模型做出了它們做出的預測,即機器學習模型的可解釋性。AI 模型的內部運作被廣泛稱為黑盒子,但合成數據可以做為一種工具,來銳化特定的模型,或者以更簡單的形式理解其本質。Martinez,Zachariae和Butler的工作都體現了這一點。但並非所有的類似工作都明確地表達了這一目的或者動機。
在機器學習領域使用非真實資料的風險現在仍難以確定。在其他領域,合成數據的風險通常與誰產生資料有關,或者與誰受到合成數據產生的預測的影響從而做出決策有關。正如Jacobsen所說,合成數據的風險因應用領域而異,“化學家必須嚴格界定‘我們如何在特定的語境中界定風險’”。而Zachariae則認為,從純粹的科學角度來說,合成數據與機器學習之前的透過物理模型實現的預測迴圈沒有什麼不同;當然任何預測的目標藥物分子都必須經過嚴格的安全檢驗。

手繪數十萬個化學結構太耗時了,為什麼不讓計算機來做呢?
圖源:© 2021 Hayley Weir et al
在理論化學領域,實際上沒有“真實的”或實驗資料可以用來訓練機器學習模型,資料集只能透過計算方法來獲得,如DeepMind發展的DM21密度泛函[9]。或者,透過小分子的量子化學計算,訓練機器學習模型以更快的速度和更低的成本預測大分子的結構和能量。但現有的理論方法對小分子的計算精確度優於對大分子的計算,在缺乏實驗驗證的情況下,透過理論計算資料集訓練的機器學習模型預測的大分子及其能量有可能並不好,進一步說,如果由此機器學習模型預測了上百萬的資料點,就可能是個問題。Martinez認為,計算量子力學領域中的合成數據訓練集通常會有嚴格的精度控制,而這可能會給資料正確性和覆蓋範圍帶來錯誤的信心。在DeepMind 的另一研究中[10],基於過去ICSD,Materials Project以及OQMD多年連續的研究確定的48,000種穩定晶體結構及其中已經實驗驗證的736種結構,透過機器學習產生了兩百二十萬種新的層狀材料和固體電解質材料。但如果現有的理論並不一定那麼準確,如果預測材料的性質與現實不符,將會失去信譽和資金。因此,雖然“編造”資料在現在可能意味著不同的事情,但如果做得不好,仍然存在很大風險。
Glorius和Grzybowski等人近期的文章[11]對逆合成的AI做了綜述,他們強調,文獻中缺乏負面結果和反應的多樣性,是對有用的逆合成AI演算法的關鍵障礙。這些模型只與其所用資料集一樣好,而那些依賴實驗記錄的模型尤其容易受到資料集中的潛移默化的偏差的影響,這些偏差傾向於積極的結果,從而導致模型對現實的扭曲認知。此外,化學家們通常也不選擇冒險的化學反應。為了改進這些AI演算法,需要了解什麼起作用,以及什麼不起作用。這類資料確實存在,但通常只存在於化學家痛苦的記憶中,或是在那些被丟棄的筆記本和塵封的抽屜裡,那裡存放著無法發表的結果。而去年的一篇計算科學預印本[12]則從理論上證明,在模型訓練其他模型的遞迴迴圈中,系統的底層真相可能會被“遺忘”,也就是說透過合成數據來人工擴充資料集有可能收效甚微,結果堪憂。
Glorius和Grzybowski等人在逆合成AI演算法綜述中提出的解決方案是更好地利用人類專長。利用我們現有的知識來針對文獻中的空白,將比等待計算或現實世界實驗提供更多資料來得更快。這與許多開發各種 AI 輔助工作的團隊倡導的“將人類置於迴圈中”的一般原則相呼應。人與人工智慧的合作不僅僅是勞動力的分配,而是確保在過程中保留人類的主體性和責任。
套用某著名期刊的編者按[15],For chemists, the AI revolutions has
yet to happen,“對於化學家來說,人工智慧革命尚未到來”。
yet to happen,“對於化學家來說,人工智慧革命尚未到來”。

[1] https://retractionwatch.com/2022/06/09/chemistry-group-at-hokkaido-up-to-three-retractions/
[2] https://cen.acs.org/articles/88/web/2010/11/Bengu-Sezen-Cited-Research-Misconduct.html
[3] https://journals.sagepub.com/doi/full/10.1177/20539517221145372
[4] https://arxiv.org/abs/2307.04340
[5] https://pubs.rsc.org/en/content/articlelanding/2021/sc/d1sc02957f
[6] https://www.annualreviews.org/content/journals/10.1146/annurev-physchem-061020-053438
[7] https://iopscience.iop.org/article/10.1088/1361-648X/abea1c#cmabea1cs6
[8] https://pubs.acs.org/doi/10.1021/acs.jmedchem.1c01984
[9] https://www.science.org/doi/10.1126/science.abj6511
[10] https://www.nature.com/articles/s41586-023-06735-9
[11] https://pubs.acs.org/doi/epdf/10.1021/jacs.4c00338
[12] https://arxiv.org/abs/2305.17493
[13] https://www.chemistryworld.com/features/why-are-computational-chemists-making-up-their-data/4019491.article
[14] https://www.chemistryworld.com/opinion/our-hunger-for-data-could-be-an-unhealthy-diet/4019512.article
[15] https://www.nature.com/articles/d41586-023-01612-x
關鍵詞
分子
化學家
機器學習
模型
材料