
新智元報道
新智元報道
編輯:KingHZ YHluck
【新智元導讀】AlphaFold奪諾獎引爭議!2016年,一位博士生在NeurIPS提出的研究,或許正是AlphaFold的「原型」。如今,導師Daniel Cremers發聲,質問為何DeepMind忽略這項研究、不加以引用?
AlphaFold因獲得諾獎而聲名大噪。
在大多數情況下,AlphaFold 2的預測精度幾乎可與X射線晶體學相媲美,令人震撼。
生物化學界持續了半個世紀的難題,終於被攻克。
但2016年,Vladimir Golkov博士在NeurIPS大會上就提出,利用深度神經網路從共進化資料中直接預測蛋白質接觸圖。
在CASP 11測試中,這套方法優於當時其他的所有方法,堪稱AlphaFold的「原型」。
最近,慕尼黑機器學習中心主任、慕尼黑工業大學教授Daniel Cremers表示他們團隊為AlphaFold獲得諾貝爾獎奠定了基礎。

如今,Daniel Cremers發問:為何歷史上這塊奠基石被忽視了?
我們來一探究竟。

AlphaFold雛形
其實2016年就已出現
在2018年12月,在第13屆蛋白質結構預測關鍵評估CASP(Critical Assessment of protein Structure Prediction)中,AlphaFold 1驚豔亮相,排名第一。
2020年11月,AlphaFold 2在CASP上,大放異彩,中位分數為92.4,接近滿分100分;2024年5月8日,AlphaFold 3釋出。
但早在2016年AI頂會NeurIPS上,Vladimir Golkov就蛋白質預測作了全會報告。

當時提出的方法論包括:
-
針對目標氨基酸序列,呼叫已知三維結構的序列資料庫
-
採用隱馬爾可夫模型(HMM)進行多序列比對以識別同源序列
-
計算突變對共進化統計量
-
訓練深度神經網路直接從原始共進化資料預測蛋白質接觸圖
-
在CASP11資料集上的系統評估表明,該方法在精度和速度上均顯著超越當時最優技術
這項研究匯聚了深度學習與蛋白質預測領域的多位先驅,包括Thomas Brox、Alexey Dosovitskiy和Jens Meiler等合作者。

論文連結:https://papers.nips.cc/paper_files/paper/2016/file/2cad8fa47bbef282badbb8de5374b894-Paper.pdf
值得玩味的是,在報告結尾,Vladimir已預見性地指出:「架構最佳化與Scaling將進一步提升效能」——
這與AlphaFold團隊的後續突破不謀而合。
至於未被引用的原因,至今尚無定論。
可觀看Vladimir當年20分鐘的報告,瞭解更多蛋白質預測的完整發展脈絡:
2024年, Demis Hassabis(下圖左)和John Jumper(下圖右)因蛋白質結構預測的貢獻,榮獲諾貝爾化學獎。

諾貝爾獎委員介紹了AlphaFold 2的工作原理,大致如下:
-
序列比對:系統從資料庫中尋找與輸入序列相似的蛋白質,這些序列可能來自不同物種。透過比對,程式揭示了氨基酸之間的潛在聯絡。例如,當某個位置突變時,可能與另一個位置的變化相關。
-
距離圖生成:基於序列比對中的相關性資訊,程式生成一個距離圖,顯示氨基酸在空間中的相對距離。
-
三維結構預測:程式將距離圖轉換為三維結構,最終以高精度預測蛋白質的形狀。

AlphaFold 2的工作原理示意圖
Daniel Cremers認為所謂AlphaFold的核心技術思路,其實早已完整呈現在他們2016年的論文中。
他感覺諾貝爾獎委員會可能遺漏了他們的奠基性工作。
對此,AlphaFold 1核心團隊成員Hugo Penedone提供了AlphaFold誕生初期的一些歷史細節。

DeepMind的諾獎,真的忽視了前人的貢獻?
AlphaFold 1初始團隊的成員Hugo Penedone則還原了DeepMind的開發時間線。

2015年7月–2019年8月,Hugo Penedone在谷歌DeepMind工作,從事深度學習與強化學習的應用研究
據他回憶,大約在2016年3月,DeepMind啟動了AlphaFold 1,起因是在一次內部駭客馬拉松Hackathon上,嘗試將深度強化學習和最佳化演算法應用於FoldIt遊戲。
之後的幾個月裡,他們開始探索接觸圖(contact map)預測的可能性。

來自副溶血性弧菌(Vibrio parahaemolyticus)的蛋白質VPA0982的蛋白質接觸圖
由於在早期文獻中,接觸圖已有相關概念,他們意識到,相較於直接預測整個蛋白質結構,使用神經網路來預測接觸圖的準確率更高。
因此,他認為DeepMind可能在2016年也獨立地提出了這個不錯的思路。
DeepMind的論文釋出遠晚於2016年NeurIPS的相關研究,顯然,他們應該在工作中引用這些前人的成果!

AI學術大佬怎麼看?
針對此事,AI界當代最著名巨擘之一、Meta AI實驗室靈魂人物Yann LeCun也表達了看法。

LeCun提到,1990年代的雪鳥研討會(Snowbird Workshop)(ICLR的前身),使用機器學習進行生物資訊學研究的整個想法就已誕生。
其中,與會者包括Anders Krogh(哥本哈根大學教授)、Pierre Baldi(加州大學歐文分校教授)、Richard Durbin(劍橋大學遺傳學教授)、David Haussler(加州大學聖克魯茲分校基因組學研究所科學總監)等人。



在AlphaFold之前,已有若干使用神經網路進行蛋白質結構預測的研究工作。
LeCun直言,沒有貶低「AlphaFold貢獻」的意思。
值得注意的是,最早在這個領域開展工作的是1990年代雪鳥研討會與會者之一的加州大學歐文分校的Pierre Baldi。

他在2000年使用迴圈網路預測蛋白質接觸圖。

論文地址:https://pubmed.ncbi.nlm.nih.gov/11120677/
論文地址:https://pubmed.ncbi.nlm.nih.gov/10871264/
論文地址:https://pubmed.ncbi.nlm.nih.gov/10869034/
遠早於深度學習變得流行之前。
LeCun一句話,引人深思:
好的想法很少憑空出現。它們以某種方式傳播和改進,有時甚至難以追溯其起源。
LeCun直言,同樣,AlphaFold是一項具有巨大影響力的非凡成就,但並非孤立的貢獻。
最早在這個領域開展工作的加州大學歐文分校教授Pierre Baldi也表達了看法。
Pierre Baldi談到,深度學習在某種蛋白質結構預測中的首次應用是在20世紀80年代。
當時,是由Qian和Sejnowski針對更簡單的蛋白質二級結構預測問題開展的工作。

論文地址:https://pubmed.ncbi.nlm.nih.gov/3172241/
這樣來看,用於預測接觸圖和蛋白質結構的深度學習方法,確實比AlphaFold早了二十年。
梳理來看,仔細查閱文獻就會發現,用於預測接觸圖的深度學習方法,對圖神經網路的發展也起到了重要作用。
「早在DeepMind之前,這些方法還被用於學習如何下圍棋,而這一點DeepMind從未承認過。」Baldi指出。
Pierre Baldi直言不諱,「從長遠來看,科學關乎真理與美。而在短期內,它是一項相當骯髒的人類事務。」

LeCun補充說道,「好的想法很少憑空出現。它們以某種方式傳播和改進,有時甚至難以追溯其起源。」
同樣,AlphaFold是一項具有巨大影響力的非凡成就,但並非孤立的貢獻。
AlphaFold的成功固然值得讚譽,但正本清源,釐清其技術源流,更有助於理解AI在生命科學的深層邏輯和未來潛力。
當好的想法和研究推動社會發展時,希望更多人也能多關注核心研究背後的故事與核心人物。
正是他們的默默付出與耕耘,才有了能與大家見面的「奇蹟」的誕生,推動社會向好發展。
參考資料:
https://www.linkedin.com/feed/update/urn:li:activity:7345745870526541824/
https://www.linkedin.com/feed/update/urn:li:activity:7346665613387325442/
https://learn.microsoft.com/de-de/shows/neural-information-processing-systems-conference-nips-2016/protein-contact-prediction-from-amino-acid-co-evolution-using-convolutional-networks-graph-value
https://www.nobelprize.org/uploads/2024/11/fig2_ke_en_24-5.pdf

