海歸學者發起的公益學術平臺
分享資訊,整合資源
交流學術,偶爾風月

論文的可重複性一直是困擾學術界的頑疾之一,如果太多宣稱取得了非凡進展的論文卻無法被複現,那要如何確認進步的存在呢?無法復現論文有可能是假設本身有問題,也有可能是資料披露不足,但更有可能是實驗方法說的太模糊。雖然很多研究者強調需要加強資料共享,但是另一些研究者認為,方法描述太過模糊可能更嚴重:就像僅憑一份菜譜,不同的人很難做出同樣的菜餚,原因是在操作中的細節和變數太多。

2021年發表在elife上的一篇論文中,來自美國弗吉尼亞大學、美國開放科學中心和美國科學交流署的研究團隊試圖複製一批高影響力的癌症生物學論文,但是從一開始就遇到了許多困難:復現實驗所需的方法細節難以獲得。
最初選擇的53篇論文中提到的193個實驗都沒有足夠詳細的描述,透過種種努力,只能重複了23篇論文重的50項實驗。對於其他連實驗設計都無法開始的論文,他們努力聯絡原作者尋求協助,“經過數週時間和數十封電子郵件”的拉鋸戰後,依然有41%的作者“幾乎沒有提供有效的幫助。”
雖然很多人從其他方面,比如對研究人員“究竟想幹什麼”表示質疑,但是整個過程似乎揭示了一個嚴峻的事實:不完整的方法部分是可重複性的主要障礙。根據PLOS Biology上最近發表的一項研究,更糟糕的是“快捷引用”:引用另一篇論文而不是完整的描述實驗方法。
理論上,快捷引用是有效而且可能是高效的,畢竟如果之前有團隊已經非常詳細地描述了一種特定的實驗操作方法,為什麼還要花費時間和寶貴的版面空間來把它再寫一遍呢? 還有一個好處是,引用已有的論文可以避免任何潛在的抄襲指責。那麼將這種理論上沒問題的辦法應用於實踐效果如何呢?
研究人員系統地分析了神經科學、生物學和精神病學領域的750篇論文,發現超過90%的論文使用了快捷引用。然而當他們試圖追蹤15篇論文引用的文獻時,他們發現一些引用資訊是不完整或不準確的,無法找到原始論文。還有一些論文太古老了,以至於團隊找不到pdf或線上版本。此外,許多被引用的作品都包含快捷引用,這迫使研究人員像玩解謎遊戲一樣一層一層的跟著引用去找到更早的引用,以找到最原始的方法描述。此外,幾乎所有被引用的論文都是收費的。

《達芬奇密碼》劇照
更不用說,追蹤相關論文並不能保證找到對這些方法的足夠詳細的描述。研究人員發現,在他們研究的465種期刊中,只有不到一半的期刊明確要求作者提供足夠的資訊以供復現。在上述研究涉及的領域中,大約四分之三的期刊對方法描述沒有任何規定。
Science雜誌的高階編輯Michael Funk說:“我知道很多人認為,‘這只是方法的問題’,因此直接解釋或引用被引用論文的方法並不那麼重要。” Science雜誌為作者提供了一份清單,讓他們在評審過程中填寫,其中規定了所需的方法細節。但是Funk說,Science雜誌並沒有定期檢查他們的方法所引用的論文是否開放獲取或包含快捷引用本身。他說:“我認為還有很多事情可以做。”
實際上對方法描述的忽略可能比研究者所關注到的更普遍,就在近期,DeepMind 的 AlphaFold 團隊在Nature上發表了一篇重磅論文,宣佈了預測工具AlphaFold3的問世,它不僅可以預測蛋白質複合物的結構,還可以預測蛋白質與其他型別分子(包括 DNA 和 RNA)的相互作用。但是與之前的二代工具論文不同,這次AlphaFold 團隊並沒有公佈底層程式碼,只是釋出了“虛擬碼”——對程式碼可以做什麼以及它如何工作的詳細描述。

圖源:AlphaFold Server Demo
此舉讓很多科學家感到失望,他們認為這樣的做法使他們無法驗證新工具的有效性和可靠性,就在上述論文發表的兩天後的5月11日,加州大學舊金山分校的計算結構生物學家Stephanie Wankowicz,和其他九位科學家共同撰寫了一封致Nature的公開信,認為DeepMind的這種做法不符合科學進步的原則,Nature也沒有嚴格執行自己制定的政策,比如“作者必須及時向讀者提供材料、資料、程式碼和相關協議……任何導致不需要共享程式碼或演算法的原因都將由編輯進行評估,如果重要程式碼不可用,編輯有權拒絕該論文。”DeepMind 的研究副總裁 Pushmeet Kohli 的回應是:會在6個月內釋出AlphaFold3模型的全部程式碼。
這個回應顯然沒有讓公眾滿意,很多科學家呼籲相關領域的專家出來破解AF3,而另一些開發類似工具的公司則將其視為有利的市場機遇,投入更多資源加速訓練更好的模型。有評論指出,AF2的蛋白質資料來源之一是歐洲分子生物學實驗室旗下的歐洲生物資訊學研究所,這是由英國政府資助的公共機構,那麼AF2開源可能就是必須的。但是AF3側重於蛋白質與其他物質的相互作用,旨在加速藥物的開發,主要合作者 Isomorphic Labs則是谷歌母公司 Alphabet 所有的藥物公司,所有資料和成果理論上都是私人的。那作為科學成果在Nature發論文和作為商業機密協助兄弟單位加速藥物開發,孰輕孰重呢?
如果有論文使用AF3成功的預測了某些特殊分子的性質,其方法論部分則引用了AF3的論文,但是重複論文的科學家卻無法使用這個工具,這個“無法復現”的鍋應該誰來背呢?
對此您怎麼看,不妨留言與大家分享。
