何愷明的ResNet,成為21世紀被引量最多論文,Nature最新統計

機器之心報道
編輯:+0、陳陳
《自然》雜誌統計了 5 個數據庫,給出了論文引用 Top 25 名單。
21 世紀被引用最多的論文有哪些?
大家不用去統計了,《自然》給出了一個最新 Top 25 排名。

完整排名地址:https://www.nature.com/magazine-assets/d41586-025-01125-9/50860378
排名第一的是微軟在 2016 年釋出的 ResNets 研究,這是一篇計算機視覺領域的經典論文。
ResNets 作為一種人工神經網路,是深度學習以及後續 AI 進步的基礎。這項工作最初於 2015 年底以預印本形式釋出,作者包括何愷明、張祥雨、任少卿和孫劍。ResNets 原始論文在 2016 就獲得了 CVPR 最佳論文獎。

論文地址:https://arxiv.org/pdf/1512.03385
後來 AI 領域重大進展,都深受 ResNets 的影響,包括圍棋 AI(AlphaGo)、蛋白質結構預測(AlphaFold)到後來的語言模型(ChatGPT)等。
此外,「隨機森林(Random forests (2001))」,「Attention is all you need (2017)」、「ImageNet classification with deep convolutional neural networks (2017)」也位居 top 10 榜單。
值得注意的是,以上結論是《自然》團隊選取了 5 個數據庫(Web of Science、Scopus、OpenAlex、Dimensions、Google Scholar)的統計結果,這些資料庫涵蓋了 21 世紀發表的數千萬篇論文:ResNets 在其中兩個資料庫中引用量最高,在另外兩個中排名第二,最後一個位列第三 —— 綜合來看,其引用次數的中位數排名在五個資料庫中位居榜首。
如果從單一指標來看,ResNets 並非在所有資料庫中都是引用量最高的。根據谷歌學術(Google Scholar)的資料(其團隊向《自然》提供了高引論文榜單),該論文以 25.4 萬次引用位居第二。而在美國科睿唯安公司旗下的 Web of Science 資料庫中(該庫收錄的期刊範圍較窄),它僅以 10 萬餘次引用排名第三。因而,大家需要相對來看待這次排名。
不過,21 世紀的重大突破不只是 AI 領域,希格斯玻色子的發現、引力波的首次測量等都稱得上巨大的進步,然而,這些突破性成果在 2000 年以來被引用量最高的論文中卻無一上榜。
原因為何?
接下來,Nature 這篇文章介紹了其他top 25論文以及它們成為「引用巨頭」的原因。
AI 成為二十一世紀被引用次數最多的論文
AI 教父 Geoffrey Hinton 指出,AI 論文在引用方面具有天然優勢,AI 領域與眾多領域相關聯,21 世紀以來見證了快速的技術進步和大量學術論文的湧現。
Hinton 因在 AI 領域的貢獻,去年獲得了諾貝爾物理學獎。
許多人認為,深度學習的革命性發展,特別是多層人工神經網路的廣泛實用性,得益於 Hinton 在 2012 年共同撰寫的論文《ImageNet classification with deep convolutional neural networks》。這篇論文介紹了後來被命名為 AlexNet 的網路,其在影像識別和標記競賽中表現優於其他方法,成為 21 世紀引用次數第 8 高的論文。
論文地址:https://dl.acm.org/doi/pdf/10.1145/3065386
此外,Hinton 及其合著者撰寫的關於深度學習的綜述論文排名第 16。
而 2009 年李飛飛的論文《ImageNet: A Large-Scale Hierarchical Image Database》作為訓練資料集根基,排名第 24。
論文地址:https://ieeexplore.ieee.org/document/5206848
三年後,一篇對 AlexNet 架構進行修改的論文描繪了一種稱為 U-net 的新網路,其在影像處理上更高效,現排名第 12,當時該論文差點因缺乏新意而被會議拒絕。共同作者 Olaf Ronneberger 因這一工作而加入 DeepMind,他表示,U-net 仍然是許多擴散模型中影像生成的主要基礎。
論文地址:https://arxiv.org/abs/1505.04597
2017 年,谷歌研究團隊推出題為《Attention is all you need》的論文,介紹了 Transformer 神經網路架構。Transformer 透過高效實現自注意力機制,使網路學習時能優先處理相關資訊,併成為推動類似 ChatGPT 的大型語言模型發展的關鍵。該論文是本世紀引用次數第 7 高的。
論文地址:https://arxiv.org/pdf/1706.03762
開源技術在機器學習的早期推動了其引用率的提升。《Random forests》是第 6 高引用的論文,介紹了一種最佳化的機器學習演算法。猶他州立大學統計學家 Adele Cutler 與已故美國統計學家 Leo Breiman 共同擴充套件了這一方法。Cutler 表示,該論文受歡迎的原因在於其開源、免費並易於使用,且功能卓越,無需大量定製即可執行。
論文地址:https://link.springer.com/article/10.1023/A:1010933404324
許多 AI 論文常在同行評審前以預印本形式釋出,導致引用統計複雜化。商業資料庫通常不跟蹤預印本引用,或未能將其與正式發表文章的引用合併,致使實際引用量被低估。荷蘭萊頓大學退休科學計量學專家 Paul Wouters 指出,隨著預印本引用日益普及,資料庫亟需開發新方法整合這類引用資料。
據非營利學術服務公司 OurResearch 的 Jason Priem 所述,OpenAlex 資料庫(《自然》文章的一個來源)嘗試透過合併預印本和最終版本來整合引用。而 Google Scholar 則試圖對所有版本進行分組,彙總其引用。
研究軟體
有些論文的高引用並非偶然,而是有意識為研究人員提供可引用的物件。例如,約 25 年前,藥學科學家 Thomas Schmittgen 撰寫了一篇關於定量 PCR(聚合酶鏈式反應)技術的論文。該技術用於定量分析樣本中的 DNA 含量。Schmittgen 原本引用了技術手冊中的公式分析資料,但審稿人反饋稱使用者手冊不可作為引用來源。因此,他聯絡了公式的創作者,共同發表了一篇具有引用性質的論文。
根據 Web of Science 資料,這篇論文獲得了超過 162000 次引用,使其躋身歷史引用次數最多的前十名。這篇論文因簡化了生物學家計算基因在不同條件(如藥物處理前後)下活性變化的方法而受歡迎。DESeq2 是一個可以使用該論文描述的 RNA 測序資料進行基因活性變化計算的軟體程式,其相關論文在引用榜單上排名第 18。
另一個在榜單中被高度引用的軟體論文(排名第五)由已故英國化學家 George Sheldrick 撰寫。Sheldrick 於今年二月去世,他建立了 SHELX 計算機程式套件,用於分析 X 射線透過分子晶體後的散射圖案,從而揭示分子的原子結構。在 2008 年,Sheldrick 撰寫了一篇評論文章,建議在使用 SHELX 程式時引用此文;該文章的引用次數約為 70000 至 90000 次,具體數值因資料庫而異。
統計軟體
統計軟體領域中的高被引論文通常與特定的統計或程式設計軟體相關。例如,一篇關於 scikit-learn 的論文獲得了顯著關注。scikit-learn 是一個免費開源的機器學習庫,專為 Python 程式語言使用者設計,包含豐富的預編碼函式和技術。這篇論文的引用次數超過 50000 次,根據 Google Scholar 的資料可能高達 100000 次,在引用榜單中排名第 15。
另一篇被大量引用的論文來自 2015 年,探討了 lme4 軟體包。lme4 是一個使用 R 程式語言開發的免費軟體包,用於分析特定統計模型的資料,其排名略高於前述 scikit-learn 的論文。此外,還有關於 G*Power 的論文,該軟體是一個免費工具,為生物學家提供計算實驗規模以獲得統計顯著性結果的便捷方法,也是高被引的。
然而,儘管 R 程式設計軟體被科學界廣泛使用和引用,它並未出現在這些高被引榜單中。OpenAlex 記錄顯示,描述 R 的「研究工作」獲得了超過 300000 次引用,但其他資料庫沒有相關記錄。這可能是因為 R 的開發者建議使用者引用軟體所在的儲存庫網站(www.r-project.org),而未針對其撰寫過正式的研究論文。OpenAlex 錯誤地將這些引用視作研究論文,導致該「研究工作」在 OpenAlex 引文記錄中排名靠前,卻在其他資料庫中缺席。
就引文文化和記錄的變幻無常,這個例子說明了問題。德國科學計量學家 Robin Haunschild 為《自然》雜誌的分析提供了建議。他指出:「第一課:如果你編寫了一個有影響力的程式 —— 請為它撰寫一篇論文。
參考連結:https://www.nature.com/articles/d41586-025-01125-9

© THE END 
轉載請聯絡本公眾號獲得授權
投稿或尋求報道:[email protected]


相關文章