關注👆,讓科研和SCI論文成為臨床工作的副產品。
近年來,學術界面臨一個日益嚴重的問題:低質量論文數量激增,尤其是在利用公共資料集和人工智慧(AI)技術的情況下。
據Science雜誌2025年5月14日報道,英國薩里大學統計學家馬特·斯皮克(Matt Spick)在擔任Scientific Reports副主編期間,注意到大量利用美國國家健康與營養考察調查(NHANES)資料的低質量論文湧入。這些論文不僅質量低下,還可能由“論文工廠”推動,並透過AI生成文字輔助完成,威脅學術研究的真實性和可靠性。
Spick分析了這一現象的背景、原因、影響及應對措施【1】。
NHANES是一個公開的美國健康資料集。
包含超過13萬人的健康檢查、血液檢測和訪談資料,涵蓋飲食習慣及其他健康相關資訊。
Spick觀察到,自2022年起,利用NHANES資料的論文數量急劇增加。他在PLOS Biology發表的研究顯示,2014年至2021年間,此類論文年均發表量僅為4篇,但2022年激增至190篇(截至2024年10月)。
這些論文通常遵循固定模式:選擇一種健康狀況、一個可能相關的環境或生理因素,以及特定人群(如研究65歲以上男性維生素D水平與抑鬱症的關係,或18至45歲女性牙齒健康與糖尿病的關係)。
Spick形容,這種模式像是“研究填空遊戲”,透過不斷替換變數生成新“發現”。
Spick對這個現象的原因進行了分析
-
公共資料集的易獲取性NHANES等大型公共資料集為研究提供了便利,允許研究者使用已知方法和簡單程式語言(如Python或R)處理資料。然而,這種便利性也被濫用。Spick團隊透過簡單程式碼即可從NHANES提取資料並生成多種疾病與健康變數的組合,顯示出資料被“工業化”利用的可能。
-
人工智慧的助力自ChatGPT等AI聊天機器人廣泛應用以來,生成可讀文字變得更加容易。研究推測,論文作者可能利用AI改寫NHANES研究結果,以規避抄襲檢測。這種技術降低了論文生產的成本和難度,助推了低質量論文的激增。
-
論文工廠的潛在作用論文工廠是出售論文署名權的商業實體。儘管無法直接證明這些NHANES論文來自論文工廠,但激增的規模和時間點(與AI普及同步)暗示背後可能存在某種協調行為。(Spick顯然不知道,國內有幾個培訓團隊做NHANES的挖掘)
-
學術激勵機制的缺陷當前學術評價體系更注重論文數量而非質量,促使研究者追求快速發表。此外,開放獲取期刊通常收取1000美元左右的發表費用,這為低質量論文的發表提供了經濟動機。
這些研究論文的影響分析
-
虛假髮現的增加Spick團隊發現,許多NHANES論文選擇性分析資料(如限定特定年份或年齡段),以追求統計顯著性結果。這種“資料釣魚”行為導致大量虛假陽性結果。例如,在28篇研究抑鬱症的NHANES論文中,僅13篇結果在校正虛假陽性風險後仍然成立。這些虛假髮現不僅誤導學術界,還可能影響公共健康政策的制定。
-
學術資源的浪費低質量論文充斥學術文獻,增加了同行評審和期刊編輯的工作負擔,擠佔高質量研究的發表空間。斯皮克表示,這種“工業化”研究淹沒了有價值的發現。
-
信任危機低質量論文的激增損害了學術界的公信力,可能導致公眾對科學研究的不信任。
其他資料集也存在潛在風險
Spick指出,NHANES並非唯一易受濫用的資料集。
其他大型健康資料集,如全球疾病負擔研究(Global Burden of Disease),同樣可能被類似方式利用。
此外,遺傳學、文獻計量學和性別差異研究等領域也出現了類似的論文激增現象,顯示出問題的普遍性。
應對建議
-
改進資料使用規範公共資料集的管理機構應制定更嚴格的使用指南,要求研究者說明資料選擇和分析的合理性,以減少隨意性分析。
-
加強同行評審期刊應提高對利用公共資料集論文的審查標準,警惕模式化研究和統計濫用。開發自動化工具檢測AI生成文字或異常發表模式也可能有所幫助。
-
改革學術激勵機制學術機構和資助方應調整評價體系,重視研究質量而非數量。例如,可透過獎勵可重複性和原創性研究來激勵高質量產出。
-
打擊論文工廠學術界和出版機構需合作追蹤和打擊論文工廠,可能透過跨國合作和法律手段切斷其經濟鏈條。
-
提高AI使用的透明度要求研究者披露AI工具在研究中的使用情況,並制定相關倫理規範,以防止AI被濫用於學術欺詐。
編者按:
利用公共資料集和AI的低質量論文激增現象,暴露了學術研究在資料開放、AI普及和激勵機制方面的雙刃劍效應。這一問題不僅導致虛假髮現和資源浪費,還可能動搖學術界的公信力。
解決這一問題需要多方協作,包括改進資料管理、加強同行評審、改革激勵機制和打擊論文工廠。只有透過系統性變革,學術界才能維護研究的真實性和科學進步的可持續性。
可能很多朋友也好奇,到底是誰在用NHANES資料庫?
美國Healsan利用Healsan™醫學大資料分析系統做了解析。
1,目前利用美國NHANES資料庫已經發表了17515篇Medline收錄的論文,其中2024年就發表了3746篇,果然出現了爆發。

2,利用美國NHANES資料庫發表論文的國家中,中國學者發表了第二多的論文,高達7596篇。

3,利用美國NHANES資料庫發表論文最多的前十個機構中,第一位是四川大學、第二位是首都醫科大學、第三位是中南大學。

4,利用美國NHANES資料庫發表論文最多的前十個醫院,第一位是華西醫院、第二位是吉林大學第一醫院、第三位是南京醫科大學第一附屬醫院。

參考文獻【1】 O’Grady, C. (2025). Low-quality papers are surging by exploiting public data sets and AI. Science.【2】 Spick, M., et al. (2025). Surge in low-quality NHANES studies. PLOS Biology.
作者:Dr. Mark。助理:GROK 3
美國Healsan Consulting(恆祥諮詢),專長於Healsan醫學大資料分析(Healsan™)、及基於大資料的Hanson臨床科研培訓(HansonCR™)和醫學編輯服務(MedEditing™)。主要為醫生科學家、生物製藥公司和醫院科研處等提供分析和報告,成為諸多機構的“臨床科研外掛”。
網址:https://healsan.com/
點選👆;From Bench to Bedside, Healsan Paves the Path.
▼ 臨床科研技巧及文獻更新。
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
更多精彩,點選左下角“閱讀原文”。