
Bringing medical advances from the lab to the clinic

今天下午,我們在做對照檢索時發現了一個令我們狂喜、但也令人震驚的問題。
在回答我們提到的“中國醫生申請美國綠卡”的問題時,DeepSeek引用的內容中,竟然有約1/3是我們原創的的來源。
自己的文章有如此影響力?!令人狂喜吧?
但當我們追溯來源連結時,卻指向了國內的一箇中介機構。而且,他們直接抄襲我們的公眾號推文,只是把機構換成了自己的名字。


(上述紅框的內容,基本都是源自我們原創的推文)
我們原創的內容,被DeepSeek高比例引用,令人興奮;
我們原創的內容,被不良機構大量抄襲,又令人震驚。
大資料模型受網上資訊影響太大了!!!
作為收集完整的多個原始研究論文資料,並整合、重新進行分析的方法學,meta分析有利於克服原研資料樣本量小而容易偏倚的短板。
但meta分析本身也有短板,就是“如果用於分析的原始研究資料是垃圾,那麼meta分析出來的結果也必然是垃圾”。
在當時,這個問題尚不顯著。
但2024年,美國國立衛生研究院(NIH)發出通知,如果有科學家想對已經發表的重要研究資料進行重複驗證,NIH可以提供經費。
這是因為,NIH一項針對臨床試驗的meta分析中,發現用於分析的原始資料中不可靠比例如此之高,直接導致其meta分析結果出現嚴重偏差。如果剔除低質量期刊的原始資料論文,只採用高質量期刊論文的資料,則meta分析結果顯然更準確。
回到大語言模型。
大語言模型(如ChatGPT)回覆問題的準確性,顯然與其獲得的原始資料來源相關。當資料來源質量低的時候,大語言模型就出現低質量的回覆;當其採信的資料來源是錯誤的時候,大語言模型的回覆很可能也會是錯誤的。
結合我們今天遇到的例子。
如果張三試圖影響大語言模型的答案,則在其網站上放很多不常見的B問題的討論和答案(這些答案是張三特意扭曲編輯的);但大語言模型搜尋的時候,因為針對B問題的答案很少,所以很可能集中採信張三放在網上的內容。
這可能是很嚴重的問題。
比如對於一突發事件,可能馬上就有人可以用這種方法,影響大語言模型的輸出結果。。。
關注我們,一起探索應用人工智慧提高工作效率的道路!
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |