康方生物的PD-1/VEGF 雙抗(AK112)是一款挑戰K藥的抗癌藥,最近宣佈了一項與K藥“頭對頭”臨床試驗結果的更新,但是在美國的相關公司Summit,股票隨之大跌36%,交易一度停盤。

究竟發生了什麼事?很顯然,股價下跌,是因為試驗結果不及預期。根據官方的報道:
依沃西“頭對頭”帕博利珠單抗的隨機、雙盲、對照III期臨床研究(AK112-303/HARMONi-2)中獲得的顯著陽性結果:在ITT人群中,依沃西組和帕博利珠組的中位無進展生存期(PFS)分別為11.14個月和5.82個月,PFS HR=0.51(P<0.0001),依沃西治療組的疾病進展/死亡風險降低49%;在ITT人群中,在39%成熟度時進行的總生存期(OS)的期中分析(本次分析α分配值僅為0.0001)結果顯示,依沃西對比帕博利珠單抗具有顯著的臨床生存獲益,HR=0.777,降低死亡風險22.3%;
這裡提到臨床試驗結果達到 “39% 的成熟度”,這到底啥意思?
臨床實驗中的總生存資料 OS ,是指從試驗開始至某個時間內患者的生存時間或生存率。不管參試者因任何原因導致死亡,都要統計進來評估OS資料。
對於腫瘤治療來說,OS是評估藥物或治療方案有效性的關鍵指標,能直接反映患者在接受治療後的整體生存情況,是衡量治療效果的重要依據。
很顯然,評估OS的時間不能無窮長,因為時間能解決一切,也能解決一切人。腫瘤患者平均年齡60左右,若要比較30年OS,不管是哪一組參試者,OS都趨近於零了。
OS也並非等同於治療時間。隨著藥物的效果越來越好,患者實際治療時間或許僅為一兩年,但為全面、精準評估藥物或治療方案對患者生存的長期影響,往往需要觀察其五年甚至十年的生存率。
腫瘤患者的“生”是醫生和患者都希望發生的事情,但是參試者的“死”卻是臨床試驗需要記錄的結果,生和死確實都是讓人糾結的事。
為了不那麼殘忍,臨床試驗的報道中會使用“生存事件”這個詞,但是懂的人都懂,每出現一個“生存事件”,就意味著有一個參試者去世了。
資料充分,才會有一個明確的試驗結果。所以,這就有了臨床試驗“成熟度”的問題。
所幸的是,因為有統計學的幫助,一個臨床試驗達到“成熟”,並不需要所有參試者都發生“生存事件”。
只要一定數量的參試者發生“生存事件”,能夠在統計學上區分治療組和對照組的療效,臨床試驗就達到了100%成熟。
因此可以肯定,臨床試驗達到 “39% 的成熟度”,並不是說參試者有39%已經發生“生存事件”。
到底是多少?這取決於試驗的預期,如果預期需要60%的參試者發生“生存事件”才能達到統計學的顯著性,那麼“39%的成熟度”便等同於只有24%的參試者出現“生存事件”。 (60% * 39% = 24%)
寫到這,不得不感嘆一下:統計學真重要!
不懂統計學,你看到別人贏了彩票,便覺得自己也能贏彩票!
不懂統計學,你看到美國有一個傻B,便覺得美國都是傻B!
不懂統計學,你也看不懂臨床試驗。
怎樣判斷統計學上是否有顯著區別?這就不得不提到科研界常用的P 值。
咱們平時說的P值 = 0.05,對應的是5%,直白的解讀,是結論有95% 的可能性是正確的。在科學研究裡,只要 P 值≤0.05,就可以認為兩組資料(比如用藥組和對照組)之間存在“顯著差異”,也就認為藥物是有效的。(這可能是從小便要求考試必拿100分的人難以接受的)
因為這個P 值很重要,判斷臨床試驗是否有效,也就成了“P大的事“!
問題來了,P 值 0.05,這是在臨床試驗OS資料完全成熟之後的統計學標準。在臨床試驗沒有完全成熟之前,是否可以透過統計學的方法判斷顯著性?
比如康方生物這次臨床試驗成熟度才 39%,資料還遠遠不夠完整。就像拼拼圖,只拼了一小部分,這時候下結論很容易出錯。怎麼辦呢?
答案是提高P值標準!常規 P 值0.05 這時候已經不夠用了,必須把結論的準確性大幅提升。新聞稿裡提到的 “assigned p value”(中文翻譯成 “分配值”不太準確,叫 “指定 P 值”更合適),把 P 值定到了0.0001以下!這意味著結論在統計學上要有99.99% 的準確性,才能保證即便未來所發生的“生存事件”會影響試驗結果,也不會顛覆整體的結論。
我們可以用高考打個不太恰當的比分。假設去年北大的錄取分數線是700 分,如果今年高考700分,那麼可能有 95% 的機會能上線。
但是,如果還沒到高考,只是一個模擬考,可否判斷高考分能上線呢?也不是不可以,但可能得把考分提高到 800 分。要是模擬考能考到800 分,說明你實力很強,有 99.99% 的可能性在高考中也能取得好成績,順利考上北大。
如果模擬考還只是700分,那麼真正高考時的成績波動,可能就上不了北大分數線了。
因為這個標準是提高了,要是表達成“這次的模擬分數線僅為800分”,是不是感覺很奇怪?
康方生物新聞裡還有一個數據,是HR值(風險比)。目前所報道的HR 值是 0.777,意味著與對照組K藥治療相比,發生“生存事件”的風險降低了 22.3% (1 – 0.777 = 0.223 = 22.3%) 。
有人說SMMT股票掉,是因為這個HR值不夠好,只有0.777。這又是一個不專業的解讀。
HR值超過1肯定是不好的,那意味著治療組比對照組有更多的折損。
但是HR值低於1值算不算好?不能只看HR值本身,還要看這個值的可行度有多少,也要看P值是多少。
如果從統計上來看,雖然HR 是0.77,但是波動範圍可能是 0.3 -1.2,那這個HR值就是不可信的。
到底HR值是否可信,取決於在目前的成熟度下,P值是否<0.0001。所以,這還是P大的問題。
隨著臨床試驗資料的完善,治療組可能比對照組更少一個“生存事件”,也可能會更多一個“生存事件”, HR 值也就會出現波動。但如果P< 0.0001,那麼這個波動區域99.99%的可能性都不會超過1,也就是說治療組會有更好的效果。
很多人覺得SMMT股票掉得一頭霧水,可能是因為很多報道里大談目前分配的P值是0.0001,談得好像目前的結果已經達到了0.0001。這是被誇誇其談的人或者人工智慧帶偏了。
這正如說模擬考的分數線是800分,跟模擬考考了800分是兩個完全不同的概念。
我仔細看了官方的新聞,並沒有說目前的p值具體是多少。但是可以推理出的是,它一定達不到0.0001的標準!如果達到了這個標準,那麼統計學上就有顯著性了。
P值到底是多少?未來在完整報道資料的時候,一定會出來。
在這個不確定的世界裡,可以確定的事,AK112是否能挑戰K藥成功,一定會有一個說法。
但給出這個答案的時間不是現在。
模擬考沒有達到800分,並不等於正式高考就不能考700分。
這事說清楚了嗎?

(作者:張洪濤,筆名“一節生薑”,著有科普讀物:《吃什麼呢?——舌尖上的思考》,《如果舌尖能思考》。可以談最前沿的醫學研究,也可以講最通俗的故事。本文僅作為醫學常識性科普,不作為任何醫療建議。若有不適,請儘快就醫,遵醫囑對症治療)