KEGG是什麼身份,總讓它GO?

Hi,大家好啊,我是獼猴桃老師,歡迎來到獼猴桃生信圖表課堂。今天給大家帶來GOKEGG分析圖的講解~
現在開啟任何一篇測序文章或者生信文章,GOKEGG幾乎是必備圖表了,但是很多人對GOKEGG也只是一知半解。
那GOKEGG到底是怎麼一回事呢?又是如何繪製的呢?
一起來看看吧!
學習思路
01
GO和KEGG富集分析透過對基因的功能和作用的通路做註釋,透過比較樣本中差異表達的基因與整個基因組的背景,我們可以確定哪些功能和過程在疾病中顯著富集。
基因表達資料告訴我們在不同樣本中,哪些基因的活動水平發生了變化。
然後我們透過富集分析發現這些活動水平發生變化的基因與免疫系統功能相關的基因集合顯著富集。
通俗地講,就是根據你和你的好朋友平時喜歡去哪裡玩來推斷你的性格。
比如你有20個好朋友,你會經常和其中的15個一起去植物園,那就可以認為你是一個比較熱愛大自然的人。
同樣的道理,可以根據差異表達基因富集到哪些GO類目和KEGG通路來推測對應基因的功能。
定義:取一部分有功能註釋的分子與所有有功能註釋的分子進行比較,確定這一部分分子中都涉及了哪些功能作用。
GO(Gene ontology)資料庫:包括生物過程(biological process, BP)、細胞組分(cellular component, CC)、分子功能(molecular function, MF)三部分。
KEGG(Kyoto Encyclopedia of Genes and Genomes)資料庫:一種通路資料庫,收集了很多通路相關的資料庫。
實現功能:GOKEGG 富集分析,深入瞭解基因參與的生物過程和功能,為進一步的實驗設計提供有力支援。在實際應用中,可以使用許多開源軟體和線上工具來執行 GO/KEGG 富集分析。
閾值設定:GOKEGG常用的篩選標準p.adj<0.05 FDR<0.25 (p.adj是校正後的p值,FDR:False Discovery Rate錯誤發現率,也被稱為q.value)。
應用組學:基因組,轉錄組,蛋白組。
目的:透過將一組基因與功能註釋資料庫中的函式和通路進行比較來識別基因功能的富集情況,從而提供有關基因參與特定生物過程的資訊。
掃描下方二維碼
免費領獼猴桃老師直播課+工具
輕鬆拿下3~5分SCI
助力你順利畢業晉升
👇👇👇
圖解
02
GOKEGG分析在文獻中一般有三種常見展現形式,第一種是表格,第二種是柱狀圖,第三種是氣泡圖。一般原始資料就是表格的形式,可以利用表格的資料進一步視覺化繪製柱狀圖和氣泡圖。
表格
ONTOLOGY:類目,包括 BP、CC、MF、KEGG。
ID:對應的功能或者通路的ID編號,由資料庫給定。
Description:對應的功能或者通路的名字,詳細資訊。
GeneRatio:輸入的分子與對應ID條目內分子的交集總數/輸入的分子與庫內(BP、CC、MF 和KEGG 都是分開的註釋庫)總的有功能註釋的分子的交集總數。
BgRatio:對應ID條目內分子總數/庫內(BP、CC、MF和KEGG都是分開的註釋庫)總的有功能註釋的分子的交集總數。
pvalue:超幾何分佈檢驗統計的p值。
p.adjust:透過p值校正方法得到的校正後的p值。
qvalue:透過p值校正方法得到的校正後的q值,也稱為FDR,代表錯誤率。
geneID:輸入的分子(經過ID轉換後)與對應ID條目內分子的交集的具體的分子 ID。
Count:輸入的分子(經過 ID 轉換後)與對應ID條目內分子的交集總數。
柱狀圖:
橫座標:GeneRatio:這裡是一個分數,分子是富集到這個GO條目上的gene的數目,分母是所有輸入的做富集分析的gene的數目,可以是差異表達分析得到的gene。GeneRatio 的值越大,表示該功能或通路在富集基因中出現的頻率較高,相對於總體基因集合而言更顯著。反之較低,或者可能不具有顯著富集。
縱座標:BP分類下的不同pathway,功能。
圖解:圖中可以看到富集在不同function中的基因數量,柱的長度越長,富集在該pathway的基因數量越多;柱的顏色代表P值,P值越小,富集越可靠。
如果是氣泡圖的話,圓圈大小表示富集的基因數目多少。其他和柱狀圖都比較類似。
GO/KEGG還可以用圈圖和絃圖展示,但是不常用,這裡放了兩個圖,大家在文獻中遇到了需要認識。
Tips
GOKEGG分析的侷限性
  1. 資料質量:分析結果受基因組資料質量的影響,低質量的資料可能導致分析結果不準確。
  2. 資料更新:KEGG資料庫的更新可能導致分析結果的變化,因此需要定期更新資料庫以獲取最新的資訊。
  3. 生物學解釋:分析結果需要結合生物學背景進行解釋,有時候結果可能需要進一步的實驗驗證才能得出準確的結論
掃描下方二維碼
免費領獼猴桃老師直播課+工具
輕鬆拿下3~5分SCI
助力你順利畢業晉升
👇👇👇
繪製與詳解
03
生信圖表的繪製一直都是很多剛入門的新手會頭疼的問題。
不知道怎麼做圖?拿著資料手足無措?
這就來教你解決
讓我們先來看如何使用仙桃工具做GOKEGG分析吧~
對於分析結果表格的詳細解讀也不能錯過哦~
接下來就是繪圖部分啦,我們用了氣泡圖來做例子哦~
從讓大家記住學會的角度出發,建議先登入網站自己繪製一次,然後再參照影片比對一下自己的繪製過程是否一致哦!
看圖實戰
04
今天的文獻例項給大家帶來了兩種不同的GOKEGG視覺化圖表的型別:氣泡圖和柱狀圖。希望大家可以掌握這兩種基礎圖表~
示例一
Qian et al. (2023) Nat Commun. Fig 6k.
圖6k. C4 亞群差異表達基因顯著富集的GO通路
圖中元素解釋:
橫軸表示p-value值的負對數,縱軸表示C4富集的條目,其中氧化磷酸化被富集的條目最顯著。
另附原文描述:
圖注
Figure6k. Significantly enriched gene ontology (GO) pathway terms for the differentially expressed genes of the C4 subpopulation. P-value is calculated with the hypergeometric test.
結果
In addition, pathway enrichment analysis demonstrates that C4 has higher activity in oxidative phosphorylation, proton transmembrane transport, energy metabolism, oxidative stress, and MHC class II antigen processing and presentation pathways (Fig. 6k), suggesting that the C4 subpopulation may be highly and aberrantly activated32 and thus play a key role in the process of COVID-19.
示例二
Wu et al. (2023) Theranostics. Fig3 B
圖3B差異基因的KEGG分析
圖中元素解釋
該圖展示了KEGG通路的分析,其中橫座標表示p-value值取log10的負數,縱座標表示富集的KEGG條目,紅色表示的是作者認為有研究價值的條目。圓圈大小表示基因數目,顏色深淺表示FDR取負對數。此圖中,最被顯著富集的通路是核小體。
另附原文描述
圖注
Figure 3. Ferroptosis resistance contributed to pleural metastasis in lung cancer. (B)KEGG pathway of DEGs.
結果:We identified that several cancer related pathways, including “Bladder cancer”, “Ferroptosis”, and “Pathogenic Escherichia coli infection” were associated with the LCP group in intersecting KEGG and Wiki pathway analysis (Figure 3B and Figure S4C).
學習總結
05
今天我們介紹的GOKEGG分析是可以用來計算基因在特定通路或機制上的富集度量值。透過結合差異表達基因分析和進行綜合分析。有助於更進一步瞭解基因的功能及其在生物系統中的作用。

課堂要點

GOKEGG分析是一種富集分析方法,它基於GO和KEGG兩大資料庫,對基因在生物過程、細胞組分、分子功能以及通路中的富集程度做判斷。從而深入瞭解基因的功能及其在生物體內的作用機制,為疾病診斷和治療提供有力的支援。
學會了GOKEGG的圖表解讀,是不是今天又對生信瞭解了更多一點點?
關於生信學習,生信課題設計,生信發文等等問題,都可以選擇來諮詢我們~~

掃描下方二維碼

免費領獼猴桃老師直播課+工具
輕鬆拿下3~5分SCI
助力你順利畢業晉升
👇👇👇

相關文章