有關KEGG的分析在很多已發表的論文中都十分常見,涉及到的方向也很廣泛,比如:代謝組、表觀組、轉錄組等等。通常得到相關的基因集或者代謝物后,我們都希望能夠快速了解它們的蛋白功能和涉及的調控機制,從而進一步鎖定接下來關注的核心基因。
KEGG富集分析就是一種很好的手段。該分析方法是由Kanehisa實驗室(Kanehisa Laboratories)在1995年開發。
?什么是KEGG數據庫??
KEGG(Kyoto Encyclopedia of Genes and Genomes)是一個包含生物信息學數據庫和相關工具的綜合性資源,旨在幫助研究人員理解生物系統的功能和組成。KEGG數據庫包含了多種生物信息學數據,包括基因組、代謝途徑、疾病和藥物等信息。主要包括以下幾個部分:
1
基因組數據庫:
包括已知生物物種的基因組序列和注釋信息。
2
代謝途徑數據庫:
包括生物體內代謝途徑的圖譜和相關基因、蛋白質等信息。
3
疾病數據庫:
包括與基因和代謝途徑相關的疾病信息。
4
藥物數據庫:
包括與基因和代謝途徑相關的藥物信息。
KEGG數據庫還提供了一系列工具和資源,如KEGG Pathway,KEGG BRITE,KEGG Orthology等,幫助我們進行生物信息學分析和研究。
進入KEGG官網的頁面后我們可以看到便捷搜索框、簡介與引用、KEGG子庫列表以及各種分析工具等。其中,KEGG PATHWAY會是我們要重點關注的部分,點擊進入后首先會看到pathway的一級分類。目前可以分為七大類,分別為:
1
代謝途徑(Metabolic Pathways):
包括碳水化合物代謝、脂類代謝、氨基酸代謝、核苷酸代謝等。
2
遺傳信息處理( Genetic Information Processing):
包括轉錄、翻譯、DNA 復制、修復等。
3
環境信息處理( Environmental Information Processing):
包括信號轉導、細胞周期、細胞凋亡等。
4
細胞過程(Cellular Processes):
包括細胞結構、細胞運動、細胞分裂等。
5
有機系統(Organismal Systems):
包括免疫系統、內分泌系統、循環系統、消化系統、排泄系統、神經系統等。
6
人類疾病(Human Diseases):
包括各種人類疾病的相關基因和蛋白質信息。
7
藥物開發(Drugs Development):
包括各種藥物的作用機制和代謝途徑等信息。
除此之外,頁面的下方我們也可以看到更為詳細的分類。KEGG目前一共有三級分類,我們常說的富集通路為第三級分類。
說到這里,大家可能會問到不同的編號有什么含義呢?或者他們的區別在哪里?
其實每個通路都由一個五位數字標識,后跟以下任意一個:map,ko,ec,rn和三字母或四字母生物代碼,它們分別代表五種通路類型:
-
map編號:代表reference pathway,根據已有的知識繪制的、概括的、詳盡的具有一般參考意義的代謝圖。一個點同時表示一個基因,這個基因編碼的酶或這個酶參加的反應
-
org編號:物種特異性通路,這里就是將K編號基因(直系同源基因,后面會介紹)換為每個物種中對應的基因
-
ko編號:KO通路中的點表示直系同源基因
-
ec編號:EC通路中的點表示相關的酶
-
rn編號:化學反應通路中的點只表示該點參與的某個反應、反應物及反應類型
這五種前綴其實都是同一張通路圖,只不過高亮顯示的內容不同。要注意的是KEGG各個通路并非完全獨立的,而是存在著普遍的聯系。而且KEGG通路的聯系一般不是單純的上下游關系,更多是重疊交錯的關系。在轉錄組、表觀組研究中我們最常見的是map編號和ko編號。
了解完KEGG數據庫的基本界面信息,我們再來認識下KEGG注釋結果和富集分析結果。以下是富集分析后最常見的兩種文件格式。
?KEGG注釋結果文件?
與富集分析不同,KEGG注釋是基于基因本身比對數據庫后給出對應的K號,K號表示基因,每個號代表的是所有物種的一個同源基因。
以“K00410”為例,通過K號的搜索也能查找到對應的通路圖。
Entry、Symbol、Name為基本信息;Pathway表示相關的map通路,點擊map號可顯示對應通路圖;Module表示包含這個KO條目的KEGG模塊,點擊鏈接后在模塊map中相應的KO矩形會被標記為紅色;Brite代表了遵循KEGG通路層次結構的KO系統的分級分類,以及BRITE數據庫中的其他分類;Other DBs鏈接到KEGG REACTION,以及COG,GO和其他分類系統;Genes表示KEGG組織中屬于這個KO組的基因;Reference、Authors、Title、Journal 為該通路圖的參考文獻信息。
KEGG富集分析的結果文件
通過目的基因集和背景文件,完成富集分析后我們會得到下方格式的結果文件。
ID :KEGG pathway ID
Description :KEGG Pathway ID 的描述
GeneRatio :本次富集實驗注釋到該 KEGG Pathway 的基因數/本次富集實驗注釋到 KEGG Pathway 數據庫的基因總數
BgRatio :基因組中能注釋到該KEGG Pathway的基因數/基因組中能注釋到 KEGG Pathway數據庫的基因總數
pvalue :富集P value (本表格中保留 3 位小數)
p.adjust :校正后的P value (本表格中保留 3 位小數)
qvalue :富集Q value (本表格中保留 3 位小數)
geneID :富集的基因名稱
Count :富集的基因個數
一般來說,通過Description列對于通路的描述可以快速鎖定與研究目的相關的通路和基因。但有些通路的簡單描述可能并不能滿足老師的需求,此時就需要我們關注ID,即結果第一列的KEGG map號,“00190”=“map00190”。
這里我們以map00190為例,通過KEGG官網輸入map號再Search可以得到更為詳盡的map通路信息。
-
關于導航欄:
-
scale拉動可以調節右側圖片大小
-
用來通過ID或別名搜索map中對象,并可顯示基因對應的ko號
-
可通過多個ID 和KEGG標識符搜索map中對象
-
按照模塊選擇代謝途徑
-
光標移至圖中任意圓圈顯示對應的C number/化合物,方框顯示ko number/基因名稱,圓角矩形顯示的是另外的通路圖。
注:圖中我們可以標注出感興趣的蛋白、mRNA或者酶等等,標注后的圖片點擊上方Download即可下載。點擊“Change pathway type”可切換每種通路類型以及對物種進行選擇。
KEGG通路圖本質是一副線框圖,即由點和線構成的基因-代謝物關系圖。圖中的方框、箭頭、圓圈等也分別代表著不同的含義,關系類型可以分為蛋白-蛋白互作關系,基因表達關系和酶-酶關系。要注意的是KEGG通路圖之間并非孤立的,而是常常會標注該通路中的基因或代謝物來自或流向其它相關的通路。
富集分析常見結果圖
使用KEGG數據庫分析后,結果如何可視化呢?這里有些例子供大家參考。
......
其中大部分圖通過愛基百客云平臺即可實現無代碼完成,真正的小白福音,歡迎咨詢哦~
相關教程:富集分析不求人,零代碼可視化GO/KEGG分析結果