單細(xì)胞數(shù)據(jù)結(jié)果提供了不同細(xì)胞類型之間的差異表達(dá)基因,這些基因參與的生物學(xué)通路決定了不同細(xì)胞類型的生物功能。因此,針對不同細(xì)胞類型的特有基因進(jìn)行富集分析,可以更好的了解每種細(xì)胞類型參與的獨特生物學(xué)功能,揭示和理解生物學(xué)過程中的關(guān)鍵分子機制。富集分析工具有GO、KEGG、GSEA和GSVA等,其中GSEA和GSVA是單細(xì)胞文章中常見的富集分析工具。
GSEA富集分析需要預(yù)先進(jìn)行樣本之間的組間對比分析,通常用于Case/Control的實驗設(shè)計,可以獲取某個通路的基因集在實驗組和對照組中的上調(diào)或下調(diào)趨勢。單細(xì)胞GSEA富集分析可以對不同比較組之間相同的細(xì)胞類型進(jìn)行分析,也可以對不同的細(xì)胞類型進(jìn)行分析。百篇文獻(xiàn)中出現(xiàn)了15次結(jié)果,結(jié)果圖如下。
這是GSEA分析中經(jīng)典結(jié)果圖的變形,X軸是實驗中的所有基因,每個黑條是該基因集中的基因,我們可以知道基因在排序列表中的位置。如果基因集位于預(yù)先排列的基因列表的頂部,則通過某種度量計算出富集分?jǐn)?shù)(Enrichment Score,ES),ES為正。如果基因集位于預(yù)先排列的基因列表的底部,則ES為負(fù)。
復(fù)現(xiàn)結(jié)果如下:
第一部分:最頂部的折線為某條通路的基因Enrichment Score的折線圖?v軸為對應(yīng)的Running ES, 在折線圖中有個峰值,該峰值就是這個基因集的Enrichemnt Score,峰值之前的基因就是該基因集下的核心基因。橫軸代表此基因集下的每個基因,對應(yīng)第二部分類似條形碼的豎線。
第二部分:類似條形碼的部分,為Hits,每條豎線對應(yīng)該基因集下的一個基因。
第三部分:為所有基因的rank值分布圖,縱坐標(biāo)為ranked list metric,即該基因排序量的值,可理解為“公式化處理后的foldchange值”。
我們可以根據(jù)項目需要選擇展示這三個部分結(jié)果,或者我們分別展示單個樣本富集結(jié)果,示例結(jié)果如下:
在GSEA分析后除了經(jīng)典結(jié)果圖的展示,我們還可以用氣泡圖的方法展示geneset被激活還是抑制。上、下調(diào)的 GO term /pathway分開展示:
除此之外,我們還可以繪制山巒圖,展示每個geneset的基因logFC分布。
基因集變異分析(Gene Set Variation Analysis, GSVA),是一種非參數(shù)并且無監(jiān)督的分析方法。對每個樣本或單個細(xì)胞按基因的表達(dá)量進(jìn)行單獨排序,然后將富集分?jǐn)?shù)的值做標(biāo)準(zhǔn)化。通過將基因表達(dá)矩陣數(shù)據(jù)轉(zhuǎn)換為基因集表達(dá)矩陣數(shù)據(jù),從而對每個樣本/細(xì)胞群的通路富集進(jìn)行分析。分析流程如下,左側(cè)輸入基因表達(dá)矩陣和基因集數(shù)據(jù)庫,中間是GSVA算法原理,右側(cè)是輸出的基因集變異分?jǐn)?shù)矩陣。基因集變異分?jǐn)?shù)可以理解為基因集內(nèi)所有基因的綜合表達(dá)值。
文獻(xiàn)中經(jīng)常出現(xiàn)的展示結(jié)果如下:
復(fù)現(xiàn)結(jié)果如下:
縱坐標(biāo)為cluster,橫坐標(biāo)為通路名稱。紅色代表著這個通路在該細(xì)胞類型中激活,藍(lán)色代表著這個通路在該細(xì)胞類型中是抑制的。
我們還可以在GSVA分析的結(jié)果上,進(jìn)行差異比較分析,展示形式是差異基因集柱狀圖。兩個cluster/cell type/group中具有顯著差異通路的富集程度;矩形越長代表富集程度越大;GSVA score值大于0代表上調(diào)的通路,小于0代表下調(diào)的通路。
GSEA和GSVA都是基于對基因的某一個值的排序來進(jìn)行富集分析。而GSEA主要是用case和control之間的差異倍數(shù)或信噪比來進(jìn)行排序,GSVA則不需要做對比,而是對每個樣本或單個細(xì)胞按基因的表達(dá)量進(jìn)行單獨排序,然后將富集分?jǐn)?shù)的值做個標(biāo)準(zhǔn)化。
以上是我這次關(guān)于單細(xì)胞轉(zhuǎn)錄組中富集分析方法的分享。