在基因組變異中,拷貝數(shù)變異(CNV) 是癌癥的重要遺傳驅(qū)動因素 。CNV 是基因組事件,其中特定基因的拷貝數(shù)因個體而異,甚至因細(xì)胞而異。腫瘤細(xì)胞與導(dǎo)致基因擴(kuò)增和基因缺失的體細(xì)胞CNV變化有關(guān)。然而,由于缺乏單細(xì)胞全基因組測序,很難在單細(xì)胞中檢測和量化CNV事件。相比之下,單細(xì)胞RNA測序技術(shù)的快速發(fā)展能夠獲得單細(xì)胞整個基因表達(dá)譜的數(shù)據(jù),然而在單細(xì)胞中確定 CNV 非常具有挑戰(zhàn)性。由于基因表達(dá)的不均勻覆蓋和動態(tài)變化,推斷CNV的方法面臨困難。但是,現(xiàn)在也已經(jīng)開發(fā)出一些算法針對scRNA轉(zhuǎn)錄組數(shù)據(jù)推斷CNV事件,其中,inferCNV是一個常用的從腫瘤單細(xì)胞RNA-Seq數(shù)據(jù)推斷拷貝數(shù)變化分析的工具,用于識別數(shù)據(jù)中的惡性細(xì)胞。R包inferCNV源于2014年發(fā)表在science上的一篇文章,后由broad研究所開發(fā)而成。下圖為inferCNV整體分析過程。
infercnv用于探索腫瘤單細(xì)胞RNA-Seq數(shù)據(jù),以確定體細(xì)胞大規(guī)模染色體拷貝數(shù)改變的證據(jù),例如整個染色體或染色體的大片段的增加或缺失。在整個基因組范圍內(nèi),將每個腫瘤細(xì)胞基因表達(dá)與平均表達(dá)或“正常”參考細(xì)胞基因表達(dá)對比,通過熱圖的形式展示每條染色體上的基因相對表達(dá)量?梢灾庇^看出,相對于正常細(xì)胞來講,腫瘤細(xì)胞基因組會發(fā)生大規(guī)模的過表達(dá)或者低表達(dá)。infercnv提供了幾個殘余表達(dá)過濾器,以探索最小化噪聲并進(jìn)一步揭示支持CNA的信號。此外,infercnv還包括預(yù)測CNA區(qū)域和根據(jù)異質(zhì)性模式定義細(xì)胞簇的方法。
百篇文獻(xiàn)中近20%的文獻(xiàn)中用到了該分析,常見的結(jié)果展示圖如下:
以下是我們復(fù)現(xiàn)結(jié)果:
這是初步的infercnv 結(jié)果,未經(jīng)過denoise或HMM(隱馬爾科夫模型,HiddenMarkov Model)。正常細(xì)胞的表達(dá)值繪制在頂部熱圖中,可能具有惡性的細(xì)胞繪制在底部熱圖中,基因在整個染色體上從左到右排列。通過有效地從惡性細(xì)胞表達(dá)數(shù)據(jù)中減去正常細(xì)胞表達(dá)數(shù)據(jù)以產(chǎn)生差異,其中染色體區(qū)域擴(kuò)增顯示為紅色塊,而染色體區(qū)域缺失顯示為藍(lán)色塊。
下圖為inferCNV最終產(chǎn)生的去噪后的熱圖。熱圖展示每個細(xì)胞在各個染色體區(qū)域的相對表達(dá)強(qiáng)度,上方熱圖代表參考細(xì)胞的展示結(jié)果,下方熱圖代表目標(biāo)細(xì)胞的展示結(jié)果。圖中每一行表示一個細(xì)胞,每一列表示一個基因。熱圖左邊第一個圖注代表聚類數(shù)目,只有一個時表示沒有聚類,左邊第二個圖注代表細(xì)胞類型,上方圖注為對應(yīng)排列的染色體。紅色表示CNV 擴(kuò)增,藍(lán)色表示CNV 缺失,顏色越深代表CNV變異越明顯。
以上為inferCNV分析展示一二,其實結(jié)果中還有很多數(shù)據(jù)信息,比如我們可以提取inferCNV分析結(jié)果計算CNV score, 用箱型圖或者小提琴圖畫不同組或者細(xì)胞中的cnv結(jié)果,用于比較不同的細(xì)胞群或者不同的樣本的CNV的差異,以識別到可能的惡性細(xì)胞類型。
下圖中彩色組別為目標(biāo)細(xì)胞組,白色組別為參考細(xì)胞組?梢钥吹絧latelets組明顯高于其它組別。
以上為本次單細(xì)胞測序高級分析inferCNV分析的結(jié)果,其他高級分析且聽下回分解。