在基因組變異中,拷貝數(shù)變異(CNV) 是癌癥的重要遺傳驅(qū)動因素 。CNV 是基因組事件,其中特定基因的拷貝數(shù)因個體而異,甚至因細胞而異。腫瘤細胞與導致基因擴增和基因缺失的體細胞CNV變化有關(guān)。然而,由于缺乏單細胞全基因組測序,很難在單細胞中檢測和量化CNV事件。相比之下,單細胞RNA測序技術(shù)的快速發(fā)展能夠獲得單細胞整個基因表達譜的數(shù)據(jù),然而在單細胞中確定 CNV 非常具有挑戰(zhàn)性。由于基因表達的不均勻覆蓋和動態(tài)變化,推斷CNV的方法面臨困難。但是,現(xiàn)在也已經(jīng)開發(fā)出一些算法針對scRNA轉(zhuǎn)錄組數(shù)據(jù)推斷CNV事件,其中,inferCNV是一個常用的從腫瘤單細胞RNA-Seq數(shù)據(jù)推斷拷貝數(shù)變化分析的工具,用于識別數(shù)據(jù)中的惡性細胞。R包inferCNV源于2014年發(fā)表在science上的一篇文章,后由broad研究所開發(fā)而成。下圖為inferCNV整體分析過程。
infercnv用于探索腫瘤單細胞RNA-Seq數(shù)據(jù),以確定體細胞大規(guī)模染色體拷貝數(shù)改變的證據(jù),例如整個染色體或染色體的大片段的增加或缺失。在整個基因組范圍內(nèi),將每個腫瘤細胞基因表達與平均表達或“正常”參考細胞基因表達對比,通過熱圖的形式展示每條染色體上的基因相對表達量。可以直觀看出,相對于正常細胞來講,腫瘤細胞基因組會發(fā)生大規(guī)模的過表達或者低表達。infercnv提供了幾個殘余表達過濾器,以探索最小化噪聲并進一步揭示支持CNA的信號。此外,infercnv還包括預測CNA區(qū)域和根據(jù)異質(zhì)性模式定義細胞簇的方法。
百篇文獻中近20%的文獻中用到了該分析,常見的結(jié)果展示圖如下:
以下是我們復現(xiàn)結(jié)果:
這是初步的infercnv 結(jié)果,未經(jīng)過denoise或HMM(隱馬爾科夫模型,HiddenMarkov Model)。正常細胞的表達值繪制在頂部熱圖中,可能具有惡性的細胞繪制在底部熱圖中,基因在整個染色體上從左到右排列。通過有效地從惡性細胞表達數(shù)據(jù)中減去正常細胞表達數(shù)據(jù)以產(chǎn)生差異,其中染色體區(qū)域擴增顯示為紅色塊,而染色體區(qū)域缺失顯示為藍色塊。
下圖為inferCNV最終產(chǎn)生的去噪后的熱圖。熱圖展示每個細胞在各個染色體區(qū)域的相對表達強度,上方熱圖代表參考細胞的展示結(jié)果,下方熱圖代表目標細胞的展示結(jié)果。圖中每一行表示一個細胞,每一列表示一個基因。熱圖左邊第一個圖注代表聚類數(shù)目,只有一個時表示沒有聚類,左邊第二個圖注代表細胞類型,上方圖注為對應(yīng)排列的染色體。紅色表示CNV 擴增,藍色表示CNV 缺失,顏色越深代表CNV變異越明顯。
以上為inferCNV分析展示一二,其實結(jié)果中還有很多數(shù)據(jù)信息,比如我們可以提取inferCNV分析結(jié)果計算CNV score, 用箱型圖或者小提琴圖畫不同組或者細胞中的cnv結(jié)果,用于比較不同的細胞群或者不同的樣本的CNV的差異,以識別到可能的惡性細胞類型。
下圖中彩色組別為目標細胞組,白色組別為參考細胞組?梢钥吹絧latelets組明顯高于其它組別。
以上為本次單細胞測序高級分析inferCNV分析的結(jié)果,其他高級分析且聽下回分解。