人類染色體在遺傳過程中,有時(shí)候會(huì)丟失或增加一部分,遺傳學(xué)將這種DNA的增減現(xiàn)象稱為拷貝數(shù)變異(CNV)。CNV通常為長(zhǎng)度大于1kb的片段變異,里面往往包含一個(gè)或多個(gè)基因,若變異片段包含功能特別重要、對(duì)劑量水平敏感的基因,就會(huì)導(dǎo)致疾病的發(fā)生,可導(dǎo)致智力低下、發(fā)育異常等癥狀,引起殘疾、甚至死亡。
外顯子不同于基因組,由于是捕獲測(cè)序,本身就是各個(gè)外顯子區(qū)域分割開來,這樣造成2個(gè)影響:(1)大片段的CNV被切開形成多個(gè)假陽(yáng)性;(2)只能檢測(cè)小的CNV。因此對(duì)檢測(cè)軟件要求很靈敏。
目前有很多檢測(cè)CNV的工具,比如CNVseq、CNVnator/CNVpytor、Conifer、WisecondorX等,但這些工具要么是安裝難度大,要么是不適合外顯子CNV檢測(cè),又或者使用繁瑣。有沒有一種安裝方便、用法簡(jiǎn)單、適合外顯子CNV檢測(cè)的工具?就是今天要說的CNVkit。
CNVkit于2016年發(fā)表在PLOS computational biology上,詳見《CNVkit: Genome-Wide Copy Number Detection and Visualization from Targeted DNA Sequencing》。CNVkit是基于Python3.7+開發(fā)的一款專門用于基因組高通量測(cè)序數(shù)據(jù)拷貝數(shù)變異(CNV)檢測(cè)工具,并提供多種可視化方法。
CNVkit分析流程示意圖
該方法將in-target和off-target區(qū)域劃分成小的bin區(qū)間,統(tǒng)計(jì)每個(gè)bin區(qū)間內(nèi)的測(cè)序深度、GC含量,并通過GC含量、目的區(qū)域的大小和分布密度等對(duì)原始測(cè)序深度進(jìn)行校正,去除腫瘤樣本中的背景噪音,然后計(jì)算腫瘤樣本相對(duì)正常樣本對(duì)應(yīng)位置拷貝數(shù)的log2 ratio值, 最后采用segment算法進(jìn)行過濾,得到最終的腫瘤樣本拷貝數(shù)變異結(jié)果。
軟件安裝使用介紹
1、通常我們使用conda安裝,另外需要額外安裝R包DNAcopy,因?yàn)镃NVkit內(nèi)部需要借助DNAcopy包進(jìn)行拷貝數(shù)估算,安裝沒什么幺蛾子,比較順利。
2、需要下載基因注釋文件,用于對(duì)CNV結(jié)果進(jìn)行基因注釋,這倒省了我們單獨(dú)注釋的麻煩。該文件可以在UCSC上下載
PS:如果需要做hg38或其他物種,可以從NCBI下載物種基因組注釋文件(gtf或gff格式),提取信息自行制作refFlat.txt.gz文件,格式跟UCSC下載的保持一致即可。
3、參考基因可在NCBI或UCSC上下載,需要與refFlat.txt.gz文件基因信息一致。
4、樣本bam數(shù)據(jù),參考BWA流程獲得。
5、一鍵運(yùn)行:
$cnvkit access $ref -s $window -o $out/access-${window}.bed
$cnvkit.py batch --method hybrid $Tumor.bam \
--normal $Normal.bam\
--annotate $refFlat \
--fasta $ref \
-t $target.bed \
--access $out/access-${window}.bed \
-d $output \
--segment-method hmm \
--diagram \
--scatter \
-p 6
PS:使用CNVkit的batch命令,可以一步完成所有分析步驟,最后用--diagram和--scatter用于繪制拷貝數(shù)變異總覽圖和染色體分布圖,不需要可以不使用。
文獻(xiàn)摘錄
這里介紹一篇發(fā)表于2022年的文章《Gliosarcoma: The Distinct Genomic Alterations Identified by Comprehensive Analysis of Copy Number Variations》,研究者使用CNVkit對(duì)膠質(zhì)母細(xì)胞瘤(GBM)和膠質(zhì)肉瘤(GSM)的DNA拷貝數(shù)變異(CNV)進(jìn)行了全面分析,下圖就展示了21例GBM 和15例GSM 樣本拷貝數(shù)變異在染色體上的分布(該圖使用CNVkit自帶參數(shù)heatmap生成)。
Figure 1 橫坐標(biāo)是染色體,縱坐標(biāo)是樣本,紅色表示拷貝數(shù)擴(kuò)增,藍(lán)色表示拷貝數(shù)缺失,顏色越深,表示拷貝數(shù)擴(kuò)增/缺失越多