CNVkit工具詳解：既簡(jiǎn)又快地檢測(cè)外顯子拷貝數(shù)變異

瀏覽次數(shù)：194　發(fā)布日期：2024-12-12　來源：本站　僅供參考，謝絕轉(zhuǎn)載，否則責(zé)任自負(fù)

人類染色體在遺傳過程中，有時(shí)候會(huì)丟失或增加一部分，遺傳學(xué)將這種DNA的增減現(xiàn)象稱為拷貝數(shù)變異（CNV）。CNV通常為長(zhǎng)度大于1kb的片段變異，里面往往包含一個(gè)或多個(gè)基因，若變異片段包含功能特別重要、對(duì)劑量水平敏感的基因，就會(huì)導(dǎo)致疾病的發(fā)生，可導(dǎo)致智力低下、發(fā)育異常等癥狀，引起殘疾、甚至死亡。

外顯子不同于基因組，由于是捕獲測(cè)序，本身就是各個(gè)外顯子區(qū)域分割開來，這樣造成2個(gè)影響：（1）大片段的CNV被切開形成多個(gè)假陽(yáng)性；（2）只能檢測(cè)小的CNV。因此對(duì)檢測(cè)軟件要求很靈敏。

目前有很多檢測(cè)CNV的工具，比如CNVseq、CNVnator/CNVpytor、Conifer、WisecondorX等，但這些工具要么是安裝難度大，要么是不適合外顯子CNV檢測(cè)，又或者使用繁瑣。有沒有一種安裝方便、用法簡(jiǎn)單、適合外顯子CNV檢測(cè)的工具？就是今天要說的CNVkit。

CNVkit于2016年發(fā)表在PLOS computational biology上，詳見《CNVkit: Genome-Wide Copy Number Detection and Visualization from Targeted DNA Sequencing》。CNVkit是基于Python3.7+開發(fā)的一款專門用于基因組高通量測(cè)序數(shù)據(jù)拷貝數(shù)變異（CNV）檢測(cè)工具，并提供多種可視化方法。

CNVkit分析流程示意圖

該方法將in-target和off-target區(qū)域劃分成小的bin區(qū)間，統(tǒng)計(jì)每個(gè)bin區(qū)間內(nèi)的測(cè)序深度、GC含量，并通過GC含量、目的區(qū)域的大小和分布密度等對(duì)原始測(cè)序深度進(jìn)行校正，去除腫瘤樣本中的背景噪音，然后計(jì)算腫瘤樣本相對(duì)正常樣本對(duì)應(yīng)位置拷貝數(shù)的log2 ratio值, 最后采用segment算法進(jìn)行過濾，得到最終的腫瘤樣本拷貝數(shù)變異結(jié)果。

軟件安裝使用介紹

1、通常我們使用conda安裝，另外需要額外安裝R包DNAcopy，因?yàn)镃NVkit內(nèi)部需要借助DNAcopy包進(jìn)行拷貝數(shù)估算，安裝沒什么幺蛾子，比較順利。
2、需要下載基因注釋文件，用于對(duì)CNV結(jié)果進(jìn)行基因注釋，這倒省了我們單獨(dú)注釋的麻煩。該文件可以在UCSC上下載
PS：如果需要做hg38或其他物種，可以從NCBI下載物種基因組注釋文件（gtf或gff格式），提取信息自行制作refFlat.txt.gz文件，格式跟UCSC下載的保持一致即可。
3、參考基因可在NCBI或UCSC上下載，需要與refFlat.txt.gz文件基因信息一致。
4、樣本bam數(shù)據(jù)，參考BWA流程獲得。
5、一鍵運(yùn)行：
$cnvkit access $ref -s $window -o $out/access-${window}.bed
$cnvkit.py batch --method hybrid $Tumor.bam \
--normal $Normal.bam\
--annotate $refFlat \
--fasta $ref \
-t $target.bed \
--access $out/access-${window}.bed \
-d $output \
--segment-method hmm \
--diagram \
--scatter \
-p 6
PS：使用CNVkit的batch命令，可以一步完成所有分析步驟，最后用--diagram和--scatter用于繪制拷貝數(shù)變異總覽圖和染色體分布圖，不需要可以不使用。

文獻(xiàn)摘錄

這里介紹一篇發(fā)表于2022年的文章《Gliosarcoma: The Distinct Genomic Alterations Identified by Comprehensive Analysis of Copy Number Variations》，研究者使用CNVkit對(duì)膠質(zhì)母細(xì)胞瘤（GBM）和膠質(zhì)肉瘤（GSM）的DNA拷貝數(shù)變異（CNV）進(jìn)行了全面分析，下圖就展示了21例GBM 和15例GSM 樣本拷貝數(shù)變異在染色體上的分布（該圖使用CNVkit自帶參數(shù)heatmap生成）。

Figure 1 橫坐標(biāo)是染色體，縱坐標(biāo)是樣本，紅色表示拷貝數(shù)擴(kuò)增，藍(lán)色表示拷貝數(shù)缺失，顏色越深，表示拷貝數(shù)擴(kuò)增/缺失越多

索取資料

來源：上海生物芯片有限公司
聯(lián)系電話：400-100-2131
E-mail：[email protected]

【點(diǎn)擊可查看上海生物芯片有限公司相關(guān)服務(wù)】

標(biāo)簽：單細(xì)胞生信分析軟件

分享到：QQ空間新浪微博騰訊微博微信

【所有文章】【本類新聞】【相關(guān)服務(wù)】【關(guān)閉窗口】

本類文章

本類新聞

综合图区亚洲网友自拍|亚洲黄色网络|成人无码网WWW在线观看,日本高清视频色视频kk266,激情综合五月天,欧美一区日韩一区中文字幕页

CNVkit工具詳解：既簡(jiǎn)又快地檢測(cè)外顯子拷貝數(shù)變異