腫瘤樣本中癌細(xì)胞總是混合一定未知比例的正常細(xì)胞,我們稱腫瘤樣本中癌細(xì)胞所占的比例為腫瘤純度(Tumor purity),稱由染色體結(jié)構(gòu)和數(shù)目異常導(dǎo)致的腫瘤樣本中癌細(xì)胞的真正含量為倍性(Tumor ploidy)。估計腫瘤的純度和倍性有利于癌癥基因組進化和腫瘤內(nèi)的異質(zhì)性研究。
Sequenza是一個使用配對的腫瘤/正常樣本DNA測序數(shù)據(jù)來估計腫瘤樣本純度和倍性的軟件,同時還檢測腫瘤樣本拷貝數(shù)變異。本期小編詳細(xì)給大家介紹該軟件的安裝及使用。
1 軟件安裝
首先是軟件安裝,該軟件依賴python包sequenza-utils和R包sequenza,分別安裝這兩個包,有很多小伙伴在安裝軟件的過程中總會遇到各種版本問題,建議使用conda虛擬環(huán)境安裝,首先在虛擬環(huán)境中安裝python和R:
# 創(chuàng)建虛擬環(huán)境Sequenza,并安裝python
conda create -n Sequenza python=3.8
# 為虛擬環(huán)境安裝R
conda install -n Sequenza r=3.6.3
# 進入虛擬環(huán)境Sequenza
conda activate Sequenza
然后就是在虛擬環(huán)境中進行python和R包安裝,跟在linux環(huán)境下安裝一樣。
1.1.sequenza-utils安裝(python包)
sequenza-utils包安裝比較容易,以下有兩種安裝方式:
官方說明:https://sequenza-utils.readthedocs.io/en/latest/
# 安裝方法1(推薦)
pip install sequenza-utils
# 安裝方法2
git clone https://bitbucket.org/sequenza_tools/sequenza-utils
cd sequenza-utils
python setup.py test
python setup.py install
# 安裝成功后,查看幫助
sequenza-utils -h
1.2.sequenza安裝(R包)
# 安裝sequenza包前,需要先安裝copynumber包
install.packages("BiocManager")
library(BiocManager)
BiocManager::install("copynumber")
# 或者使用conda安裝(推薦)
conda install -c bioconda bioconductor-copynumber
# 安裝sequenza包
install.packages("sequenza")
# 安裝成功后,查看幫助
library(sequenza)
library(help="sequenza")
2 使用方法
Python和R包安裝成功后,就可以進行腫瘤純度和倍性評估,我們使用處理后的腫瘤配對樣本BAM文件、參考基因組ref文件作為輸入,BAM文件通過基因組比對流程得到(如GATK標(biāo)準(zhǔn)流程),參考基因組文件可以通過UCSC下載(hg19/hg38)。
2.1. 基于python的預(yù)處理sequenza-utils
# 制作參考基因組GC標(biāo)準(zhǔn)化文件,通過-w參數(shù)分割基因組文件,設(shè)置越小檢測敏感性越高。
sequenza-utils gc_wiggle -f $ref -w 50 -o - | gzip > hg19.gc50Base.txt.gz
# 根據(jù)腫瘤樣本和對照樣本BAM文件統(tǒng)計GC標(biāo)準(zhǔn)文件每個堿基的深度和等位堿基頻率等。
sequenza-utils bam2seqz \
-gc $out/hg19.gc50Base.txt.gz \
-F $ref \
-n $normalbam \
-t $tumorbam | gzip >$out/$tumor/${tumor}.seqz.gz \
# 提取測序深度,確定正常標(biāo)本中的純合和雜合位置,并從腫瘤標(biāo)本中計算出變異等位基因和等位基因頻率。減小seqz文件的大小,提高模型運行效率
sequenza-utils seqz_binning -w 50 \
-s $out/$tumor/${tumor}.seqz.gz | gzip >$out/$tumor/${tumor}_small.seqz.gz
2.2. 模型擬合及可視化工具sequenza
# 輸入文件(${tumor}_small.seqz.gz)預(yù)處理
(1)需要刪除chrM或非常規(guī)染色體數(shù)據(jù),否則會報錯xlim有非限制值;
(2)為了提高評估準(zhǔn)確性,可以對數(shù)據(jù)進行篩選,比如篩選DP > 10。
這個處理步驟自行使用python或R編程,然后再壓縮,名字還是一樣。
# 導(dǎo)入預(yù)處理數(shù)據(jù),并對腫瘤進行GC含量歸一化與正常深度之比,并使用“copynumber”軟件包進行等位基因特異性分割。
test <- sequenza.extract(“${tumor}_small.seqz.gz”, verbose = FALSE)
# 推斷細(xì)胞性和倍性參數(shù)以及拷貝數(shù)分布圖,使用后驗概率空間的局部最大值來提供替代解決方案
CP <- sequenza.fit(test)
#計算純度和倍性,很耗時間
# 返回估計結(jié)果以及替代解決方案以及沿基因組和單個染色體的數(shù)據(jù)和模型的可視化
sequenza.results(sequenza.extract = test,
cp.table = CP,
sample.id = sample,
out.dir=sample)
3 結(jié)果說明
所有的結(jié)果文件說明如下:
結(jié)果有很多,但是純度和倍性的相關(guān)結(jié)果其實就3個文件,如下:
我們依次打開這三個文件,一起來看看結(jié)果長啥樣:
(1)result_alternative_solutions.txt
表1 腫瘤樣本純度和倍性評估結(jié)果
說明:Cellularity:腫瘤樣本純度 Ploidy:腫瘤樣本倍性 SLPP:對數(shù)后驗概率
(2)result_CP_contours.pdf
圖1 腫瘤樣本純度與模型結(jié)果
說明:橫坐標(biāo)為倍性值,縱坐標(biāo)為純度值,背景藍(lán)色表示最有可能的分布,白色表示最不可能的分布,其中紅色圈點為最優(yōu)值,即SLPP值最大,其它為次優(yōu)解(圖中“+”)
(3)result_model_fit.pdf
圖2 腫瘤樣本倍性模型評估結(jié)果
說明:橫坐標(biāo)為B allele frequency,縱坐標(biāo)左側(cè)Depth ratio代表每個基因組片段腫瘤樣本與正常樣本測序深度比(低比值下估算的腫瘤樣本拷貝數(shù)不可信),縱坐標(biāo)右側(cè)copy number代表模型估算的拷貝數(shù)(黑色圓圈和點),背景顏色越紅表示越可信。
好了,以上就是使用基因組數(shù)據(jù)評估腫瘤樣本純度和倍性的過程。更多實用生信分析方法,小編將持續(xù)更新。