當(dāng)前位置 > 首頁 > 技術(shù)文章 > 腫瘤純度和倍性評估工具Sequenza的安裝和使用方法

選型 | 市場 | 應(yīng)用 | 使用 | 法規(guī) | 技術(shù) | 其他

腫瘤純度和倍性評估工具Sequenza的安裝和使用方法

瀏覽次數(shù)：1518　發(fā)布日期：2024-5-13　來源：本站　僅供參考，謝絕轉(zhuǎn)載，否則責(zé)任自負(fù)

腫瘤樣本中癌細(xì)胞總是混合一定未知比例的正常細(xì)胞，我們稱腫瘤樣本中癌細(xì)胞所占的比例為腫瘤純度（Tumor purity），稱由染色體結(jié)構(gòu)和數(shù)目異常導(dǎo)致的腫瘤樣本中癌細(xì)胞的真正含量為倍性（Tumor ploidy）。估計腫瘤的純度和倍性有利于癌癥基因組進化和腫瘤內(nèi)的異質(zhì)性研究。

Sequenza是一個使用配對的腫瘤/正常樣本DNA測序數(shù)據(jù)來估計腫瘤樣本純度和倍性的軟件，同時還檢測腫瘤樣本拷貝數(shù)變異。本期小編詳細(xì)給大家介紹該軟件的安裝及使用。

1 軟件安裝

首先是軟件安裝，該軟件依賴python包sequenza-utils和R包sequenza，分別安裝這兩個包，有很多小伙伴在安裝軟件的過程中總會遇到各種版本問題，建議使用conda虛擬環(huán)境安裝，首先在虛擬環(huán)境中安裝python和R：

# 創(chuàng)建虛擬環(huán)境Sequenza，并安裝python

conda create -n Sequenza python=3.8

# 為虛擬環(huán)境安裝R

conda install -n Sequenza r=3.6.3

# 進入虛擬環(huán)境Sequenza

conda activate Sequenza

然后就是在虛擬環(huán)境中進行python和R包安裝，跟在linux環(huán)境下安裝一樣。

1.1.sequenza-utils安裝（python包）

sequenza-utils包安裝比較容易，以下有兩種安裝方式：

官方說明：https://sequenza-utils.readthedocs.io/en/latest/

# 安裝方法1（推薦）

pip install sequenza-utils

# 安裝方法2

git clone https://bitbucket.org/sequenza_tools/sequenza-utils

cd sequenza-utils

python setup.py test

python setup.py install

# 安裝成功后，查看幫助

sequenza-utils -h

1.2.sequenza安裝（R包）

# 安裝sequenza包前，需要先安裝copynumber包

install.packages("BiocManager")

library(BiocManager)

BiocManager::install("copynumber")

# 或者使用conda安裝（推薦）

conda install -c bioconda bioconductor-copynumber

# 安裝sequenza包

install.packages("sequenza")

# 安裝成功后，查看幫助

library(sequenza)

library(help="sequenza")

2 使用方法

Python和R包安裝成功后，就可以進行腫瘤純度和倍性評估，我們使用處理后的腫瘤配對樣本BAM文件、參考基因組ref文件作為輸入，BAM文件通過基因組比對流程得到（如GATK標(biāo)準(zhǔn)流程），參考基因組文件可以通過UCSC下載（hg19/hg38）。

2.1. 基于python的預(yù)處理sequenza-utils

# 制作參考基因組GC標(biāo)準(zhǔn)化文件，通過-w參數(shù)分割基因組文件，設(shè)置越小檢測敏感性越高。

sequenza-utils gc_wiggle -f $ref -w 50 -o - | gzip > hg19.gc50Base.txt.gz

# 根據(jù)腫瘤樣本和對照樣本BAM文件統(tǒng)計GC標(biāo)準(zhǔn)文件每個堿基的深度和等位堿基頻率等。

sequenza-utils bam2seqz \

-gc $out/hg19.gc50Base.txt.gz \

-F $ref \

-n $normalbam \

-t $tumorbam | gzip >$out/$tumor/${tumor}.seqz.gz \

# 提取測序深度，確定正常標(biāo)本中的純合和雜合位置，并從腫瘤標(biāo)本中計算出變異等位基因和等位基因頻率。減小seqz文件的大小，提高模型運行效率

sequenza-utils seqz_binning -w 50 \

-s $out/$tumor/${tumor}.seqz.gz | gzip >$out/$tumor/${tumor}_small.seqz.gz

2.2. 模型擬合及可視化工具sequenza

# 輸入文件（${tumor}_small.seqz.gz）預(yù)處理

（1）需要刪除chrM或非常規(guī)染色體數(shù)據(jù)，否則會報錯xlim有非限制值；

（2）為了提高評估準(zhǔn)確性，可以對數(shù)據(jù)進行篩選，比如篩選DP > 10。

這個處理步驟自行使用python或R編程，然后再壓縮，名字還是一樣。

# 導(dǎo)入預(yù)處理數(shù)據(jù)，并對腫瘤進行GC含量歸一化與正常深度之比，并使用“copynumber”軟件包進行等位基因特異性分割。

test <- sequenza.extract(“${tumor}_small.seqz.gz”, verbose = FALSE)

# 推斷細(xì)胞性和倍性參數(shù)以及拷貝數(shù)分布圖，使用后驗概率空間的局部最大值來提供替代解決方案

CP <- sequenza.fit(test)

#計算純度和倍性，很耗時間

# 返回估計結(jié)果以及替代解決方案以及沿基因組和單個染色體的數(shù)據(jù)和模型的可視化

sequenza.results(sequenza.extract = test,

cp.table = CP,

sample.id = sample,

out.dir=sample)

3 結(jié)果說明

所有的結(jié)果文件說明如下：

結(jié)果有很多，但是純度和倍性的相關(guān)結(jié)果其實就3個文件，如下：

我們依次打開這三個文件，一起來看看結(jié)果長啥樣：

（1）result_alternative_solutions.txt

表1 腫瘤樣本純度和倍性評估結(jié)果

說明：Cellularity：腫瘤樣本純度 Ploidy：腫瘤樣本倍性 SLPP：對數(shù)后驗概率

（2）result_CP_contours.pdf

圖1 腫瘤樣本純度與模型結(jié)果

說明：橫坐標(biāo)為倍性值，縱坐標(biāo)為純度值，背景藍(lán)色表示最有可能的分布，白色表示最不可能的分布，其中紅色圈點為最優(yōu)值，即SLPP值最大，其它為次優(yōu)解（圖中“+”）

（3）result_model_fit.pdf

圖2 腫瘤樣本倍性模型評估結(jié)果

說明：橫坐標(biāo)為B allele frequency，縱坐標(biāo)左側(cè)Depth ratio代表每個基因組片段腫瘤樣本與正常樣本測序深度比（低比值下估算的腫瘤樣本拷貝數(shù)不可信），縱坐標(biāo)右側(cè)copy number代表模型估算的拷貝數(shù)（黑色圓圈和點），背景顏色越紅表示越可信。

好了，以上就是使用基因組數(shù)據(jù)評估腫瘤樣本純度和倍性的過程。更多實用生信分析方法，小編將持續(xù)更新。

索取資料

來源：上海生物芯片有限公司
聯(lián)系電話：400-100-2131
E-mail：[email protected]

【點擊可查看上海生物芯片有限公司相關(guān)服務(wù)】

標(biāo)簽：單細(xì)胞生信分析軟件

分享到：QQ空間新浪微博騰訊微博微信

【所有文章】【本類新聞】【相關(guān)服務(wù)】【關(guān)閉窗口】

本類文章

本類新聞

综合图区亚洲网友自拍|亚洲黄色网络|成人无码网WWW在线观看,日本高清视频色视频kk266,激情综合五月天,欧美一区日韩一区中文字幕页

腫瘤純度和倍性評估工具Sequenza的安裝和使用方法