自從1977年一代測(cè)序被發(fā)明以來(lái),測(cè)序技術(shù)不斷發(fā)展。 從一代sanger測(cè)序,發(fā)展到二代測(cè)序,現(xiàn)在已經(jīng)到了三代全長(zhǎng)測(cè)序。 其中二代測(cè)序相比于一代測(cè)序,通過(guò)將核酸片段化進(jìn)行平行大規(guī)模測(cè)序,大大增加了測(cè)序的效率。早期的二代效率集中在全基因組測(cè)序和全轉(zhuǎn)錄組測(cè)序,盡管測(cè)序的效率有所增加,成本有所降低。 但是測(cè)序數(shù)據(jù)依然非常龐大,為了更進(jìn)一步的節(jié)省成本,提高效率,靶向測(cè)序應(yīng)運(yùn)而生。
靶向測(cè)序定義:將基因組中感興趣的區(qū)域或者位點(diǎn)富集出來(lái),然后使用二代測(cè)序(NGS)方法去進(jìn)行測(cè)序,包含全外顯子組(基因組蛋白編碼區(qū)域),針對(duì)感興趣的特定基因定制測(cè)序panel等。
靶向捕獲測(cè)序背景
1977年 Walter Gilbert和Frederick Sanger發(fā)明了第一臺(tái)測(cè)序儀,使用鏈終止法測(cè)序其測(cè)定了第一個(gè)基因組序列,噬菌體X174,全長(zhǎng)5375個(gè)堿基。Sanger 測(cè)序的發(fā)明,標(biāo)志著基因測(cè)序技術(shù)正式進(jìn)入生命科學(xué)研究舞臺(tái)
1988年Chambehian等人首次提出多重PCR技術(shù),為后續(xù)多重PCR擴(kuò)增子測(cè)序打下基礎(chǔ)[1]
2005年Nature Method 上發(fā)表了一篇名為《Direct genomic selection》的文章,該文章利用長(zhǎng)度為150kb生物素標(biāo)記的BAC DNA和經(jīng)過(guò)處理的人類基因組DNA進(jìn)行雜交,通過(guò)鏈霉親和磁珠對(duì)DNA片段進(jìn)行捕獲,后續(xù)又經(jīng)過(guò)PCR擴(kuò)增后進(jìn)行測(cè)序。測(cè)序結(jié)果表明約~50%的序列來(lái)自于靶標(biāo)區(qū)域
2008年,安捷倫聯(lián)合Broad研究所,將其超長(zhǎng)寡核苷酸合成技術(shù)和平行測(cè)序相結(jié)合,在Nature Biotechnology發(fā)表文章,奠定安捷倫雜交捕獲測(cè)序方法學(xué)基礎(chǔ)。
2009年,安捷倫聯(lián)合華盛頓大學(xué)在Nature上發(fā)表文章,使用靶向捕獲測(cè)序技術(shù)檢測(cè)人類外顯子
同年安捷倫推出了世界上第一款商品化人類全外顯子探針產(chǎn)品。
2021 年 4 月,安捷倫宣布首款基于機(jī)器學(xué)習(xí)探針設(shè)計(jì)方案的全外產(chǎn)品—人全外顯子組 V8 (SureSelect Human All Exon V8) 正式在中國(guó)上市,繼續(xù)書寫人全外顯子靶向捕獲技術(shù)新篇章。
2022年春, Qiagen 基于多重PCR技術(shù)全新一代 QIAseq Targeted DNA Pro 在中國(guó)正式上市
目前常用的靶向測(cè)序用兩種方法:靶向捕獲法和多重PCR法(又稱擴(kuò)增子測(cè)序)
雜交捕獲法
雜交捕獲法是一種把分子雜交和二代測(cè)序相結(jié)合的靶向測(cè)序技術(shù)。 該技術(shù)需要設(shè)計(jì)和生產(chǎn)和目的區(qū)域互補(bǔ)的探針,通過(guò)探針將目的區(qū)域的片段捕獲下來(lái),再將不需要的部分進(jìn)行洗脫。 根據(jù)雜交的狀態(tài)又可分為固相雜交和液相雜交。固相雜交就是將設(shè)計(jì)好的探針固相的芯片上探針,通過(guò)探針將目標(biāo)區(qū)段捕獲。液相雜交的實(shí)驗(yàn)反應(yīng)是在液體狀態(tài)中完整,探針攜帶生物素,當(dāng)雜交完成后,通過(guò)鏈酶親和磁珠將探針吸附下來(lái)(此時(shí)探針有攜帶目標(biāo)區(qū)段的和空探針),未被捕獲的片段被洗脫掉,再通過(guò)變性將探針和目標(biāo)片段分開(kāi),然后利用磁珠將所有空探針吸附丟棄,完成捕獲。
圖 1 安捷倫雜交捕獲測(cè)序流程
多重PCR法
多重PCR靶向測(cè)序技術(shù)又稱擴(kuò)增子靶向測(cè)序技術(shù),是一種將多重PCR技術(shù)與二代測(cè)序技術(shù)相結(jié)合的一種靶向測(cè)序技術(shù)。 該技術(shù)首先利用多重PCR反應(yīng),同時(shí)擴(kuò)增多個(gè)目標(biāo)區(qū)域序列,得到擴(kuò)增子產(chǎn)物,然后通過(guò)PCR反應(yīng)或者酶連接反應(yīng),將二代測(cè)序所需的接頭序列(adapter)引入到擴(kuò)增子產(chǎn)物的兩側(cè),得到擴(kuò)增子文庫(kù),然后進(jìn)行二代測(cè)序和生信流程分析,獲取目標(biāo)區(qū)域的序列信息,實(shí)現(xiàn)目標(biāo)區(qū)域序列檢測(cè)的目的。常見(jiàn)的多重PCR靶向測(cè)序舉例:tNGS病原微生物靶向測(cè)序,用于分析病原微生物的群落組成和分布,來(lái)進(jìn)行臨床病原微生物的診斷。
圖 2 Qiagen 基于SPE技術(shù)的多重PCR靶向測(cè)序流程
全基因組 vs 全外顯子 vs 多重PCR
全基因組測(cè)序 | 全外顯子測(cè)序(雜交捕獲) | Panel( 多重PCR) | |
目標(biāo)區(qū)域大小 | 3 G (human) | 50 M | 10 kb-5 M (variable) |
覆蓋基因組范圍 | 100% | 1.3% | <0.1% (variable) |
文庫(kù)構(gòu)建成本 | 60-150 | ~600 | 100-800 (variable) |
一般測(cè)序深度 | 30x | 100x | 500-10000x |
測(cè)序數(shù)據(jù)量 | 90 Gb | 5 Gb | 1 Gb (variable) |
測(cè)序成本 | 4500 | 250 | 50 |
數(shù)據(jù)儲(chǔ)存成本 | Very High | High | Low |
生信分析難度 | High Complexity | Medium Complexity | Low Complexity |
數(shù)據(jù)評(píng)估
目標(biāo)基因區(qū)域捕獲的數(shù)據(jù)質(zhì)量主要通過(guò)以下指標(biāo)評(píng)價(jià):目標(biāo)區(qū)域覆蓋度、捕獲效率、目標(biāo)區(qū)域覆蓋均一性等[2]。
目標(biāo)區(qū)域覆蓋度:指檢測(cè)到的區(qū)域相比目標(biāo)區(qū)域的比例,最理想的情況就是感興趣的目標(biāo)區(qū)域都能夠被覆蓋到。但是由于在設(shè)計(jì)探針的時(shí)候會(huì)考慮各種因素,如GC含量、序列的特征、序列的拷貝數(shù),序列相似性等問(wèn)題,為了保證整體的基因捕獲效率,會(huì)選擇放棄一小部分區(qū)域的捕獲,這個(gè)比例約為0-3%。原則上來(lái)講,目標(biāo)覆蓋度越高,探針或者多重PCR產(chǎn)品的性能也就越好。
捕獲效率:落在目標(biāo)區(qū)域的數(shù)據(jù)占總數(shù)據(jù)的比例。捕獲效率越高,代表測(cè)序數(shù)據(jù)的利用率越高。另外在設(shè)計(jì)探針時(shí),需要評(píng)估覆蓋位置的序列特征,如果探針有很多落在重復(fù)序列區(qū)域,或者高拷貝序列區(qū),則探針會(huì)結(jié)合較多的非目標(biāo)區(qū)域。設(shè)計(jì)更加特異性的探針能夠有效減少非特異序列的結(jié)合,提升捕獲效率。
通常影響捕獲效率的因素有以下幾點(diǎn)[3]:
1.高GC區(qū)域 - UTRs 和 啟動(dòng)子區(qū)域通常是非常典型的高CG含量區(qū)域,這部分區(qū)域往往是低捕獲效率,并且會(huì)增加這些區(qū)域和其他區(qū)域的捕獲差別
2.DNA 質(zhì)量- 投入的DNA質(zhì)量較差, 例如FFPE樣本提取的DNA,會(huì)產(chǎn)生捕獲偏差,因?yàn)檫@樣樣本中部分區(qū)域往往比其他區(qū)域碎片更多。如果捕獲不平衡,就會(huì)在下游 SNP s和其他形式的分析中產(chǎn)生偏差。建議用安捷倫自動(dòng)化電泳儀器對(duì)核酸樣本進(jìn)行質(zhì)控,例如2100生物分析儀,Tapestation分析儀,F(xiàn)ragment analyzer等
3.DNA 投入量 - Low input DNA 在建庫(kù)過(guò)程中往往需要更多的PCR循環(huán)數(shù)來(lái)或足夠量的預(yù)文庫(kù)。增加PCR循環(huán)數(shù),會(huì)造成更多的PCR duplicates, 會(huì)降低最終數(shù)據(jù)的有用信息。隨著技術(shù)發(fā)展,目前靶向測(cè)序所需DNA投入量已由傳統(tǒng)的微克級(jí)別下降至ng級(jí)別
4.Pseudogenes -會(huì)降低覆蓋率的均勻性
5.DNA片段大小 - 建議片段大小應(yīng)和探針設(shè)計(jì)大小想匹配以獲得更大的捕獲效率,建議用安捷倫自動(dòng)化電泳儀器對(duì)樣本核酸片段進(jìn)行檢測(cè),例如2100生物分析儀,Tapestation分析儀,F(xiàn)ragment analyzer等
6.Repeat elements - 會(huì)降低reads在外顯子組中分布的均勻性,導(dǎo)致需要更多的測(cè)序來(lái)檢測(cè)新的SNP。
覆蓋均一性:指每個(gè)區(qū)域的覆蓋深度是不是均勻。要想獲得高均一性覆蓋度的數(shù)據(jù),在預(yù)文庫(kù)構(gòu)建時(shí),要保證文庫(kù)的均一性要好。例如文庫(kù)構(gòu)建時(shí),采用無(wú)序列偏差的DNA片段化方法;采用對(duì)GC含量偏好性低的擴(kuò)增酶;減少PCR富集的循環(huán)數(shù);如果使用探針雜交捕獲方法,探針設(shè)計(jì)時(shí)要更好的計(jì)算探針的結(jié)合能力,合理調(diào)整探針比例,實(shí)驗(yàn)過(guò)程中采用高度優(yōu)化的雜交緩沖液進(jìn)行捕獲實(shí)驗(yàn)。