人類基因組中的變異和人類的演化、疾病風(fēng)險(xiǎn)等方面都有著密切的聯(lián)系。基因組變異主要包括單核苷酸突變、插入缺失和結(jié)構(gòu)變異三大類。而受技術(shù)限制,
結(jié)構(gòu)變異分析仍然是一大塊“神秘土地”,齊碳通過總結(jié)近幾年人類基因組結(jié)構(gòu)變異相關(guān)的研究成果,與大家分享目前基于納米孔測(cè)序技術(shù)長(zhǎng)讀長(zhǎng)優(yōu)勢(shì)的結(jié)構(gòu)變異測(cè)序與分析方法,為更好地從群體及個(gè)體角度解析結(jié)構(gòu)變異提供新思路。
結(jié)構(gòu)變異
結(jié)構(gòu)變異(Structural variation, SV)是指序列長(zhǎng)度大于50 bp的基因組序列變化,可以分為缺失(Deletion)、插入(Insertion)、重復(fù)(Duplication)、倒位(Inversion)和易位(Translocation)以及復(fù)雜結(jié)構(gòu)變異等。其中,缺失和重復(fù)事件也稱為拷貝數(shù)變異(Copy number variation/alteration, CNV/CNA)。
圖1 結(jié)構(gòu)變異類型[1]
值得一提的是,在人類基因組中,結(jié)構(gòu)變異的數(shù)量雖然遠(yuǎn)少于單核苷酸變異(Single-nucleotide variant,SNV)的數(shù)量(表1),但研究發(fā)現(xiàn)
結(jié)構(gòu)變異對(duì)基因組的影響卻更大。這是由于DNA序列變化越大,其有害性通常也越大。
如表1所示,人類基因組結(jié)構(gòu)變異的數(shù)量約占SNV數(shù)量的0.5%,但受結(jié)構(gòu)變異影響的堿基數(shù)卻是SNV總和的10倍之多。與SNV相比,大片段結(jié)構(gòu)變異與全基因組關(guān)聯(lián)信號(hào)相關(guān)的可能性高出3倍,影響基因表達(dá)的可能性則達(dá)30倍以上。
表1人類遺傳變異的類別與其影響基因組長(zhǎng)度占比[2]
隨著結(jié)構(gòu)變異成為越來越多研究關(guān)注的熱點(diǎn),目前主要檢測(cè)方法呈現(xiàn)多樣化。但由于技術(shù)限制,
如何更準(zhǔn)確檢測(cè)大片段結(jié)構(gòu)變異(如拷貝數(shù)變異、大片段InDel、染色體倒位、染色體內(nèi)部或染色體之間的序列易位等)依然充滿挑戰(zhàn)。
相比于其他檢測(cè)技術(shù),
三代測(cè)序發(fā)揮長(zhǎng)讀長(zhǎng)的優(yōu)勢(shì)可跨越基因組中大片段結(jié)構(gòu)變異,為結(jié)構(gòu)變異的準(zhǔn)確分析提供了新平臺(tái)。
一方面,
三代測(cè)序技術(shù)有效增加了結(jié)構(gòu)變異檢測(cè)的數(shù)量和類型,例如復(fù)雜結(jié)構(gòu)變異、串聯(lián)重復(fù)和轉(zhuǎn)座元件插入等;另一方面,
可以幫助獲取結(jié)構(gòu)變異更完整的信息,例如斷點(diǎn)位置和完整的變異序列等。
圖2 長(zhǎng)讀長(zhǎng)測(cè)序和短讀長(zhǎng)測(cè)序檢測(cè)結(jié)構(gòu)變異數(shù)量
[3]
納米孔測(cè)序檢測(cè)結(jié)構(gòu)變異方法
納米孔測(cè)序檢測(cè)結(jié)構(gòu)變異的方法可分為
全基因組納米孔測(cè)序和
目標(biāo)區(qū)域納米孔測(cè)序。
全基因組納米孔測(cè)序
全基因組納米孔測(cè)序可以全面檢測(cè)基因組中發(fā)生的結(jié)構(gòu)變異,但通常所需數(shù)據(jù)量較大,例如能夠檢測(cè)到人類樣本約在15x測(cè)序深度下的可靠胚系結(jié)構(gòu)變異。
2020年,針對(duì)3622個(gè)冰島人樣本進(jìn)行全基因組納米孔測(cè)序(深度:~17.2x)揭示了冰島人群結(jié)構(gòu)變異特征,同時(shí)還發(fā)現(xiàn)與LDL膽固醇和身高等性狀相關(guān)的基因結(jié)構(gòu)變異
[4]。
2021年,另一篇針對(duì)405個(gè)中國(guó)人樣本的全基因組納米孔測(cè)序研究(深度:~17x),將檢測(cè)到的結(jié)構(gòu)變異與其臨床性狀(生化、血液和血清成分等指標(biāo))進(jìn)行關(guān)聯(lián)分析,發(fā)現(xiàn)14號(hào)染色體的22個(gè)SV事件與13個(gè)表型呈顯著相關(guān)。研究還揭示了中國(guó)南北方人在免疫相關(guān)基因上面臨著不同的選擇壓力
[5]。
圖3 中國(guó)南北方人人群分層
目標(biāo)區(qū)域納米孔測(cè)序
目標(biāo)區(qū)域納米孔測(cè)序則是僅對(duì)獲取的目標(biāo)區(qū)域測(cè)序,研究針對(duì)性強(qiáng)且所需數(shù)據(jù)量少。獲取目標(biāo)區(qū)域序列方式是多樣化的,包含PCR擴(kuò)增、探針捕獲和Cas9富集。PCR擴(kuò)增和探針捕獲方式獲取的目標(biāo)區(qū)域測(cè)序深度較高,但在擴(kuò)增過程中往往無法保留堿基的修飾信息;而Cas9富集測(cè)序的目標(biāo)區(qū)域深度波動(dòng)范圍較大,但可以相對(duì)完整地保留堿基修飾信息。
一項(xiàng)對(duì)林奇綜合征的研究,
通過探針捕獲相關(guān)基因全長(zhǎng)序列和納米孔測(cè)序(深度:~1000x),能夠檢測(cè)到MLH1和MSH2基因上的缺失或重復(fù)事件[6];另一項(xiàng)研究利用PCR對(duì)視網(wǎng)膜母細(xì)胞瘤病人
RB1基因的序列擴(kuò)增和納米孔測(cè)序,檢測(cè)到
RB1基因
exon23缺失,并在缺失位置檢測(cè)到85bp的插入序列
[7]。
圖4 林奇綜合征患者M(jìn)LH1和MSH2基因的結(jié)構(gòu)變異
納米孔測(cè)序結(jié)構(gòu)變異數(shù)據(jù)分析方法
由于測(cè)序數(shù)據(jù)前期可以采用比對(duì)法或組裝法處理,使得結(jié)構(gòu)變異分析方法也有所不同。
·基于
比對(duì)法主要利用比對(duì)到斷點(diǎn)位置的Split reads識(shí)別結(jié)構(gòu)變異,即一條read被分割成多個(gè)區(qū)域比對(duì)在參考基因組不同位置。該方法常用的檢測(cè)軟件如表2所示。
·基于
組裝法是先對(duì)個(gè)體基因組組裝,再比較組裝后的基因組和參考基因組的差異分析結(jié)構(gòu)變異。
表2 SV檢測(cè)軟件匯總表
[1]
支持?jǐn)?shù)據(jù)僅為研究文章所用數(shù)據(jù)
相關(guān)文章基于納米孔測(cè)序數(shù)據(jù)對(duì)Snifffles、cuteSV、pbsv、NanoVar、NanoSV和SVIM等分析軟件進(jìn)行測(cè)評(píng)。
利用數(shù)據(jù)模擬軟件得到含24600個(gè)SVs的納米孔測(cè)序數(shù)據(jù),對(duì)已檢測(cè)出的結(jié)構(gòu)變異的位置、長(zhǎng)度、類型和基因型信息進(jìn)行軟件表現(xiàn)評(píng)估。結(jié)果顯示:測(cè)序深度超過20x后(10x、20x、30x和50x),以上軟件檢測(cè)結(jié)構(gòu)變異檢測(cè)數(shù)量的增速均有所減緩。其中,cuteSV的綜合表現(xiàn)較為穩(wěn)定。
表3 SV分析軟件檢測(cè)能力測(cè)評(píng)
[8]
combiSV(6): 整合6個(gè)軟件檢測(cè)結(jié)果
perfect matches代表檢測(cè)到SV的類型、基因型、完整的長(zhǎng)度和位置均正確
中國(guó)人群大規(guī)模結(jié)構(gòu)變異的研究中也發(fā)現(xiàn),當(dāng)測(cè)序深度達(dá)到15x ,若繼續(xù)增加測(cè)序深度,結(jié)構(gòu)變異檢測(cè)數(shù)量將逐漸趨于穩(wěn)定。
圖5 不同測(cè)序深度下結(jié)構(gòu)變異檢測(cè)數(shù)量
[4-5]
左:HG002在不同深度(8~40x)和軟件下檢測(cè)SV的數(shù)量;Combine代表兩個(gè)軟件交集結(jié)果
右:利用sniffles檢測(cè)3622個(gè)冰島人結(jié)構(gòu)變異的數(shù)量;每一個(gè)點(diǎn)代表一個(gè)個(gè)體的測(cè)序深度和檢測(cè)SV數(shù)量
由此可見,納米孔測(cè)序檢測(cè)結(jié)構(gòu)變異的測(cè)序方法和分析方法是多樣化的。而在實(shí)際研究應(yīng)用中,挖掘基因組結(jié)構(gòu)變異硬實(shí)力(技術(shù)平臺(tái))和軟實(shí)力(數(shù)據(jù)算法)缺一不可,隨著檢測(cè)技術(shù)的不斷成熟和軟件算法的不斷進(jìn)步,研究者可以根據(jù)自己的研究目的、數(shù)據(jù)特征和軟件檢測(cè)力選擇合適的檢測(cè)技術(shù),或者通過不同技術(shù)組合和不同算法組合從而達(dá)到增效作用。
參考資料:
[1] van Belzen IAEM, Schönhuth A, Kemmeren P, Hehir-Kwa JY. Structural variant detection in cancer genomes: computational challenges and perspectives for precision oncology. NPJ Precis Oncol. 2021. 2;5(1):15.
[2] Eichler EE. Genetic Variation, Comparative Genomics, and the Diagnosis of Disease. N Engl J Med. 2019. 381(1):64-74.
[3] Zhao X, Collins RL, Lee WP, et al. Expectations and blind spots for structural variation detection from long-read assemblies and short-read sequencing technologies.Am J Hum Genet. 2021. 108(5):919-928.
[4] Beyter D, Ingimundardottir H, Oddsson A, et al. Long-read sequencing of 3,622 Icelanders provides insight into the role of structural variants in human diseases and other traits. Nat Genet. 2021. 53(6):779-786.
[5] Wu Z, Jiang Z, Li T, et al. Structural variants in the Chinese population and their impact on phenotypes, diseases and population adaptation. Nat Commun. 2021. 12(1): 6501.
[6] Yamaguchi K, Kasajima R, Takane K, et al. Application of targeted nanopore sequencing for the screening and determination of structural variants in patients with Lynch syndrome. J Hum Genet. 2021. 66(11):1053-1060.
[7] Watson CM, Holliday DL, Crinnion LA, Bonthron DT. Long-read nanopore DNA sequencing can resolve complex intragenic duplication/deletion variants, providing information to enable preimplantation genetic diagnosis. Prenat Diagn. 2022. 42(2):226-232
[8] Dierckxsens N, Li T, Vermeesch JR, Xie Z. A benchmark of structural variation detection by long reads through a realistic simulated model. Genome Biol. 2021. 15;22(1):342.
2021年12月,齊碳科技通過5年的自主研發(fā),成功推出國(guó)內(nèi)首臺(tái)商業(yè)化的納米孔基因測(cè)序儀QNome-3841,并宣布首個(gè)生產(chǎn)基地竣工,正式開啟納米孔基因測(cè)序國(guó)產(chǎn)化時(shí)代。2022年6月,齊碳科技發(fā)布納米孔基因測(cè)序儀QNome-3841hex,標(biāo)志著國(guó)產(chǎn)納米孔基因測(cè)序儀開始了矩陣化發(fā)展,這也為靈活測(cè)序場(chǎng)景提供全新的解決方案,將更好地滿足市場(chǎng)應(yīng)用的多元需求。
齊碳秉承從上游推動(dòng)行業(yè)發(fā)展的理念和對(duì)前沿技術(shù)的探索精神,保持開放、合作的態(tài)度,期待和產(chǎn)業(yè)同仁攜手共進(jìn),探索國(guó)產(chǎn)納米孔基因測(cè)序技術(shù)在多場(chǎng)景中的優(yōu)勢(shì)和廣闊的市場(chǎng)前景,構(gòu)建納米孔基因測(cè)序的生態(tài)平臺(tái),共同為中國(guó)醫(yī)療健康事業(yè)的穩(wěn)健發(fā)展貢獻(xiàn)智慧和力量。