引言
在進(jìn)行基因組研究中經(jīng)常會(huì)遇到各類高同源區(qū)段,比如人基因組中P450基因家族,HLA基因座位,在植物、魚類和兩棲類中,同樣存在大量的高同源序列。這些同源區(qū)段多來(lái)自于物種進(jìn)化過程中的基因組復(fù)制事件或染色體加倍。在遺傳學(xué)研究中,對(duì)這些高同源區(qū)段進(jìn)行序列分析或基因分型難度很高,獲得高質(zhì)量數(shù)據(jù)仍然是一個(gè)非常具有挑戰(zhàn)性的課題。
同源區(qū)段SNP分類
二倍體和同源多倍體物種中進(jìn)行序列分析或者SNP分型,面臨地主要挑戰(zhàn)是排除旁系同源區(qū)段的干擾,例如通過提高測(cè)序深度來(lái)盡可能地發(fā)現(xiàn)所有的等位基因。但是在異源多倍體中這個(gè)問題就變得更加復(fù)雜。
同源SNP出現(xiàn)在同個(gè)亞基因組或不同祖先來(lái)源的亞基因組間成對(duì)染色體間。部分同源序列變異(Homoeologous sequence variants, HSVs)是指來(lái)自于不同亞基因組間的同源區(qū)域相應(yīng)核苷酸位置的突變。旁系同源序列變異(Paralogous sequence variants, PSVs)是指二倍體基因組或多倍體亞基因組內(nèi)同源區(qū)段的核苷酸變異,其又根據(jù)同源區(qū)段位置對(duì)應(yīng)關(guān)系分為PSV1和PSV2。直系同源序列變異(Orthologous sequence variants, OSVs)存在于不同物種之間的同源區(qū)段,如多倍體物種與其二倍體祖先基因組間的同源區(qū)段上的序列變異。
序列分析或SNP基因分型是期望獲得同個(gè)基因組位置在不同個(gè)體間的差異或基因型信息,顯然想獲得真正的SNP需要將其余HSV和PSV區(qū)分開,否則由于這些變異的存在會(huì)造成對(duì)區(qū)間內(nèi)核苷酸變異的統(tǒng)計(jì)偏差。而剔除這些同源變異的成功率受到基因組內(nèi)重復(fù)程度、繁殖方式和二倍體祖先間的親緣關(guān)系遠(yuǎn)近的影響。
現(xiàn)有的方法及不足
現(xiàn)階段針對(duì)高同源區(qū)間進(jìn)行序列分析/SNP基因分型解決方案有兩種途徑,途徑一是特異性擴(kuò)增目標(biāo)區(qū)間/SNP位點(diǎn)側(cè)翼序列,獲得特異性的PCR產(chǎn)物進(jìn)行測(cè)序或片段分析。此類又可細(xì)分為兩種,A) 跨過高同源區(qū)段在特異區(qū)設(shè)計(jì)引物,例如Sanger測(cè)序可以利用其讀長(zhǎng)優(yōu)勢(shì)完成跨越高同源區(qū)段獲得特異性PCR產(chǎn)物。B) 等位基因特異性PCR的應(yīng)用,例如三引物法等位基因特異TSP標(biāo)記、競(jìng)爭(zhēng)性等位基因特異性PCR(Kompetitive Allele Specific PCR, KASP)。途徑一幾種代表性方法適合分型規(guī)模較小的實(shí)驗(yàn),而對(duì)高通量分型的實(shí)驗(yàn),并不是非常適用。如對(duì)高通量分型實(shí)驗(yàn),Sanger測(cè)序成本太高,TSP標(biāo)記和KASP標(biāo)記成本低,但是工作量會(huì)非常大,并且等位基因特異性PCR本身有可能發(fā)生“滲漏”,從而導(dǎo)致有些位點(diǎn)分型質(zhì)量不高。(Kwok et al. 1990; Kaur et al. 2012; Jang et al. 2019)
解決方案途徑二是生物信息學(xué)。在大規(guī)模建庫(kù)測(cè)序后,生信方法第一步是嘗試剔除這些同源區(qū)段的干擾,基因組內(nèi)進(jìn)化復(fù)制事件的水平及時(shí)間點(diǎn)對(duì)這個(gè)步驟有很大的影響。一種可行的方式是假設(shè)祖先基因分化早于目標(biāo)去做和對(duì)應(yīng)模式物種,利用相關(guān)模式物種信息,構(gòu)建一個(gè)unigene集,用于BLAST比對(duì)時(shí)對(duì)同源序列進(jìn)行分類。可作為對(duì)比的模式物種如禾本科(水稻、短柄草),十字花科(如擬南芥),蝶形花科(如蒺藜苜蓿、蓮藕),薔薇科(如桃、草莓)。生信鑒別并消除可能的旁系同源序列需要先采集同源序列和部分同源序列組合信息,后續(xù)序列比對(duì)參數(shù)設(shè)置對(duì)過濾效果也有很大影響,較寬松的參數(shù)設(shè)置有可能導(dǎo)致真正的SNP和同源SNP混淆,并且生信分析對(duì)完全一致的同源區(qū)段無(wú)法剔除。在模式物種信息不夠充分的時(shí)候,也可以通過等位基因頻率剔除同源干擾(同源區(qū)段干擾的位點(diǎn)其頻率和雜合度綜述高于真正的SNP)。雖然這種方法并不總是理想的,但也可以結(jié)合后續(xù)SNP驗(yàn)證計(jì)算每種類型中的序列變異。(reviewed by )
全基因組重測(cè)序WGS、簡(jiǎn)化基因組測(cè)序(GBS、RAD等)、轉(zhuǎn)錄組測(cè)序等高通量測(cè)序利用生信分析手段,可以獲得海量的全基因組序列變異信息,借助各種手段剔除PSV、HSV的干擾,可將真正的SNP設(shè)計(jì)合成SNP探針陣列,使用芯片技術(shù)進(jìn)行高質(zhì)量的SNP基因分型。然而對(duì)于一些高同源區(qū)段的SNP分型時(shí),芯片技術(shù)的雜交并不是非常嚴(yán)格的特異性,這就造成后續(xù)打分和聚類方法很難保證結(jié)果的準(zhǔn)確性。(Akhunov et al. 2009; Durstewitz et al. 2010; Ganal et al. 2012).
面臨挑戰(zhàn)
對(duì)高同源區(qū)段進(jìn)行序列分析和已知SNP分型仍然是一個(gè)充滿挑戰(zhàn)的工作:由于同源序列的干擾,無(wú)法利用簡(jiǎn)單的PCR技術(shù)或者探針雜交捕獲技術(shù),將目標(biāo)區(qū)段特異性富集,進(jìn)行后續(xù)高通量的序列分析或遺傳位標(biāo)分型。
翼和多重長(zhǎng)片段巢式PCR技術(shù)
翼和開發(fā)了多重長(zhǎng)PCR的技術(shù)方案,通過長(zhǎng)PCR的特異引物將目標(biāo)區(qū)段分選出來(lái),單管最多可以分選10個(gè)特異性的長(zhǎng)片段。以此多重長(zhǎng)PCR為基礎(chǔ),結(jié)合巢式PCR及LDR和建庫(kù)測(cè)序,推出兩項(xiàng)特色技術(shù)服務(wù),解決高同源區(qū)段高通量序列分析/SNP基因分型難題!
技術(shù)路線
關(guān)于翼和
上海翼和應(yīng)用生物技術(shù)有限公司是上海市遺傳學(xué)會(huì)理事單位,上海市高新技術(shù)企業(yè),至今已有十六年歷史,專注于為國(guó)內(nèi)科研工作者和生物醫(yī)藥企業(yè)提供各類分子遺傳學(xué)技術(shù)服務(wù)和質(zhì)控試劑盒。十六年來(lái),翼和生物利用自身技術(shù)優(yōu)勢(shì),開發(fā)了各類分子遺傳學(xué)檢測(cè)技術(shù),現(xiàn)已服務(wù)了上千客戶,在中高通量SNP分型、基因重測(cè)序和DNA甲基化分析等方面積累了大量的經(jīng)驗(yàn)。
主要參考文獻(xiàn)
Jang, H., Shin, S.E., Ko, K.S., Par, S.H. 2019. SNP typing using multiplex real-time PCR assay for species identification of forensically importan blowflies and fleshflies collected in south korea (Diptera: callipphoridae and sarcophagidae). Hindawi https://doi.org/10.1155/2019/6762517
Kwok, S., Kellogg, D.E., McKinney, N., Spasic, D., Goda, L., Levenson, C., Sninsky, J.J. 1990. Effects of primer-template mismatches on the polymerase chain reaction: human immunodeficiency virus type 1 model studies. Nucleic. Acids Res. 18(4): 999-1005.
Akhunov, E., Nicolet, C. Dvorak, J. 2009. Single nucleotide polymorphism genotyping in polyploid wheat with the Illumina Golden Gate assay. Theor. Appl. Genet. 119: 507-517.
Durstewitz, G., Polley, A., Plieske, J., Luerssen, H., Graner, E.M., Wieseke, R., Ganal, M.W. 2010. SNP discovery by amplicon sequencing and multiplex SNP genotyping in the allopolyploid species Brassica napus. Genome 53:948-956.
Ganal, M.W., Altmann, T., Röder, M.S. 2009. SNP identification in crop plants. Curr. Opin. Plant Biol. 12: 211-217. doi:10.1016/j.pbi.2008.12.009.
Kaur S, Francki MG, Forster JW. Identification, characterization and interpretation of single-nucleotide sequence variation in allopolyploid crop species. Plant Biotech J, 2012, 10:125-138.
Clevenger J, Chavarro C, Pearl SA, Ozias-Akins P, Pearl SA, Jackson SA. Single nucleotide polymorphism identification in polyploids: a revies, example, and recommendations. Mol Plant, 2015, 8:831-846.
McKinney GJ, Waples RK, Seeb LW, Seeb JE. Paralogs are revealed by proportion of heterozygotes and deviations in read ratios in genotyping by sequencing data from natural populations. Mol Eco Res, 2016, 17(4): 656-669.