2014年6月10日,中科院藥用植物研究所(IMPLAD)劉昶團(tuán)隊(duì)在《PLOS ONE》雜志上發(fā)表了利用
PacBio測(cè)序技術(shù)揭示丹參(Salvia miltiorrhiza)葉綠體DNA修飾之間復(fù)雜相互作用的相關(guān)文章,該文章報(bào)道了丹參葉綠體中編碼及非編碼RNA的表達(dá)情況。這也是國(guó)內(nèi)PacBio第三代測(cè)序用戶(hù)在國(guó)際性雜志發(fā)表的第一篇文章。
丹參是最廣泛使用的藥用植物之一。作為基于葉綠體基因工程手段開(kāi)發(fā)使丹參活性成分過(guò)表達(dá)方法的第一步,該研究團(tuán)隊(duì)從基因組,轉(zhuǎn)錄組,和堿基修飾三方面對(duì)丹參葉綠體進(jìn)行了分析。先從新鮮葉片中提取總基因組DNA和RNA,然后進(jìn)行鏈特異性RNA測(cè)序和PacBio公司的單分子實(shí)時(shí)(Single-Molecule Real-Time, SMRT)測(cè)序分析。
實(shí)驗(yàn)先是將RNA測(cè)序得到的reads mapping到基因組,使該研究小組確定了80個(gè)蛋白質(zhì)編碼基因的相對(duì)表達(dá)水平。此外,還明確了19個(gè)多順?lè)醋愚D(zhuǎn)錄單元和136個(gè)假定反義和基因間非編碼RNA(ncRNA)基因。將蛋白編碼基因的轉(zhuǎn)錄本(cRNA)豐度與重疊反義非編碼RNA(asRNA)相比較表明,asRNA的存在與cRNA的豐度增加有關(guān)(P<0.05)。使用SMRT Portal軟件預(yù)測(cè)到了2687個(gè)潛在的DNA修飾位點(diǎn)和2個(gè)潛在的DNA修飾基序。兩個(gè)基序包括TATA盒樣基序(CPGDMM1, ''TATANNNATNA''),以及一個(gè)未知的基序(CPGDMM2, ''WNYANTGAW'')。
研究采用二代和三代DNA測(cè)序技術(shù)并用,使在基因組層面研究非編碼RNA和DNA修飾成為可能。然而,原來(lái)關(guān)于反義RNA和DNA修飾研究在實(shí)驗(yàn)上具有相當(dāng)大的困難。首先,大多數(shù)asRNA轉(zhuǎn)錄本表達(dá)水平顯著偏低,因而難以用經(jīng)典技術(shù)如Northern Blot和原位雜交進(jìn)行驗(yàn)證。第二,正義和反義轉(zhuǎn)錄本之間錯(cuò)綜復(fù)雜的關(guān)系意味著實(shí)驗(yàn)擾動(dòng)會(huì)不可避免地干擾其他轉(zhuǎn)錄本的表達(dá)。因此,通過(guò)knocking-in和knocking-out技術(shù)確定轉(zhuǎn)錄本的生物學(xué)功能是復(fù)雜的。第三,雖然SMRT技術(shù)已被證明能夠檢測(cè)到潛在的DNA修飾,但驗(yàn)證這些修飾仍然是個(gè)挑戰(zhàn)性的任務(wù)。第四,葉綠體asRNA和DNA修飾的存在和功能的驗(yàn)證是更加困難的。
綜上所述,本研究所描述的一些發(fā)現(xiàn)從目前的技術(shù)上來(lái)講是有巨大進(jìn)步的。然而,本研究提出的數(shù)據(jù)已經(jīng)證實(shí)了由asRNA和DNA修飾引起的基因表達(dá)調(diào)控的復(fù)雜性。
二,三代基因測(cè)序組裝算法和軟件研發(fā)獲突破
“第三代測(cè)序技術(shù)”的研發(fā)已有近十年時(shí)間,商業(yè)化的第三代測(cè)序儀上市也有三年。但目前測(cè)序市場(chǎng)仍為二代測(cè)序技術(shù)所壟斷(我國(guó)頂級(jí)科研機(jī)構(gòu)和商業(yè)公司所擁有的三代測(cè)序儀可能僅有數(shù)十臺(tái))。三代測(cè)序技術(shù)產(chǎn)生的讀段更長(zhǎng),測(cè)序成本更低,其取代二代技術(shù)是測(cè)序技術(shù)發(fā)展的必然趨勢(shì)。然而由于三代測(cè)序技術(shù)錯(cuò)誤率高,現(xiàn)有的組裝軟件多是對(duì)第二代測(cè)序數(shù)據(jù)組裝軟件的“修補(bǔ)”而并沒(méi)有充分考慮到三代測(cè)序技術(shù)的數(shù)據(jù)特征。事實(shí)上,基因組裝算法問(wèn)題被廣泛認(rèn)為是計(jì)算生物學(xué)和生物信息學(xué)領(lǐng)域最復(fù)雜的計(jì)算難題之一,也是目前阻礙基因測(cè)序產(chǎn)業(yè)從二代技術(shù)升級(jí)到三代技術(shù)最大的技術(shù)障礙。
最近,美國(guó)馬里蘭大學(xué) Chengxi Ye, James A. Yorke, Aleksey Zimin 等與中國(guó)科學(xué)院昆明動(dòng)物研究所遺傳資源與進(jìn)化國(guó)家重點(diǎn)實(shí)驗(yàn)室馬占山研究員在這一領(lǐng)域的合作研發(fā)取得新突破。該研究團(tuán)隊(duì)在一篇題為DBG2OLC: Efficient Assembly of Large Genomes Using the Compressed Overlap Graph 的文章中引入了一種新的針對(duì)三代測(cè)序技術(shù)的基因組裝算法,并開(kāi)發(fā)出一款軟件(DBG2OLC)。另外作者(Ye et al. 2011, 2012)于2011年發(fā)布的SparseAssembler曾經(jīng)比當(dāng)時(shí)主流的基因組裝軟件節(jié)省90%的內(nèi)存空間,而其計(jì)算時(shí)間和組裝質(zhì)量卻毫不遜色。著名的SOAPdenovo的升級(jí)版,也是目前最廣泛應(yīng)用的基因組裝軟件SOAPdenovo2即采用了SparseAssembler算法。
多組測(cè)序數(shù)據(jù)的測(cè)試表明:與目前用于三代測(cè)序最優(yōu)秀的一些基因組裝軟件(例如PacBio2CA, HGAP, ECTools)相比,DBG2OLC在計(jì)算時(shí)間和內(nèi)存空間的消耗通常僅為其它算法的1/10。理論上,DBG2OLC 在時(shí)間和空間的使用上相對(duì)其它同類(lèi)軟件可減少達(dá)1000倍。例如組裝關(guān)鍵步驟之一的“兩兩比對(duì)”計(jì)算,采用一組由 PacBio提供的人類(lèi)基因組數(shù)據(jù),DBG2OLC 使用一臺(tái)普通PC僅用了6小時(shí)完成。而同樣計(jì)算,Pacific Biosciences所報(bào)道的時(shí)間為 405000 CPU小時(shí),而且是在Google的計(jì)算集群上完成。因此,DBG2OLC 算法基本解決了目前三代測(cè)序技術(shù)所面臨的計(jì)算技術(shù)挑戰(zhàn),從而為推進(jìn)基因測(cè)序技術(shù)的產(chǎn)業(yè)升級(jí)奠定了良好的技術(shù)基礎(chǔ)。
三,PacBio RS II 測(cè)序系統(tǒng)原理
PacBio RS測(cè)序儀系統(tǒng)能夠?qū)蝹(gè)DNA(脫氧核糖核酸)分子進(jìn)行測(cè)序,而目前市場(chǎng)上的主流測(cè)序儀只能對(duì)分子群體進(jìn)行平均測(cè)序。單分子測(cè)序能對(duì)DNA中罕見(jiàn)的序列變異進(jìn)行分析,也不需要在測(cè)序之前對(duì)DNA樣本進(jìn)行放大,因?yàn)榉糯筮^(guò)程可能引發(fā)錯(cuò)誤,導(dǎo)致對(duì)某個(gè)DNA序列檢測(cè)失敗。其工作原理是用一種聚合酶將DNA的復(fù)制限制在一個(gè)微小的間隙中,給各種堿基加上熒光示蹤標(biāo)記,當(dāng)堿基合成DNA鏈時(shí),這些熒光標(biāo)記就會(huì)發(fā)出不同顏色的閃光,根據(jù)閃光顏色就可識(shí)別出不同的堿基。
四,PacBio RS II 測(cè)序系統(tǒng)特點(diǎn)
1、測(cè)序讀長(zhǎng)長(zhǎng):平均測(cè)序讀長(zhǎng)能達(dá)到3,000至5,000堿基,最長(zhǎng)的序列能達(dá)到20,000堿基;
2、準(zhǔn)確率高:對(duì)基因組組裝和基因組變異檢測(cè),可以最多達(dá)到99.999%的準(zhǔn)確率;選用特殊測(cè)序模式,測(cè)序準(zhǔn)確率可以在達(dá)到單個(gè)分子99%準(zhǔn)確率的條件下,讀長(zhǎng)超過(guò)經(jīng)典的Sanger測(cè)序法;
3、極度的敏感性:可以檢測(cè)頻率在0.1%的 minor variants;
4、直接檢測(cè)廣泛的堿基修飾:除了5-methylcytosine修飾以外, 還可以檢測(cè)N6-methyladenine, N4-methylcytosine, DNA氧化損傷 以及其它堿基的修飾.
5、GC偏向性(GC bias)。涸跇O端高GC和極端低GC區(qū)域,可以輕松測(cè)定,從而保證序列的均勻覆蓋度;
6、無(wú)PCR擴(kuò)增偏向性:樣本不需要進(jìn)行PCR擴(kuò)增,避免了覆蓋度不均一和PCR artifacts.