2.1.3 剪切后的短片段作圖軟件包
要將RNA的逆轉(zhuǎn)錄片段cDNA重新定位到基因組當(dāng)中需要更加復(fù)雜的專業(yè)化算法。要將不同外顯子經(jīng)過(guò)剪切拼接之后生成的RNA短片段重新定位到基因組中和將一個(gè)外顯子生成的RNA短片段重新定位到基因組中是完全不一樣的(圖14)。
在RNA逆轉(zhuǎn)錄產(chǎn)物cDNA的定位操作中用到的諸如ERANGE(http://woldlab.caltech.edu/rnaseq)這類軟件 包都會(huì)用到已知基因的外顯子位置和內(nèi)含子位置信息作為參考。這樣,ERANGE軟件包就能“橫跨”多個(gè)外顯子構(gòu)建新的參考序列,然后再調(diào)用Maq程序或者 Bowtie程序?qū)⒓羟泻蟮腞NA片段定位到參考序列中了。因?yàn)檫@種方法不能發(fā)現(xiàn)新的(人們未知的)剪切模式,所以有些科研人員就使用了一種“機(jī)器學(xué)習(xí)法 ”(machine learning method)來(lái)預(yù)測(cè)新的剪切模式。該方法借助現(xiàn)有的參考序列注釋信息在統(tǒng)計(jì)模型(statistical model)上進(jìn)行過(guò)演練。與此相反,TopHat軟件包(http://tophat.cbcb.umd.edu)則不需要借助任何注釋信息,它使用的 是Bowtie軟件來(lái)發(fā)現(xiàn)包含有短片段的外顯子,然后再將余下的短片段定位到前面發(fā)現(xiàn)的各種外顯子連接體當(dāng)中。還有一款程序G-Mo.R-Se(http://s.fr/externe/gmorse)使用的也是這種策略,不過(guò)它是借助RNA測(cè)序數(shù)據(jù)而不是 通過(guò)Bowtie軟件來(lái)發(fā)現(xiàn)外顯子的。
2.2 局限性及存在的問(wèn)題
現(xiàn)有的用于短片段作圖的方法都有其各自的局限性。比如,Maq和Bowtie軟件在處理插入或缺失片段時(shí)就幾乎不起作用。
有些軟件,例如SHRiMP(http://compbio.cs.toronto.edu/shrimp,圖15)就能支持ABI公司的“彩色空 隙(color space)”測(cè)序結(jié)果,但大部分軟件都是不支持該結(jié)果的。剪切后短片段作圖軟件同樣存在類似問(wèn)題,而且它們還有自己的特殊問(wèn)題。例如,基于注釋信息的軟件當(dāng)然最多只能獲得和注釋信息相當(dāng)?shù)慕Y(jié)果,但很多物種的全基因組注釋信息都僅僅只是同源預(yù)測(cè)信息或計(jì)算機(jī)預(yù)測(cè)信息。如果“機(jī)器學(xué)習(xí)方法”受到錯(cuò)誤的注釋信息“操練”的話,也不會(huì)得出好結(jié)果。
因此,對(duì)于短片段作圖軟件的開(kāi)發(fā)設(shè)計(jì)人員來(lái)說(shuō),還有很多問(wèn)題需要去解決。所有的測(cè)序儀器生產(chǎn)廠家都在努力得到更長(zhǎng)的測(cè)序片段結(jié)果,現(xiàn)有的短片段作圖 軟件能應(yīng)付這些“大家伙”嗎?Maq、Bowtie以及其它幾種短片段作圖軟件都可以處理長(zhǎng)度超過(guò)100bp的測(cè)序片段結(jié)果,但這只是在特定的情況下,而 且只有原本就是針對(duì)長(zhǎng)片段設(shè)計(jì)的軟件,例如BLAT才能更好地處理這類測(cè)序結(jié)果。另外,如果測(cè)序的樣品物種序列和現(xiàn)有的參考序列差異很大,那該如何調(diào)整作 圖軟件的參數(shù)呢?軟件能夠自動(dòng)調(diào)整參數(shù)嗎?這樣做出來(lái)的圖質(zhì)量又如何呢?上述這些問(wèn)題的解決方案都依賴于采用的檢測(cè)方法和分析范圍。不過(guò),隨著技術(shù)的進(jìn)步,相信所有這些問(wèn)題很快都會(huì)被攻克的。
原文檢索:Cole Trapnell & Steven L Salzberg. (2009) How to map billions of short reads onto genomes. Nature Biotechnology, 27(5): 455-457.
小詞典1
“參考”基因組(‘reference’ genome)
每一個(gè)種內(nèi)的物種的基因組都有數(shù)量一定且相對(duì)恒定的基因和基因排列方式,但由于某些基因或基因片段的突變形成了不同的物種。通常可以在種內(nèi)以某一代表性物種的基因組作為模式基因組,以利于對(duì)其它物種的研究。這種“某一代表性物種的基因組”就是“參考”基因組了。
3. 更快——只需15分鐘、更便宜——只需100美元的人類基因組測(cè)序技術(shù)即將面世
很快,我們就會(huì)看到最新的人類基因組測(cè)序技術(shù)問(wèn)世。有了這種新技術(shù),人類基因組測(cè)序的費(fèi)用將大為降低,平均每個(gè)樣品只需要花費(fèi) 100美元。同時(shí),該技術(shù)的測(cè)序速度要比目前市場(chǎng)上廣泛應(yīng)用的第二代測(cè)序技術(shù)快2萬(wàn)倍,而且我們可以借助該技術(shù)實(shí)時(shí)的觀測(cè)到人類基因組DNA被擴(kuò)增的過(guò)程。
Stephen Turner是太平洋生物科技公司(Pacific Biosciences)的首席技術(shù)官(Chief Technology Officer),他表示,最新的商業(yè)化單分子實(shí)時(shí)測(cè)序儀(Single Molecule Real-Time sequencing,SMRT)將于2010年上市。
十年前,塞萊拉基因公司(Celera Genomics)和人類基因計(jì)劃組(Human Genome Project)都花費(fèi)了數(shù)年的時(shí)間才得到完整的人類基因組序列圖。但到了2008年,由于有了新一代的測(cè)序儀,所以我們只用了幾個(gè)月的時(shí)間就獲得了James Watson的個(gè)人完整基因組序列。
現(xiàn)在,有了SMRT測(cè)序儀,Pacific Biosciences公司希望可以用這款測(cè)序儀在幾分鐘之內(nèi)完成人體基因組測(cè)序的工作。
我們?cè)谶M(jìn)行人類基因組計(jì)劃工作時(shí)采用的研究策略,就是利用了細(xì)胞復(fù)制DNA的天然機(jī)制。
使用DNA聚合酶復(fù)制DNA鏈的方法獲得了數(shù)十億計(jì),各種長(zhǎng)度的DNA片段分子。然后在每一個(gè)片段末端都加上一小段熒光標(biāo)記分子,該熒光標(biāo)記分子只 能對(duì)DNA鏈末端最后一個(gè)堿基進(jìn)行標(biāo)記,然后根據(jù)DNA片段的長(zhǎng)度將這些分子排列整齊,我們就可以像讀書(shū)一樣,按照長(zhǎng)短順序把DNA序列末端的堿基一個(gè)一個(gè)給讀出來(lái)了。
不過(guò)SMRT測(cè)序儀采用的并不是這種方法——等DNA聚合酶完成了復(fù)制工作之后再判讀序列的方法,該技術(shù)采用的是實(shí)時(shí)對(duì)DNA聚合酶的工作狀態(tài)進(jìn)行 監(jiān)測(cè)的方法,每一個(gè)DNA鏈分子都被吸附在小孔的底部,在DNA聚合酶復(fù)制的同時(shí),SMRT測(cè)序儀就會(huì)實(shí)時(shí)讀出每一個(gè)堿基,這樣就能得到完整的序列。
在SMRT測(cè)序儀使用的每一個(gè)堿基上都帶上了特有的熒光標(biāo)記,一旦某個(gè)堿基摻入了新合成的DNA鏈,就會(huì)發(fā)出特異性的熒光信號(hào),實(shí)時(shí)探測(cè)儀就可根據(jù)該熒光信號(hào)判斷出該位點(diǎn)是A、C、G、T中的哪一個(gè)堿基。
發(fā)明SMRT技術(shù)的科研人員們希望能夠?qū)⒃摷夹g(shù)進(jìn)一步改進(jìn),成為芯片式的多通道并行處理測(cè)序儀,這樣還可以進(jìn)一步加快測(cè)序速度。
“如果我們能同時(shí)處理100萬(wàn)個(gè)片段分子,那么我們就能夠在15分鐘之內(nèi)獲得完整的人類基因組序列圖,”Turner說(shuō)道。
SMRT測(cè)序儀在提高測(cè)序速度的同時(shí)還能夠提高測(cè)序的準(zhǔn)確率。由于用SMRT測(cè)序儀進(jìn)行測(cè)序時(shí)出錯(cuò)是隨機(jī)發(fā)生的,也就是說(shuō)每個(gè)位點(diǎn)出錯(cuò)的概率都一樣,沒(méi)有哪個(gè)位點(diǎn)會(huì)更容易出錯(cuò),因此如果進(jìn)行多次重復(fù)測(cè)序應(yīng)該能夠提高準(zhǔn)確率。
SMRT測(cè)序儀剛剛在第51界美國(guó)醫(yī)學(xué)物理學(xué)家協(xié)會(huì)年會(huì)(Annual Meeting of American Association of Physicists in Medicine)2009年工業(yè)物理學(xué)大會(huì)(Industrial Physics Forum)上第一次亮相。
原文檢索:http://www.freshnews.in/coming-soon-15-minute-100-human-genome-sequencing-157761
相關(guān)閱讀:
DNA測(cè)序技術(shù)的現(xiàn)狀和發(fā)展(上)
DNA測(cè)序技術(shù)的現(xiàn)狀和發(fā)展(中)