第二代高通量測序儀實現(xiàn)了較廉價和快速的DNA測序方法,但是它們有一個共同的缺點即讀出序列(reads)太短,大約在幾十個bp到幾百個bp。與生物的染色體長度相比,這樣長度的reads給下一步的裝配工作帶來麻煩?此品N類繁多的生物界其實只使用4種核苷酸,分別為A,T,G,C。這意味著DNA序列中會有數(shù)量極為龐大的片段存在重復(fù)的序列。
因此裝配過程中有時很難判斷短reads在原序列中的位置,reads A可以放到C,D,E等多個位點上,reads B看似可以放在D,G,H等位點上。這類的工作靠手工無法完成,需要使用計算機按照一定的規(guī)則和要求來裝配reads。
下面介紹一些非設(shè)備生產(chǎn)廠商提供的裝配軟件和特點。
1. 軟件名:Cross_match,作者:Phil Green, Brent Ewing and David Gordon
網(wǎng)址:
CROSS_MATCH用于蛋白質(zhì)和核酸的序列對照,使用Smith-Waterman-Gotoh算法。通過對遞歸關(guān)系的改進(jìn)提高了運行效率。適用于1. 按照參照序列為reads排序。2. 比較由不同的方法得到的重疊群(contig)。3. 比較完成裝配后重疊群和粘粒(cosmid)的序列。
2. 軟件名:Exonerate ,作者:Guy S. Slater and Ewan Birney
網(wǎng)址:
采用啟發(fā)式漸進(jìn)算法完成排序運算,避免了遍歷耗時長的缺點,同時也解決了啟發(fā)漸進(jìn)算法難以執(zhí)行的問題。
3. 軟件名:MAQ,作者:Heng Li
網(wǎng)址:
MAQ依照參照序列對reads快速裝配,推斷出包括SNPs、插入、刪除在內(nèi)的各種變體。在排序階段,首先按照最低的錯配值(mismatch score)搜索無空隙的排列。為提高速度MAQ只采用在前28bp中最多存在2個錯配的reads。
MAQ在設(shè)計時就考慮處理人類DNA序列的需要,對硬件要求低筆記本電腦就可以輕松運行。為了便于查看結(jié)果,MAQ同時提供一個基于OpenGL的瀏覽工具M(jìn)AQview。
4. 軟件名:Mosaik,作者:Michael Strömberg and Gabor Marth
網(wǎng)址:
MOSAIK能夠讀取范圍較廣的reads從幾十bp到上百bp,按照Smith-Waterman算法,依據(jù)模板產(chǎn)生有空隙的排列。另外,MOSAIK支持多線程運行,最多可有8個CPU。可以全面支持3大主流測序儀Roche 454, Illumina, AB SOLiD,試驗性地支持Helicos。
5. 軟件名:BWA,作者:Li H. and Durbin R
網(wǎng)址:
Burrows-Wheeler Aligner (BWA)允許采用較長的參考序列,而排列相對較短的核苷酸序列。BWA執(zhí)行2種算法BWA-Short和BWA-SW。BWA-Short適用于短于200bp的reads,后者適用于大約100kbp的長度。兩者均能排列出有空隙的序列,雖然BWA-SW也能工作于較短的reads,但是它的敏感度較低,反之亦然。
DNA裝配工具種類繁多,以上介紹了幾種比較典型的。此外還有RMAP,SHRiMP,SOAP,SSAHA2,SXOligoSearch等等,限于文章的篇幅這里就不一一介紹了。
那么如何選擇一種適合自己需要的軟件呢?涉及到以下幾種因素。
1. 系統(tǒng)運行時間,圖一是幾種軟件對不同長度reads排序的時間消耗。
圖一 (By Bala et al)
2. 系統(tǒng)硬件的要求,下圖是軟件消耗內(nèi)存大小的比較。
圖二 (By Bala et al)
3. 準(zhǔn)確度上的差異,比較結(jié)果見下圖。
圖三 (By Bala et al)
4. 是否能從事查找SNPs、SV等方面的工作。
5. Solexa,454,SOLiD測序結(jié)果的輸出格式并不相同,注意有所區(qū)別。很少有一款軟件可以支持所有格式的。
reads的裝配還牽涉到另一個至今未妥善解決的問題。我們把基因組的長序列打斷(shortgun method),因為不知道整條基因組序列是如何排列、如何區(qū)分來自不同染色體的reads。同時現(xiàn)有的技術(shù)又不允許一次測完整條基因組序列。必須按照一定的算法,使用計算機高速計算的能力把這些短序列組裝起來還原成原來的序列(de novo assembly)。
因為沒有參照序列,很可能組裝后的序列與原序列大相徑庭。一種稱作為paired-end的序列測序方法給出具有固定間距的reads。如下:
It is a very long human genome, so much longer than E.Coli’s.
It i*****ery *****huma*****ome,*****uch *****r th*****Coli***
一個聰明的辦法,卻沒解決所有的難題。因為基因組中含有大量的重復(fù)序列(repeats),多態(tài)性變異(Polymorphism),測序錯誤(Sequencing error),一條序列存在很多可能的路(圖論),或者回環(huán)等。見下圖。
針對這些問題,已取得較滿意結(jié)果的部分軟件如下:
1. 軟件名Edena,作者:David Hernandez et al
網(wǎng)址:
2. 軟件名SHARCGS,作者:Juliane Dohm et al.
網(wǎng)址:
3. 軟件名SSAKE,作者:René Warren et al.
網(wǎng)址:
4. 軟件名VCAKE,作者:William Jeck
網(wǎng)址:
5. 軟件名Velvet,作者:Daniel Zerbino and Ewan Birney
網(wǎng)址:
目前看來能最終解決組裝問題的希望寄托在第三代高通量單分子測序技術(shù)的問世上,提高每個reads的長度才是王道。在生命探索的征途上,科學(xué)家們?nèi)沃囟肋h(yuǎn)。