2. 用于處理新一代測序技術數(shù)據(jù)的軟件和標準
各種新一代測序儀的飛速發(fā)展面臨著一個極其重要的問題,那就是生物信息學問題,這些問題包括序列質量評分(sequence quality scoring)問題、序列比對問題、序列組裝問題、數(shù)據(jù)發(fā)布問題等。下面將逐個進行討論。
2.1 序列質量問題
目前,序列質量評分問題是受到廣泛關注的一個問題。造成這種現(xiàn)象的原因主要是因為所有新一代測序儀的測序質量都不高,而且不同的序列情況都有各自的誤差率。隨著新一代測序儀產(chǎn)品的不斷成熟,在臨床及科研工作中的應用范圍越來越廣,它們的測序質量也就變得重要起來,而且我們也需要對各個測序儀的測序質量有一個清晰的、可靠的評價標準。由于這個問題還只是剛剛出現(xiàn),所以我們有機會設立一個全球統(tǒng)一的、標準化的評價體系對目前現(xiàn)有的以及將來即將出現(xiàn)的測序儀進行評價。我們希望避免再次發(fā)生類似過去幾個芯片廠家之間進行數(shù)據(jù)比較的尷尬局面。對于測序儀的應用范圍進行標準化的質量評價也是有好處的。比如評價從頭測序的質量、評價測序結果與參考序列的相似度、評價測序儀發(fā)現(xiàn)突變以及多態(tài)性的能力以及對測序儀在進行大規(guī)模測序項目研究時的質量可靠性進行評價等。表7列出了幾項應該被重點評價的項目。
這些質量數(shù)據(jù)都應該以一種簡單、標準化的方式包含在測序結果中。現(xiàn)在所有的測序儀器生產(chǎn)商也都在他們的測序報告中加入了測序質量信息,消費者可以借此對數(shù)據(jù)進行交叉比較,甚至還有可能各取所長,將不同測序儀的測序結果整合起來,獲得最佳的測序結果。目前,旨在從短片段測序結果中發(fā)現(xiàn)多態(tài)性以及突變位點的重測序項目經(jīng)常會依靠“主要投票機制(majority voting scheme)”。該方法易于操作,但是容易出錯,假陰性率較高。諸如Brockman小組和Quinlan小組開發(fā)的,更多更好的用于發(fā)現(xiàn)單核苷酸多態(tài) 性的方法是將誤差率與單個堿基信號聯(lián)系起來,即誤差率與測序質量和序列內容相關,這樣就能獲得更準確的結果。我們估計,像phred樣質量值之類的評價體 系以及“第三方”算法的不斷發(fā)展,最終一定會誕生一個很好的發(fā)現(xiàn)多態(tài)性的工具。
2.2 用于分析數(shù)據(jù)的軟件以及生物信息學工具
雖然這些軟件和工具都還沒有完全商業(yè)化,但我們還是能獲得一些軟件用來分析新一代測序儀的測序結果(表8)。這些軟件和工具的功能主要集中在4個方面(表9)。
序列比對和組裝是一個頗受關注的問題。雖然BLAST和BLAT等序列比對工具對于長片段的序列比對來說非常有用,但是它們不適合新一代測序儀獲得的短片段序列。因此,有大量的針對短測序片段的比對工具出現(xiàn),這些工具中允許錯配或者空隙出現(xiàn)。這些工具中有些借鑒了非常成熟的序列比對算法,例如 Smith-Waterman算法等,不過還是有很多新的專門針對短序列片段的算法出現(xiàn)。比如SOAP就是這樣一種新型算法,這個軟件包能非常有效地進行 有空隙或者無空隙的序列比對。該軟件包使用了一種內存密集種子(memory-intensive seed)算法和查表格(look-up table)算法來加快比對速度,同時能夠對最容易出錯的3’端序列進行反復調整。
其它用來加速比對過程的方法還包括“字節(jié)編碼(bit encoding)”技術。該技術能將序列信息壓縮成計算機信息,這樣更利于計算機管理和分析。越來越多的比對軟件在進行比對時開始考慮數(shù)據(jù)質量,比如能 處理Solexa測序儀測序結果和SOLiD測序儀測序結果的MAQ軟件,以及能用最新的“字符空隙轉化成彩色空隙(color-space to letter-space)”的Smith-Waterman算法對SOLiD測序儀的雙堿基編碼測序結果進行分析的SHRiMP 工具(http://compbio.cs.toronto.edu/shrimp/)。
和序列比對算法的進展情況不同,如何將相對低質量的短片段序列從頭組裝起來還是一大難題。不過,已經(jīng)有好幾種組裝工具開始投入使用了。對于這種短片段序列的從頭組裝工作來說,配對序列對于整個工作的成功與否影響最大,因此已經(jīng)有人開始利用配對序列設計新的組裝工具了。
2.3序列數(shù)據(jù)出版、發(fā)行、組織存檔原則
目前對于如何組織、存檔以及發(fā)布這些新一代測序儀產(chǎn)生的短片段序列結果正處于熱烈的討論之中,人們希望制定一個類似芯片試驗 (microarray experiments,http://uhts.lbl.gov/)時制定的MIAME(Minimum Information About a Microarray Experiment)規(guī)則。這些早期的工作經(jīng)驗在如何處理包括生物學注釋信息、臨床原始數(shù)據(jù)、關鍵試驗細節(jié)(比如樣品特征、樣品處理方法)在內的元數(shù)據(jù),以及如何處理、出版發(fā)行這些數(shù)據(jù)等方面給了我們良好的建議。如何對這些新一代測序儀的測序結果數(shù)據(jù)進行公共管理也是一個需要探討的問題。NCBI最近專門為短片段序列建立了數(shù)據(jù)庫Short Read Archive(SRA),并同步制定數(shù)據(jù)提交格式。SRA數(shù)據(jù)庫不僅會收集包括實驗注釋信息、試驗參數(shù)等信息的數(shù)據(jù),而且還會被整合到Entrez查詢系統(tǒng)當中。目前的工作主要包括開發(fā)線上搜索工具、數(shù)據(jù)圖形化工具,這些工作有望在近期完成。
3. 新一代測序技術的前景
在2007年6月,James Watson的基因組序列登錄到了GenBank數(shù)據(jù)庫當中,這是第一次使用非Sanger測序法獲得了人類個體基因組序列,并且第一次將個人基因組序列公之于眾。整個測序過程在兩個月之內就完成了,花費不到100萬美元,這只占耗時10年之久的人類基因組計劃使用經(jīng)費的千分之一,同時還是2007年5月 在網(wǎng)上公布結果的Venter基因組計劃費用的百分之一。我們比較了454測序儀最初的技術參數(shù)(每次可以獲得兩千萬堿基序列,測序長度100bp,準確 率96%)和用于對James Watson進行測序時的技術參數(shù)(每次可以獲得一億堿基序列,測序長度250bp,準確率超過99%),結果發(fā)現(xiàn)摩爾定律真的適用于基因組測序領域。
454測序儀和其它的新一代測序儀(圖7)一起,展示出了小型化技術和并行處理技術的威力,它們提高了處理通量,降低了測序費用。除了引領新一代測 序技術的發(fā)展之外,454公司的研發(fā)團隊還開發(fā)了體外DNA文庫構建、模板擴增等技術,而且這些技術現(xiàn)在都已經(jīng)被市場上其它新一代測序儀所廣泛使用。很快,隨著計算機技術的飛速發(fā)展,個體基因組測序的費用將會由100,000美元降低到10,000美元,繼而降低到1,000美元甚至更低。個人基因組時代馬上就要到來了!
從費用角度、適用范圍和限制性來說,傳統(tǒng)測序儀和新一代測序儀之間具有明顯的差距。因此,對于每一個具體的項目來說,都需要仔細考慮,選擇出最合適 的測序儀。傳統(tǒng)的Sanger測序法適用于對kb~mb長度的DNA片段進行的小規(guī)模的測序項目。Sanger測序法相比新一代測序法而言具有極大的“間隔尺寸(granularity)”,既能用于大型項目也能用于小型項目。雖然與傳統(tǒng)測序儀相比,新一代測序儀在某些方面很明顯地處于劣勢,比如在測序長 度和準確率方面,但即便如此,在處理大規(guī)模的測序項目時大家還是傾向于選擇新一代測序儀。
看看新一代測序儀對以往使用傳統(tǒng)測序儀進行的生殖細胞突變和體細胞突變研究的幫助就可以認識到它們的作用有多么強大。在這項研究里,使用 Sanger測序法除了試劑這一項費用之外,其它的費用也遠遠高過了使用其它新一代測序儀。這些其它費用包括在96孔板或384孔板中處理樣品的費用、電泳費用、大量的生物信息學處理費用以及設備維護人工費用等。研究人員最近對100份樣品中的100個基因使用傳統(tǒng)測序方法究竟需要花費多少費用進行了一次非正式的調查,假設每個基因平均由10個外顯子組成,結果發(fā)現(xiàn)整體費用在30萬美元至100萬美元不等,價格依據(jù)測序單位是非盈利的基因組測序中心還是商 業(yè)化的測序服務機構而不同。很顯然,這么高昂的費用對于任何一個實驗室來說都是難以承受的。新一代測序儀除了能將測序費用降低好幾個數(shù)量級之外,它們還具 有所需儀器設備少的優(yōu)點,不過新一代測序儀在后續(xù)數(shù)據(jù)處理方面會碰到問題。
各款新一代測序儀之間也有非常明顯的差異(表10),它們都有各自“拿手”的絕活(表11)。有一些測序項目,比如重測序 (resequencing)對于測序儀的測序長度要求就沒有從頭測序的要求高。對于需要依靠標簽計數(shù)(tag counting)的測序項目,例如在定量分析蛋白質與DNA之間的相互作用時,我們就會更加需要能將待測片段分割成盡量多、盡量小片段的測序方法。測序 的準確度和各自相對拿手的項目,比如是善于發(fā)現(xiàn)插入、缺失突變還是善于發(fā)現(xiàn)堿基替換突變也是需要著重考慮的問題。另外,在進行從頭測序或發(fā)現(xiàn)結構性變異的 研究時使用的配對測序法已經(jīng)廣泛應用于各種新一代測序儀當中。這時,這些配對的模板片段在芯片上的分布情況,比如相互之間的距離遠近等就是需要重點考慮的問題了。
注:DNA測序領域的快速發(fā)展使得對各類測序方法的價格及讀長的評估在很短時間內便失去意義。Roche Applied Science、Illumina及Applied Biosystems公司目前都在不斷推出新的產(chǎn)品。表中列出的測序費用只是對使用的反應試劑費用的一個估算。測序長度指的是單鏈長度。
最后,需要考慮的當然是價格因素,各個新一代測序儀的費用都不相同,作為消費者,當然希望各個測序儀生產(chǎn)廠家之間的競爭更加激烈一點。單純比較每個堿基的測序費用是一個不錯的選擇方法,不過有時這也會誤導我們,比如準確率更高的方法當然費用會高一些。
5. 總結
過去幾年間,新一代測序技術獲得了突飛猛進的進展,同時有好幾款使用大規(guī)模平行循環(huán)芯片測序技術的測序儀得到了廣泛的應用。這幾款測序儀雖然使用的 技術有所差異,但是在測序數(shù)據(jù)的質量和數(shù)量方面都有著同樣的特征,因此也都面臨著同樣的試驗設計、數(shù)據(jù)分析和注釋的問題。不過,這些新一代測序儀將以往的測序費用降低了好幾個數(shù)量級。鑒于此,以前只有大型測序中心才能夠開展的項目,現(xiàn)在在小型實驗室里也能順利進行了。由于新一代測序儀的出現(xiàn),測序研究領域 也開始升溫,有些研究團隊正在努力開發(fā)新的測序技術希望能夠取代現(xiàn)有的新一代測序儀。按照目前的發(fā)展速度,我們很難估計幾年之后的情況。不過,能夠預計的 是,下、下一代或者說是第三代測序儀一定會像十年前的芯片技術一樣,迅速地普及開來,從而成為常規(guī)的技術。希望人們不僅關注測序技術本身的發(fā)展,更加關注 如何利用測序技術來揭開生物學和醫(yī)學上的眾多謎團。
原文檢索:
Jay Shendure & Hanlee Ji. (2008) Next-generation DNA sequencing. Nature Biotechnology, 26(10):1135-1145.
Jonathan M Rothberg & John H Leamon. (2008) The development and impact of 454 sequencing. Nature Biotechnology, 26(10): 1117-1124.
四、新型納米孔測序技術
新型納米孔測序法(nanopore sequencing)是采用電泳技術,借助電泳驅動單個分子逐一通過納米孔來實現(xiàn)測序的。由于納米孔的直徑非常細小,僅允許單個核酸聚合物通過,因而可 以在此基礎上使用多種方法來進行高通量檢測。此外,納米級別的孔徑保證了檢測具有良好的持續(xù)性,所以測序的準確度非常高。對于長達1,000個堿基的單鏈 DNA分子、RNA分子或者更短的核酸分子而言,根本無需進行擴增或標記就可以使用納米孔測序法進行檢測,這使得便宜、快速地進行DNA測序成為可能。如 果對現(xiàn)有納米孔測序法進行進一步發(fā)展和改進,那么它將有望成為第三代測序技術(也可稱為下、下一代測序技術),從而幫助人們實現(xiàn)24小時內只花費 1,000美元完成二倍體哺乳動物基因組測序這一目標。
一個盛滿電解質溶液的容器被一納米孔膜隔成兩半,如果施以比較小的電壓,如約100mV電壓,就能使用標準的電生理檢測手段測量通過納米孔的電流大小。很多生物電通道的開關都是靠小肽段分子是否堵塞通道來實現(xiàn)的。基于這個事實,加州大學圣克魯茲分校(University of California Santa Cruz, UCSC)的Deamer和哈佛大學(Harvard University)的George Church都不約而同地提出一個構想:如果DNA分子或者RNA分子也能堵塞某個通道,那么應該可以運用上述方法來檢測電流。接下來,Deamer和 Branton等人證明了單鏈DNA和RNA分子能通過蛋白質組成的孔道,并且能檢測到它們通過這種納米級孔道時所造成的電流改變(圖8a)。他們使用的孔道蛋白是金黃色葡萄球菌α溶血素(Staphylococcus aureus toxin,α-hemolysin)。這種蛋白以前曾被Bayley小組用作生物傳感器。Bayley小組發(fā)現(xiàn),α溶血素蛋白非常穩(wěn)定,即使在接近100℃的情況下也能維持正常的功能。Deamer和Branton等人發(fā)現(xiàn),因為α溶血素蛋白孔徑非常小,簡直與單鏈核苷酸的直徑相差無幾,所以可以將 折疊卷曲的核苷酸鏈解開,并僅允許它以單鏈的形式通過蛋白孔道。單鏈核苷酸分子穿過蛋白孔道時會造成局部電流改變,即相比沒有分子穿過時的電流強度有所減 小;谶@個現(xiàn)象,Deamer和Branton等人猜測,如果核酸分子中每一個核苷酸通過孔道時都能出現(xiàn)一種特定形式的電流改變,那么通過分析電流改變 的情況不就能知道核酸的序列了嗎?
為了驗證這個想法,Deamer小組、Meller和Branton小組使用好幾種不同的RNA分子和單鏈DNA分子進行了研究,以觀察它們對電流 的影響。結果發(fā)現(xiàn),polyC RNA分子引起的電流強度下降比polyA RNA分子要強得多。此外,他們還發(fā)現(xiàn),由30個A和70個C組成的RNA分子在序列從A轉變成C時電流強度也會發(fā)生改變。不過不幸的是,這種嘌呤和嘧啶之間的明顯差異沒能在脫氧核糖核苷酸試驗中發(fā)現(xiàn)。實際上,在RNA試驗中觀察到的polyA和polyC引起不同形式的電流改變是由堿基堆積(base stacking)和二級結構上的差異造成的。隨后,使用不同DNA同聚物(DNA homopolymer)進行試驗發(fā)現(xiàn),脫氧嘌呤寡聚物(deoxypurine oligomer)和脫氧嘧啶寡聚物(deoxypyrimidine oligomer)引起的電流改變差別并不大,只有不足5%。而且這種電流改變差異是由10~15個核苷酸(占據(jù)了α溶血素蛋白的跨膜區(qū))引起的,它無法 區(qū)別單個核苷酸引起的電流改變之間的差異(圖8a)。
雖然這些最初的納米孔實驗并沒有獲得預期結果,但它們至少顯示出納米孔在單分子技術方面的應用優(yōu)勢,例如高度的敏感性,同時也帶動了納米孔核酸分析技術的研究熱潮,并在理論及實驗方面取得了一些成果。自從發(fā)現(xiàn)在電場力作用下,長達1000個堿基的單鏈DNA分子也能通過納米孔之后,人們就更加堅信, 廉價的納米孔測序技術一定會成為現(xiàn)實。與此同時,與納米孔有關的研究更是大大增加。曾有人使用液態(tài)雙分子層(lipid bilayer)構建蛋白質孔道,最近還出現(xiàn)了固態(tài)材料或塑料材料的納米孔道。事實上,一直為10年內完成1,000美元檢測個人基因組這一目標努力的美國國家人類基因組研究所(NHGRI),已經(jīng)給納米孔測序研究提供了好幾筆經(jīng)費了(詳見http://grants.nih.gov/grants /guide/rfa-files/RFA-HG-04-003.html,圖9)。
盡管納米孔技術是好幾項單分子應用技術的基礎,但DNA鏈具有的長度還是成為采用納米孔技術進行測序的一個障礙。此外,隨著目前合成測序法 (sequencing by synthesis, SBS)技術正在不斷發(fā)展,并且費用越來越低,那是否還有必要繼續(xù)研究納米孔測序技術呢?這也正是目前大家對納米孔測序技術的一個疑問,人們希望更多領域的科學家和研究人員可以共同參與討論,提出合理的解決方法。
1. 納米孔測序技術的特點
納米孔測序技術一個最突出的優(yōu)勢就是便宜,尤其是在樣品準備階段幾乎不需要耗費什么試劑,而且也不需要像別的測序方法那樣使用核苷酸、聚合酶或連接 酶等等。因此,納米孔測序技術要比傳統(tǒng)的直接測序(direct strand sequencing)、Sanger合成測序法或其它方法的費用低得多,也比最近開發(fā)出的大型高通量測序儀,如羅氏公司的454、Illumina公司 的Solexa、Applied Biosystems公司的SOLiD、Helicos公司的HelioScope等要便宜。與上述所有技術都不同,納米孔測序技術根本無需純化的熒光素試劑,也無需進行DNA擴增,因此不僅省去了試劑的費用,還省去了克隆、擴增的時間,真正做到了省時又省錢。
一臺理想的使用電檢測技術的商業(yè)化測序儀需要由以下兩個部分組成:一次性的檢測芯片(disposable detector chip),該芯片整合有納米孔芯片、微流體系統(tǒng)、電子探針系統(tǒng)等;以及一套可以控制試驗操作并分析試驗數(shù)據(jù)的便攜式工作系統(tǒng)。假設一個芯片能對一個人的 全基因組進行測序,那么這一次檢測的費用就只包括制備DNA樣品的費用、設備使用費和一次性芯片的費用。
理論上說,使用納米孔測序儀只需要用不到1μg(即從不到106個細胞中提取的不到106個基因組拷貝)的基因組DNA樣品就可以獲得六倍的序列覆蓋量。不過,在實際操作過程中可能需要108個基因組拷貝,這樣才能保證在25μl~50μl的操作體系中達到足夠的檢測濃度。
人類108個基因組拷貝大約相當于700μg人類二倍體基因組組織,這點DNA可以用商業(yè)化的試劑盒直接從血液等組織中抽提出來,抽提一次的費用只需要不到40美元。
在納米孔測序過程中,長約6×109的二倍體哺乳動物基因組會被分割成長約50,000堿基的單鏈DNA分子分別進行測序。這種一次檢測50,000個堿基的能力大大方便了后續(xù)序列拼接階段的工作。如果納米孔測序技術真的能夠只需要一點點樣品,同時還不需要對樣品進行標記等操作的話,那么檢測一次的費用就只包括芯片的費用和儀器使用費,這絕對不會超過1,000美元。不過,要實現(xiàn)這一美好的目標,目前還存在幾個問題需要克服。
2. 發(fā)展納米孔測序技術可能會碰到的問題
現(xiàn)在,基于納米孔技術已經(jīng)發(fā)展出了好幾種檢測堿基的方法。下面將列舉幾種,目的不是介紹測序方法,而是為了詳細說明納米孔測序技術會碰到的主要問題。
當單鏈DNA穿過生物納米孔道或固態(tài)納米孔道時檢測電流。盡管如上所述,已經(jīng)有試驗清楚證明了可以通過檢測電流強度改變的情況來區(qū)分不同的多聚核苷酸分子,但到目前為止,還沒有一種生物納米孔或人工納米孔能有一個非常合適的幾何學結構,可以讓人們在多聚核苷酸分子穿過納米孔時檢測單個核苷酸造成的電 流改變。人們目前可用的這些納米孔都太長,沒有一個長度短于5nm,而太長的納米孔通道會造成一次有10~15個堿基的單鏈DNA分子穿過,所以無法對單個堿基分子進行檢測。即使“無限短”的通道也無法達到所需的分辨率,這是由于電場區(qū)域決定了通道電子讀出的區(qū)域,電場區(qū)域會向通道兩側各擴展大約一個通道 直徑的長度。因為納米孔的直徑要能允許單鏈DNA分子(直徑約1.5nm)通過,而電流的分辨率只能達到3nm,這就決定了只檢測電流強度的變化無法達到 “空間”上的分辨率要求。而且單鏈核苷多聚物在150mV的電場中,以大約1個核苷酸/μs的速度通過納米孔。但是要達到在皮安(pA)電流水平上檢測單 個核苷酸的精度就需要延緩單鏈核酸分子通過納米孔的速度,至少要超過1msec以上。
雖然使用納米孔無法區(qū)分DNA鏈中相隔僅0.4nm的相鄰核苷酸,但如果納米孔技術和雜交測序技術結合起來,那么測得的粗略的電流改變信息就能用于核酸分子測序。所謂雜交測序,就是通過大量已知序列的探針與待測樣品雜交,然后根據(jù)產(chǎn)生的雜交圖譜排列出靶DNA的序列。不過在雜交測序時,與待測樣品結 合的探針的位置和數(shù)量都必須弄清楚,但是僅靠雜交測序是不能得到這些信息的。而納米孔測序技術就很容易區(qū)分單鏈DNA和雙鏈DNA了,所以也就能很好地判 斷被探針雜交的位置和數(shù)目。因此,如果能將這兩種技術結合起來,就能實現(xiàn)準確的測序了。實際上,這也正是雜交輔助納米孔道測序技術 (hybridization-assisted nanopore sequencing, HANS)的原理。不過,目前HANS技術還存在兩大問題(表12)。
依次從DNA鏈末端切割堿基,以檢測這些堿基逐個通過納米孔道時引起的電流變化,用這種新方法來測序。Keller等人當初認識到可以使用核酸外切 酶逐次水解DNA末端的脫氧單磷酸核苷(deoxynucleoside monophosphate, dNMP),然后逐個識別這些dNMP,這樣就可以對DNA鏈進行測序了。但當時苦于沒有好的辦法確認這些未被標記的dNMP,所以阻礙了這種測序技術的 發(fā)展,F(xiàn)在,納米孔技術的發(fā)展給這種測序技術帶來了重生的曙光。研究發(fā)現(xiàn),α溶血素與一個氨基化環(huán)糊精配體(aminocyclodextrin adaptor)結合之后(即在α溶血素孔道內共價結合上一個環(huán)糊精),就可以識別未被標記的堿基了;谶@項研究成果,英國牛津納米孔技術公司 (Oxford Nanopore Technologies)最近成功地將一個氨基化環(huán)糊精配體共價結合到了α溶血素孔道內(圖8b)。當一個dNMP通過固定于脂質雙分子層中的α溶血素 氨基化環(huán)糊精孔道時,跨孔電流強度會發(fā)生四種改變,即每一種dNMP通過納米孔道時都會引起一種特定形式的電流強度改變,因此,可以通過測量電流強度的改變來判斷究竟是哪一種堿基(A、T、G、C)通過了納米孔。另外,由于電流強度的改變非常明顯(因為堿基堵塞納米孔和未堵塞之間,電流強度差異特別大), 所以也就可以準確的判斷出有多少個堿基通過納米孔了,F(xiàn)在,對于這種納米孔測序技術來說,最重要的是如何保證被核酸外切酶依次切下來的堿基能100%依次 通過納米孔。由于該方法采用納米孔來識別釋放的dNMP,而不是通過對完整的DNA鏈上的堿基進行鑒別,因此,這種逐次“閱讀”堿基的方式能否如實反映 DNA鏈中堿基的真實順序就顯得尤其重要了。最后,選擇哪種核酸外切酶也是很重要的一步?梢圆捎脤⒑怂崦负挺寥苎鼗蚣艚釉谝黄鸬闹亟M片段,或者采用 化學方法將核酸酶與α溶血素結合在一起,從而確保釋放的dNMP能夠通過納米孔。這種核酸外切酶應該具有可持續(xù)性、檢測時低噪音,以及同時能在高鹽環(huán)境下工作的特性。最好這種核酸外切酶能夠切割基因組雙鏈DNA,而且易于操作。
納米孔測序技術使用了信號轉換技術和光學讀出技術。納米孔測序技術還有另一個發(fā)展方向,就是將DNA序列信息轉換成兩種顏色的圖形信息,然后再通過 光學讀出技術進行檢測、分析。然而,要將熒光探針標記到DNA鏈中的每一個堿基上是非常困難的工作。于是人們開發(fā)出了一種新的方法,用兩種不同的12堿基 寡聚體(12-mer oligos)——A和B,按照四種不同的組合方式(AB、BA、AA、BB)將A、B組合起來(圖8c),這樣就可以對DNA鏈中的每一個核苷酸進行替換了。因為單個核苷酸通過納米孔的速度實在是太快了,完全無法進行檢測,所以將單核苷酸替換成這種長一點的寡聚體,可以減緩通過速度,方便檢測。同時,通 過這種信號轉化還將DNA鏈中原本的四種信號A、T、G、C簡化成了A、B兩種信號。
挪威Lingvitae公司(http:///DPTutorial.php)已經(jīng)成功開發(fā)出了一種自動化的、 大規(guī)模并行處理方法。該方法可以在24小時內將一個人類基因組序列轉化成由24bp寡聚體序列組成的“新”序列。現(xiàn)在,他們還在繼續(xù)努力,希望能開發(fā)出更 便宜、出錯率更低、寡聚體片段更長,同時耗時更短的信號轉化方法。進行這種信號轉化看起來是增加了一個步驟,這好像與納米孔測序的初衷(不需要進行標記等 額外操作步驟)相悖,但實際情況是,由于增加了這個步驟極大地簡化了后續(xù)的信號(序列)讀取工作,而這點恰恰是令其它測序方法頭疼不已的大麻煩。
使用兩種能分別與A、B互補的12bp長的“分子信標”(molecular beacon)(詳見http://www.molecular-beacons.org/Introduction.html,雜交過程見圖10)與經(jīng) 過上述信號轉化之后形成的新DNA鏈雜交。分子信標由于自我猝滅(self-quenching)機制的作用,在溶液中的熒光背景信號極低(圖8c)。
同樣,當分子信標與新DNA鏈雜交之后,由于臨近信標間存在相互猝滅作用,所以熒光信號依然很弱(圖8c)。但當雜交鏈通過直徑不到2nm的納米孔 時,與新DNA鏈互補結合的寡聚體會脫落,并釋放出熒光信號,只需依次檢測這些熒光信號就能對原始DNA鏈進行測序。將高密度納米孔芯片技術、光學讀取技 術、高分辨率電子倍增電荷偶聯(lián)攝像技術(high resolution electron-multiplying charge-coupled device camera)結合起來,就可以同時并行處理大量數(shù)據(jù),大大提高測序速度。由于納米孔不需要借助電子吸附(electrical contact)、表面修飾(urface modification)或轉位過程(translocation process)等步驟就可以裝載到芯片上,因此可以得到極高密度的納米孔芯片,F(xiàn)在的納米加工技術(nanofabrication)已經(jīng)可以達到上述 要求了。不過,目前要生產(chǎn)出直徑在1.7nm~2.0nm的高密度納米孔芯片還存在一定困難。
當單鏈DNA通過嵌有探針的固態(tài)納米孔時檢測橫向隧穿電流或電容。有這樣一種理論認為,當單鏈DNA通過嵌有探針的固態(tài)納米孔時,通過每一個堿基的 橫向電流都各不相同,故根據(jù)電流情況判斷出是哪種堿基通過,也就能對ssDNA進行測序了(圖8d)。這種方法與前面所述的因為每種堿基堵塞了納米孔道導 致電流減小的幅度不同來對堿基進行判斷的方法不同,它是檢測橫向裝載在納米孔道中的一對電極對通過納米孔的堿基施加的橫向電流來判斷究竟是哪種堿基通過 的。雖然在試驗中該方法的效果很不錯,但是還是要介紹一下有關該方法的幾種不同觀點。
與在掃描隧道顯微鏡(scanning tunneling microscope, STM)中一樣,使用合適的探針(電極),可以得到納安級(nano-ampere)的電子隧穿電流。使用這種納安級的電流檢測堿基的速度比在直徑不到 3nm的納米孔中使用皮安級的電流檢測要快得多。雖然這種方法只需使用納米孔和電流檢測設備,并有望成為最便宜、最快速的測序技術,但它也面臨著四種主要的挑戰(zhàn)(表13)。
不過,現(xiàn)在使用單壁碳納米管(single-walled carbon nanotube)就有望解決上述第二和第三個挑戰(zhàn),如果對碳納米管進行合適的改造甚至還能解決第一個挑戰(zhàn)。納米管能以一種獨特的方式和方向與堿基結合, 而且每一個堿基的結合活化焓(binding activation enthalpie)為了便于控制DNA鏈通過納米管的速度,也都處于可被溫度、離子強度或偏置電壓調控的范圍之內。
要借助橫向隧穿電流來分辨堿基還有一種方法,就是在化學修飾的金屬電極和待測堿基之間形成堿基特異性的氫鍵。Ohshiro和Umezawa發(fā)現(xiàn), 在STM中如果金屬探針(電極)被A、G、C、U的硫氫基(thiol)修飾之后,電極和堿基之間的隧穿電流會被極大地放大。他們發(fā)現(xiàn),使用經(jīng)胞嘧啶修飾 過的探針(電極),可以區(qū)分出序列TTTTTTTTGTTTTTTTTT和序列TTTTTTTGGTTTTTTTTT。基于Ohshiro和 Umezawa的工作,Lindsay等人猜想,是否可以使用經(jīng)兩種不同化學修飾方法加工過的電極,令其中一組電極能結合核苷酸的磷酸基團,而另一對電極能結合核苷酸的堿基基團(圖11)。這樣,在每一個核苷酸通過納米孔中的“閱讀器(電極)”時就會通過“電流距離”(current-distance) 而不是通過靜態(tài)的“隧穿電流”而被檢測出來。A、C、G、T四種“閱讀器”中的每一種都會借助上面的功能基團與通過納米孔的同一種堿基形成氫鍵。將這四種 閱讀器鏈接在一起形成“DNA鏈”就可以對dsDNA鏈進行測序了。不過,要同時將四條dsDNA鏈穿過四個閱讀器還是一大難題。
還有人提出可以將金屬氧化硅電容和納米孔技術結合在一起通過對DNA進行靜電檢測以達到測序的目的。透射電鏡(transmission electron microscope, TEM)發(fā)射的電子束可以將納米孔固定到兩層摻雜硅構成的膜上(中間被厚約5nm的SiO2絕緣層隔開)。當有DNA鏈穿過納米孔時,可以檢測到兩層硅膜間電容的靜電勢和電壓發(fā)生了改變。仿真結果表明,A、C、G、T都有其各自獨特的電容信號,因此從理論上來說也可以通過這種方法進行測序。在早期的一次試驗中發(fā)現(xiàn)能夠檢測到DNA鏈通過納米孔時引起的電壓變化,但是由于時間太短,還無法區(qū)分出單個的堿基。目前,該方法面臨的主要問題也是如何控制堿基通過納米孔時的速度和方向。
3. 獲取較長的測序長度
納米孔測序技術還有一個非常吸引人的優(yōu)勢,那就是測序距離長。因為納米孔測序儀對通過的每個堿基進行測序,與前后的測序結果都無關。因此從原則上來說,使用納米孔測序技術,只要DNA鏈不發(fā)生斷裂,并且能一直通過納米孔,就可以一直檢測下去。到目前為止,人們已經(jīng)證明,長達25kb的ssDNA能夠一次性通過生物納米孔,長達5.4kb的ssDNA能夠一次性通過固態(tài)納米孔。因此,如果檢測技術能得到進一步的改善(能檢測快速通過納米孔的堿基),納米孔測序技術還是具有非常好的應用前景的。雖然現(xiàn)在還無法確切獲悉納米孔測序技術的準確度有多高,但可以確定插入、缺失等序列錯誤不會影響片段的讀出長度,因為相移在獨立的單分子讀序中并不是一個問題。只要所測序列是隨機的,而不是系統(tǒng)的或具有位點依賴性的,那么足夠高的序列覆蓋率便可以保證任何水平的準確度。
此外,雖然目前的第二代測序儀的測序長度較短,但它們具有高通量的優(yōu)勢,因此可以將納米孔測序技術和這些第二代測序技術結合起來,以彌補第二代測序儀在測序長度方面的不足。
考慮到在未來的測序技術發(fā)展趨勢中,測序長度是至關重要的一個指標,因此還需要進一步研究,以弄清納米孔測序技術在檢測ssDNA時測序的極限長度 是多少。納米孔測序技術在檢測單鏈寡聚物(不到50個堿基)時可以進行高通量檢測,此時核酸鏈通過α溶血素納米孔的速度大約是5.8個低聚物/sec μM。因為核酸鏈大分子穿過納米孔的速度與其在溶液中的摩爾濃度有關,而摩爾濃度又不能太高以免溶液太粘稠,因此還需要進行試驗驗證50kb長的ssDNA是否能以一個合適的速度通過納米孔。已經(jīng)有幾篇論文報道指出,使用直徑約3nm~6nm的納米孔能夠檢測長約3kb~10kb的ssDNA及 dsDNA片段(核酸分子的濃度在10nM~20nM之間),不過文章中都沒有提及核酸分子通過納米孔的速度。此外,雖然Branton等人已經(jīng)證實了48kb的λ-DNA可以通過納米孔,但是使用最新的納米孔捕獲及再捕獲技術對長基因片段進行測序時的效率更高。納米孔捕獲及再捕獲技術對于提高測序質量 非常重要,因為借助這種技術就可以對同一個堿基進行反復測序。當堿基初次通過納米孔時,如果檢測信號質量不高,實時監(jiān)測軟件就會“命令”該堿基再次通過納 米孔并重新接受檢測,直至獲得滿意的信號為止,而不需要重新準備樣品,從頭再測一次。
4. 控制DNA通過納米孔
DNA高速通過納米孔的特性使得高速測序成為可能,但同時這種高速度也正是很多納米孔測序技術的“阿喀琉斯之踵(‘Achilles’ heel,意即弱點)”。因為速度太快,檢測的信號質量就不高,甚至很多小的信號根本就檢測不到。在120mV的條件下,DNA會以每個堿基 /1μs~20μs的速度通過α溶血素納米孔。這就需要探測器的檢測帶寬達到MHz級,才能檢測到皮安級的電流強度。
當DNA在電泳作用下通過納米孔時,由于擴散作用的影響,降低了測序的質量。由于DNA分子的隨機運動使得它通過納米孔的時間,即通過時間 (transit time)的跨度非常大(這一點從理論上和試驗上都已經(jīng)證實了),因此,人們無法判斷有多少堿基通過了納米孔。而且,由于跨孔DNA分子與納米孔表面間存在的非特異性的相互作用還會受到非連續(xù)性的粘滑現(xiàn)象(discontinuous stick-slip phenomena)影響,所以相互作用會發(fā)生改變。這種相互作用改變的本質和頻率會引起“逃避時間(escape time,解離時間)”發(fā)生非泊松分布(non-Poisson distribution),于是,同一種堿基分子通過納米孔時的通過時間也會不同。而且,如果堿基分子通過納米孔的時間小于平均通過時間,那么它極有可能被漏檢。
鑒于此,對于納米孔測序技術來說,最為重要的一點就是如何控制并減慢DNA分子通過納米孔的速度,同時盡量消除由于納米孔表面相互作用給DNA分子 跨孔動力學上造成的波動現(xiàn)象。降溫和增加溶液的粘稠度可以在一定程度上減慢DNA分子通過納米孔的速度,但這兩種方法都不能消除因納米孔表面相互作用造成 的跨孔動力學波動現(xiàn)象。真正能降低DNA跨孔速度的方法見表14。
上述這些限速步驟所達到的速度都在每個堿基/數(shù)毫秒級,同時還都會受到離子強度、溫度以及跨孔偏置電壓的影響。
最理想的狀態(tài)是,如果能發(fā)現(xiàn)一種電信號來代表堿基間的“空隙”,那就能清楚地知道有多少個堿基通過了納米孔了。這種信號對于分析跨孔動力學和堿基孔 內停留時間等都具有很高的使用價值,而且可以據(jù)此來決定測序儀的檢測帶寬和其它參數(shù)。但在該信號出現(xiàn)之前,人們還需弄清楚DNA的跨孔動力學,同時還要開 發(fā)出控制DNA跨孔速度的辦法。納米孔制造技術的發(fā)展使得我們能夠制造出特殊的納米孔,這些納米孔的背景噪聲很低,而且能夠調控DNA與納米孔表面的相互 作用。最終,將DNA跨孔速度控制技術、高帶寬技術、低噪聲檢測技術結合在一起,就能制造出高速納米孔測序儀了。
5. 生物納米孔的穩(wěn)定性問題和固態(tài)納米孔的制造問題
溶血素七聚體(hemolysin heptamer)是最常用于在脂質雙分子層中制造生物納米孔的材料,它性質非常穩(wěn)定。但脂質雙分子層的性質卻不那么穩(wěn)定,尤其是液態(tài)脂質雙分子層,制造起來極難且費時。
Bayley等人發(fā)現(xiàn)包裹在兩層薄瓊脂糖中的裝載有α溶血素納米孔的雙分子層非常穩(wěn)定,可以被裝到特氟隆薄膜(Teflon film)中儲存數(shù)周之久。同時他們還發(fā)現(xiàn),α溶血素納米孔可以被頂端是瓊脂糖的塑料或玻璃探針裝載到上述雙分子層組成的芯片上。另一種穩(wěn)定雙分子層的方 法是使用納米級的孔徑而不是微米級的孔徑。試驗證明,在玻璃毛細管末端的直徑為100nm~1,000nm的雙分子層在包被有特殊硅烷化劑 (silanizing agent)的條件下能保持穩(wěn)定達兩周以上。
使用離子束雕刻(ion beam sculpting)、電子束鉆孔(e-beam drilling)和原子層沉積(atomic layer deposition)等方法可以在氮化硅、氧化硅或其它金屬氧化物等介質上“制作出”穩(wěn)定的、有功能的固態(tài)納米孔,不過要得到直徑在 1.5nm~2.0nm的納米孔芯片還是一件非常困難的工作,F(xiàn)在,人們已經(jīng)可以制作出裝載有用于檢測隧穿電流探針的納米孔,但是目前的納米孔制作工藝非 常繁瑣,速度慢又耗費人力,而且制作出的產(chǎn)品還常常無法達到應用的要求。毫無疑問,隨著納米電子學領域的不斷發(fā)展,人們一定會制造出高質量的納米孔芯片。但是,直到納米孔測序技術被證明是可行的那一天為止,納米孔測序研究領域的科學家都會一直面臨一個問題,那就是只能使用科研設備,而不可能使用大量生產(chǎn)的商業(yè)化設備。
對于某些納米孔測序技術來說,最穩(wěn)定的納米孔可能是固態(tài)納米孔和α溶血素納米孔的“雜交體”,即在氮化硅之類的人工膜上做出5nm左右的納米孔,同時也裝載上α溶血素納米孔。如果這種方法可行,那么該雜交納米孔就既有高度的重復性又有無限的穩(wěn)定性。
6. 結論
如果納米孔測序技術能夠成功,那么它將是非常好的一種新的測序技術,因為它具有以下優(yōu)點(表15)。
因此,一個成功的納米孔測序儀其測序費用應該非常低廉,極有可能達到NIH設定的只用1,000美元就能完成個人基因組測序的目標。同時,納米孔測序儀本身不會太貴。如果能在一個測序芯片上整合100個納米孔以及相應的微流體系統(tǒng)和電子探針系統(tǒng),那么對一個人類基因組進行六倍覆蓋率的測序也只需要一天的時間。不過,納米孔測序技術還是面臨著很大的問題。短期內的一個主要問題就是如何減慢DNA通過納米孔的速度,使每一個堿基通過納米孔的時間從微秒級上升至毫秒級。
最近,有研究結果表明DNA酶處理能起到減緩的作用。如果納米孔測序儀用到了溶血素七聚體,那么就還需要與之相配套的穩(wěn)定載體。目前,這方面的工作 也取得了一定的進展。不過從長遠來說,人工合成的固態(tài)納米孔似乎更適合商用。人們可以通過監(jiān)測隧穿電流或電容的改變來“讀取”每一個通過納米孔的堿基,不 過這種方法是否切實可行還需要進一步驗證。還有一個一直存在的問題是:不論用哪種檢測方法,DNA分子在通過納米孔時發(fā)生的隨機運動都會增加背景噪聲。
綜上所述,納米孔測序技術具有非常誘人的應用前景,因此我們還得繼續(xù)努力研究下去。而且隨著研究的深入,我們越來越堅信,納米孔測序技術一定會成功的。
原文檢索:Daniel Branton, David W Deamer, Andre Marziali et al. (2009) The potential and challenges of nanopore sequencing. Nature Biotechnology26(10): 1146-1153.
五、更多閱讀
1. 核糖體印記與深度測序技術
將核糖體圖譜(ribosome profiling)和深度測序(deep sequencing)相結合,研究人員可以從基因組水平監(jiān)測蛋白質的翻譯狀況。
深度測序的強大功能對生物學研究的各個領域都產(chǎn)生了極大的影響。在諸如全基因組測序等方面,新技術的高效性和經(jīng)濟性使人們得以以一種以前無法想象的方式進行試驗研究。而在另一些情況下,例如RNA測序時,借助深度測序可以進行更多的定量分析,獲得更大的動態(tài)范圍。在另一些研究中,例如最近由美國加州大學(University of California)的Jonathan Weissman小組發(fā)表的有關翻譯圖譜(translational profiling)的研究中報道的那樣,深度測序不僅是一個有效的定量手段,同時還能提供很多有用的新信息。
使用核酸酶消化mRNA時,在翻譯過程中發(fā)揮作用的核糖體結合并保護了大約30bp 的mRNA片段。Weissman等人將細胞中這些被保護的mRNA片段構建成DNA文庫,再使用Illumina公司的測序儀對文庫中所有的片段進行測序,最終得到了一幅有關細胞中蛋白質翻譯情況的完整“畫卷”。
這種方法可以應用于很多方面。首先,它能廣泛地用于蛋白質組研究當中。正如 Weissman說道的那樣,“對于像人類一樣復雜的基因組,你真的無法解釋清楚細胞表達出來的多肽是什么。而這種新方法剛好給了你一個客觀的、全面的機 會去弄清楚這些多肽。”現(xiàn)在,Weissman等人正在使用這種新方法研究酵母,因為酵母比較簡單,同時也被研究得比較透徹,因此相對來說比較容易研究。 但是從理論上來說,該方法是可以應用到其它任何一種物種中的。另外,將該技術與標記有抗原表位的核糖體(epitope-tagged ribosomes)結合使用,還有可能用于研究組織特異性的蛋白質翻譯(tissue-specific translation)。Weissman說道:“我認為該技術會將分子神經(jīng)解剖學(molecular neuroanatomy)一類的學科引向新的紀元!
其次,在檢測蛋白質表達情況時,使用核糖體圖譜技術相比檢測mRNA豐度來說更準 確。研究人員借助核糖體圖譜技術為胞內數(shù)千種mRNA構建了核糖體印記密度圖譜,并通過這些數(shù)據(jù)獲得了蛋白質翻譯表達速度方面的數(shù)據(jù)。據(jù)這些研究人員報道,使用蛋白質翻譯表達速度方面的數(shù)據(jù)來判斷蛋白質豐度要比用mRNA豐度來預測準確得多。Weissman說道:“對我們來說,定量蛋白質組學 (quantitative proteomics)最大的好處就是能客觀評價人們的工作究竟做得好不好。”實際上,如果對結合在mRNA鏈5’ 端的核糖體數(shù)目進行進一步的修正,就能更準確地預測出蛋白質的豐度。
核糖體圖譜還可以用于翻譯控制(translational control)分析。Weissman等人正在使用該技術對饑餓酵母胞內的翻譯反應(translational response)進行研究。毫無疑問,該方法也可以用于高等生物應激或疾病狀態(tài)下的蛋白質合成反應控制情況。
核糖體圖譜技術還具有很高的空間準確性(spatial precision),能準確地反映出究竟是哪一個閱讀框被翻譯了。因此,可以使用該技術研究程序性框移(programmed frameshift)和終止密碼子通讀(stop-codon readthrough)等現(xiàn)象。Weissman等人最近在酵母中的工作還發(fā)現(xiàn),該技術可以發(fā)現(xiàn)mRNA 5’ 端非編碼區(qū)的異常翻譯情況。
正如Weissman對核糖體圖譜技術的總結一樣,“我們現(xiàn)在能直接得到全面的、高質量的蛋白質翻譯速度方面的數(shù)據(jù)。通過這些數(shù)據(jù)我們可以知道哪種蛋白質表達了以及表達了多少。同時,我們還能很方便地對翻譯過程本身進行研究。”
原文檢索:Natalie de Souza. (2009) Deep sequencing of ribosome footprints. Nature Methods 6(4): 244-245.
2. 如何將數(shù)十億的短片段測序結果定位到龐大的基因組序列當中
隨著新一代測序儀的出現(xiàn),人們獲得了大量的短片段序列,如何對這些短片段作圖就成了一個大問題,F(xiàn)在有什么辦法可以解決這個問題呢?上述辦法又是基于何種原理工作的呢?
新一代測序儀可以以極快的速度以及極其低廉的價格獲得大量的序列,這已經(jīng)改變了基因組學的面貌。這些新測序儀一經(jīng)出現(xiàn),馬上就成為了全基因組測序的主力軍,廣泛應用于各種測序相關的實驗檢測,包括基因表達譜檢測、DNA與蛋白質相互作用 檢測和RNA剪切研究等。例如,它們可用于對RNA進行測序,即先通過逆轉錄將其變成cDNA,然后再對cDNA進行測序,這樣就能發(fā)現(xiàn)一些未知的基因, 并據(jù)此發(fā)現(xiàn)新的RNA剪切方式。也可以將測序技術應用于ChIP,弄清楚與蛋白質共沉淀的DNA片段的序列。這種方法能用于研究轉錄因子與DNA調控元件之間的相互作用。此外,對腫瘤細胞全基因組測序也能發(fā)現(xiàn)一些新的致癌突變。
但在新一代測序儀帶來方便的同時也帶來了問題,即被稱為“閱讀片段作圖(‘read mapping’)”的問題。美國Illumina公司、Applied Biosystems(ABI)公司和Helicos公司等開發(fā)的測序儀在測序時產(chǎn)生的都是長約25bp~100bp左右的小片段序列,即“read”。 這些小片段都是待測樣品大片段的某一部分。與對未知的全基因組進行測序,即與將所有小片段組裝成一個完整基因組的工作相比,人們現(xiàn)在大部分的工作實際都可以參照“參考基因組”(也稱“模式基因組”,小詞典1)進行。因此,要了解小片段“read”的作用,首先要知道它們在參考基因組中的確切位置,而對這些 小片段進行定位的過程就稱作“作圖”(mapping),或 “定位”(aligning)到參考基因組中。在作圖中,有一個問題需要注意,那就是進行定位(本文將在后面的“短片段作圖軟件”一節(jié)中對此做詳細介紹) 時不能出現(xiàn)大的“間隙”。而在對RNA進行測序時,因為存在內含子的緣故,這一點就顯得尤為突出。因此,對RNA進行測序時就允許有較大的間隙出現(xiàn)(這將 在下文“剪切后的短片段作圖軟件包”一節(jié)進行詳細討論)。
當然,上述問題都不是伴隨新一代測序儀的出現(xiàn)而出現(xiàn)的新問題,即使在經(jīng)典的 Sanger毛細電泳測序法中也有與之相應的專門用來處理定位問題的程序。不過,這些程序既不能處理短片段測序儀獲得的大量序列數(shù)據(jù),也不能定位長度較短的短片段序列。使用傳統(tǒng)的BLAST或BLAT軟件分析ChIP或RNA測序結果,可能會花上幾百甚至幾千個小時。幸運的是,人們現(xiàn)在有了新的分析軟件。在選擇一款分析軟件之前,要先弄清楚,為什么用計算機處理作圖問題會出現(xiàn)問題?人們現(xiàn)在已經(jīng)解決了其中的哪些問題?還存在哪些問題?還有沒有其它機遇?
2.1 短片段作圖
2.1.1 對短小片段作圖存在哪些問題?
問題1:實際操作。如果參考基因組很大,而我們手上又有數(shù)十億計的短片段序列,那么 該如何處理這么龐大的數(shù)據(jù)呢?如何將每一條短片段定位到參考基因組中相應的位置上?序列比對是生物信息學中的一個傳統(tǒng)問題,有大量的文獻著作介紹了各種不 同的比對方法,既有精確嚴格的方法也有不那么嚴格的方法。不過,從實際應用的角度出發(fā),要將數(shù)十億的短小片段定位到哺乳動物基因組大小級別的參考基因組中 需要借助效率非常高的算法進行處理才有可能辦到。
問題2:處理策略。如果某個短小片段屬于參考基因組里的一個重復元件,那么就應該弄 清楚它來自重復元件中的哪一個拷貝。但這是不太可能實現(xiàn)的,所以分析程序一般都只能給出該短片段可能屬于參考基因組中哪幾個位點。同時,由于測序錯誤或者 檢測樣品間以及檢測樣品和參考基因組間出現(xiàn)變異等情況,使上述問題變得更加嚴重。同樣,在RNA剪切體作圖中也存在上述問題,而且由于內含子的問題使得情況更為復雜。
Illumina、ABI、Roche、Helicos以及其它眾多測序儀生產(chǎn)廠家 開發(fā)的測序儀每一輪測序都能獲得百萬計的短片段序列,不過要對一個基因組進行完全測序則需要進行好幾輪檢測,這也就意味著要想獲得一份完整的全基因組圖譜 必須對數(shù)百萬甚至是數(shù)十億的短小片段進行作圖、定位和拼接。比如,最近由Ley小組做出的癌癥基因組序列就是通過132輪測序,對80億條短小片段進行作圖后得到的結果。使用BLAST或BLAT比對法,借助大型的超級計算機只需要幾天就能獲得這個癌癥的基因組序列結果,但這并非人人都能享有。為了能讓更多的人用更廉價的計算機也能進行類似的作圖分析,人們開發(fā)了一套新的比對定位程序,使用這種新程序即使在普通的臺式機上也能對數(shù)億計的短小片段進行作圖分 析。測序儀器生產(chǎn)廠商也會提供一些專門的作圖軟件,例如Illumina公司開發(fā)的ELAND程序等。本文將著重探討第三方開發(fā)的軟件,這些軟件中很大一 部分都是開放源代碼的免費程序。這些軟件主要都是建立在這樣一種算法之上,即充分利用短小DNA序列的特點來作圖,而不需要依靠計算機強大的處理能力、內存容量等條件。
2.1.2 短片段作圖軟件
Maq和Bowtie(見表16)都屬于上述提及的程序。它們使用的是一種稱作“建立索引(indexing)”的策略。同時,人們也對大量的DNA序列建立了一份索引,借助這份索引就能快速地找到其中的短DNA片段了。Maq軟件是基于一種直接的但是很有效的策略——空位種子片段索引法(spaced seed indexing)(圖12a)。它將一個短片段(read)分成了4條長度相等的更短的片段——種子片段(seed)。如果整段短小片段(read)可以與參考基因組序列完全配對,那么很顯然所有的種子片段(seed)也理所應當?shù)貞撆c參考基因組序列完全配對。但如果其中有一處錯配,例如SNP,那么肯定有一條種子片段無法與參考基因組序列完全匹配。依次類推,如果出現(xiàn)了兩處錯配就會導致一條或兩條種子片段無法與參考基因組序列完全匹配。因此,對所有種子片段兩兩組合后的片段(共有6種組合方式)進行比對,就有可能找出該短小片段在基因組中最有可能的位點。Maq軟件采用的這種“空位種子片段索引法 ”(spaced seed indexing)作圖時的效率非常高。
Bowtie軟件采用的則是另一種完全不同的策略,該策略借鑒了Burrows- Wheeler轉換(Burrows-Wheeler transform)這種數(shù)據(jù)壓縮算法技術,將完整的人類基因組序列索引壓縮到不到2GB大小(這是當前主流臺式機甚至是筆記本電腦都能達到的水平),而空位種子片段索引法至少需要50GB。Bowtie每次都只把一段短片段序列中的一個堿基與經(jīng)Burrows-Wheeler轉換壓縮過的參考基因組序列進行比對(圖12b)。經(jīng)過這種連續(xù)的比對,最終也能找出這段短片段在參考基因組中的定位。如果Bowtie軟件發(fā)現(xiàn)短片段中的某個堿基在參考基因組中沒 有很好地配對,那么軟件就會退回到上一個堿基重新進行比對。實際上,Burrows-Wheeler轉換使得Bowtie軟件通過堿基逐個比對,直至完成全長短序列比對的方法解決了短序列作圖的問題。從本質上來說,Bowtie軟件使用的算法要比Maq采用的復雜得多,但Bowtie軟件卻比Maq軟件分析的速度快30倍。
Bowtie軟件和Maq軟件的默認模式中至多都只會允許兩個錯配位點,不過有時有 些用戶需要允許更多的錯配位點存在。Bowtie軟件和Maq軟件能夠分析的短序列長度范圍在20bp~40bp之間,它們都經(jīng)過優(yōu)化設計以使其適合用于人類基因組再測序計劃(human resequencing project)。不過,現(xiàn)在Illumina公司最新的測序儀已經(jīng)能夠獲得長約100bp的“短”片段序列,還有一些測序項目,例如細菌或真菌基因組測 序項目等獲得的片段序列與目前已經(jīng)測得的類似物種全基因組序列之間存在著較大的差異。再加之隨著新測序儀的不斷涌現(xiàn),測序結果的質量也在不斷提高,但這些 測序結果卻極易受到各種因素的影響,例如樣品文庫的準備、測序操作步驟、甚至是放置測序儀器實驗室的溫度等等。鑒于此,面對上述這些新出現(xiàn)的“問題”,人 們也應該采取相應的措施,調整Maq軟件和Bowtie軟件的各種參數(shù)使之適應這些新情況。
表16列出的是幾種新的開放源代碼的短片段序列作圖軟件,它們的安裝和使用都很簡單。
Bowtie軟件包中包括預置的大腸桿菌基因組索引和部分大腸桿菌短片段序列。要使用該軟件分析數(shù)據(jù)只需輸入下面的命令就會生成一個表格式的報告,給出每一個匹配短序列的編號、在參考基因組中的位置、以及發(fā)生錯配的位點個數(shù)和具體位置。
bowtie e_coli reads/e_coli_1000.fq
在Maq軟件中輸入以下命令也會得到同樣的結果。
maq.pl easyrun -d outdir
reference.fasta reads.fastq
對于一次實驗來說,短序列片段能否與參考基因組相匹配實際上取決于很多因素。假設被測序的DNA片段中幾乎沒有錯配位點,大多數(shù)作圖軟件也只能定位 出70%~75%的短片段序列。這個結果和使用Sanger測序法獲得的80%的結果比起來低得令人吃驚,說明現(xiàn)在第二代測序技術還不成熟。這提示人們,很多短片段都需要與參考基因組中的多個位點進行比對,而大部分的作圖軟件都只會給出短片段在參考基因組中的一個匹配位點。
有了序列定位的軟件,接下來就可以了解這些短片段具體在參考基因組中的什么位置了,同時也可知道SNP都位于基因組中的什么地方。SAM軟件包能滿 足這些要求。SAM軟件包(http://samtools.sourceforge.net)包括一體化的堿基調用和瀏覽器(base caller and viewer),它能使用Maq和Bowtie兩種分析軟件。
實際上,大部分短片段作圖軟件設計的初衷都是為了服務于人類全基因組再測序工作,但是調整軟件參數(shù)之后,它們也能應用于其它方面。Maq和 Bowtie這兩種分析軟件的操作手冊都寫得非常詳細,它們給出的備選方案多到“嚇人”的程度,F(xiàn)在還出現(xiàn)了越來越多的短片段作圖軟件(表16),不過每一款軟件都無法達到十全十美的境界,而且各有偏重,這就給人們選擇軟件及其配置參數(shù)帶來了麻煩。幸運的是,人們能夠得到幫助。SeqAnswers message board(http://www.seqanswers.com,圖13)就是一個非常好的論壇,它是一個短片段作圖軟件開發(fā)人員經(jīng)常光顧的論壇。最流行的SeqAnswers線程一般都包括目前用于初步分析的軟件和短序列數(shù)據(jù)可視化處理的軟件一覽表。
相關閱讀:
DNA測序技術的現(xiàn)狀和發(fā)展(上)
DNA測序技術的現(xiàn)狀和發(fā)展(下)