一、我們將如何應(yīng)對(duì)海量的基因信息
新一代測(cè)序技術(shù)帶給人們大量遺傳信息的同時(shí),卻成為限制其廣泛應(yīng)用的一個(gè)障礙。
1980年,英國生物化學(xué)家Frederick Sanger與美國生物化學(xué)家Walter Gilbert建立了DNA測(cè)序技術(shù)并獲得諾貝爾化學(xué)獎(jiǎng),至今已有近三十年了。在這三十年,DNA測(cè)序技術(shù)取得了令人矚目的進(jìn)展。目前已進(jìn)入市場(chǎng)的循環(huán)陣 列測(cè)序平臺(tái)采用的是與Sanger生物化學(xué)測(cè)序方法完全不同的原理。在過去幾年,應(yīng)用極為廣泛的毛細(xì)管電泳測(cè)序法采用的則是多線并行陣列格式,它運(yùn)用尖端 的熒光成像技術(shù)進(jìn)行堿基識(shí)別。上述各類新技術(shù)為生物學(xué)研究領(lǐng)域開辟了新的視角,也使實(shí)驗(yàn)研究達(dá)到一個(gè)新的水平。學(xué)界對(duì)開發(fā)這類新技術(shù)的興趣持續(xù)高漲,與此同時(shí),人們卻發(fā)現(xiàn)這些技術(shù)存在一定的不足——大量信息數(shù)據(jù)的產(chǎn)生限制了技術(shù)更加廣泛的應(yīng)用,并降低了其市場(chǎng)價(jià)值。
過去,研究人員使用Applied Biosystems(ABI)公司的3730XL毛細(xì)管電泳測(cè)序儀進(jìn)行基因分析,每年至多能完成六千萬堿基的測(cè)序量。隨著測(cè)序技術(shù)日新月異的發(fā)展,這種情況已經(jīng)成為歷史。在2005年剛剛開始進(jìn)行新一代測(cè)序技術(shù)開發(fā)時(shí),Roche公司和454公司聯(lián)合開發(fā)的焦磷酸測(cè)序儀的分析速度就已經(jīng)達(dá)到了上述提及的ABI儀器速度的50倍之上。也就是從那時(shí)起,因基因數(shù)據(jù)過多而產(chǎn)生的問題凸顯了出來,而且這個(gè)問題隨著其他制造商開發(fā)出更多更快的測(cè)序儀而愈加嚴(yán)重。舉個(gè)例子,ABI的新一代測(cè)序平臺(tái)SOLiD(supported oligonucleotide ligation and detection)單次運(yùn)行,便可以分析6Gb的堿基序列;而Roche/454測(cè)序儀單次運(yùn)行可以將上述結(jié)果轉(zhuǎn)換成12-15個(gè)千兆字節(jié) (gigabytes)的數(shù)據(jù)信息;Illumina Genome Analyzer(GAII)測(cè)序系統(tǒng)僅在兩個(gè)小時(shí)的運(yùn)行時(shí)間里,就得到10兆兆字節(jié)(terabytes)的信息。盡管對(duì)于像Applied Biosystems這樣的制造商而言,可以為用戶提供高達(dá)11.25TB的存儲(chǔ)量,但對(duì)于多數(shù)實(shí)驗(yàn)室所具有的信息管理系統(tǒng)來說,規(guī)模如此龐大的數(shù)據(jù)信息,就好像是迎面而來的洪水,讓人感到難以控制。
過量信息所帶來的一個(gè)副作用在于,用戶無法將初始圖像數(shù)據(jù)進(jìn)行分類存檔,而必須交給相關(guān)公司,利用軟件對(duì)數(shù)據(jù)進(jìn)行讀取,然后才能對(duì)數(shù)據(jù)進(jìn)行保存。對(duì)于大多數(shù)研究人員來說,像這樣在每次實(shí)驗(yàn)后對(duì)原始數(shù)據(jù)進(jìn)行處理的方式既繁瑣又不經(jīng)濟(jì)。與花費(fèi)上萬美元對(duì)每一段序列進(jìn)行備份分析相比,對(duì)每一次測(cè)序結(jié)果進(jìn)行重新測(cè)定顯然是一個(gè)更簡(jiǎn)單、更便宜的選擇。測(cè)序儀制造商稱,對(duì)原始數(shù)據(jù)再次進(jìn)行分析并不能得到更多新的信息。但是,對(duì)于454測(cè)序儀而言,用戶至少可以通過更新的軟件從原始數(shù)據(jù)得到質(zhì)量更高的序列,從而提高堿基識(shí)別分辨率,減少誤差。
除數(shù)據(jù)處理問題之外,研究人員還需要擁有一個(gè)足夠強(qiáng)大的計(jì)算機(jī)平臺(tái),以便將來自多個(gè)測(cè)序技術(shù)的短小基因片段進(jìn)行組合,形成基因組外顯子。目前問題在于,測(cè)序儀生產(chǎn)商僅僅提供用于某些特定基因信息分析的軟件,如靶標(biāo)重測(cè)序、基因表達(dá)分析、染色質(zhì)免疫沉淀反應(yīng)或基因組從頭測(cè)序等,而并未提供任何其它類型的下游生物學(xué)信息分析軟件。研究界越來越熟悉這些測(cè)序平臺(tái)對(duì)循證生物學(xué)的巨大潛力,這也就產(chǎn)生了新的研究問題以及全新類型的試驗(yàn)方法,而這單憑依賴目前的 生物學(xué)信息是無法滿足的。
從這個(gè)角度看,SOLiD軟件研發(fā)公司()于今年七月剛剛兼并了兩個(gè)新的軟件公司,這一舉動(dòng)無疑朝正確的方向邁進(jìn)了一步。該公司在開放源碼許可證下開發(fā)軟件分析工具,目的就是為了給生物信息學(xué)領(lǐng)域提供支持,并為其開發(fā)新的算法。
對(duì)用戶而言,如果能夠?qū)?shù)據(jù)格式與不同測(cè)序平臺(tái)獲得的結(jié)果進(jìn)行比較所得的統(tǒng)計(jì)數(shù)字進(jìn)行標(biāo)準(zhǔn)化,無疑具有重大的意義。特別是由于目前以測(cè)序平臺(tái)為核心的市場(chǎng)競(jìng)爭(zhēng)激烈,因此每個(gè)生產(chǎn)商都努力提供最好的數(shù)據(jù)結(jié)果。
在這樣的大環(huán)境下,對(duì)數(shù)據(jù)及不同產(chǎn)品的比較結(jié)果進(jìn)行標(biāo)準(zhǔn)化,便顯得尤為重要。有一個(gè)方法可以更好地對(duì)不同的新一代測(cè)序技術(shù)進(jìn)行比較,那就是建立一個(gè)微陣列定性分析小組(Microarray Quality Control consortium),不僅可以對(duì)不同的技術(shù)結(jié)果進(jìn)行比較,而且還可以將新技術(shù)結(jié)果與DNA微陣列或定量PCR進(jìn)行比較。
綜合以上各類因素,可以預(yù)見的是,新一代測(cè)序平臺(tái)在近幾年內(nèi),仍然會(huì)局限于少數(shù)實(shí)驗(yàn)室及研究者,而大多數(shù)缺少能夠?qū)蛐畔⑦M(jìn)行進(jìn)一步分析的實(shí)驗(yàn)室 則無法從新測(cè)序技術(shù)中獲益。對(duì)大多數(shù)實(shí)驗(yàn)室而言,即使新一代的測(cè)序平臺(tái)能夠提供更多的信息,DNA微陣列分析仍然是一個(gè)相對(duì)便宜的選擇。例如,在轉(zhuǎn)錄分析 中,雖然新一代測(cè)序結(jié)果不僅能給出具有很大動(dòng)態(tài)范圍的基因豐度信息,同時(shí)還可提供剪切變異信息以及SNP數(shù)據(jù),但是這些數(shù)據(jù)結(jié)果都需要進(jìn)行不同的DNA微陣列分析才能獲得。
那么,有沒有什么方法可以解決這些問題呢?首先,相關(guān)的資金授予機(jī)構(gòu)應(yīng)該對(duì)生物信息學(xué)的發(fā)展予以與測(cè)序技術(shù)同等的關(guān)注;此外,由于生物信息學(xué)發(fā)展中的瓶頸已經(jīng)限制了測(cè)序機(jī)器的銷售,測(cè)序儀生產(chǎn)商也應(yīng)該聯(lián)合起來解決這一難題。同時(shí),制造商應(yīng)該致力于制定以研究領(lǐng)域?yàn)榛A(chǔ)而不是以不同公司為基礎(chǔ)的生物信息學(xué)解決方案。
因此,如果新一代測(cè)序平臺(tái)真的能夠帶動(dòng)基因組測(cè)序“普及化”——讓基因組測(cè)序從大型測(cè)序中心走入每個(gè)研究人員的實(shí)驗(yàn)室或者小型研究小組,那么還需要 研究人員付出更多努力,開發(fā)出經(jīng)濟(jì)實(shí)惠的分析軟件以及數(shù)據(jù)管理系統(tǒng)。目前的狀況是,與新一代測(cè)序技術(shù)相關(guān)的生物信息學(xué)分析工作僅僅掌握在少數(shù)人手里,但是這一具有重要價(jià)值的技術(shù)毫無疑問應(yīng)該由大多數(shù)人掌握。如果數(shù)據(jù)處理問題不能得到有效解決,那么ABI公司的SOLiD系統(tǒng)、454公司的超高通量基因組測(cè)序系統(tǒng)——GS FLX、Illumina公司的GAII系統(tǒng)等新一代測(cè)序儀就永遠(yuǎn)無法真正出現(xiàn)在能夠展現(xiàn)其價(jià)值的舞臺(tái)上。
原文檢索:Editorial. (2008) Prepare for the deluge. Nature Biotechnology, 26(10): 1099.
二、傳統(tǒng)的DNA測(cè)序技術(shù)——Sanger測(cè)序法
自上世紀(jì)90年代初,所有的DNA測(cè)序操作幾乎無一例外地全部采用半自動(dòng)化毛細(xì)管電泳Sanger測(cè)序法。而后來出現(xiàn)的高通量測(cè)序方法則首先采用以下兩種方法中的一種對(duì)DNA進(jìn)行預(yù)處理。
無論采用以上哪種方法處理后,我們均可以得到大量的待測(cè)序模板片段——質(zhì);騊CR產(chǎn)物。隨后,測(cè)序儀會(huì)進(jìn)行“循環(huán)測(cè)序”反應(yīng)。在每一輪測(cè)序反應(yīng)的引物延伸步驟中,會(huì)隨機(jī)引入已被四種不同顏色熒光分別標(biāo)記的ddNTP(ddATP、ddTTP、ddGTP、ddCTP)以終止延伸反應(yīng)。這樣就形成了 大量末端被熒光標(biāo)記的、長(zhǎng)短不一(終止位點(diǎn)不同)的延伸產(chǎn)物。接著,再用高分辨率的毛細(xì)管凝膠電泳分離這些延伸產(chǎn)物,通過對(duì)延伸產(chǎn)物末端四種不同熒光顏色 的區(qū)分,計(jì)算機(jī)軟件會(huì)自動(dòng)“讀出”DNA序列。不過,該方法在“讀取”每一個(gè)堿基信息時(shí)都有可能出錯(cuò)。后續(xù)操作中,比如基因組組裝或者找出變異位點(diǎn)等就是具體情況具體解決了。一般,這種高通量測(cè)序儀一次最多只能同時(shí)進(jìn)行96個(gè)或384個(gè)樣品測(cè)序。
Sanger DNA測(cè)序技術(shù)經(jīng)過了30年的不斷發(fā)展與完善,現(xiàn)在已經(jīng)可以對(duì)長(zhǎng)達(dá)1,000bp的DNA片段進(jìn)行測(cè)序了,而且對(duì)每一個(gè)堿基的讀取準(zhǔn)確率高達(dá)99.999%。在高通量基因組鳥槍法測(cè)序操作當(dāng)中,使用Sanger測(cè)序法的費(fèi)用大約為0.5美元/1,000個(gè)堿基。
原文檢索:Jay Shendure & Hanlee Ji. (2008) Next-generation DNA sequencing.Nature Biotechnology, 26(10):1135-1145.
三、新一代DNA測(cè)序技術(shù)
DNA測(cè)序技術(shù)已廣泛應(yīng)用于生物學(xué)研究的各個(gè)領(lǐng)域,很多生物學(xué)問題都可以借助高通量DNA測(cè)序技術(shù)予以解決。過去三年,大規(guī)模平行 測(cè)序平臺(tái)(massively parallel DNA sequencing platform)已經(jīng)發(fā)展為主流的測(cè)序技術(shù),這項(xiàng)測(cè)序技術(shù)的出現(xiàn)不僅令DNA測(cè)序費(fèi)用降到了以前的百分之一,還讓基因組測(cè)序這項(xiàng)以前專屬于大型測(cè)序中心 的“特權(quán)”能夠被眾多研究人員分享。目前,新的測(cè)序技術(shù)及手段還在不斷涌現(xiàn),比如最新的進(jìn)展就包括建立序列數(shù)據(jù)庫、建立序列數(shù)據(jù)分析新方法以及設(shè)計(jì)測(cè)序試 驗(yàn)等等。新一代DNA測(cè)序技術(shù)有助于人們以更低廉的價(jià)格,更全面、更深入地分析基因組、轉(zhuǎn)錄組及蛋白質(zhì)之間交互作用組的各項(xiàng)數(shù)據(jù)。今后,各種測(cè)序?qū)⒊蔀橐?項(xiàng)廣泛使用的常規(guī)實(shí)驗(yàn)手段,這有望給生物學(xué)和生物醫(yī)學(xué)研究領(lǐng)域帶來革命性的變革。
DNA測(cè)序技術(shù)經(jīng)歷了漫長(zhǎng)而曲折的發(fā)展歷程。迄今為止,我們獲得的絕大部分DNA序列都是基于Sanger測(cè)序法獲得的。在過去5年間,人們至少從以下四個(gè)方面刺激了DNA測(cè)序技術(shù)的發(fā)展。
1. 具有代表性的新一代DNA測(cè)序儀
最近市面上出現(xiàn)了很多新一代測(cè)序儀產(chǎn)品,例如美國Roche Applied Science公司的454基因組測(cè)序儀、美國Illumina公司和英國Solexa technology公司合作開發(fā)的Illumina測(cè)序儀、美國Applied Biosystems公司的SOLiD測(cè)序儀、Dover/Harvard公司的Polonator測(cè)序儀以及美國Helicos公司的 HeliScope單分子測(cè)序儀。所有這些新型測(cè)序儀都使用了一種新的測(cè)序策略——循環(huán)芯片測(cè)序法(cyclic-array sequencing),也可將其稱為“新一代測(cè)序技術(shù)或者第二代測(cè)序技術(shù)”。
所謂循環(huán)芯片測(cè)序法,簡(jiǎn)言之就是對(duì)布滿DNA樣品的芯片重復(fù)進(jìn)行基于DNA的聚合酶反應(yīng)(模板變性、引物退火雜交及延伸)以及熒光序列讀取反應(yīng)。 2005年,有兩篇論文曾對(duì)這種方法做出過詳細(xì)介紹。與傳統(tǒng)測(cè)序法相比,循環(huán)芯片測(cè)序法具有操作更簡(jiǎn)易、費(fèi)用更低廉的優(yōu)勢(shì),于是很快就獲得了廣泛的應(yīng)用。
雖然這些新一代測(cè)序儀以及芯片的實(shí)際制作過程似乎都和傳統(tǒng)的測(cè)序方法有很大的不同,而且各有特點(diǎn)(表3),但實(shí)際上它們背后的原理和技術(shù)都是非常相似甚至是相同的(圖1b)。新一代測(cè)序法首先也是將基因組DNA隨機(jī)切割成小片段DNA分子,然后在體外給這些小片段分子的末端連接上接頭制成文庫,也可 以使用配對(duì)標(biāo)簽(mate-paired tag)制成跨步文庫(jumping libraries)。隨后可以通過原位polony(in situ polony,小詞典1)、微乳液PCR(emulsion PCR)或橋式PCR(bridge PCR)(圖5)等方法獲得測(cè)序模板。
上述方法有一個(gè)共同點(diǎn),那就是任何一個(gè)小片段DNA分子的PCR擴(kuò)增產(chǎn)物都是在空間上聚集的:原位polony法和橋式PCR法中所有的產(chǎn)物都集中 在平板的某處,在微乳液PCR法(emulsion PCR)中所有的產(chǎn)物都集中在微珠的表面。真正的測(cè)序反應(yīng)本身和傳統(tǒng)測(cè)序法一樣,是由重復(fù)的聚合酶促反應(yīng)和最后的熒光讀取分析反應(yīng)組成(圖6)。本文討論 的所有測(cè)序儀都是使用合成測(cè)序法(sequencing by synthesis),即通過聚合酶或連接酶不斷地延伸引物獲得模板序列,最后對(duì)每一輪反應(yīng)的結(jié)果進(jìn)行熒光圖像采集、分析,獲得序列結(jié)果。
1.1 454測(cè)序儀
454測(cè)序儀的出現(xiàn)極大促進(jìn)了測(cè)序業(yè)務(wù)的開展,科研人員已經(jīng)將測(cè)序技術(shù)作為解決科研工作中許多常見問題的利器。這是因?yàn)?54測(cè)序儀在以下幾個(gè)方面取得了質(zhì)的突破:首先是解決了高通量測(cè)序問題;其次它簡(jiǎn)化了樣品準(zhǔn)備步驟,將以往轉(zhuǎn)化大腸桿菌擴(kuò)增質(zhì)粒的繁瑣過程全部用簡(jiǎn)單的體外PCR擴(kuò)增法替代了;最后,它縮小了測(cè)序反應(yīng)體積,節(jié)省了試劑。這樣,454測(cè)序儀做到了以極其低廉的價(jià)格進(jìn)行大規(guī)模平行測(cè)序反應(yīng)。它的測(cè)序規(guī)模之大、測(cè)序費(fèi)用之低是以往的測(cè)序儀無法匹敵的。454測(cè)序儀與其它的新一代測(cè)序儀一起,降低了測(cè)序檢測(cè)的費(fèi)用,推動(dòng)了測(cè)序技術(shù)平民化進(jìn)程,使得小實(shí)驗(yàn)室也能開展測(cè)序檢測(cè)項(xiàng)目,打破了以往只有少數(shù)幾個(gè)大型測(cè)序中心才能進(jìn)行測(cè)序研究的“壟斷地位”。在過去的18個(gè)月里,由于有了454測(cè)序儀的幫助,人們對(duì)人類基因組的結(jié)構(gòu)有了更深入的了解,同時(shí)第一次使用非Sanger測(cè)序法對(duì)個(gè)人進(jìn)行了測(cè)序,還建立了一種發(fā)現(xiàn)小RNA的新方法。不過,要能讓更多的人使用上新一代的測(cè)序產(chǎn)品,它們還需要變得更便宜,并且更加容易操作。在一段時(shí)間之內(nèi),454測(cè)序儀必定會(huì)進(jìn)一步降低測(cè)序費(fèi)用,幫助人們迎接個(gè)人基因組時(shí)代的到來。
自從諾貝爾獎(jiǎng)得主Frederick Sanger和Walter Gilbert(圖2)分別發(fā)明了鏈終止法DNA測(cè)序技術(shù)(sequencing by chain termination technique)和鏈斷裂法DNA測(cè)序技術(shù)(sequencing by chain fragmentation technique)之后,人們就一直希望能夠擴(kuò)大DNA測(cè)序技術(shù)的處理規(guī)模。到了今天,我們對(duì)測(cè)序技術(shù)的需求和對(duì)計(jì)算機(jī)技術(shù)的需求一起出現(xiàn)了迅猛的增長(zhǎng),因?yàn)闇y(cè)序技術(shù)的發(fā)展速度已經(jīng)遠(yuǎn)遠(yuǎn)跟不上實(shí)驗(yàn)要求的增長(zhǎng)速度。于是出現(xiàn)了好幾種替代Sanger測(cè)序法的新型測(cè)序方法,比如雜交測(cè)序法、借助原子力顯微鏡(atomic force microscopy)直接DNA成像測(cè)序法(direct imaging of DNA sequence)、質(zhì)譜分析法、合成測(cè)序法以及微液流測(cè)序法等等。在我們進(jìn)行人類基因組計(jì)劃時(shí)還出現(xiàn)了三項(xiàng)技術(shù)改進(jìn)方法,即使用熒光標(biāo)記物取代了放射性標(biāo)記物來標(biāo)記終止堿基(雙脫氧堿基);使用毛細(xì)管電泳(capillary electrophoresis)取代了傳統(tǒng)的平板凝膠電泳;建立了末端配對(duì)測(cè)序法(paired-end sequencing)來對(duì)質(zhì)粒、fosmid、人工細(xì)菌染色體(BAC)等短片段序列進(jìn)行測(cè)序,解決了測(cè)序長(zhǎng)度帶來的限制問題。同時(shí),開展研究的自動(dòng)化液體分裝技術(shù)(liquid-handling robotics)幫助我們擺脫了人工試管操作,可以用自動(dòng)化的方式在微量滴定板(microtiter plate)上裝載待測(cè)序樣品(質(zhì)粒等),極大地降低了測(cè)序的費(fèi)用和勞動(dòng)強(qiáng)度。
隨著美國454 Life Sciences公司(該公司現(xiàn)已被美國羅氏公司收購)的第一臺(tái)新一代測(cè)序儀——454測(cè)序儀的面世,我們獲得了一種完全不同的測(cè)序方式。454測(cè)序儀引 領(lǐng)的新一代測(cè)序技術(shù)在一直困擾傳統(tǒng)測(cè)序技術(shù)的三個(gè)瓶頸問題上取得了突破。這三個(gè)問題分別是文庫制備、模板制備和測(cè)序。而且,在隨后出現(xiàn)的其它新一代測(cè)序儀 產(chǎn)品身上,我們或多或少都會(huì)發(fā)現(xiàn)在454測(cè)序儀上使用到的技術(shù),這也足以說明454測(cè)序儀的技術(shù)創(chuàng)新的確取得了巨大的成功。
454測(cè)序儀的先行者地位使它對(duì)整個(gè)測(cè)序業(yè)的影響遠(yuǎn)遠(yuǎn)超過了其它新一代測(cè)序儀競(jìng)爭(zhēng)對(duì)手。這一點(diǎn)從Leamon、Rothberg等人撰寫的一篇介紹 2005年技術(shù)進(jìn)展的論文被引用了570多次的事實(shí),以及有100多篇經(jīng)過同行審議的關(guān)于人類遺傳學(xué)、代謝組學(xué)、生態(tài)學(xué)、進(jìn)化學(xué)以及古生物學(xué)的論文(peer-reviewed publications)都是使用454測(cè)序儀開展的研究多個(gè)事實(shí)中都能夠得到證明。454測(cè)序儀技術(shù)是繼Sanger測(cè)序技術(shù)之后出現(xiàn)的第一個(gè)用于對(duì) 細(xì)菌基因組進(jìn)行從頭測(cè)序的新技術(shù),也是第一個(gè)被用來對(duì)人類基因組進(jìn)行測(cè)序的非Sanger測(cè)序技術(shù)。其它使用454測(cè)序儀開展的重要研究項(xiàng)目包括探究蜜蜂 消失原因的項(xiàng)目、研究人類基因組重排復(fù)雜性的項(xiàng)目、建立用于研究傳染性疾病新方法的項(xiàng)目以及對(duì)尼安德特爾人(Neanderthal)基因組的測(cè)序項(xiàng)目等。
1.1.1 摩爾定律對(duì)454測(cè)序儀的影響
454測(cè)序儀的迅猛發(fā)展不是因?yàn)槲覀兿胍猄anger測(cè)序儀小型化,而是因?yàn)樾滦捅简v芯片的出現(xiàn)以及摩爾定律法則給我們帶來的希望。很明顯,常規(guī)的人類基因測(cè)序項(xiàng)目會(huì)對(duì)我們處理測(cè)序技術(shù)的能力提出更高要求,這與我們對(duì)計(jì)算機(jī)處理能力的要求是一樣的。不過,只有將計(jì)算機(jī)的電子管換成晶體管,才為后來集 成電路技術(shù)的發(fā)展提供了可能,這正是計(jì)算機(jī)產(chǎn)業(yè)發(fā)展的關(guān)鍵所在。而希望對(duì)傳統(tǒng)的毛細(xì)管電泳技術(shù)進(jìn)行改良,提高它的速度和處理規(guī)模,正如只用電子管直接制作 集成電路一樣不可能。因此,如果將各種測(cè)序技術(shù)比作一個(gè)個(gè)晶體管,將一系列測(cè)序步驟整合起來比作集成電路,那么也就可以用摩爾定律來預(yù)測(cè)DNA測(cè)序技術(shù)的發(fā)展速度了。
合成測(cè)序法概念雖然在提出的時(shí)候還不算成功,但它的出現(xiàn)為測(cè)序儀小型化奠定了基礎(chǔ);诤铣蓽y(cè)序法出現(xiàn)了兩種策略:一種是循環(huán)可切除終止測(cè)序法 (cyclic reversible termination technology),即依次逐個(gè)添加熒光標(biāo)記的堿基,繼而檢測(cè)熒光信號(hào),切除熒光基團(tuán),如此往復(fù);另一種策略是焦磷酸測(cè)序法(sequenced by detecting pyrophosphate release)。454測(cè)序儀采用的正是焦磷酸測(cè)序法,因?yàn)樗坪醣鹊谝环N方法的效率更高。結(jié)果證明,454公司的選擇是正確的。454測(cè)序儀采用的是小型化焦磷酸測(cè)序反應(yīng),測(cè)序模板準(zhǔn)備和焦磷酸測(cè)序反應(yīng)步驟都是在固態(tài)芯片上完成的。
實(shí)際上,早在上世紀(jì)90年代中期,焦磷酸測(cè)序技術(shù)就已經(jīng)被科研界用來進(jìn)行基因分型工作了,但那時(shí)的焦磷酸測(cè)序技術(shù)還不能夠滿足標(biāo)準(zhǔn)的測(cè)序?qū)嶒?yàn)要求,因?yàn)樗臏y(cè)序長(zhǎng)度太短,因此只能用于旨在發(fā)現(xiàn)SNP的基因分型研究當(dāng)中。當(dāng)時(shí)進(jìn)行基因分型操作時(shí),是在微量滴定板(microtiter plate)上進(jìn)行的,可以連續(xù)進(jìn)行最多96次基因分型實(shí)驗(yàn),平均每個(gè)樣品花費(fèi)20美分。那時(shí)焦磷酸測(cè)序還不能用于從頭測(cè)序工作,因?yàn)閺念^測(cè)序需要對(duì)每一個(gè)尤其是第一個(gè)堿基都能準(zhǔn)確地區(qū)分清楚,而焦磷酸測(cè)序只能簡(jiǎn)單地對(duì)已知位點(diǎn)的堿基進(jìn)行檢測(cè),而且從頭測(cè)序要求的測(cè)序長(zhǎng)度也是焦磷酸測(cè)序法無法達(dá)到的。
不過,由于焦磷酸測(cè)序的原理是通過檢測(cè)堿基摻入時(shí)發(fā)出的光來進(jìn)行測(cè)序的(圖3),所以它并不需要類似于電泳之類的物理分離過程來對(duì)堿基進(jìn)行區(qū)分。這 也就是說焦磷酸測(cè)序儀可以“縮。p)”到只需要檢測(cè)光線就夠了,而不需要像傳統(tǒng)的測(cè)序儀還需要電泳設(shè)備,而這正是限制傳統(tǒng)電泳儀小型化的關(guān)鍵所在。發(fā)光檢測(cè)方法還能夠進(jìn)行多路平行操作,但是直到454測(cè)序儀出現(xiàn)之前,還沒有人這樣做過,以前都是依次進(jìn)行檢測(cè)的。和晶體管早期的遭遇一樣(當(dāng)時(shí)人們也懷疑晶 體管替代不了電子管),人們同時(shí)對(duì)高密度的,用于并行焦磷酸測(cè)序的反應(yīng)也充滿了疑問。不過,當(dāng)我們不再在溶液中進(jìn)行測(cè)序反應(yīng),而是將測(cè)序模板、所有的試劑 (酶)都固定在平板上制成芯片之后,就獲得了小型化的,能進(jìn)行多路并行處理的測(cè)序儀,這就與晶體管被小型化并整合成集成電路的過程一樣。此外,借助微量滴定板上一個(gè)個(gè)的小孔所達(dá)到的將不同測(cè)序反應(yīng)進(jìn)行分隔這一目的,也能通過在單個(gè)固相支持物上進(jìn)行嚴(yán)密包裹(隔離)的反應(yīng)來實(shí)現(xiàn)。在這些各自隔絕的反應(yīng)體系中,鏈聚合反應(yīng)速度和發(fā)光速度都能通過對(duì)反應(yīng)試劑和產(chǎn)物彌散狀況進(jìn)行嚴(yán)密的控制來進(jìn)行精密的調(diào)整。
1.1.2 新的并行試驗(yàn)方法
在開發(fā)新型高通量、高并行運(yùn)行方法時(shí)碰到的一個(gè)關(guān)鍵問題是,如何將反應(yīng)試劑同時(shí)加入數(shù)量如此之多的各個(gè)反應(yīng)體系中?在焦磷酸測(cè)序的過程當(dāng)中需要反復(fù) 加入不同的堿基以供測(cè)序反應(yīng)使用,而當(dāng)時(shí)的自動(dòng)化加樣設(shè)備無法有效地做到對(duì)這么多的反應(yīng)體系同時(shí)循環(huán)加樣。于是,開發(fā)一種全新的高密度并行處理方法這一重 要課題又再一次擺在了科研人員的面前。這一次,我們找到了一個(gè)非常簡(jiǎn)單但是又很巧妙地方法。在高密度的反應(yīng)芯片表面使用層流(laminar flow)加樣方式,反應(yīng)試劑會(huì)通過擴(kuò)散作用很好地進(jìn)入每一個(gè)反應(yīng)體系,而且也可以用層流的方式洗去多余的反應(yīng)試劑,F(xiàn)在,所有的新一代測(cè)序儀都采用了這 種層流加樣方法。
為了將每個(gè)單獨(dú)的測(cè)序反應(yīng)都分隔開來,我們一開始使用平板(芯片),不過在平板上平均每一平方厘米的面積上最多只能同時(shí)進(jìn)行數(shù)百至數(shù)千個(gè)反應(yīng)。但我們希望達(dá)到的是在每平方厘米的面積上同時(shí)進(jìn)行100萬個(gè)測(cè)序反應(yīng),這樣才能令測(cè)序儀小型化,同時(shí)節(jié)省試劑并進(jìn)行快速成像和測(cè)序。為了實(shí)現(xiàn)更高密度的測(cè)序反 應(yīng),我們?cè)谄桨迳现谱髁撕芏嘈】,將每個(gè)反應(yīng)體系都安置在這些小孔中,這些小孔都足夠深,足以分隔每個(gè)反應(yīng)體系。雖然這種方法極大提高了測(cè)序反應(yīng)的密度, 縮小了平板的面積,但是要達(dá)到我們的要求還是需要60mm×60mm大小的芯片才行。
針對(duì)圖像采集問題使用了商業(yè)化的天文學(xué)照相(astrological grade camera)器材,在電荷偶合裝置(CCD)的表面連接上光纖束(fiber-optic bundle)。這些光纖是錐形排列的,這樣可以將大范圍的光信號(hào)都傳輸?shù)紺CD表面上很小的一個(gè)范圍。采取下面兩個(gè)步驟,我們就可以制成含有高密度小孔 的芯片:先將光纖束連接到類似于載玻片一樣的一次性芯片上,然后用酸蝕刻(acid etching procedure)技術(shù)在玻片的另一面打上小孔。這種酸蝕刻技術(shù)是根據(jù)制作生物傳感器的技術(shù)改進(jìn)而來的。
454公司制作的每張芯片上可以達(dá)到數(shù)百萬個(gè)小孔,每一個(gè)小孔都是一個(gè)獨(dú)立的“反應(yīng)站”,互不干擾,測(cè)序反應(yīng)發(fā)出的光被連接在芯片上的光纖傳送到CCD記錄下來(圖4)。這種芯片就好像集成電路一樣一次可以同時(shí)處理數(shù)百萬個(gè)測(cè)序反應(yīng)。這種芯片同樣也能被其它通過發(fā)光檢測(cè)技術(shù)的產(chǎn)品所使用。454測(cè)序儀也沒有像以前的96孔板焦磷酸測(cè)序儀那樣使用液態(tài)的試劑,而是將試劑和模板統(tǒng)統(tǒng)都吸附在一個(gè)個(gè)微珠上,然后把這些微珠一個(gè)個(gè)地放到芯片上的小孔中,每孔一個(gè)微珠。這種固定步驟不僅保證了每孔測(cè)序反應(yīng)的獨(dú)立性,也極大地節(jié)省了試劑消耗費(fèi)用。
要想實(shí)現(xiàn)高通量基因組測(cè)序,只對(duì)測(cè)序步驟進(jìn)行優(yōu)化還是遠(yuǎn)遠(yuǎn)不夠的。人類基因組計(jì)劃花費(fèi)的30億美元經(jīng)費(fèi)中有很大一部分都用在了測(cè)序樣品制備階段。當(dāng)時(shí)即使是采用最簡(jiǎn)單的制備樣品方法也需要將目標(biāo)片段克隆到細(xì)菌中,挑克隆,再轉(zhuǎn)到96孔板,然后進(jìn)行克隆擴(kuò)增,提取質(zhì)粒,制備測(cè)序模板。這種工作流程既耗 時(shí)也耗錢。
如果采用新型的文庫制備方法就可以極大地節(jié)省這部分開支,這種新型的方法是先分離基因組DNA,隨機(jī)切割成小片段分子,然后通過有限稀釋(limiting dilution)和聚合酶擴(kuò)增反應(yīng),即體外克隆方式(clones without bacterial)制備模板片段。這樣,從模板制備到最后的測(cè)序反應(yīng)整個(gè)過程都能夠在體外完成。
1.1.3 從發(fā)明到創(chuàng)新
從概念的提出到最后技術(shù)上的實(shí)現(xiàn),454測(cè)序儀主要關(guān)注兩個(gè)方面,首先是開發(fā)蝕刻光纖玻片;其次,改進(jìn)焦磷酸測(cè)序方法使其能在固相支持物上進(jìn)行,即將其改造成固態(tài)焦磷酸測(cè)序法,同時(shí)也對(duì)模板及文庫構(gòu)建方法進(jìn)行了改進(jìn),讓454測(cè)序儀能進(jìn)行長(zhǎng)片段測(cè)序工作和從頭測(cè)序工作。
1.1.3.1 在蝕刻板上的小孔中進(jìn)行固態(tài)、長(zhǎng)片段焦磷酸測(cè)序反應(yīng)
蝕刻技術(shù)經(jīng)過改良之后能在75mm×75mm的玻片上刻出深55μm、寬44μm的小孔。而開發(fā)固態(tài)測(cè)序方法和改良測(cè)序長(zhǎng)度則是兩個(gè)緊密相關(guān)的問題,因?yàn)樵诠潭ǖ男】字蟹磻?yīng)實(shí)際上就能改進(jìn)測(cè)序質(zhì)量和測(cè)序長(zhǎng)度。由于反應(yīng)試劑能迅速滲透到小孔中,因此反應(yīng)速度也會(huì)加快。而且這里也沒有使用三磷酸腺苷雙磷酸酶(apyrase)提取未參與反應(yīng)的堿基,而是將芯片置入反應(yīng)池中通過層流液體的快速滲透作用將多余的未參與反應(yīng)的堿基和反應(yīng)副產(chǎn)品洗掉,由此得到 100bp~500bp的測(cè)序長(zhǎng)度。在能有效去除多余堿基的同時(shí),每輪反應(yīng)中聚合酶的效率也得到了極大提高。這樣高效率的聚合反應(yīng)使得454測(cè)序儀具有較長(zhǎng)測(cè)序長(zhǎng)度的同時(shí)也保證了高準(zhǔn)確性,測(cè)序長(zhǎng)度在200bp時(shí)的準(zhǔn)確率高達(dá)99.5%。這是因?yàn)橥ㄟ^降低小孔中殘存的未參與反應(yīng)的堿基濃度,可以降低這些堿 基對(duì)聚合酶活性的抑制作用,或者降低這些堿基導(dǎo)致的延后錯(cuò)誤(carry-forward error,即由于未參與反應(yīng)的堿基導(dǎo)致的測(cè)序反應(yīng)不同步現(xiàn)象)的發(fā)生率。454測(cè)序儀在測(cè)序長(zhǎng)度和準(zhǔn)確率方面具有優(yōu)勢(shì)還因?yàn)槠湓趹?yīng)用流體學(xué)、表面化學(xué)和 酶學(xué)(包括選擇更好的聚合酶、在更高的溫度進(jìn)行測(cè)序反應(yīng)以及更換及平衡各個(gè)酶組分)等方面都有創(chuàng)新(表4)。
還有一些能提高測(cè)序精度和測(cè)序長(zhǎng)度的技術(shù),不過暫時(shí)還沒有商業(yè)化產(chǎn)品。這些技術(shù)包括使用可切除的終止堿基(reversible terminator)提高對(duì)同聚物(homopolymers)的檢測(cè)精度;雙末端測(cè)序法(double-ended sequencing),即同一模板的兩條鏈均不測(cè)序;以及選擇性酶固定法(alternative enzyme-immobilization method)等。這些技術(shù)改進(jìn)還都沒有用到測(cè)序儀產(chǎn)品中,有一部分原因是因?yàn)楝F(xiàn)在還沒有必要使用。
注:蜜蜂群崩潰癥(honeybee colony collapse),指的是來自養(yǎng)蜂業(yè)的蜂箱或自然界存在的歐洲蜜蜂群的工蜂突然消失的現(xiàn)象,又稱作Colony collapse disorder(CCD)。
1.1.3.2 模板制備程序
完全的體外大規(guī)模模板制備工作是達(dá)成高通量、低價(jià)格測(cè)序技術(shù)的前提。已廣泛使用的乳液PCR擴(kuò)增技術(shù)就是一種很好的方法。不過,由于很難在熱循環(huán)測(cè)序反應(yīng)中保證乳液微滴的穩(wěn)定性,因此最開始實(shí)驗(yàn)的模板擴(kuò)增方法是恒溫?cái)U(kuò)增法(isothermal)。
乳液PCR不需要借助細(xì)菌的幫助就能擴(kuò)增模板,雖然這一點(diǎn)非常誘人,但最開始時(shí)并沒有合適的表面活性劑能幫助乳液在熱循環(huán)過程中保持穩(wěn)定。于是出現(xiàn)了恒溫?cái)U(kuò)增法,即滾環(huán)擴(kuò)增反應(yīng)(RCA)。雖然滾環(huán)擴(kuò)增反應(yīng)的產(chǎn)量非常高,但這些產(chǎn)物中大部分都不能用來作為測(cè)序模板。因此,還需要找到一種不需要細(xì)菌擴(kuò)增,能用于有限稀釋的模板擴(kuò)增新方法。于是,人們又把目光轉(zhuǎn)回了PCR法。在RCA法中,首先將模板克隆有限稀釋之后置入光纖玻片上的小孔中,然后用橡膠襯墊把光 纖玻片封閉起來,將玻片放入傳統(tǒng)的平頂PCR儀進(jìn)行擴(kuò)增。這種方法取得了成功,但是效率不高,因?yàn)樵诓F械臒豳|(zhì)量(thermal mass)和它的鉗效應(yīng)(clamping mechanism)需要更長(zhǎng)的PCR循環(huán)時(shí)間,而且模板的有限稀釋度不能低于10%。孔與孔之間的相互污染現(xiàn)象也是一個(gè)不容忽視的問題。不過無論如何,該方法還是第一個(gè)首先從全基因組文庫中擴(kuò)增模板然后使用非Sanger、非Gilbert測(cè)序法對(duì)基因組進(jìn)行從頭測(cè)序的方法,也是第一個(gè)使用體外模板擴(kuò)增 技術(shù)進(jìn)行全基因組(腺病毒基因組)測(cè)序的方法。
乳液滴的熱穩(wěn)定性問題最終通過加入用于制造炸藥的表面活性劑得到了解決,于是乳液PCR技術(shù)馬上在眾多新一代測(cè)序儀中得到了廣泛的應(yīng)用。因?yàn)槿橐?PCR技術(shù)具有高效性、可擴(kuò)展性,既能從30Kb的腺病毒基因組中擴(kuò)增模板,也能從好幾Mb的肺炎鏈球菌(Streptococcus pneumoniae)基因組中擴(kuò)增模板。
隨著測(cè)序精度、測(cè)序長(zhǎng)度、乳液滴穩(wěn)定性等各方面技術(shù)的不斷發(fā)展,454測(cè)序儀已經(jīng)不僅僅用于對(duì)細(xì)菌級(jí)別的基因組進(jìn)行測(cè)序了,還能對(duì)更高級(jí)、更復(fù)雜的生物基因組進(jìn)行測(cè)序,例如現(xiàn)代人類基因組、尼安德特人基因組以及環(huán)境基因組等。
1.1.3.3 文庫制備
文庫制備包括以下幾個(gè)步驟,首先隨機(jī)切割樣品基因組,獲得大量DNA片段,然后接上接頭進(jìn)行擴(kuò)增反應(yīng)。454測(cè)序儀的樣品制備程序和Craig Venter等人的鳥槍法樣品制備程序有著本質(zhì)的差別。454公司采用的是如圖4中所示的有限稀釋、乳液PCR擴(kuò)增法,而沒有鳥槍法中的細(xì)菌克隆繁殖步驟。去掉了細(xì)菌繁殖步驟極大地提高了整個(gè)測(cè)序工作的速度和效率,同時(shí)避免了由于細(xì)菌繁殖導(dǎo)致的序列丟失的可能性。這種方法同樣對(duì)古老DNA和代謝基因組學(xué)的研究也非常適用。末端配對(duì)文庫制備方法的建立同樣幫助454測(cè)序儀獲得了對(duì)復(fù)雜基因組從頭測(cè)序、對(duì)重復(fù)片段測(cè)序以及對(duì)基因組結(jié)構(gòu)(復(fù)制、重排)展開系統(tǒng)研究三種能力。這種末端配對(duì)文庫的制備方法是受到了Bender科研小組對(duì)果蠅(Drosophila)制備跨步文庫(jumping library)方法的啟發(fā)而發(fā)展得來的。
1.1.4 應(yīng)用范圍
隨著越來越多重要的研究領(lǐng)域受到測(cè)序技術(shù)的影響,454公司開始和其它商業(yè)和學(xué)術(shù)機(jī)構(gòu)開展合作,進(jìn)行樣品測(cè)序和分析工作。這些合作項(xiàng)目又進(jìn)一步驗(yàn)證 了454測(cè)序儀使用的技術(shù)能夠在眾多領(lǐng)域中發(fā)揮作用,例如末端配對(duì)文庫技術(shù)對(duì)于研究基因組結(jié)構(gòu)的作用和乳液PCR技術(shù)捕獲目的DNA片段的作用等。
1.1.4.1 細(xì)菌基因組測(cè)序和比較基因組研究
為了測(cè)試454測(cè)序儀在全基因組測(cè)序方面的能力,454公司一開始就參與了一項(xiàng)合作項(xiàng)目,該研究項(xiàng)目會(huì)對(duì)4株結(jié)核分支桿菌基因組進(jìn)行測(cè)序,這四株結(jié)核分支桿菌分別是一株對(duì)R207910具有耐藥性的結(jié)核分枝桿菌(Mycobacterium tuberculosis)菌株,基因組大小約4Mb;兩株對(duì)R207910具有耐藥性的恥垢分支桿菌(Mycobacterium smegmatis),基因組大小約6Mb;以及一株正常的恥垢分支桿菌(Mycobacterium smegmatis),基因組大小約6Mb。他們希望能發(fā)現(xiàn)結(jié)核分枝桿菌(Mycobacterium tuberculosis)對(duì)R207910產(chǎn)生抗藥性的機(jī)制。該項(xiàng)研究清晰的展現(xiàn)了454測(cè)序儀在測(cè)序速度和測(cè)序精度方面的優(yōu)勢(shì)。使用傳統(tǒng)的 Sanger測(cè)序法對(duì)一個(gè)4Mb的基因組和3個(gè)6Mb的基因組進(jìn)行測(cè)序需要好幾個(gè)月的時(shí)間,而用454測(cè)序儀,在只有一位實(shí)驗(yàn)人員參與實(shí)驗(yàn)的情況下,包括樣品制備等步驟在內(nèi)所用的時(shí)間僅需要一周。而且使用454測(cè)序儀還避免了傳統(tǒng)測(cè)序方法中細(xì)菌克隆階段可能出現(xiàn)的錯(cuò)誤,獲得了高質(zhì)量的測(cè)序結(jié)果,發(fā)現(xiàn)了導(dǎo)致 結(jié)核分枝桿菌對(duì)R207910產(chǎn)生抗藥性的兩個(gè)點(diǎn)突變位點(diǎn)。這項(xiàng)研究成果讓我們?cè)谧罱?0年內(nèi)第一次找到了特異性治療結(jié)核病的藥物,同時(shí)也對(duì)454測(cè)序 儀在細(xì)菌基因組測(cè)序方面的應(yīng)用價(jià)值有了深刻的體會(huì)。隨后,454測(cè)序儀又參與了比較基因組學(xué)研究項(xiàng)目、對(duì)高致病性細(xì)菌空腸彎曲菌 (Campylobacter jejun)基因組的從頭測(cè)序項(xiàng)目、對(duì)幽門螺桿菌(Helicobacter pylori)在慢性胃炎致病過程中的進(jìn)化研究項(xiàng)目、從南極海冰細(xì)菌(Antarctic sea ice bacterium)中新發(fā)現(xiàn)冰結(jié)合蛋白(ice-binding protein)并對(duì)其測(cè)序的研究項(xiàng)目,以及在引起肺炎、腦膜炎和泌尿道感染的細(xì)菌中發(fā)現(xiàn)致病因素的研究項(xiàng)目等。
由于454測(cè)序儀不會(huì)因?yàn)榧?xì)菌克隆產(chǎn)生測(cè)序誤差,所以在對(duì)結(jié)核分枝桿菌抗藥性的研究中表現(xiàn)出了非常強(qiáng)的發(fā)現(xiàn)突變位點(diǎn)的能力,這一點(diǎn)也被后來的其它研 究項(xiàng)目所證實(shí)。此外,最近在用454測(cè)序儀進(jìn)行的人類基因組測(cè)序項(xiàng)目中發(fā)現(xiàn)了長(zhǎng)達(dá)29Mb的片段與人類基因組參考序列build-36不相符,這些片段被 認(rèn)為是參考序列中不存在的序列,屬于基因組中的常染色質(zhì)部分。不過,還需要注意的是,有些報(bào)道稱由于重復(fù)片段的存在會(huì)出現(xiàn)序列組裝錯(cuò)誤,而且小模板片段霧化(nebulization)處理這種方式也會(huì)造成測(cè)序錯(cuò)誤出現(xiàn)。
1.1.4.2 小RNA測(cè)序
對(duì)于包括miRNA在內(nèi)的小RNA的研究興趣從2005年開始就持續(xù)不斷升溫,而2005年恰好也是454測(cè)序儀上市的那一年。454測(cè)序儀以其不 需要進(jìn)行傳統(tǒng)的細(xì)菌克隆步驟和足以覆蓋只有21bp長(zhǎng)的miRNA的測(cè)序長(zhǎng)度等優(yōu)勢(shì),很快就在miRNA的作用研究之中占據(jù)了一席之地。454測(cè)序儀最早 參與進(jìn)行的miRNA研究是對(duì)擬南芥(Arabidopsis thaliana)miRNA開展的研究。隨后馬上又參與了另一項(xiàng)研究項(xiàng)目,在這個(gè)項(xiàng)目中我們?cè)谛∈篌w內(nèi)發(fā)現(xiàn)了一種新型的小RNA——piRNA。這些研 究項(xiàng)目為我們?cè)谌祟、黑猩猩、斑馬魚和腫瘤細(xì)胞系中開展小RNA研究鋪平了道路。454測(cè)序儀具有的這種對(duì)小RNA進(jìn)行研究的能力使它在眾多有關(guān)RNA的 研究領(lǐng)域都能有所作為,例如轉(zhuǎn)錄體研究領(lǐng)域、EST研究領(lǐng)域、5’-RATE研究領(lǐng)域和基于轉(zhuǎn)錄體的SNP研究領(lǐng)域等。
1.1.4.3 在古生物學(xué)和古DNA研究領(lǐng)域的作用
要用傳統(tǒng)的測(cè)序方法對(duì)尼安德特人的基因組進(jìn)行測(cè)序研究非常困難,因?yàn)檫@些古老DNA量非常少,而且都早已裂解成了片段。一開始,454公司使用比較 容易得到的不太重要的古代DNA樣品檢驗(yàn)了454測(cè)序儀對(duì)它們的測(cè)序能力,結(jié)果非常好,盡管當(dāng)時(shí)454測(cè)序儀的測(cè)序長(zhǎng)度只有100bp。不過,尼安德特人 的基因組片段長(zhǎng)度基本上都介于40bp~90bp之間,而且最近開發(fā)的乳液PCR方法也能夠?qū)ξ⒘浚▎畏肿樱颖具M(jìn)行很好的擴(kuò)增。于是,454測(cè)序儀參與 了對(duì)38,000年前古老的尼安德特人的基因組進(jìn)行測(cè)序的工作,研究結(jié)果分別發(fā)表在了好幾篇論文當(dāng)中,引起了廣泛的關(guān)注,并促進(jìn)了古生物學(xué)基因組的研究。 隨后有人對(duì)長(zhǎng)毛象(woolly mammoth)和更新世狼(Pleistocene wolves)的基因組開展了測(cè)序研究。
1.1.4.4 環(huán)境基因組學(xué)和感染性疾病研究領(lǐng)域
美國在2001年爆發(fā)了炭疽恐怖襲擊危機(jī)之后,454公司便對(duì)如何使用454測(cè)序儀對(duì)復(fù)雜的、未知的、未人工培養(yǎng)的環(huán)境微生物基因組進(jìn)行測(cè)序展開了研究。前后兩個(gè)合作研究項(xiàng)目均表明454測(cè)序儀能夠用于從DNA混合樣品中發(fā)現(xiàn)未知微生物并對(duì)其進(jìn)行分類。在第一個(gè)研究項(xiàng)目中,有三名患者都接受了同一名 澳大利亞器官捐贈(zèng)者的器官,之后均因不明原因而死亡。從這三名死者身上提取了非人類DNA樣品進(jìn)行測(cè)序,結(jié)果獲得了144,000條序列。分析后發(fā)現(xiàn),這些序列分別屬于一種沙粒病毒科(Arenaviridae)家族病毒的14個(gè)不同基因。隨后進(jìn)行的第二項(xiàng)研究在對(duì)健康蜂群和患病蜂群進(jìn)行環(huán)境基因組學(xué)比較研究之后發(fā)現(xiàn),以色列急性麻痹病毒(Israeli acute paralysis virus)是導(dǎo)致蜜蜂蜂群崩潰癥的元兇。上述這些研究都突出了454測(cè)序儀的一個(gè)特點(diǎn),即在樣品準(zhǔn)備前不需要進(jìn)行克隆或預(yù)擴(kuò)增步驟,因此非常適用于對(duì)未知的未能人工培養(yǎng)的物種進(jìn)行測(cè)序。這些特點(diǎn)也在其它對(duì)地下礦藏、深海、土壤和高鹽等環(huán)境下進(jìn)行的環(huán)境微生物構(gòu)成方面的研究所證實(shí)。
1.1.4.5 基因組結(jié)構(gòu)研究領(lǐng)域
454測(cè)序儀技術(shù)的進(jìn)步使它能夠適用于更多的科研領(lǐng)域。最新開發(fā)的末端配對(duì)測(cè)序法(paired-end sequencing)就非常適合用于發(fā)現(xiàn)人類基因組當(dāng)中的結(jié)構(gòu)變異。末端配對(duì)作圖過程(paired-end mapping),簡(jiǎn)單來說就是對(duì)一個(gè)非洲人和一個(gè)歐洲人的基因組進(jìn)行測(cè)序后發(fā)現(xiàn)結(jié)構(gòu)變異并對(duì)其作圖,最終將1,000多個(gè)3Kb或更長(zhǎng)的結(jié)構(gòu)變異片段定 位到人類基因組參考序列中。研究發(fā)現(xiàn),在人類基因組當(dāng)中存在的結(jié)構(gòu)變異遠(yuǎn)遠(yuǎn)超過了人們的預(yù)計(jì),其中有很多變異都會(huì)造成非常重要的表型改變。這項(xiàng)對(duì)諾貝爾獎(jiǎng)得主James Watson基因組進(jìn)行測(cè)序的項(xiàng)目和其它相關(guān)研究,一起使得“人類基因多樣性(human genetic variation)”這一科學(xué)命題成為了《科學(xué)》(Science)雜志的年度重大科技突破。
1.2 Illumina測(cè)序儀
Illumina測(cè)序儀通常也被稱作Solexa測(cè)序儀(Illumina測(cè)序儀的特點(diǎn)見表5)。它適用于采用各種方法制備的DNA文庫,文庫中DNA片段可以長(zhǎng)達(dá)數(shù)百bp,并可通過橋式PCR來擴(kuò)增模板片段(圖5b)。在橋式PCR反應(yīng)中,正向引物和反向引物都被通過一個(gè)柔性接頭(flexible linker)固定在固相載體(solid substrate)上。經(jīng)過PCR反應(yīng),所有的模板擴(kuò)增產(chǎn)物就都被固定到了芯片上固定的位置。
值得注意的是,Illumina測(cè)序儀使用的橋式PCR與傳統(tǒng)的橋式PCR有所不同,它會(huì)交替使用Bst聚合酶進(jìn)行延伸反應(yīng)以及使用甲酰胺 (formamide)進(jìn)行變性反應(yīng)。這樣,經(jīng)過橋式PCR擴(kuò)增之后,也會(huì)在固相載體上形成一個(gè)個(gè)的模板“克隆”。一塊芯片的8條獨(dú)立“泳道”上每一條泳道都可以容納數(shù)百萬的模板“克隆”,這樣一次就可以同時(shí)對(duì)8個(gè)不同的文庫進(jìn)行測(cè)序。
經(jīng)過上述PCR擴(kuò)增步驟之后,所有的模板都被線性化處理(linearization)而形成單鏈模板,接著與測(cè)序引物退火、雜交。隨后使用修飾的 DNA聚合酶和四種核苷酸混合試劑進(jìn)行單堿基延伸測(cè)序反應(yīng)(圖6b)。這些核苷酸試劑都經(jīng)過兩種方式處理過,它們都是可逆的終止子(reversible terminator)。這些核苷酸的3’羥基端都有一個(gè)可被化學(xué)法切除的基團(tuán),這樣每一次反應(yīng)都只會(huì)摻入一個(gè)核苷酸,同時(shí)每種核苷酸都標(biāo)記上了可被化學(xué) 法切除的不同顏色的熒光基團(tuán),以標(biāo)識(shí)每種堿基。經(jīng)過一輪單堿基摻入反應(yīng)采集到信號(hào)之后,就可以通過化學(xué)方法切除上述被摻入核苷酸上標(biāo)記的兩個(gè)基團(tuán),然后就 能夠繼續(xù)摻入下一個(gè)核苷酸,重復(fù)測(cè)序反應(yīng)了。這種測(cè)序方法對(duì)36bp長(zhǎng)度的序列測(cè)序準(zhǔn)確率是非常高的,不過如果處理更長(zhǎng)的序列,準(zhǔn)確率就會(huì)有所降低了。
1.3 AB SOLiD測(cè)序儀
AB SOLiD測(cè)序儀可以對(duì)由任何方法制成的DNA文庫進(jìn)行測(cè)序。AB SOLiD測(cè)序儀有一個(gè)極大的特點(diǎn)就是能夠?qū)⒏患0迤蔚奈⒅樵谛酒线M(jìn)行高度可控的任意排列。AB SOLiD測(cè)序儀也是使用如圖5a中所示的微乳液PCR方法擴(kuò)增模板片段的,不過,它這里使用的是直徑只有1μm的小磁珠。PCR擴(kuò)增反應(yīng)結(jié)束之后,微乳液滴被打破,小磁珠被富集起來固定到固態(tài)平板上,制成高密度測(cè)序芯片。后面的合成測(cè)序法由DNA連接酶而非DNA聚合酶完成。
首先,通用引物與模板片段兩端的接頭序列互補(bǔ)結(jié)合,然后連接酶將一個(gè)被熒光標(biāo)記的8bp長(zhǎng)的核酸探針片段(fluorescently labeled octamers)連接到引物末端(圖6c)。這段8bp長(zhǎng)的核酸探針片段是經(jīng)過設(shè)計(jì)的,比如其中第五位堿基上就標(biāo)記了熒光。連接反應(yīng)完成之后,就可以采 集熒光圖像,然后在第五位堿基和第六位堿基之間切斷,去掉熒光標(biāo)簽。如此反復(fù),就可以獲得每間隔四個(gè)堿基的第五號(hào)堿基的確切信息,比如第5號(hào)堿基、第10 號(hào)堿基、第15號(hào)堿基以及第20號(hào)堿基等等。經(jīng)過幾輪這樣的循環(huán)之后,已經(jīng)獲得延伸的引物會(huì)變性脫落,再重新結(jié)合上新的引物從頭開始新一輪測(cè)序,不過這一 次可能獲得的是第4號(hào)堿基、第9號(hào)堿基、第14號(hào)堿基以及第19號(hào)堿基的信息。我們可以使用不同長(zhǎng)度的引物(+1或者-1)或者使用在不同位點(diǎn)(比如第2 號(hào)堿基)標(biāo)記熒光的8bp核酸探針片段達(dá)到這個(gè)目的。如此反復(fù),最終就能獲得整條模板片段的完整序列信息。
AB SOLiD測(cè)序儀還有一個(gè)特點(diǎn)就是使用了雙堿基編碼技術(shù)(two-base encoding),該技術(shù)具有誤差校正功能,因?yàn)樗峭ㄟ^兩個(gè)堿基來對(duì)應(yīng)一個(gè)熒光信號(hào)而不是傳統(tǒng)的一個(gè)堿基對(duì)應(yīng)一個(gè)熒光信號(hào),這樣每一個(gè)位點(diǎn)都會(huì)被檢測(cè)兩次,因此出錯(cuò)率明顯降低。
Polonator測(cè)序儀是一個(gè)和AB SOLiD測(cè)序儀比較相似的產(chǎn)品,因?yàn)樗策\(yùn)用了J.S等人和哈佛大學(xué)Church研究小組開發(fā)的部分系統(tǒng)。Polonator測(cè)序儀同樣也使用微乳液 PCR法擴(kuò)增模板片段,使用連接酶法測(cè)序。不過,Polonator測(cè)序儀的價(jià)格要比其它第二代測(cè)序儀低得多。而且更重要的是,Polonator測(cè)序儀 是一個(gè)開源的設(shè)備,用戶可以通過自己編程“設(shè)計(jì)”出最適合自己的測(cè)序儀。不過,Polonator測(cè)序儀目前可測(cè)序的長(zhǎng)度還非常有限。
值得注意的是,454測(cè)序儀、SOLiD測(cè)序儀以及Polonator測(cè)序儀還都存在一個(gè)共同的不足,那就是微乳液PCR技術(shù)實(shí)在是太過麻煩并且對(duì) 實(shí)驗(yàn)操作的技術(shù)要求較高。不過從另一方面來說,使用僅僅只有1μm大小的磁珠構(gòu)成的高密度測(cè)序芯片進(jìn)行測(cè)序(不論是使用聚合酶法、連接酶法,還是其它的生 化方法)是最有可能實(shí)現(xiàn)的高通量測(cè)序方法。因?yàn)?μm是衍射技術(shù)(diffraction)所能分辨的極限大小了。另一方面,最近報(bào)道的使用1μm磁珠進(jìn)行高分辨率芯片點(diǎn)樣技術(shù)的突破,使我們有望實(shí)現(xiàn)每個(gè)測(cè)序模板一個(gè)像素(one pixel per sequencing feature)的愿望。
1.4 HeliScope測(cè)序儀
HeliScope測(cè)序儀是由Quake團(tuán)隊(duì)設(shè)計(jì)開發(fā)的,它實(shí)際上也是一種循環(huán)芯片測(cè)序設(shè)備。不過,HeliScope測(cè)序儀最大的特點(diǎn)是無需對(duì)測(cè)序模板進(jìn)行擴(kuò)增,它使用了一種高靈敏度的熒光探測(cè)儀直接對(duì)單鏈DNA模板進(jìn)行合成法測(cè)序。首先,將基因組DNA切割成隨機(jī)的小片段DNA分子,并且在每個(gè) 片段末端加上poly-A尾。然后通過poly-A尾和固定在芯片上的poly-T雜交,將待測(cè)模板固定到芯片上,制成測(cè)序芯片。最后借助聚合酶將熒光標(biāo) 記的單核苷酸摻入到引物上(圖6d)。采集熒光信號(hào),切除熒光標(biāo)記基團(tuán),進(jìn)行下一輪測(cè)序反應(yīng),如此反復(fù),最終獲得完整的序列信息。根據(jù)最近的報(bào)道,經(jīng)過數(shù) 百輪這種單堿基延伸可以獲得25bp或更長(zhǎng)的測(cè)序長(zhǎng)度。HeliScope測(cè)序儀的其它特點(diǎn)見表6。
原文檢索:Jonathan M Rothberg & John H Leamon. (2008) The development and impact of 454 sequencing. Nature Biotechnology, 26(10): 1117-1124.
相關(guān)閱讀: