美國國家癌癥研究所的研究人員在近日發(fā)表的有關(guān)Proton和HiSeq 平臺的對比研究顯示,在進行外顯子組測序時,Life Technologies的Ion Proton和Illumina的HiSeq 2000在單核苷酸變異檢測方面均表現(xiàn)良好,但在準確檢測插入缺失時存在某些問題。
該研究于本月初刊載在《人類遺傳學》上,很可能是首個發(fā)表的有關(guān)這兩個平臺性能對比的研究。該研究將采用Proton和HiSeq對HapMap CEPH三元家族生成的全外顯子組測序數(shù)據(jù)檢測到的變異進行了比較。此外,還對從Complete Genomics公司獲得的全基因組測序數(shù)據(jù)的變異以及相同三元家族的Illumina SNP微陣列數(shù)據(jù)的變異進行了對比。
美國國家癌癥研究所(NCI)癌癥基因組學研究實驗室的研發(fā)部主任和該研究的首席作者Joe Boland聲稱,本項目旨在評估其實驗室能否將去年九月安裝的Ion Proton常規(guī)用于外顯子組測序,以作為HiSeq的可行替代方案。Joe Boland表示,“HiSeq是目前研究的黃金標準”。
“令人興奮的是,答案是肯定的,Proton的表現(xiàn)與HiSeqs旗鼓相當”,Joe Boland告訴《In Sequence》!拌b于我們在PGMs方面的經(jīng)驗,對于一個新平臺而言,我們希望它具有競爭力,但又不指望其像數(shù)據(jù)中所顯示的那樣卓越——因為它已經(jīng)遠遠超出了我們對它的期盼!
Proton和HiSeq 平臺在單核苷酸變異檢測方面表現(xiàn)良好,但在插入缺失上卻存在差異,出現(xiàn)某些問題。“這兩個平臺在檢測插入缺失方面有利有弊。我認為,如果您只需在[生成數(shù)據(jù)]后進行仔細的搜集,則這兩個平臺足以滿足您的需求”, Boland說。
NCI實驗室最近配置了六臺Ion Torrent PGM,四臺Ion Proton,一臺HiSeq 2000,一臺HiSeq 2500 ,以及一臺MiSeq。
開展研究后,研究人員于12月和1月生成了相關(guān)數(shù)據(jù),并在2月的基因組生物學和技術(shù)進步會議(IS 2/26/2013)上提交了初步結(jié)果。目前,該實驗室根據(jù)機器的可用性以及生成結(jié)果的速度采用HiSeqs和 Protons進行全外顯子組測序。 實驗室的多個項目涉及家族性外顯子組研究,如果HiSeqs被預(yù)定完,則將轉(zhuǎn)為采用Proton進行小型家族性外顯子組研究,Boland表示。 “由于這兩個平臺的質(zhì)量目前不相上下,如果我們從一個平臺轉(zhuǎn)向采用另一個平臺,這不會給我們的研究人員帶來任何困難”。 實驗實驗室目前主要采用Protons開展轉(zhuǎn)錄組測序研究,Boland說。
實驗室采用任一平臺進行全外顯子組測序時,各樣本的費用差額在$150以內(nèi),Boland表示,“在確定運行哪個平臺時,價格不是主要的考慮因素”。
為進行對比,研究人員采用Ion Proton和HiSeq 2000對CEPH三元家族的外顯子組進行了測序。為捕獲外顯子組數(shù)據(jù),研究人員在采用Proton 時使用的是Life Tech的TargetSeq Exome v2,可包含50百萬堿基序列;而在采用Illumina時使用的是NimbleGen SeqCap EZ Exome v3,其能捕獲約64百萬堿基序列。 研究人員將其分析限制在43百萬堿基序列上,即兩個外顯子組捕獲試劑的重疊部分。
采用Proton進行測序時,各樣本至少生成9千兆堿基數(shù)據(jù),其中80%的讀數(shù)直指目標。為檢測變異,通過Ion Reporter的標準管道運行數(shù)據(jù)。
采用HiSeq進行測序時,各樣本至少生成11千兆堿基數(shù)據(jù),其中66%的讀數(shù)直指目標。使用GATK管道檢測變異。
在共享外顯子組中,采用Proton時,各樣本平均檢測到了約28,000個變異,而采用Illumina時為34,000個——兩個平臺共享了約3/4的變異。
兩個平臺在進行單核苷酸變異檢測時產(chǎn)生的結(jié)果大幅重疊,遠遠超過了插入缺失的重疊部分。以代表樣本為例,兩個平臺都檢測出了約25,700個單核苷酸變異。 此外,僅Proton 檢測出了1,100個單核苷酸變異,而僅HiSeq檢測出了7,000個。
以相同樣本為例,這兩個平臺共同檢測出了約600個插入缺失,但是,Proton和HiSeq還分別檢測了另外的880個和920個插入缺失。研究人員在對特定平臺的插入缺失亞群進行分析時發(fā)現(xiàn),“由于比對問題及/或均聚物序列,很多插入缺失呈現(xiàn)出假陽性”。
研究人員還將通過Proton、HiSeq和Complete Genomics 檢測出的單核苷酸變異和插入缺失進行了比較,發(fā)現(xiàn)這三個平臺檢測出了66%的(或23,700個)單核苷酸變異,但是僅檢測出了18%(總共530個)的插入缺失。
Proton檢測出了830個特定于該平臺的插入缺失;之后是Complete,為540個;最后是Illumina,為440個。科學家們得出結(jié)論,其分析“在檢測較小的插入缺失時,識別出了各方法存在的主要差異,這給進一步提高技術(shù)測序及/或生物信息學算法提出了重大挑戰(zhàn)”。
在 將采用Proton 和HiSeq得出的SNP基因分型與三個三元樣本中的兩個的SNP微陣列數(shù)據(jù)進行比較時,科學家們發(fā)現(xiàn),經(jīng)采用這兩個平臺,各樣本表現(xiàn)出很高的一致性,高達99%,表明SNP檢測具有較高質(zhì)量。
研究人員還通過檢測和分析讀數(shù)比對,更加密切地關(guān)注特定平臺變異的檢測情況。
很多Illumina平臺的特定單核苷酸變異為片段重復或簡單重復。 研究人員指出,根據(jù)Proton的數(shù)據(jù),可以發(fā)現(xiàn)單拷貝區(qū)的單核苷酸變異具有較低的覆蓋率,因此Proton很可能遺漏了該等單核苷酸變異;但是Illumina的數(shù)據(jù)中也可能遺漏了SNP檢測,該等檢測在Proton的數(shù)據(jù)中“明顯且清晰”。
Boland說,其采用兩種不同的捕獲試劑的原因在于,在Proton平臺使用NimbleGen(羅氏)或Agilent(安捷倫)SureSelect捕獲試劑時尚無任何“商業(yè)許可”協(xié)議!拔覀兊南敕ㄊ,采用任何批準的東西,以便于人們從貨架上選擇產(chǎn)品并進行使用”,Boland說。由于僅對重疊區(qū)域進行了分析并僅使用了相同的DNA樣本,“在我們看來,這樣做是絕對有效的”。
在論文中,研究人員指出,較之HiSeq ,Proton的運行時間 “明顯縮短”, 僅為11.5小時(包括數(shù)據(jù)處理的時間),而前者通常需要六天的運行時間。
自從開展該項研究后,也對Proton進行了改進。據(jù)Mike Lelivelt—Ion Torrent的生物信息學和軟件產(chǎn)品主管說,由于提高了各芯片的輸出性能,目前,客戶可以采用各PI芯片同時對兩個(而非一個)外顯子組進行測序。
Mike Lelivelt在研究中聲稱,公司“對Proton系統(tǒng)用于外顯子組測序的表現(xiàn)感到十分滿意”,這表明“盡管對于各平臺而言,進行準確的插入缺失檢測仍然任重道遠”,但是,“該等平臺在單核苷酸變異檢測方面已經(jīng)遙遙領(lǐng)先”。Mike Lelivelt還指出,在所有變異中,插入缺失檢測的比例要遠低于單核苷酸變異檢測。
Boland說,其小組目前正在開展其他的平臺比較,此類平臺關(guān)注于全轉(zhuǎn)錄組測序和擴增子測序。該小組還對特定平臺的單核苷酸變異和插入缺失做了進一步分析,以探明其他平臺遺漏該等單核苷酸變異和插入缺失的原因。 Boland計劃于秋季提交其研究的最初結(jié)果。