逐次修正基因組法：有效提高非模式生物蛋白質(zhì)組鑒定的新策略

瀏覽次數(shù)：1778　發(fā)布日期：2014-10-10　來源：本站　僅供參考，謝絕轉(zhuǎn)載，否則責(zé)任自負(fù)

隨著高通量測序技術(shù)的不斷崛起，全基因組測序也逐步普及。越來越多的物種基因組予以公布。目前，主要有兩種獲得研究物種參考基因組的策略：de novo 基因組拼接和基于mapping算法的基因組序列修正，mapping是指將所有測序讀段通過序列比對定位到參考基因組上。De novo 基因組拼接是利用短讀序列（reads）組裝出一個基因組草圖，然后通過自動注釋標(biāo)出可能的開放閱讀框（open reading frame, ORF）。然而現(xiàn)行的測序平臺和自動拼接算法的限制，并不能一次拼接出較長的基因組序列，而是輸出數(shù)以萬計(jì)的短碎的contig，這些contig常常缺乏完整的ORF，或者很難對ORF進(jìn)行預(yù)測，甚至對于基因組較小的生物也存在這種問題。因此，想要做到較好的基因組拼接效果，就必須額外進(jìn)行測序以及更復(fù)雜的計(jì)算處理。然而即便是這樣，拼接結(jié)果仍然錯誤頻發(fā)。研究報道，當(dāng)食烷菌（Alcanivorax borkumensis）SK2菌株的平均測序深度為30x時，de novo 拼接結(jié)果的正確率只有95.3%（每20個堿基有一個錯誤），覆蓋度為98.7%，遠(yuǎn)低于基于mapping算法的基因組修正策略。另外，自動注釋的準(zhǔn)確性仍然有待提高：在測試中，對食烷菌（Alcanivorax borkumensis）SK2拼接結(jié)果的ORF進(jìn)行注釋，最好的注釋軟件也只能達(dá)到52.8%的正確率，假陽性率高達(dá)到49%。

相比之下，基于mapping的基因組修正策略是將短讀序列（reads）匹配到近緣物種已知的全基因組上，然后找到單核苷酸變異，并用這些修正信息補(bǔ)充更新現(xiàn)有的參考序列。當(dāng)存在已知的近緣基因組序列時，這種策略得到的新基因組會非常精確，而且可以直接利用原有的基因組注釋信息。盡管基于mapping的基因組修正策略無法分析與參考基因組相比有大片段插入或者是基因組重排的情況，但是這些插入的部分通常對于蛋白質(zhì)方向的研究并不太重要，因?yàn)樵谙到y(tǒng)中大多數(shù)編碼基因均普遍存在。因此，這種策略能夠有效的運(yùn)用于群體的基因分型，也就是簡化基因組分析。隨著生物信息學(xué)的不斷發(fā)展，各種mapping算法應(yīng)運(yùn)而生。相應(yīng)的也存在很多檢測研究物種實(shí)際基因組序列與已知近緣參考基因組序列間單個核苷酸變異（SNV）的算法，例如，k-spectrum-based、Suffix tree/array based和MSA based。相應(yīng)的軟件有HSHREC、Reptile、Quake、SOAPec、HiTEC、ECHO、Coral。根據(jù)Yang文中的評估結(jié)果，Reptile參數(shù)的選擇比其他軟件繁瑣；HiTEC不適合處理有“N”的或不同長度的reads。值得關(guān)注的是，這些方法的共有的缺陷也十分明顯：（1）對于SNV的敏感度非常不穩(wěn)定，對有的菌很好但有的菌很差（可低至0.03%）；（2）敏感度最高的算法在修正大腸桿菌基因組時就需要11個小時以上的時間和大約10 GB的RAM，此方法對計(jì)算機(jī)的性能要求很高；（3）現(xiàn)行可用的方法都只能處理與參考基因組十分相近的基因組（差異<1.6%）。對于沒有十分相似基因組的物種，這些算法都無法很好的發(fā)揮其功能。

很不幸的是，單一物種不同菌株間的遺傳多樣性常常超出上述算法的最大限度。例如輕癥鏈球菌（Streptococcus mitis）不同菌株間的差異要高于5%；金黃色葡萄球菌（Staphylococcus aureus）不同菌株基因組序列間的變異率甚至能夠達(dá)到20%。顯然，傳統(tǒng)的基于mapping的基因組修正方法是無法解決如此高得差異度的，但是基因組的多樣性往往導(dǎo)致了菌株致病性和耐藥性的重大變化。而基因組的高度變異又會導(dǎo)致這些缺乏準(zhǔn)確的參考蛋白組，這種情況嚴(yán)重阻礙了這些菌株蛋白質(zhì)組的分析與發(fā)展，影響了致病菌和耐藥菌的功能研究。

針對上述問題，暨南大學(xué)翻譯組學(xué)實(shí)驗(yàn)室提出了一個新策略。利用迭代修正的方法不斷矯正已知近緣物種的基因組序列，以獲得研究物種相對精確的基因組。這種修正方法是基于該實(shí)驗(yàn)室自行開發(fā)的mapping算法：FANSe。FANSe具有穩(wěn)定、精確、容錯率高的特點(diǎn)，能夠在保持合理運(yùn)行速度的前提下達(dá)到非常高的準(zhǔn)確度。FANSe的優(yōu)勢體現(xiàn)在：（1）準(zhǔn)確性：在實(shí)際運(yùn)行時，F(xiàn)ANSe能夠達(dá)到一個穩(wěn)定且非常高的靈敏度。在測序錯誤率為每核苷酸0.5%的情況下，F(xiàn)ANSe的誤判率可低達(dá)10^-6，特別是在比對RNA-seq序列時。（2）對插入缺失位點(diǎn)敏感：FANSe使用了不依賴硬件的加速Smith-Waterman算法，能夠完美的檢測出堿基的插入與缺失。（3）運(yùn)算速度：在運(yùn)行速度方面，F(xiàn)ANSe使用CPU的一個核便可以在幾分鐘內(nèi)將1000萬條reads匹配到大腸桿菌的參考基因組上�？稍诖蠹s一天時間內(nèi)，使用一臺四核計(jì)算機(jī)將1000萬條reads 匹配到人類參考基因組上。（4）容錯率高：FANSe對于錯配堿基的容忍度也是極高的。這一參數(shù)可供使用者根據(jù)研究需要靈活設(shè)置，而不像其它mapping算法，例如：SOAP2、Bowtie，最多只能允許2~3個錯配。設(shè)置較高的錯配數(shù)時，F(xiàn)ANSe并不會降低比對的準(zhǔn)確性，reads仍然能夠匹配到最佳的位置上。（5）適應(yīng)性強(qiáng)：FANSe的適用性很廣，對于輸入的測序讀長和參考基因組沒有任何限制。它可以支持參考序列中同時存在大小寫字母和未被準(zhǔn)確測定的核苷酸（標(biāo)記為“N”），并支持單向比對。FANSe這一強(qiáng)大的比對算法為我們新策略的提出奠定了堅(jiān)實(shí)的基礎(chǔ)。新策略可以矯正研究物種基因組與已知近緣物種基因組的差異大約在5%左右的情況并正確輸出研究物種的參考蛋白質(zhì)組。在二級質(zhì)譜鑒定中，利用修正后的蛋白質(zhì)數(shù)據(jù)庫能夠顯著的提高蛋白和肽段的鑒定效率。新策略大幅度提高了非模式生物功能蛋白質(zhì)組的分析。（本課題相關(guān)測序服務(wù)由上海伯豪生物技術(shù)有限公司提供）。

原文出處：Wu XH, Xu LN, Gu W, Xu Q, He QY, Sun XS , Zhang G. Iterative Genome Correction Largely Improves Proteomic Analysis of Nonmodel Organisms. J Proteome res. 2014.

來源：上海伯豪生物技術(shù)有限公司
聯(lián)系電話：021-58955370
E-mail：market@shbio.com

【點(diǎn)擊可查看上海伯豪生物技術(shù)有限公司相關(guān)服務(wù)】

標(biāo)簽：逐次修正基因組法非模式生物蛋白質(zhì)組鑒定

分享到：QQ空間新浪微博騰訊微博微信

【所有文章】【本類新聞】【相關(guān)服務(wù)】【關(guān)閉窗口】

本類文章

本類新聞

综合图区亚洲网友自拍|亚洲黄色网络|成人无码网WWW在线观看,日本高清视频色视频kk266,激情综合五月天,欧美一区日韩一区中文字幕页

逐次修正基因組法：有效提高非模式生物蛋白質(zhì)組鑒定的新策略