综合图区亚洲网友自拍|亚洲黄色网络|成人无码网WWW在线观看,日本高清视频色视频kk266,激情综合五月天,欧美一区日韩一区中文字幕页

English | 中文版 | 手機(jī)版 企業(yè)登錄 | 個(gè)人登錄 | 郵件訂閱
當(dāng)前位置 > 首頁(yè) > 技術(shù)文章 > 基因數(shù)據(jù)分析的主流軟件

基因數(shù)據(jù)分析的主流軟件

瀏覽次數(shù):14043 發(fā)布日期:2005-12-6 

轉(zhuǎn)載自《生物技術(shù)世界》2005年6月版
在過(guò)去的幾年中,許多生物的基因組完成了測(cè)序工作,如何對(duì)如此龐大的原始序列信息進(jìn)行分析和應(yīng)用,正是現(xiàn)在最為棘手的問(wèn)題。大量的基因預(yù)測(cè)軟件和在線工具應(yīng)運(yùn)而生。如何廣泛而深入地了解并能有的放矢地利用這些工具,已經(jīng)成為21世紀(jì)分子生物學(xué)家的必修課。

隨著大規(guī)模ESTcDNA序列信息的獲取,那些基于表達(dá)序列同源范圍的程序,在基因組注釋中的作用日益顯著。即使在稀少基因或組織特異性表達(dá)的基因中,基因組序列的相關(guān)性信息也頗具參考價(jià)值。所以利用基因組序列的比對(duì)來(lái)擴(kuò)充基因的信息是不可獲缺的。特別是在對(duì)人類基因組做注釋時(shí),與那些相對(duì)完整的脊椎動(dòng)物基因組,如小鼠和魚類的基因組比較是必不可少的步驟。許多基因組測(cè)序計(jì)劃正在進(jìn)行之中,盡管仍存在急需解決的問(wèn)題,比較基因組學(xué)方法(comparative genome approach)被認(rèn)為是最有應(yīng)用前景的方法。該方法不僅在基因預(yù)測(cè)中舉足輕重,而且在鑒定調(diào)控基因、探索垃圾基因(junk gene)等方面的作用也不容忽視;蝾A(yù)測(cè)軟件的用戶應(yīng)該認(rèn)識(shí)到,軟件預(yù)測(cè)結(jié)果的可靠性和置信水平都有較大程度的提升。但這些畢竟是預(yù)測(cè)的結(jié)果,分子生物學(xué)家,總是試圖證明真實(shí)存在的蛋白質(zhì),及其功能和在組織中的表達(dá)狀態(tài)。

當(dāng)前,已有超過(guò)60種真核基因組測(cè)序計(jì)劃在進(jìn)程之中。然而生物學(xué)方面的相關(guān)注釋還遠(yuǎn)不能匹配如此洶涌而至的原始序列數(shù)據(jù)。當(dāng)務(wù)之急是,研發(fā)出更多的準(zhǔn)確而快速的分析工具,特別在尋找基因、確定其準(zhǔn)確功能等應(yīng)用方面。許多基因預(yù)測(cè)程序都可以免費(fèi)共享。.列出了很多相關(guān)參考。當(dāng)前,幾乎沒(méi)有一個(gè)完美的程序可以解決用戶們的所有問(wèn)題。這就需要用戶最大程度地利用主流程序的整合優(yōu)勢(shì)。

基因數(shù)目預(yù)測(cè)的主流軟件

十年前,研究人員開(kāi)始預(yù)測(cè)人類基因的數(shù)目,這個(gè)數(shù)目在很長(zhǎng)時(shí)間沒(méi)有明顯改變。幾年前,最多的預(yù)測(cè)是100,000;當(dāng)人類基因組完成測(cè)序時(shí),這個(gè)數(shù)目降至30,000,F(xiàn)在有降至20,000左右。研究人員相信:充分考慮人類的基因組序列和其它生物的基因組序列,可以做出近似的估計(jì)。Affymetrix 的計(jì)算科學(xué)家David Kulp稱:“很難對(duì)基因數(shù)目的諸多估算,做出正誤的判別。”分子生物學(xué)家正在尋找比預(yù)期設(shè)想的基因更小的基因。在某種情況下,就一段編碼的序列,很難確定是一個(gè)基因或是兩個(gè)基因的重疊。學(xué)術(shù)界仍不能完全肯定地歸類那些編碼多種蛋白質(zhì)的基因,或是僅編碼RNA的類似基因的序列。

早在20世紀(jì)30年代,George Beadle Tatum認(rèn)為每個(gè)基因僅僅編碼一個(gè)蛋白質(zhì)。幾十年來(lái)這個(gè)說(shuō)法仍舊沿襲。現(xiàn)在則認(rèn)為這樣的理論過(guò)于簡(jiǎn)單。一個(gè)基因可以編譯成多種蛋白質(zhì),甚至可以轉(zhuǎn)錄成RNA。人類基因組中編碼蛋白質(zhì)的區(qū)域,稱為外顯子,約僅占總體DNA2%。一些簡(jiǎn)單的基因僅含有一個(gè)外顯子。有些基因沒(méi)有功能,稱為假基因pseudogene:是與已知基因在不同部位有密切相似性的基因,但由于結(jié)構(gòu)上有加入或缺失,而阻止了正常的轉(zhuǎn)錄或翻譯,以致使它們無(wú)功能。這樣就會(huì)增加基因預(yù)測(cè)的數(shù)量,造成許多假陽(yáng)性的結(jié)果。英國(guó)劍橋的EBI(European Bioinformatics Institute)的基因預(yù)測(cè)專家Ewan Birney指出:“目前預(yù)測(cè)的人類24,500個(gè)基因中,有將近3,000個(gè)基因可能為pseudogene”。華盛頓大學(xué)的計(jì)算科學(xué)家Michael Brent稱:“如果在基因預(yù)測(cè)中準(zhǔn)確地考慮到假基因的存在,那么預(yù)測(cè)的結(jié)果會(huì)更為精確!

目前廣泛應(yīng)用的基因預(yù)測(cè)方法是:“ab initio”方法,即通過(guò)探索DNA序列中特異的區(qū)域,如基因的起始區(qū)域和終止區(qū)域,來(lái)進(jìn)行基因預(yù)測(cè)。另一種方法是比較基因組學(xué)的方法,即根據(jù)與已知的蛋白質(zhì)或基因之間的相似性來(lái)發(fā)現(xiàn)新的基因。Ab initio程序?qū)τ谀切╊愃朴诨虻男蛄校步o予歸類,所以總的預(yù)測(cè)數(shù)量要高出實(shí)際值;而比較的方法不考慮無(wú)相似關(guān)系的基因,所以估計(jì)的基因數(shù)目偏低。大多數(shù)人所熟知的一個(gè)ab initio程序叫做Gene Modeler1990年新墨西哥洲大學(xué)的Chris FieldsCari Soderlund研發(fā)的。當(dāng)時(shí)是被應(yīng)用在線蟲(chóng)Caenorhabditis elegans的基因探尋過(guò)程中。那時(shí)出現(xiàn)的其它軟件都稍遜于Gene Modeler。例如,BLAST、FASTA能將DNA序列翻譯成蛋白質(zhì)序列,并與已有的、蛋白質(zhì)數(shù)據(jù)進(jìn)行比較。

這個(gè)領(lǐng)域進(jìn)展迅速,涌現(xiàn)出許多具有專業(yè)軟件編寫技能的預(yù)測(cè)人員,包括采用Gene Modeler的方法創(chuàng)建GeneID來(lái)尋找人類基因的Guigo。以及,編寫GeneParser軟件的Eric Snyder。GeneParser采用了一個(gè)稱為動(dòng)力學(xué)程序的技術(shù),將外顯子與不編碼蛋白質(zhì)的內(nèi)含子區(qū)分開(kāi)來(lái)。RockvilleTIGRThe Institute for Genomic Research)的Steven Salzberg自從1994年,利用ab initio的方法,來(lái)改進(jìn)尋找人類基因的程序。隨后的幾年里,他們又研發(fā)出幾個(gè)新的程序。其中的一個(gè)是與更為詳盡的背景信息相整合,進(jìn)行基因預(yù)測(cè)。它可以更加清楚地預(yù)測(cè)外顯子和內(nèi)含子的大小。另一個(gè)程序是同時(shí)作用于兩個(gè)完整的基因組,由計(jì)算機(jī)完成兩者的比較。許多研究人員更傾向于后種方法,原因是相似的物種,更為傾向于擁有相似的基因序列。National Human Genome Research Institute的遺傳學(xué)家Eric Green說(shuō),他及他的同事,已經(jīng)從13個(gè)物種中進(jìn)行了DNA比較,包括狗、牛、雞以及河豚魚。2003814日的Nature上發(fā)表了他們對(duì)基因、以及調(diào)控區(qū)域的比較結(jié)果。


GENSCAN
就是一個(gè)經(jīng)典的基因預(yù)測(cè)軟件。1996年由MITChris Burge開(kāi)始編寫這個(gè)軟件程序。當(dāng)時(shí),Burge的許多同事主張采用比較的方法,他們隨機(jī)選取一個(gè)最新測(cè)序基因組中基因的DNA序列,與數(shù)據(jù)庫(kù)中已存在的基因進(jìn)行聯(lián)配。但是Chris Burge認(rèn)為:“利用人類基因組所獲知的信息,可能不能發(fā)現(xiàn)某些新的基因。” 他還積極吸取了加州大學(xué)計(jì)算機(jī)科學(xué)家David Haussler的經(jīng)驗(yàn)。很多年前,Haussler就意識(shí)到基因預(yù)測(cè)的問(wèn)題與語(yǔ)言學(xué)家們所遇到的問(wèn)題相類似。語(yǔ)言學(xué)家總是試圖尋找語(yǔ)言中句法、語(yǔ)法,以及其它某些特征。Haussler和其他人都建議從語(yǔ)言學(xué)中借助一種叫做Hidden Markov Model, HMM隱馬爾科夫模型的統(tǒng)計(jì)工具。在序列分析中,HMM通常是多重序列對(duì)位排列的概率模型,但也可用于單一序列的周期性模式的模型,比如代表發(fā)現(xiàn)基因外顯子的模式。在一個(gè)多重序列對(duì)位排列的模型中,用被稱作狀態(tài)的符號(hào)的概率分布代表排列中的每一列字母,插入和缺失用其他狀態(tài)表示。然后在模型內(nèi)沿特定的路徑從一個(gè)狀態(tài)進(jìn)入另一個(gè)狀態(tài),試圖匹配一條給定的序列。從每一狀態(tài)選出下一個(gè)匹配符號(hào),記錄其概率(頻率)和從前一狀態(tài)進(jìn)入特定狀態(tài)的概率(過(guò)渡態(tài)概率)。狀態(tài)與過(guò)渡態(tài)的概率相乘就得到給定序列的概率。一般來(lái)說(shuō),HMM是一個(gè)對(duì)給定字符的統(tǒng)計(jì)模型,類似隨機(jī)狀態(tài)機(jī)器,從每一個(gè)狀態(tài)過(guò)渡到另一個(gè)就產(chǎn)生一個(gè)字符。狀態(tài)間的過(guò)渡態(tài)用過(guò)渡概率確定。HMM已成為許多基因預(yù)測(cè)算法的標(biāo)準(zhǔn)。Burge指出:目前存在一整套的能夠區(qū)分部分基因的模式和規(guī)則。比如,幾乎所有的基因在起始和終止區(qū)域存在特異的序列。外顯子的末端通常也存在一個(gè)特征序列,可以指導(dǎo)相關(guān)的酶切除外顯子下游的內(nèi)含子。Burge已經(jīng)利用這些規(guī)則分析了幾百個(gè)已知外顯子和內(nèi)含子位置的基因序列。

GENSCAN是進(jìn)行基因預(yù)測(cè)的首選工具。但是,即使最好的預(yù)測(cè)軟件也存在不足之處。GENSCAN就過(guò)分估算了基因數(shù)目。它的預(yù)測(cè)結(jié)果是人類基因組中有45,000個(gè)基因,相當(dāng)于現(xiàn)在普遍認(rèn)可數(shù)目的兩倍。Burge承認(rèn)GENSCAN確實(shí)存在問(wèn)題,但他認(rèn)為太多的基因總比太少要好。對(duì)于過(guò)剩的預(yù)測(cè),用戶可以積極去除假陽(yáng)性的結(jié)果。Burge稱:GENSCAN可能不能預(yù)測(cè)基因的準(zhǔn)確數(shù)目,但從人類和其它物種的基因數(shù)據(jù)分析中所得到的新的序列,可以進(jìn)一步完善GENSCAN。他還指出,如果能繼續(xù)開(kāi)展基因的探尋工作,他會(huì)更傾向于選用比較學(xué)的方法。

其他程序,如GeneSweep、Ensembl/Genewise,則是基于對(duì)數(shù)據(jù)進(jìn)行組裝來(lái)尋找基因。但是它們比早期的比較學(xué)方法更為成熟。GenewiseBirney和他的同事,從已知的蛋白質(zhì)序列著手進(jìn)行基因分析的程序。這些蛋白質(zhì)都來(lái)自已知氨基酸序列的蛋白質(zhì)家族,具有保守的DNA序列。蛋白質(zhì)或多或少的相類似。利用這些蛋白質(zhì)家族組裝起來(lái)所形成的優(yōu)勢(shì),計(jì)算機(jī)就能比較來(lái)自同種或不同個(gè)體已知的蛋白質(zhì)序列和新的蛋白質(zhì)序列。隨著更多的物種基因組被測(cè)序,比較整個(gè)基因組,而不是比較那些相對(duì)短小的序列,正逐漸變?yōu)楝F(xiàn)實(shí)。Affymetrix公司的Kulp稱:現(xiàn)在整合這些比較的方法來(lái)預(yù)測(cè)基因,已經(jīng)成為最具應(yīng)用前景的研究路線。并且眾多的應(yīng)用程序都融合了多元策略進(jìn)行基因預(yù)測(cè)。

Gene Counts

Program

Prediction

Ensembl/Genewise

24,500

Twinscan

25,600

GeneID

32,400

GENSCAN

45,000

表一:主流軟件對(duì)人類基因數(shù)目預(yù)測(cè)

基因序列分析的主流軟件

在一定的精度范圍內(nèi),利用生物信息學(xué)的方法和軟件對(duì)目標(biāo)基因的基本特征進(jìn)行分析,能夠讓分子生物學(xué)家更為迅速和全面地發(fā)現(xiàn)基因的特征,了解基因在生命體中的真實(shí)結(jié)構(gòu)和功能,從而為大規(guī)模地開(kāi)展基因的后續(xù)分析奠定基石。

核苷酸序列中蘊(yùn)涵著豐富的信息,對(duì)于編碼基因序列的分析,主要是圍繞如下內(nèi)容進(jìn)行:尋找開(kāi)放讀碼框、預(yù)測(cè)基因功能、分析選擇性剪切方式、分析基因多態(tài)性位點(diǎn)、分析基因表達(dá)調(diào)控區(qū)域、統(tǒng)計(jì)序列GC含量、追蹤密碼子使用偏向性、設(shè)計(jì)應(yīng)用于目的基因的酶切位點(diǎn)和引物等,

尋找基因的開(kāi)放讀碼框:基因的開(kāi)放讀碼框(Open Reading Frame),包含從5’端翻譯起始密碼子(ATG)到終止密碼子(TAA、TAG、TGA)之間的一段編碼蛋白質(zhì)的堿基序列。開(kāi)放閱讀框的預(yù)測(cè)程序主要是針對(duì)編碼區(qū)的特征進(jìn)行統(tǒng)計(jì)、以及相關(guān)模式的識(shí)別或是利用同源比對(duì)的識(shí)別方法,F(xiàn)在較為主流的程序是GetOrfORFFinder、Plotorf,就是專門識(shí)別ORF的有利工具。一些功能強(qiáng)大的軟件如:GENSCAN、GRAIL = 2 \* ROMAN IIGENEMARK、GlimmerM除進(jìn)行ORF的分子外,還可對(duì)多種基因的結(jié)構(gòu)特征進(jìn)行分析。專業(yè)人員常用的軟件還有:Genefinder、Genehunter、FGeneSH、FGeneSB、FGeneSV、GenerationBCM Gene Finder、Genebuilder等。其中GlimmerMFGeneSB更適與原核生物的基因預(yù)測(cè)。

外顯子和內(nèi)含子剪切位點(diǎn)的分析:在真核生物中基因的外顯子和內(nèi)含子長(zhǎng)度不一,但剪切供體和受體的位點(diǎn)具有相當(dāng)程度的保守性。所謂的供體位點(diǎn)(donor)是基因內(nèi)含子5’
GU的位置;受體位點(diǎn)(acceptor)是內(nèi)含子3’AG的位置。對(duì)于mRNAcDNA序列的分析是通過(guò)比對(duì)相關(guān)的基因組序列,來(lái)進(jìn)行結(jié)構(gòu)分析。例如,Spidey(是NCBI開(kāi)發(fā)的工具軟件),Sim4BLAST等程序。NetGene2Splice View可以提供編碼區(qū)核苷酸序列剪切位點(diǎn)的直接預(yù)測(cè)。

分析基因的選擇性剪切:基因的選擇性剪切機(jī)制(Alternative splicing):真核基因轉(zhuǎn)錄成前體mRNA后,還要進(jìn)一步改裝成成熟的mRNA。許多基因并不是一次全部切除其內(nèi)含子,而是在不同的細(xì)胞、或不同的發(fā)育階段,選擇性地剪切其內(nèi)含子,從而生成不同的mRNA。隨著數(shù)據(jù)庫(kù)中數(shù)據(jù)信息的指數(shù)增加,目前運(yùn)用生物信息學(xué)的工具對(duì)基因產(chǎn)物的選擇性剪切,也能開(kāi)展較為詳盡的分析。眾多的選擇性剪切機(jī)制數(shù)據(jù)庫(kù),可利用進(jìn)行在線搜索。較為流行的如:ProSplicer就是基于蛋白質(zhì)、mRNAEST序列的選擇性剪切數(shù)據(jù)庫(kù)。

分析基因的表達(dá)調(diào)控區(qū)域:基因組中全部基因的表達(dá),都遵循嚴(yán)整而精確的調(diào)控機(jī)制;虻恼{(diào)控區(qū)域序列相關(guān)特征的深入分析,為全面了解基因的功能提供豐富的數(shù)據(jù)基礎(chǔ)。 = 1 \* GB2 ⑴脊椎動(dòng)物的5’
端的啟動(dòng)子周圍是CpG島,它是尋找基因的重要線索。EMBL提供的CpG島的計(jì)算工具是:CpGPlot/CpGReport/IsochoreCpG IslandCpG promoter也是較為常用的工具。 = 2 \* GB2 ⑵對(duì)基因的核心啟動(dòng)子、轉(zhuǎn)錄因子結(jié)合位點(diǎn)、轉(zhuǎn)錄起始位點(diǎn)的識(shí)別:可充分利用TRRD、TransFacMIRAGE、EPD等在線基因調(diào)控區(qū)域的數(shù)據(jù)庫(kù);Softberry軟件集團(tuán)
推出的:BPROM、TSSP、TSSGTSSW等軟件也值得使用。 = 3 \* GB2 ⑶預(yù)測(cè)轉(zhuǎn)錄終止的信息:使用的工具是Hcpolya。 = 4 \* GB2 ⑷分析密碼子的使用偏性:有DOS運(yùn)行界面的CodenWSYCO、CHIPCodon usage = 5 \* GB2 ⑸分析限制性核酸內(nèi)切酶位點(diǎn):WEB Cutter、CUTTER、TACG interfaceWatcut、NEB cutterDigest等。

核苷酸序列綜合分析軟件:用戶通常需要對(duì)目的基因進(jìn)行多重分析,所以將序列拼接、基因序列的組分分析、編碼區(qū)域預(yù)測(cè)、序列比對(duì)、引物設(shè)計(jì)、酶切位點(diǎn)預(yù)測(cè)等多項(xiàng)獨(dú)立的分析加以整合的綜合分析軟件應(yīng)運(yùn)而生。目前有GeneBuilderDNA Tool、SEQ tools、DNAssistGeneTool、DNAman、DNA Strider、p DRAW32、gene-explorer等。GeneBuiler就是多模塊單獨(dú)執(zhí)行功能的基因結(jié)構(gòu)預(yù)測(cè)系統(tǒng)(Gene Structure Prediction System)。

新數(shù)據(jù)的獲得驅(qū)動(dòng)著軟件的研發(fā)。目前現(xiàn)有的海量數(shù)據(jù)庫(kù),它們的質(zhì)量和特征差異懸殊,仍需進(jìn)行繼續(xù)完善。London-based online的出版商BioMed Central的數(shù)據(jù)編輯Matthew Day稱:“目前還沒(méi)有較為理想的公共數(shù)據(jù)庫(kù)集合群,服務(wù)于所有不同研究領(lǐng)域生物學(xué)工作者。所有的數(shù)據(jù)都應(yīng)具備友好的用戶界面,并與期刊數(shù)據(jù)庫(kù)相鏈接。那時(shí)每個(gè)生物學(xué)者都可以暢快淋漓地享受數(shù)據(jù)汪洋的航行。

在基因組時(shí)代,那些小的實(shí)驗(yàn)室很容易感到滯后性。相比之下,規(guī)模較大的生物技術(shù)公司,現(xiàn)在僅在一個(gè)下午完成的工作,對(duì)于中型的實(shí)驗(yàn)室可能要耗費(fèi)數(shù)月之久。但是生物信息軟件技術(shù)將專業(yè)的數(shù)據(jù)分析知識(shí)和技術(shù),全部壓縮到密集的程序集中。事實(shí)證明,這些軟件的應(yīng)用前景將更加廣泛,操作界面也日趨簡(jiǎn)化,運(yùn)行的結(jié)果更易于注釋。嶄新的在線服務(wù)和軟件產(chǎn)品,讓枯燥無(wú)味的數(shù)據(jù)分析變得妙趣橫生。


用戶名: 密碼: 匿名 快速注冊(cè) 忘記密碼
評(píng)論只代表網(wǎng)友觀點(diǎn),不代表本站觀點(diǎn)。 請(qǐng)輸入驗(yàn)證碼: 8795
Copyright(C) 1998-2024 生物器材網(wǎng) 電話:021-64166852;13621656896 E-mail:info@bio-equip.com