近期任務(wù)
由于未來幾年蛋白質(zhì)和核酸的測序數(shù)據(jù)將以指數(shù)方式增加,近期生物信息學將在以下幾方面迅速發(fā)展:
大規(guī);蚪M測序中的信息分析
大規(guī)模測序是基因組研究的最基本任務(wù),它的每一個環(huán)節(jié)都與信息分析緊密相關(guān)。目前,從測序儀的光密度采樣與分析、堿基讀出、載體標識與去除、拼接與組裝、填補序列間隙,到重復序列標識、讀框預測和基因標注的每一步都是緊密依賴基因組信息學的軟件和數(shù)據(jù)庫的。特別是拼接和填補序列間隙更需要把實驗設(shè)討和信息分析時刻聯(lián)系在一起.拼接與組裝中的難點是處理重復序列,這在含有約30%重復序列的人類基因組中顯得尤其突出。
新基因和新SNPs(單核苷酸多態(tài)性)的發(fā)現(xiàn)與鑒定
人類基因組的工作草圖即將完成,因此發(fā)現(xiàn)新基因就成了當務(wù)之急。使用基因組信息學的方法通過超大規(guī)模計算是發(fā)現(xiàn)新基因的重要手段,可以說大部分新基因是靠理論方法預測出來的。比如啤酒酵母完整基因組(約1300萬bp)所包含的6千多個基因,大約60%是通過信息分析得到的。
當人類基因找到之后,自然要解決的問題是:不同人種間基因有什么差別;正常人和病人基因又有什么差別。”這就是通常所說的SNPs(單核苷酸多態(tài)性)。構(gòu)建SNPs及其相關(guān)數(shù)據(jù)庫是基因組研究走向應用的重要步驟。1998年國際已開展了以EST為主發(fā)現(xiàn)新Spps的研究。在我國開展中華民族SNPs研究也是至關(guān)重要的。
完整基因組的比較研究
現(xiàn)在,生物信息學家不僅有大量的序列和基因而且有越來越多的完整基因組。有了這些資料人們就能對若干重大生物學問題進行分析,比如:研究生命是從哪里起源的?生命是如何進化的?遺傳密碼是如何起源的?估計最小獨立生活的生物至少需要多少基因,這些基因是如何使它們活起來的?比如,鼠和人的基因組大小相似,都含有約三十億堿基對,基因的數(shù)目也類似。可是鼠和人差異確如此之大,這是為什么?同樣,有的科學家估計不同人種間
基因組的差別僅為0.1%;人猿間差別約為I%。但他們表型間的差異十分顯著。因此其表型差異不僅應從基因、DNA序列找原因,也應考慮到整個研究組、考慮染色體組織上的差異?傊,這些例子說明由完整基因組研究所導致的比較基因組學必將為基因組研究開辟新的領(lǐng)域。
大規(guī)模基因功能表達譜的分析 字串4
隨著人類基因組測序逐漸接。近完成、一些學者就提出如下的問題:即使我們已經(jīng)獲得了人的完整基因圖譜,那我們對人的生命活動能說明到什么程度呢?于是他們提出了一系列由上述數(shù)據(jù)所不能說明的問題,例如:基因表達的產(chǎn)物是否出現(xiàn)與何時出現(xiàn);基因表達產(chǎn)物的濃度是多少;是否存在翻譯后的修飾過程,若存在是如何修飾的;基因敲出(knock-out)或基因過度表達的影響是什么;多基因的表現(xiàn)型如何,等。概括這些問題,其實質(zhì)應該是:我們雖然知道了基因,知道了核酸序列,但我們不知道它們是如何發(fā)揮功能的,或者說它們是如何按照特定的時間、空間進行基因表達的,表達量有多少。
為了得到基因表達的功能譜,國際上在核酸和蛋白質(zhì)兩個層次上都發(fā)展了新技術(shù)。這就是在核酸層次上的DNA芯片技術(shù)和在蛋白質(zhì)層次上的二維凝膠電泳和測序質(zhì)譜技術(shù),也稱蛋白質(zhì)組技術(shù)。
生物大分子的結(jié)構(gòu)模擬與藥物設(shè)計
隨著人類基因組計劃的執(zhí)行,估計幾年之內(nèi)就可找到人類的8萬到10萬個基因,也就是發(fā)現(xiàn)它們的一級序列。然而要了解他們的功能、要找到這些蛋白質(zhì)功能的分子基礎(chǔ),必須進一步知道它們的三維結(jié)構(gòu)。與此同時,要設(shè)計藥物也需要了解相應的蛋白質(zhì)受體的三維結(jié)構(gòu)。這是擺在科學家面前的緊迫任務(wù)。
生物信息學的遠期任務(wù)是讀懂人類基因組,發(fā)現(xiàn)人類遺傳語言的根本規(guī)律。從而闡u若干生物學中的重大自然哲學問題,像生命的起源與進化等。這一研究的關(guān)鍵和核心是了解非編碼區(qū)。 字串5
非編碼區(qū)信息結(jié)構(gòu)分析
近年來完整基因組的研究表明,在細菌這樣的微生物中非編碼區(qū)只占整個基因組序列的10%到 20%。而高等生物和人的基因組中非編碼區(qū)都占到基因組序列的絕大部分。從生物進化的觀點看來,隨著生物體功能的完善和復雜化非編碼區(qū)序列明顯增加的趨勢表明:這部分序列必定具有重要的生物功能。普遍的認識是,它們與基因在四維時空的表達調(diào)控有關(guān)。因此尋找這些區(qū)域的編碼特征以及信息調(diào)節(jié)與表達規(guī)律是未來相當長時間內(nèi)的熱點課題。
對人類基因組來說,迄今為止,人們真正掌握規(guī)律的只有DNA上的編碼蛋白質(zhì)的區(qū)域(基因),很多資料說u這部分序列只占基因組的3%到5%,也就是說,人類基因組中多達 95%到97%是非編碼區(qū)。如何深人了解這些非編碼區(qū)序列的功能是當前科學家們面臨的一個真正的挑戰(zhàn)。
遺傳密碼起源和生物進化的研究
自 1859年Darwin的物種起源發(fā)表以來,進化論成為對人類自然科學和自然哲學發(fā)展的最重大貢獻之一。進化論研究的核心是描述生物進化的歷史(系統(tǒng)進化樹)和探索進化過程的機制。自本世紀中葉以來,隨著分子生物學的不斷發(fā)展,進化論的研究也進入了分子水平。當前分子進化的研究已是進化論研究的重要手段,并建立了一套依賴于核酸、蛋白質(zhì)序列信息的理論方法。近年來,隨著序列數(shù)據(jù)的大量增加,對序列差異和進化關(guān)系的爭論也越來越激烈。不少的研究結(jié)果并不支持分子鐘的假設(shè)。因為基于某一種分子序列所重構(gòu)出的進化樹,只能反映這種序列的系統(tǒng)發(fā)育關(guān)系,并不一定能代表物種之間真正的進化關(guān)系,即可能存在著基因樹與物種樹之間的差異。同時,對垂直進化和水平演化之間關(guān)系的討論正逐漸引起人們的重視。當前的資料給了我們。一個更為復雜也更為豐滿的進化模式,它啟示我們要徹底了解進化的規(guī)律必須使用整個基因組的信息。相應地必須發(fā)展新的理論方法。 總之,當前是生物信息學研究的一個有活力的新時代。不少科學家還說它是人類基因組研究的收獲時代,它不僅將賦予人們各種基礎(chǔ)研究的重要成果,也會帶來巨大的經(jīng)濟效益和社會效益。在未來的幾年中DNA序列數(shù)據(jù)將以意想不到的速度增長,這是一個難得的機會,我國應盡早利用這些數(shù)據(jù)就可能走在國際科學界的最前沿