生命科學(xué)國(guó)外重要數(shù)據(jù)庫(kù)

瀏覽次數(shù)：6216　發(fā)布日期：2009-2-4　來(lái)源：本站　僅供參考，謝絕轉(zhuǎn)載，否則責(zé)任自負(fù)

EMBL數(shù)據(jù)庫(kù)結(jié)構(gòu)

EMBL數(shù)據(jù)庫(kù)的基本單位也是序列條目，包括核甘酸堿基排列順序和注釋兩部分。序列條目由字段組成，每個(gè)字段由標(biāo)識(shí)字起始，后面為該字段的具體說(shuō)明。有些字段又分若干次子字段，以次標(biāo)識(shí)字或特性表說(shuō)明符開(kāi)始，最后以雙斜杠“//”作本序列條目結(jié)束標(biāo)記。
條目的關(guān)鍵字包括ID（序列名稱(chēng)），DE（序列簡(jiǎn)單說(shuō)明），AC（序列編號(hào)），SV（序列版本號(hào)），KW（與序列相關(guān)的關(guān)鍵詞），OS（序列來(lái)源的物種名），OC（序列來(lái)源的物種學(xué)名和分類(lèi)學(xué)位置），RN（相關(guān)文獻(xiàn)編號(hào)或遞交序列的注冊(cè)信息），RA（相關(guān)文獻(xiàn)作者或遞交序列的作者），RT（相關(guān)文獻(xiàn)題目），RL（相關(guān)文獻(xiàn)雜志名或遞交序列的作者單位），RX（相關(guān)文獻(xiàn)　Mediline引文代碼），RC（相關(guān)文獻(xiàn)注釋?zhuān)�，RP（相關(guān)文獻(xiàn)其他注釋?zhuān)珻C（關(guān)于序列的注釋信息），DR（相關(guān)數(shù)據(jù)庫(kù)交叉引用號(hào)），F(xiàn)H（序列特征表起始），F(xiàn)T（序列特征表子項(xiàng)），SQ（堿基種類(lèi)統(tǒng)計(jì)數(shù)）。

GenBank數(shù)據(jù)庫(kù)結(jié)構(gòu)
完整的GenBank數(shù)據(jù)庫(kù)包括序列文件，索引文件以及其它有關(guān)文件。索引文件是根據(jù)數(shù)據(jù)庫(kù)中作者、參考文獻(xiàn)等建立的，用于數(shù)據(jù)庫(kù)查詢。GenPept是由GenBank中的核酸序列翻譯而得到的蛋白質(zhì)序列數(shù)據(jù)庫(kù)，其數(shù)據(jù)格式為FastA。
GenBank中最常用的是序列文件。序列文件的基本單位是序列條目，包括核苷酸堿基排列順序和注釋兩部分。目前，許多生物信息資源中心通過(guò)計(jì)算機(jī)網(wǎng)絡(luò)提供該數(shù)據(jù)庫(kù)文件。下面，我們介紹序列文件的結(jié)構(gòu)。
GenBank序列文件由單個(gè)的序列條目組成。序列條目由字段組成，每個(gè)字段由關(guān)鍵字起始，后面為該字段的具體說(shuō)明。有些字段又分若干次子字段，以次關(guān)鍵字或特性表說(shuō)明符開(kāi)始。每個(gè)序列條目以雙斜杠“//”作結(jié)束標(biāo)記。序列條目的格式非常重要，關(guān)鍵字從第一列開(kāi)始，次關(guān)鍵字從第三列開(kāi)始，特性表說(shuō)明符從第五列開(kāi)始。每個(gè)字段可以占一行，也可以占若干行。若一行中寫(xiě)不下時(shí)，繼續(xù)行以空格開(kāi)始。
序列條目的關(guān)鍵字包括LOCUS (代碼)，DEFINITION (說(shuō)明)，ACCESSION (編號(hào))，NID符(核酸標(biāo)識(shí))，KEYWORDS (關(guān)鍵詞)，SOURCE (數(shù)據(jù)來(lái)源)，REFERENCE (文獻(xiàn))，F(xiàn)EATURES (特性表)，BASE COUNT (堿基組成)及ORIGIN (堿基排列順序)。先版的核酸序列數(shù)據(jù)庫(kù)將引入新的關(guān)鍵詞SV (序列版本號(hào))，用“編號(hào).版本號(hào)”表示，并取代關(guān)鍵詞NID。
LOCUS (代碼)：是該序列條目的標(biāo)記，或者說(shuō)標(biāo)識(shí)符，蘊(yùn)涵這個(gè)序列的功能。例如，圖4.1中所示的HUMCYCLOX表示人的環(huán)氧化酶cyclooxygenase。該字段還包括其它相關(guān)內(nèi)容，如序列長(zhǎng)度、類(lèi)型、種屬來(lái)源以及錄入日期等。說(shuō)明字段是有關(guān)這一序列的簡(jiǎn)單描述，如本例為人環(huán)氧化酶-2的mRNA全序列。
ACCESSION (編號(hào))：具有唯一性和永久性，如本例中代碼M90100用來(lái)表示上述人環(huán)氧化酶-2的mRNA序列，在文獻(xiàn)中引用這個(gè)序列時(shí)，應(yīng)該以此編號(hào)為準(zhǔn)。
KEYWORDS (關(guān)鍵詞)字段：由該序列的提交者提供，包括該序列的基因產(chǎn)物以及其它相關(guān)信息，如本例中環(huán)氧化酶-2 (cyclooxygenase-2)，前列腺素合成酶(prostaglandin synthase)。
SOURCE (數(shù)據(jù)來(lái)源)字段：說(shuō)明該序列是從什么生物體、什么組織得到的，如本例中人臍帶血(umbilical vein)。次關(guān)鍵字ORGANISM (種屬)指出該生物體的分類(lèi)學(xué)地位，如本例人、真核生物等等(詳見(jiàn)圖4.1)。

REFERENCE (文獻(xiàn))字段：說(shuō)明該序列中的相關(guān)文獻(xiàn)，包括AUTHORS (作者)，TITLE (題目)及JOURNAL (雜志名)等，以次關(guān)鍵詞列出。該字段中還列出醫(yī)學(xué)文獻(xiàn)摘要數(shù)據(jù)庫(kù)MEDLINE的代碼。該代碼實(shí)際上是個(gè)超文本鏈接，點(diǎn)擊它可以直接調(diào)用上述文獻(xiàn)摘要。一個(gè)序列可以有多篇文獻(xiàn)，以不同序號(hào)表示，并給出該序列中的哪一部分與文獻(xiàn)有關(guān)。

FEATURES (特性表)：具有特定的格式，用來(lái)詳細(xì)描述序列特性。特性表中帶有‘/db-xref/’標(biāo)志的字符可以連接到其它數(shù)據(jù)庫(kù)，如本例中的分類(lèi)數(shù)據(jù)庫(kù)（taxon 9606），以及蛋白質(zhì)序列數(shù)據(jù)庫(kù)（PID：g181254）。序列中各部分的位置都在表中標(biāo)明，5’非編碼區(qū)(1-97)，編碼區(qū)(98-1912)，3’非編碼區(qū)(1913-3387)，多聚腺苷酸重復(fù)區(qū)域(3367-3374)，等等。翻譯所得信號(hào)肽以及最終蛋白質(zhì)產(chǎn)物也都有所說(shuō)明。當(dāng)然，這個(gè)例子只是特性表的部分注釋信息，但已經(jīng)足以說(shuō)明其詳細(xì)程度。
接下來(lái)是堿基含量字段，給出序列中的堿組成，如本例中1010個(gè)A，712個(gè)C，633個(gè)G，1032個(gè)T。ORIGIN行是序列的引導(dǎo)行，接下來(lái)便是堿基序列，以雙斜杠行“//”結(jié)束。

其它常用核酸序列數(shù)據(jù)庫(kù)
dbEST數(shù)據(jù)庫(kù)專(zhuān)門(mén)收集EST數(shù)據(jù)，該數(shù)據(jù)庫(kù)有自己的格式，包括識(shí)別符、代碼、序列數(shù)據(jù)以及dbEST的注釋摘要，也按DNA的種類(lèi)分成了若干子數(shù)據(jù)庫(kù)。1998年5月8日版的dbEST共包括1.6ⅹ106條EST。其中有1百萬(wàn)條人的EST，30萬(wàn)條小鼠和大鼠的EST。

GSDB是基因組序列數(shù)據(jù)庫(kù)（Genome Sequence Data Base），由美國(guó)新墨西哥州Santa Fe的國(guó)家基因組資源中心創(chuàng)建。GSDB收集、管理并且發(fā)布完整的DNA序列及其相關(guān)信息，以滿足基因組測(cè)序中心需要。該數(shù)據(jù)庫(kù)采用服務(wù)器-客戶機(jī)關(guān)系數(shù)據(jù)庫(kù)模式，大規(guī)模測(cè)序機(jī)構(gòu)可以通過(guò)計(jì)算機(jī)網(wǎng)絡(luò)向服務(wù)器提交數(shù)據(jù)，并在發(fā)送之前對(duì)數(shù)據(jù)進(jìn)行檢查，以確保數(shù)據(jù)的質(zhì)量。

GSDB數(shù)據(jù)庫(kù)中條目的格式與GenBank中的基本一致，主要區(qū)別是GSDB數(shù)據(jù)庫(kù)中增加了GSDBID識(shí)別符。

GSDB數(shù)據(jù)庫(kù)可以通過(guò)萬(wàn)維網(wǎng)查詢，也可以使用服務(wù)器-客戶機(jī)關(guān)系數(shù)據(jù)庫(kù)方式查詢。無(wú)論用哪種方法，熟悉數(shù)據(jù)庫(kù)結(jié)構(gòu)化查詢語(yǔ)言SQL，對(duì)更好地使用GSDB數(shù)據(jù)庫(kù)會(huì)有所幫助。
人類(lèi)基因組計(jì)劃的首要任務(wù)是對(duì)人類(lèi)基因組進(jìn)行全序列測(cè)定，整個(gè)基因組估計(jì)有30億個(gè)堿基對(duì)，其中大約3%可以編碼蛋白質(zhì)，其余部分的生物學(xué)功能還不清楚。轉(zhuǎn)錄圖譜可以把基因組中能夠編碼蛋白質(zhì)的部分集中起來(lái)，因此是一種重要的數(shù)據(jù)資源。
UniGene試圖通過(guò)計(jì)算機(jī)程序?qū)eneBank中的序列數(shù)據(jù)進(jìn)行適當(dāng)處理，剔除冗余部分，將同一基因的序列，包括EST序列片段搜集到一起，以便研究基因的轉(zhuǎn)錄圖譜。UniGene除了包括人的基因外，也包括小鼠、大鼠等其它模式生物的基因，而下一章將要介紹的HGI數(shù)據(jù)庫(kù)只包括人的基因。該數(shù)據(jù)庫(kù)的標(biāo)題行（TITLE）給出基因的名稱(chēng)和簡(jiǎn)單說(shuō)明，表達(dá)部位行（EXPRESS）指出該基因在什么組織中表達(dá)以及在基因圖譜中的位置等。此外，列出該基因在核酸序列數(shù)據(jù)庫(kù)GenBank或EMBL和蛋白質(zhì)序列數(shù)據(jù)庫(kù)SWISS-PROT中的編號(hào)的超文本鏈接。

UniGene中部分條目包括已知基因序列，而有些條目則僅有新測(cè)得的EST序列片段。這就意味著，這些EST序列所對(duì)應(yīng)的基因尚未搞清，可以用來(lái)發(fā)現(xiàn)新基因。在描繪基因圖譜及大規(guī)�；虮磉_(dá)分析等研究中，UniGene也可以幫助實(shí)驗(yàn)設(shè)計(jì)者選擇試劑。

UniGene可以通過(guò)NCBI或SRS系統(tǒng)訪問(wèn)。

來(lái)源：上海伯豪生物技術(shù)有限公司
聯(lián)系電話：021-58955370
E-mail：market@shbio.com

【點(diǎn)擊可查看上海伯豪生物技術(shù)有限公司相關(guān)產(chǎn)品】

標(biāo)簽：生命科學(xué) 數(shù)據(jù)庫(kù) 介紹

分享到：QQ空間新浪微博騰訊微博微信

【所有文章】【本類(lèi)新聞】【相關(guān)產(chǎn)品】【關(guān)閉窗口】

本類(lèi)文章

本類(lèi)新聞

综合图区亚洲网友自拍|亚洲黄色网络|成人无码网WWW在线观看,日本高清视频色视频kk266,激情综合五月天,欧美一区日韩一区中文字幕页

生命科學(xué)國(guó)外重要數(shù)據(jù)庫(kù)