當前位置 > 首頁 > 技術文章 > 蛋白質組學基礎：常用蛋白參考數(shù)據(jù)庫的介紹及選擇

蛋白質組學基礎：常用蛋白參考數(shù)據(jù)庫的介紹及選擇

瀏覽次數(shù)：800　發(fā)布日期：2024-11-5　來源：本站　僅供參考，謝絕轉載，否則責任自負

蛋白質組學是通過蛋白質鑒定和定量對生物系統(tǒng)中的蛋白質結構和功能進行大規(guī)模研究的科學。質譜法在過去幾十年作為綜合蛋白質組分析的主要工具而被廣泛應用，Shot gun/Bottom up是鑒定多肽和蛋白質的主流方法，蛋白質首先被水解成肽段，然后通過質譜法檢測帶電母離子和碎片離子，記錄成譜圖數(shù)據(jù)，再借助數(shù)據(jù)分析軟件進行譜圖解析，根據(jù)肽段的解析結果和參考數(shù)據(jù)庫，推斷蛋白組鑒定結果[1]。因此，如何選擇序列參考數(shù)據(jù)庫將直接影響輸出的結果。
本期推送主要為大家介紹在常規(guī)蛋白質組學數(shù)據(jù)分析中最常用的兩大數(shù)據(jù)庫：Uniprot和NCBI數(shù)據(jù)庫，以及如何將已下載的數(shù)據(jù)庫文件導入PEAKS®軟件以進行搜庫。歡迎大家轉發(fā)和收藏！

數(shù)據(jù)庫介紹

1. Uniprot數(shù)據(jù)庫
Uniprot數(shù)據(jù)庫是一個全面的蛋白質資源數(shù)據(jù)庫，為科研工作者提供了豐富的蛋白質序列和功能信息。該數(shù)據(jù)庫由歐洲生物信息學研究所、瑞士和美國蛋白質信息中心等機構共同維護，是一個非營利性的項目，旨在推動蛋白質組學領域的研究發(fā)展。數(shù)據(jù)庫整合了多個來源的蛋白質信息，包括Swiss-Prot、TrEMBL和PIR等，形成了一個龐大而統(tǒng)一的蛋白質知識體系。Swiss-Prot包含了經人工注釋和驗證的蛋白質序列，質量較高，一般分類為“Reviewed”；而TrEMBL中的蛋白是由EMBL-Bank、GenBank 和 DDBJ中的編碼序列翻譯而來的，因此一般標注為“Unreviewed”。這些數(shù)據(jù)庫涵蓋了從細菌到人類等多個物種的蛋白氨基酸序列、基因名稱、物種來源等基本信息，為不同領域的研究者提供了寶貴資源。此外，還整合了蛋白質的功能注釋、結構信息、翻譯后修飾、相互作用網絡等內容，這些功能信息有助于研究者深入理解蛋白質在生物體中的角色和作用機制。

Uniprot數(shù)據(jù)庫還提供了強大的搜索和瀏覽功能，用戶可以通過關鍵詞、序列比對等方式快速定位到感興趣的蛋白質。在Uniprot網站檢索目標蛋白列表時，推薦優(yōu)先通過Taxonomy分類進行篩選，Proteome分類下的蛋白是來源于完整基因組測序的注釋結果，既包含Swiss-Pro，也包含TrEMBLE的蛋白。

2. NCBI數(shù)據(jù)庫
NCBI（National Center for Biotechnology Information）數(shù)據(jù)庫是全球最大的生物信息數(shù)據(jù)庫之一，由美國國立衛(wèi)生研究院（NIH）下屬的美國國家醫(yī)學圖書館（NLM）建立和維護。蛋白參考序列（RefSeq）只是NCBI數(shù)據(jù)庫組成的一部分，還包括基因序列數(shù)據(jù)庫（GenBank）、生物醫(yī)學文獻數(shù)據(jù)庫（PubMed）、基因數(shù)據(jù)庫（Gene）、結構數(shù)據(jù)庫（Structure）、表型和基因型數(shù)據(jù)庫（dbGaP）等。

RefSeq 類似于 UniProtKB 的中“Proteome”的分類列表，是基于基因組注釋結果展示檢索結果的的。隨著基因組和RNA測序等其他支持數(shù)據(jù)的更新，RefSeq也會隨之更新注釋，每個注釋版本都會有一個注釋報告，其中包含有關底層基因組、新基因組注釋、使用的其他信息以及有關更新內容的各種統(tǒng)計數(shù)據(jù)。RefSeq 的蛋白質序列是以每個物種為單位匯總的，不能像UniProt中那樣，通過Taxonomy分類樹逐級下載對應的單個fasta文件。如需下載特定物種的fasta數(shù)據(jù)庫，可直接檢索具體的taxonomy ID。NCBI下載的FASTA冗余度較高，用戶需要使用其他工具進一步合并和去除冗余條目。

如何選擇合適的數(shù)據(jù)庫
由于NCBI的參考蛋白信息以基因組注釋為主，檢索結果的冗余度較高，一般推薦優(yōu)先使用Uniprot來檢索目標物種的參考蛋白序列，并且，要根據(jù)實驗條件和樣本選擇最合適的FASTA數(shù)據(jù)庫。數(shù)據(jù)庫過大，會導致搜索空間變大，無關蛋白過多會使得假陽性過高，從而影響“正確”蛋白的鑒定結果。數(shù)據(jù)庫過小，則可能因為蛋白數(shù)過少而導致假陰性變高，譜圖中本來采集到的蛋白因為不在數(shù)據(jù)庫里面而被漏掉。

對于人、小鼠等常見物種，由于實驗數(shù)據(jù)豐富，被人工校驗和注釋的蛋白數(shù)足夠多，因此一般直接在Swiss-Prot下載Reviewed protein fasta即可，但對于非常見物種來說，unreviewed proteins居多，甚至稀有物種本身連基因組注釋的信息都極少，此時，可以考慮Taxonomy上一級的參考序列，根據(jù)種屬同源性進行搜索^[2]。

FASTA文件下載步驟及導入PEAKS^®
01 Uniprot數(shù)據(jù)庫下載

02 NCBI數(shù)據(jù)庫下載

03將FASTA導入PEAKS^®
> PEAKS Studio

> PEAKS Online

注意：對于NCBI下載的fasta數(shù)據(jù)庫，需要先手動配置對應的taxonomy文件（prot.accession2taxid.gz），配置方法見下圖（PEAKS Online直接將該文件copy至安裝目錄“\peaks-online\taxonomy”路徑下即可）。該文件可從NCBI官網下載，也可聯(lián)系我們獲取網盤下載鏈接。

我們將持續(xù)更新蛋白質組學相關基礎知識，感興趣的您敬請持續(xù)關注哦！
若您想深入了解PEAKS軟件相關功能和應用，歡迎點擊下方聯(lián)系方式提交您的咨詢信息！

參考文獻
1.Yuming Jiang, Jesse G. Meyer et al. Comprehensive Overview of Bottom-Up Proteomics using Mass Spectrometry. ACS Meas. Sci. Au 2024, 4, 4, 338–417.
2.UniProt. https://www.uniprot.org/help/sequence_origin (accessed 2024-05-07).

-掃碼關注-
www.bioinfor.com (EN)
www.deepproteomics.cn（CN）

作為生物信息學的領軍企業(yè)，BSI專注于蛋白質組學和生物藥領域，通過機器學習和先進算法提供世界領先的質譜數(shù)據(jù)分析軟件和蛋白質組學服務解決方案，以推進生物學研究和藥物發(fā)現(xiàn)。我們通過基于AI的計算方案，為您提供對蛋白質組學、基因組學和醫(yī)學的卓越洞見。旗下著名的PEAKS®️系列軟件在全世界擁有數(shù)千家學術和工業(yè)用戶，包括：PEAKS®️ Studio，PEAKS®️ Online，PEAKS®️ GlycanFinder, PEAKS®️ AB，DeepImmu®️ 免疫肽組發(fā)現(xiàn)服務和抗體綜合表征服務等。
聯(lián)系方式：021-60919891；[email protected]

索取資料

來源：百蓁生物科技（上海）有限公司
聯(lián)系電話：021-60919881
E-mail：[email protected]

【點擊可查看百蓁生物科技（上海）有限公司相關產品】

標簽：蛋白質組學數(shù)據(jù)庫

分享到：QQ空間新浪微博騰訊微博微信

【所有文章】【本類新聞】【相關產品】【關閉窗口】

本類文章

本類新聞

综合图区亚洲网友自拍|亚洲黄色网络|成人无码网WWW在线观看,日本高清视频色视频kk266,激情综合五月天,欧美一区日韩一区中文字幕页

蛋白質組學基礎：常用蛋白參考數(shù)據(jù)庫的介紹及選擇