當(dāng)前位置 > 首頁 > 技術(shù)文章 > PEAKS在質(zhì)譜數(shù)據(jù)鑒定多肽錯(cuò)誤發(fā)現(xiàn)率FDR評(píng)估的應(yīng)用

選型 | 市場(chǎng) | 應(yīng)用 | 使用 | 法規(guī) | 技術(shù) | 其他

PEAKS在質(zhì)譜數(shù)據(jù)鑒定多肽錯(cuò)誤發(fā)現(xiàn)率FDR評(píng)估的應(yīng)用

瀏覽次數(shù)：1226　發(fā)布日期：2023-8-4　來源：本站　僅供參考，謝絕轉(zhuǎn)載，否則責(zé)任自負(fù)

概覽

從質(zhì)譜數(shù)據(jù)中鑒定多肽通過軟件實(shí)現(xiàn)自動(dòng)化。然而，就像科學(xué)實(shí)驗(yàn)需要使用對(duì)照進(jìn)行一樣，軟件的多肽鑒定結(jié)果也需要經(jīng)過統(tǒng)計(jì)驗(yàn)證以避免假陽性。對(duì)于當(dāng)今的肽鑒定，最被廣泛接受的結(jié)果驗(yàn)證方法是錯(cuò)誤發(fā)現(xiàn)率（FDR）。這篇文章解釋了什么是FDR；它是如何實(shí)際運(yùn)算的；以及使用FDR控制中的一些常見錯(cuò)誤。

每個(gè)肽鑒定軟件的核心功能都是對(duì)肽和MS/MS譜的匹配質(zhì)量的評(píng)估。對(duì)于數(shù)據(jù)中的每張MS/MS譜圖，軟件都會(huì)搜索蛋白質(zhì)數(shù)據(jù)庫(kù)，以找到最高肽譜匹配分?jǐn)?shù)的肽。譜圖與得分最高的肽之間的匹配通常稱為肽-譜匹配（peptide-spectrum match，PSM）。
一系列原因可能導(dǎo)致PSM錯(cuò)誤，其中包括：
01.低質(zhì)量的譜圖；
02.肽不在數(shù)據(jù)庫(kù)當(dāng)中
03.打分體系不夠完善。為了控制結(jié)果質(zhì)量，PSM按其得分來排序。通過選擇合適的分?jǐn)?shù)閾值，可以得到滿足高于閾值條件質(zhì)量的PSMs（圖1）。錯(cuò)誤發(fā)現(xiàn)率FDR指的是錯(cuò)誤的PSMs和在閾值之上的PSMs總數(shù)的比率。

圖1：軟件使用評(píng)分功能來區(qū)分鑒定結(jié)果的真假。FDR是誤報(bào)高于用戶指定的分?jǐn)?shù)閾值的部分。

通過調(diào)整閾值，結(jié)果的準(zhǔn)確度(FDR) 可以與靈敏度（鑒定到的數(shù)量）進(jìn)行轉(zhuǎn)化。軟件不同，其評(píng)分體系不同，可能具有顯著不同的權(quán)衡效率，如圖 2中的FDR曲線所示。

圖2：不同肽鑒定軟件的性能可以通過其FDR曲線進(jìn)行比較。在同一FDR閾值下，表現(xiàn)最好的應(yīng)該是能夠鑒定到最多的PSM（數(shù)據(jù)來自圖[1]）。

用Target-Decoy方法來估算FDR

在實(shí)踐當(dāng)中，很難分辨哪個(gè)PSM是錯(cuò)誤的—否則這些錯(cuò)誤的PSMs可以被算法刪除以實(shí)現(xiàn)零錯(cuò)誤率。因此，Target-Decoy方法[1]在實(shí)踐中被廣泛用于估算FDR。在這個(gè)方法當(dāng)中，軟件會(huì)在相同大小的target數(shù)據(jù)庫(kù)和decoy數(shù)據(jù)庫(kù)進(jìn)行搜索。如果Decoy庫(kù)建的是足夠準(zhǔn)確的，那么軟件鑒定出的錯(cuò)誤應(yīng)當(dāng)在目標(biāo)庫(kù)和誘餌庫(kù)當(dāng)中均勻分布。由于所有的decoy中得到的鑒定都應(yīng)當(dāng)是錯(cuò)誤的，F(xiàn)DR 可以通過 FDR = （# Decoy hit） / （# target hit）來估計(jì)。

圖3：使用正確構(gòu)建的decoy庫(kù)，錯(cuò)誤匹配將均勻分布在target和decoy上。因此，decoy hit數(shù)量可用于估計(jì)FDR。

Target-Decoy方法使用的常見誤區(qū)
如果使用得當(dāng)，Target-Decoy方法在統(tǒng)計(jì)學(xué)上是估算FDR的合理方法。不過，這種方法的誤用很常見，并且會(huì)導(dǎo)致對(duì)結(jié)果質(zhì)量的過高評(píng)估。在這里，我們簡(jiǎn)要總結(jié)一些常見的錯(cuò)誤。需要強(qiáng)調(diào)的是，前面講到的“相同大小”和“均勻分布”是正確使用Target-Decoy方法的前提條件。我們即將看到，大多數(shù)Target-Decoy方法的使用錯(cuò)誤都是由于違反了這些先決條件。

01錯(cuò)誤1

使用方法Target-Decoy來驗(yàn)證搜索軟件中的多輪搜索方法。
為了加快搜索速度，多輪搜索算法通常在第一輪從大型數(shù)據(jù)庫(kù)中選擇一個(gè)蛋白質(zhì)的候選列表，然后在第二輪的蛋白質(zhì)候選列表（而不是整個(gè)數(shù)據(jù)庫(kù)）中鑒定到更多的PSM。然而，這種方法使用Target-Decoy法將無效：在第一輪中選擇的目標(biāo)蛋白多于Decoy蛋白數(shù)目；因此，在第二輪中，target和decoy的大小不同（圖4）。

圖4：第一輪中保留了更多的target蛋白。因此，在target蛋白庫(kù)中將鑒定到更多的隨機(jī)錯(cuò)誤。所以說，Decoy hit次數(shù)不能再被用于估算錯(cuò)誤匹配數(shù)。

02錯(cuò)誤 2
使用Target-Decoy方法時(shí)，通過蛋白鑒定信息，來反饋給搜索軟件中的肽譜匹配進(jìn)行獎(jiǎng)勵(lì)性加分。
一個(gè)蛋白的PSM越多，代表這個(gè)蛋白的置信度就越高。因此，許多軟件工具會(huì)給來自高置信度蛋白的肽加分。盡管這樣做可以提高搜索的靈敏度，卻讓Target-Decoy方法變得不準(zhǔn)確：會(huì)出現(xiàn)更多具有高分的Target蛋白的匹配；因此，因高分帶來的錯(cuò)誤的target蛋白匹配將會(huì)比decoy錯(cuò)配獲得的蛋白更多。錯(cuò)誤匹配將不會(huì)均勻分布。

03錯(cuò)誤 3
通過應(yīng)用Target-Decoy方法時(shí)，用重新訓(xùn)練出的模型來進(jìn)行對(duì)結(jié)果的重排。
這種結(jié)果重排的策略最近被越來越廣泛的使用，因?yàn)樗梢蕴岣咚阉鞯撵`敏度。然而，這也會(huì)令Target-Decoy方法變得不準(zhǔn)確：一個(gè)較為粗放的重新學(xué)習(xí)算法會(huì)用到過多的參數(shù)，使得數(shù)據(jù)出現(xiàn)過度擬合并消除decoy hit（但并不是target庫(kù)中的錯(cuò)配）。因此，這種策略僅適用于當(dāng)重新訓(xùn)練算法的設(shè)計(jì)考慮了過擬合問題，并且數(shù)據(jù)集非常大的情況。

Decoy-Fusion方法有一個(gè)簡(jiǎn)單的改進(jìn)可以避免前兩個(gè)常見錯(cuò)誤——PEAKS DB的論文[1]提出了一種decoy- fusion的方法。decoy- fusion方法不是將target和decoy數(shù)據(jù)庫(kù)連接在一起，而是將同一蛋白質(zhì)的target序列和decoy序列連接在一起，作為“fusion”序列（圖5）。這個(gè)簡(jiǎn)單的更改會(huì)產(chǎn)生一些有意義的不同。對(duì)于兩輪搜索問題，第二輪的target和decoy長(zhǎng)度仍然相同。對(duì)于蛋白質(zhì)獎(jiǎng)勵(lì)性得分問題，相同數(shù)量的給分將同樣的應(yīng)用于同一融合序列的target和 decoy部分。因此，“相同大小”和“均勻分布”的先決條件被重新創(chuàng)建；FDR值能夠被重新準(zhǔn)確的估算。PEAKS軟件的內(nèi)置結(jié)果驗(yàn)證正是使用的這種decoy- fusion方法。

圖5：decoy- fusion方法將target和decoy序列“融合”在一起。因此，即便使用兩輪搜索算法，target序列和decoy序列也保證具有相同的長(zhǎng)度。

參考文獻(xiàn)

Zhang J, Xin L, Shan B, Chen W, Xie M, Yuen D, Zhang W, Zhang Z, Lajoie G.A., Ma B, PEAKS DB: De Novo Sequencing Assisted Database Search for Sensitive and Accurate Peptide Identification. Mol. Cell. Proteomics. 11, M111.010587 (2012).
Xin, L., Qiao, R., Chen, X. et al. A streamlined platform for analyzing tera-scale DDA and DIA mass spectrometry data enables highly sensitive immunopeptidomics. Nat Commun 13, 3108 (2022). doi:10.1038/s41467-022-30867-7

（點(diǎn)擊圖片即可查看活動(dòng)詳情）

如果您想深入了解更多關(guān)于PEAKS 軟件更多內(nèi)容，歡迎掃描下方二維碼關(guān)注我們！

索取資料

來源：百蓁生物科技（上海）有限公司
聯(lián)系電話：021-60919881
E-mail：[email protected]

【點(diǎn)擊可查看百蓁生物科技（上海）有限公司相關(guān)產(chǎn)品】

分享到：QQ空間新浪微博騰訊微博微信

【所有文章】【本類新聞】【相關(guān)產(chǎn)品】【關(guān)閉窗口】

本類文章

本類新聞

综合图区亚洲网友自拍|亚洲黄色网络|成人无码网WWW在线观看,日本高清视频色视频kk266,激情综合五月天,欧美一区日韩一区中文字幕页

PEAKS在質(zhì)譜數(shù)據(jù)鑒定多肽錯(cuò)誤發(fā)現(xiàn)率FDR評(píng)估的應(yīng)用