序列數(shù)據(jù)庫(kù)搜索評(píng)分基本原理詳解
瀏覽次數(shù):1005 發(fā)布日期:2023-8-4
來源:本站 僅供參考,謝絕轉(zhuǎn)載,否則責(zé)任自負(fù)
LDF評(píng)分
PEAKS DB中的評(píng)分計(jì)算如下圖所示
PEAKS DB在內(nèi)部使用LDF評(píng)分(線性判別函數(shù))來評(píng)判肽譜圖的匹配質(zhì)量。LDF評(píng)分不僅使用碎片離子與譜圖中碎片峰之間的匹配,還考慮許多其他因素,例如de novo測(cè)序的多肽和數(shù)據(jù)庫(kù)搜索得到的多肽序列之間的相似性。
LDF評(píng)分可以實(shí)現(xiàn)以下兩個(gè)目標(biāo):
- 對(duì)于MS/MS數(shù)據(jù)集中的每個(gè)譜圖,從數(shù)據(jù)庫(kù)中找到最有可能正確的肽;
- 對(duì)于整個(gè)數(shù)據(jù)集,盡可能分出正確匹配與錯(cuò)誤匹配。
P-Value
LDF分?jǐn)?shù)將轉(zhuǎn)換為P值,以便更好地進(jìn)行人工詮釋。
P值:對(duì)于一個(gè)給定的評(píng)分x, 其相應(yīng)的P值是“一個(gè)錯(cuò)誤匹配得到的分值>x”的概率。
P值越小,肽-譜圖匹配是隨機(jī)匹配的概率就越小。下圖更好地解釋了P值的含義。
請(qǐng)注意,盡管許多軟件包中都使用“P-value”,它們的含義可能各不相同。P值的另一個(gè)流行的定義是“肽段與當(dāng)前譜圖匹配得分>x是隨機(jī)匹配的概率”。然而,在數(shù)據(jù)庫(kù)搜索中,錯(cuò)誤鑒定是數(shù)據(jù)庫(kù)中許多隨機(jī)肽的結(jié)果,而不僅僅是一個(gè)隨機(jī)肽。因此,PEAKS DB中的P值定義對(duì)于控制結(jié)果的質(zhì)量更加有用。
-10logP
將P值轉(zhuǎn)換為 -10*log10(P值),使其更加“人性化”。在PEAKS中,該值用-10lgP表示,因?yàn)閘g是log10的ISO保留表示法。通過此轉(zhuǎn)換,更顯著的匹配將對(duì)應(yīng)更高的-10lgP值。此外,P值為1% 時(shí),即-10lgP 為 20。
下圖是PEAKS數(shù)據(jù)庫(kù)搜索結(jié)果的屏幕截圖。x軸是 -10lgP 分?jǐn)?shù),y 軸是在該分?jǐn)?shù)下的肽譜匹配數(shù)量。通常,大于20的分?jǐn)?shù)具有相對(duì)較高的置信度(如圖中所示有許多目標(biāo),但很少有誘餌匹配超過該閾值)。對(duì)于大型數(shù)據(jù)集,建議使用FDR(錯(cuò)誤發(fā)現(xiàn)率)來選擇正確的 -10lgP分?jǐn)?shù)閾值(這在PEAKS中很容易)。但是,當(dāng)數(shù)據(jù)集很小時(shí)(#譜圖“<100或蛋白質(zhì)數(shù)據(jù)庫(kù)僅包含少量蛋白質(zhì)),直接選擇-10lgP=20是更合適的篩選方法。
參考文獻(xiàn)
- Zhang J, Xin L, Shan B, Chen W, Xie M, Yuen D, Zhang W, Zhang Z, Lajoie G.A., Ma B, PEAKS DB: De Novo Sequencing Assisted Database Search for Sensitive and Accurate Peptide Identification. Mol. Cell. Proteomics. 11, M111.010587 (2012).
- Xin, L., Qiao, R., Chen, X. et al. A streamlined platform for analyzing tera-scale DDA and DIA mass spectrometry data enables highly sensitive immunopeptidomics. Nat Commun 13, 3108 (2022). doi:10.1038/s41467-022-30867-7
(點(diǎn)擊圖片即可查看活動(dòng)詳情)
如果您想深入了解更多關(guān)于PEAKS 軟件更多內(nèi)容,歡迎掃描下方二維碼關(guān)注我們!