多肽從頭測序是基于質(zhì)譜的蛋白質(zhì)組學(xué)的基本研究領(lǐng)域,對于鑒定不在任何數(shù)據(jù)庫中的新型肽或蛋白質(zhì)至關(guān)重要(例如突變的新抗原或抗體可變區(qū))。在過去的三十年中,出現(xiàn)了數(shù)十種算法。Bittremieux等人最近的一篇綜述論文對多肽從頭測序的深度學(xué)習(xí)方法進行了全面介紹[1],可點擊跳轉(zhuǎn)至本期推送查看詳細(xì)解讀(綜述文章 | 多肽從頭測序的深度學(xué)習(xí)方法)。但現(xiàn)有的眾多算法對于de novo結(jié)果的評估均存在較大的局限性,如難以生成合適的decoy來估計FDR、現(xiàn)有的準(zhǔn)確性指標(biāo)定義和計算方法存在偏差、深度學(xué)習(xí)模型可能存在過擬合和記憶問題等。
因此,Bioinformatics Solutions Inc.的算法團隊開發(fā)了NovoBoard算法框架,這是一個用于評估多肽從頭測序方法性能的綜合框架,相應(yīng)文章“NovoBoard: a comprehensive framework for evaluating the false discovery rate and accuracy of de novo peptide sequencing”已上線MCP。該框架涵蓋不同的基準(zhǔn)數(shù)據(jù)集(包括胰酶、非酶切、免疫肽組學(xué)和不同物種)和一套標(biāo)準(zhǔn)的準(zhǔn)確性指標(biāo),用于評估從頭測序結(jié)果的碎片離子、氨基酸和多肽序列。更重要的是,NovoBoard通過全新的生成decoy spectrum的方法計算從頭測序的FDR,為評估從頭測序報告的新多肽的可靠性評估提供有價值的參考信息。該框架已整合入PEAKS®️ 12軟件中,歡迎通過文末的聯(lián)系方式與我們咨詢與交流。
01從頭測序的FDR計算
在常規(guī)搜庫方法中,誘餌肽(decoy peptides)可以通過隨機打亂或反轉(zhuǎn)參考蛋白質(zhì)的序列來生成。但對于從頭測序的方法來講,在沒有參考序列的情況下顯然這種方法并不適合。因此,NovoBoard通過誘餌譜(decoy spectrum)而不是decoy peptide的方法來計算從頭測序的FDR。
給定一個質(zhì)譜數(shù)據(jù)集,從target spectrum中移除一些峰,然后添加相同數(shù)量的噪音峰以生成對應(yīng)的decoy spectrum(峰包含m/z和intensity兩個指標(biāo))。該過程確保每個decoy spectrum的峰總數(shù)與其target spectrum相同,并且噪音峰是從與target spectrum相同的分布中隨機抽取的(圖1a-c)。另一個關(guān)鍵問題是,應(yīng)該移除多少以及選擇哪些峰去除。我們嘗試了去除10%到90%不等的峰,另外對比了兩種選擇去除峰的方法。第一種方法是隨機選擇,不考慮峰的m/z或intensity。第二種方法是首先計算要去除的峰數(shù),模擬對應(yīng)肽段質(zhì)量下理論上會產(chǎn)生的b/y離子數(shù)量,然后根據(jù)峰強度選擇。結(jié)果顯示基于intensity和肽質(zhì)量去峰的方法比隨機選擇方法的從頭測序準(zhǔn)確性更高。生成decoy spectrums后,對所有target和decoy spectrums進行多肽從頭測序,并比較它們的得分分布以估計 FDR(圖1 d)。但是,由于每張MS/MS都會產(chǎn)生來自target各decoy的兩個de novo PSM,因此保留得分較高的PSM也是一種可能考慮的方法(圖1 e)。我們對比了基于圖1d的總體FDR和圖1e的選擇性PSM FDR,結(jié)果顯示后者的FDR更嚴(yán)格。
圖1丨de novo FDR計算
02驗證從頭測序的FDR
為了驗證上述方法估計的FDR,首先將搜庫的結(jié)果定義為true FDR。如果從頭測序FDR與true FDR相匹配,則可以證明其是正確的,否則即為錯誤鑒定。但是,由于數(shù)據(jù)庫搜索只需要匹配的到部分碎片離子即可識別多肽,因此一些多肽的二級譜中并沒有完整的b/y離子。對于這些譜圖,要求從頭測序工具預(yù)測出準(zhǔn)確的氨基酸序列是不公平的,因為生成decoy spectrums和隨后的 FDR 計算主要基于碎片離子信息。因此,我們將正確的從頭測序結(jié)果定義如下:如果從頭測序多肽覆蓋了譜圖中真實碎片離子的Y%以上,則認(rèn)為該多肽是“正確的”,Y%默認(rèn)為90%。此參數(shù)允許用戶根據(jù)對從頭測序結(jié)果的期望進行調(diào)整,取決于數(shù)據(jù)類型、儀器、碎裂方式等。
理想情況下,Estimated FDR 等于true FDR(黑色虛線)。我們比較了幾種不同的從頭測序算法對同一批ABRF數(shù)據(jù)的FDR估算結(jié)果。圖2是通過隨機去除峰的方法比較的結(jié)果,可以看到不同的從頭測序算法對生成的decoy spectrum的表現(xiàn)不盡相同,這些差異是不同算法和評分機制造成的。但可以為每種從頭測序算法選擇最合適的decoy spectrum百分比以獲得更加接近true FDR的結(jié)果。圖3是根據(jù)峰強度和肽質(zhì)量數(shù)生成decoy spectrum的對比結(jié)果,與前面的發(fā)現(xiàn)一致,即該方法會產(chǎn)生更嚴(yán)格的FDR計算。
總體而言,不同的從頭測序算法都各有不同,需要根據(jù)每個算法的模型和評分機制調(diào)整decoy spectrum的生成策略和參數(shù)。
圖2丨隨機法生成decoy spectrums
圖3丨根據(jù)峰強度和肽質(zhì)量數(shù)生成decoy spectrums
03不同從頭測序算法對胰酶酶切數(shù)據(jù)集的結(jié)果評估
首先,我們評估了五種多肽從頭測序算法對ABRF數(shù)據(jù)集的分析結(jié)果,圖4a表明這五種算法在該數(shù)據(jù)集上都表現(xiàn)整體良好,多肽、氨基酸和碎片離子水平的準(zhǔn)確度分別達(dá)到 37-76%、68-88% 和 85-96%。PointNovo、Casanovo和GraphNovo的表現(xiàn)優(yōu)于PEAKS®️ 常規(guī)de novo和Novor,在預(yù)期范圍內(nèi),尤其是在多肽準(zhǔn)確度方面。在氨基酸和碎片離子水平上,GraphNovo均優(yōu)于其他算法,這要歸功于其在對碎片離子特征模型建立方面的優(yōu)勢[2]。Casanovo的多肽序列準(zhǔn)確度為76% ,但其氨基酸和碎片離子準(zhǔn)確度比GraphNovo低約4-8%。這種差異表明,Casanovo可能在某些多肽上表現(xiàn)出色并能正確預(yù)測整個序列,但對于其他多肽,可能無法做出正確的預(yù)測。在相同F(xiàn)DR下,GraphNovo和Casanovo得到的PSM數(shù)量詳盡,且均多于其他算法(圖4b)。
圖4丨ABRF標(biāo)準(zhǔn)胰酶酶切數(shù)據(jù)對比
然后,我們評估了以上幾種算法對A.thaliana (PXD013658[3]) 的胰酶酶切數(shù)據(jù)集的表現(xiàn)。A. thaliana是一種與人類關(guān)系不太密切的物種,目前為止,尚未用于訓(xùn)練任何從頭測序模型。正如預(yù)期,與ABRF數(shù)據(jù)集相比,從頭測序結(jié)果的準(zhǔn)確度大幅下降,多肽、氨基酸和碎片離子水平的準(zhǔn)確度分別為27-47%、51-80%和68-88% (圖4c、d)。其中GraphNovo表現(xiàn)最佳,Casanovo 受到了相當(dāng)大的影響,多肽準(zhǔn)確度下降了33%(76% 到43%),而其氨基酸和碎片離子準(zhǔn)確度甚至低于所有其他算法。此A. thaliana數(shù)據(jù)集的結(jié)果表明深度學(xué)習(xí)模型在不同程度上偏向訓(xùn)練數(shù)據(jù)。值得關(guān)注的是,PEAKS®️常規(guī)de novo性能非常穩(wěn)定,多肽和氨基酸準(zhǔn)確度僅下降約4-5%。
04非酶切和HLA數(shù)據(jù)集的從頭測序評估
由于胰酶酶切數(shù)據(jù)集較多,現(xiàn)有算法模型可能存在偏向性,因此評估它們在非胰酶酶切數(shù)據(jù)上的表現(xiàn)至關(guān)重要。所以,我們對 Wang 等[4]發(fā)表的數(shù)據(jù)集進行了評估,其中包括Arg-C、Asp-N、Chymotrypsin、Glu-C、Lys-C和Lys-N的6種酶切數(shù)據(jù)。結(jié)果如圖5 a-b所示,所有算法的整體性能都明顯低于之前在胰蛋白酶數(shù)據(jù)上的測試結(jié)果。其中,GraphNovo 的多肽、氨基酸和碎片離子水平的準(zhǔn)確度均遠(yuǎn)遠(yuǎn)優(yōu)于其他算法。
我們進一步對 Wilhelm 等人的 HLA-I數(shù)據(jù)集(PXD021013[5])進行了評估。結(jié)果如圖5c 所示,除Novor外,其他四種算法在該數(shù)據(jù)集上均表現(xiàn)良好,多肽準(zhǔn)確率高達(dá)58-64%。這可能是因為 HLA-I類肽較短,長度為 8-12個氨基酸,因此更容易正確預(yù)測整個多肽序列。在 FDR 評估中,GraphNovo 和 Casanovo 報告的PSM數(shù)量最多,其次是 PointNovo 和 PEAKS®️ de novo。
圖5丨對非酶切( a、b)和 HLA 數(shù)據(jù)集(c、d )的從頭測序結(jié)果的評估
為了進一步研究多肽長度對從頭測序準(zhǔn)確度的影響,我們重新評估了按多肽長度分布的 ABRF 數(shù)據(jù)集上的結(jié)果。如圖6所示,準(zhǔn)確率隨著多肽長度的增加而降低。
圖6丨從頭測序準(zhǔn)確性隨肽段長度的變化
05突變肽數(shù)據(jù)集的從頭測序評估
我們在包含一萬個突變肽的數(shù)據(jù)集上評估了從頭測序工具。接下來,我們從 MassIVE-KB 數(shù)據(jù)庫中隨機挑選了一萬條多肽,并且每個多肽中隨機引入1-10個氨基酸突變,然后使用 Prosit[5]的2020 HCD模型預(yù)測數(shù)據(jù)集的譜圖。圖7a-b 顯示,隨著突變數(shù)量的增加,從頭測序的準(zhǔn)確性隨之下降。在多肽水平上,Casanovo下降最明顯 (45% to 24%),其次是 GraphNovo(33% to 23%)和 PEAKS®️ de novo (16% to 10%),而 PointNovo下降最少( 22% to 19%)。在氨基酸水平,GraphNovo和PointNovo約下降8%,而 Casanovo 和 PEAKS®️ de novo下降了約 20%?傮w而言,Casanovo 似乎對突變數(shù)量最敏感,其次是 PEAKS®️、GraphNovo 和 PointNovo。與之前數(shù)據(jù)集結(jié)果類似,Casanovo肽段整體準(zhǔn)確度較高,但在氨基酸準(zhǔn)確度上均低于其他算法。
圖7丨對突變肽模擬數(shù)據(jù)集的從頭測序結(jié)果評估
我們進一步分析了突變氨基酸在肽段中的位置對從頭測序結(jié)果的影響。如圖7c所示,當(dāng)突變發(fā)生在肽段的前后三個氨基酸位置時,對準(zhǔn)確度影響較大,這是因為N端和C端的碎片離子缺失導(dǎo)致的,GraphNovo能夠比其他算法更好地解決這個問題[2]。
06深度學(xué)習(xí)模型與多肽序列
基于深度學(xué)習(xí)的從頭測序模型,最需要解決的問題是對訓(xùn)練數(shù)據(jù)中多肽序列的記憶。針對ABRF數(shù)據(jù)集的結(jié)果,我們統(tǒng)計了在MassIVE-KB訓(xùn)練集中存在的PSMs和不在MassIVE-KB中的PSMs的從頭測序準(zhǔn)確度。如圖8a-b所示,不在MassIVE-KB中的PSMs的準(zhǔn)確度大幅下降。但其通過搜庫的方法得出的打分也偏低,這表明不在MassIVE-KB中的PSMs本身就是低質(zhì)量譜圖。因此,評估結(jié)果不是很準(zhǔn)確。
為此,我們在相同實驗條件下,重新采集了大腸桿菌、酵母和人類三個物種的質(zhì)譜數(shù)據(jù),搜庫結(jié)果得到30-34K張PSMs,打分和多肽長度分布均比較一致。在MassIVE-KB中發(fā)現(xiàn)了大約96%的人類PSM,而大腸桿菌和酵母PSMs僅0-2%。然后,我們比較了這三個數(shù)據(jù)集的從頭測序準(zhǔn)確度,如圖8c-d所示,PEAKS®️、PointNovo和 Novor對單個數(shù)據(jù)集的準(zhǔn)確度幾乎相同。而Casanovo和GraphNovo的結(jié)果顯示,與人類樣本相比,大腸桿菌和酵母的多肽準(zhǔn)確率下降了3-4% ,表明深度學(xué)習(xí)算法存在一定的序列記憶和偏向性。
圖8丨多肽訓(xùn)練記憶評估
原文鏈接
https://www.mcponline.org/article/S1535-9476(24)00139-7/fulltext
07小結(jié)
本研究提出了NovoBoard綜合框架,用于綜合評估多肽從頭測序方法的性能、優(yōu)缺點及其具體應(yīng)用。重點關(guān)注基于深度學(xué)習(xí)的算法模型,以驗證它們是否真正能夠發(fā)現(xiàn)新序列,而不是過度擬合和記憶訓(xùn)練數(shù)據(jù)集,對未來的從頭測序的廣泛應(yīng)用很有參考價值。但仍需不斷優(yōu)化,因為本研究只使用了Orbitrap的HCD DDA數(shù)據(jù)集,沒有對低分辨和更多類型的數(shù)據(jù)進行訓(xùn)練和測試。此外,DIA 數(shù)據(jù)由于譜圖的復(fù)雜性高,對于從頭測序的挑戰(zhàn)也更高,自DeepNovo- DIA [6]發(fā)表后,開啟了對DIA數(shù)據(jù)的de novo分析,但也需要不斷深入優(yōu)化。
參考文獻
1. Bittremieux, W. et al. Deep learning methods for de novo peptide sequencing. ChemRxiv (2024) doi:10.26434/chemrxiv-2024-l6wnt.
2. Mao, Z. Zhang, R. Xin, L. Mitigating the missing-fragmentation problem in de novo peptide sequencing with a two-stage graph-based deep learning model. Nature Machine Intelligence. 2023; 5:1250-1260.
3. Muntel, J. et al.Surpassing 10000 identified and quantified proteins in a single run by optimizing current LC-MS instrumentation and data analysis strategy. Mol Omics. 2019; 15:348-360.
4. Wang, D. et al. A deep proteome and transcriptome abundance atlas of 29 healthy human tissues. Mol. Syst. Biol. 15, e8503 (2019).
5. Wilhelm, M. et al. Deep learning boosts sensitivity of mass spectrometry-based immunopeptidomics. Nat. Commun. 12, 3346 (2021).
6. Tran NH, Li M et al. Deep learning enables de novo peptide sequencing from data-independent-acquisition mass spectrometry. Nat Methods. 2019 Jan;16(1):63-66.
-掃碼關(guān)注-
www.bioinfor.com (EN)
www.deepproteomics.cn(CN)
作為生物信息學(xué)的領(lǐng)軍企業(yè),BSI專注于蛋白質(zhì)組學(xué)和生物藥領(lǐng)域,通過機器學(xué)習(xí)和先進算法提供世界領(lǐng)先的質(zhì)譜數(shù)據(jù)分析軟件和蛋白質(zhì)組學(xué)服務(wù)解決方案,以推進生物學(xué)研究和藥物發(fā)現(xiàn)。我們通過基于AI的計算方案,為您提供對蛋白質(zhì)組學(xué)、基因組學(xué)和醫(yī)學(xué)的卓越洞見。旗下著名的PEAKS®️系列軟件在全世界擁有數(shù)千家學(xué)術(shù)和工業(yè)用戶,包括:PEAKS®️ Studio,PEAKS®️ Online,PEAKS®️ GlycanFinder, PEAKS®️ AB,DeepImmu®️ 免疫肽組發(fā)現(xiàn)服務(wù)和抗體綜合表征服務(wù)等。
聯(lián)系方式:021-60919891;sales-china@bioinfor.com