GlycanFinder:結合數據庫搜索和從頭測序的糖蛋白組學分析
瀏覽次數:1470 發(fā)布日期:2023-8-7
來源:本站 僅供參考,謝絕轉載,否則責任自負
近日,來自于加拿大Bioinformatics Solutions Inc.的PEAKS團隊、滑鐵盧大學David R. Cheriton計算機科學學院的李明教授團隊以及百蓁生物的研究者,在Nature Communication發(fā)表了結合數據庫搜索和從頭測序實現高靈敏度糖蛋白組學分析的
PEAKS GlycanFinder軟件工具。
GlycanFinder集成了基于肽段和基于聚糖,二者兼顧的搜索策略,以解決來自糖肽極為復雜的碎片離子的解析問題。通過深度學習策略對聚糖復雜的分枝結構及其產生的碎片離子進行聚糖的從頭測序;谶@樣的策略,
GlycanFinder還可以鑒定現有數據庫中沒有發(fā)現的糖肽。
隨著液相與串聯質譜(LC-MS /MS)的技術發(fā)展,糖蛋白組學中的研究中,已經能夠對完整的糖肽進行位點特異性糖譜學分析,包括蛋白質、修飾位點、 聚糖結構,并可對其進行定量分析。但是對于糖肽鑒定仍然存在的挑戰(zhàn),糖肽產生的譜圖非常的復雜,碎片離子類型眾多,包括了來自于多肽的b/y,c/z,來自于聚糖的B/Y等。對于N-link和O-link的糖肽分析,同時考慮譜圖中所呈現的肽段碎片信息或者聚糖碎片信息,基于蛋白和聚糖的數據庫挑選出所有可能的候選。當來自于多肽的信號或者聚糖的信號較差時,造成難以挑選出候選糖肽的不利局面,則可被改善。另外,作者通過整合了動態(tài)規(guī)劃,圖形神經網絡,Transformer神經網絡構建了學習糖結構和基于質譜數據重建聚糖分枝結構的深度學習模型。并且對于糖肽的鑒定結果,從多肽水平和聚糖水平分別通過Target-Decoy的策略進行FDR的評估。
1. 完整糖肽分析的工作流程
為了提高靈敏度,GlycanFinder同時應用基于肽和糖的搜索。如果在基于多肽的搜索后譜圖仍未被鑒定,則會進行基于聚糖的搜索;陔暮途厶撬阉鞯慕M合利用了肽和聚糖碎片離子,因此減少了因為碎片信號差而錯過一些候選的概率。確定了候選糖肽,在第二輪打分時,會綜合考慮肽主鏈產生的離子、糖肽 Y 離子和 B 離子評估糖肽譜匹配 (glycoPSM) 并估計其 FDR。
糖肽分析中的一個常見問題是,在一個肽序列中可能存在多個糖基化位點或具有相同組成的多個異構體的聚糖,這增加了糖肽匹配的不確定性。通過A-score計算位點特異性,由排名第一和第二候選位點的分數差獲得。類似地,當具有相同組成的多個異構體聚糖匹配一個譜圖時,它們的結構分數是用它們各自的糖肽Y離子來計算的。通過排名第一和排名第二的糖結構分數差來計算S-score,然后選擇得分最高的多糖。glycoPSM的A-score和S-score反映了其糖基化位點和糖鏈結構分配的置信度,因為第一和第二候選得分之間的較大差異意味著最好得分(方法)的分配得到了更有力的支持證據。
glycoPSM的S得分定義為:
2. 基于深度學習的N-link糖肽從頭測序
與先前報道的一些聚糖從頭測序的方法不同,GlycanFinder遵循數據驅動的方法,并應用機器學習模型從訓練數據中學習聚糖結構。
給定一張譜圖以及聚糖的質量數(通過母離子質量數-多肽質量數),作者通過動態(tài)規(guī)劃的方法計算糖的組成,樹狀的糖結構從“根”到“葉”進行構建。深度學習模型用于預測下一個單糖。將五種單糖(Hex、HexNAc、Fuc、NeuAc、NeuGc)或其可能產生的每一種組合添加到部分樹中創(chuàng)建候選樹池,然后用兩個神經網絡(其中一個Graphormer神經網絡用來捕獲候選樹的結構,另一個用來捕獲候選樹和譜圖之間匹配糖肽的Y,B離子)對每個候選樹進行評分,選擇得分最高的樹進行下一次迭代。直到由動態(tài)規(guī)劃計算出的聚糖組成的所有單糖均已被使用。該模型的核心思想和多肽從頭測序一樣,希望借由 Transformer 圖神經網絡捕獲的候選樹的結構,在碎片離子之外提供額外的證據來預測下一個單糖。
Glycan從頭測序的評估
基于五種小鼠組織(腦、心臟、腎、肝、肺)的數據集,作者評估了聚糖從頭測序的深度學習模型。首先進行N-link糖庫搜索,并以 1% FDR 識別出 139,208 個 glycoPSM,隨后用于訓練和測試(以五次交叉驗證方式進行,其中四種組織的 glycoPSM 用于訓練,其余組織的 glycoPSM 用于測試),例如肺的數據用與測試時,其他四種(腦、腎、心、肝臟)的數據用于訓練。從訓練集中排除了測試集的所有聚糖,以確保訓練集和測試集沒有任何共同的聚糖。
對于每個 glycoPSM,de novo 聚糖與目標聚糖(從數據庫搜索中識別)基于三個級別:組成、碎片離子和結構進行比較。
第一級的評估在于de novo 和目標的糖是否具有相同的組成,第二,從頭測序的糖和目標的糖匹配的糖碎片離子的數量,第三,計算de novo和目標糖結構是否完全匹配。
GlycanFinder 在結構,碎片離子和組成三個層次上的平均準確度分別為 32%、83% 和 89%,而 StrucGP 的準確度分別為 23%、84% 和 85%。雖然這兩種軟件顯示的碎片離子和成分的準確性相當,但 GlycanFinder 的平均結構準確性大大高于 StrucGP,在所有五種組織中都是如此。結果證明GlycanFinder 深度學習模型在聚糖從頭測序的樹結構學習和預測方面具有優(yōu)勢。
3. 多肽和聚糖的FDR評估
對于多肽的FDR評估,一般采用標準的target-decoy方法,通過對目標庫蛋白序列進行隨機打散的方式構建誘餌庫蛋白。而對于聚糖的 FDR,由于其非線性結構,則應用碎片離子的質量隨機偏移來創(chuàng)建誘餌譜圖。僅當 glycoPSM 的肽和聚糖 FDR 均小于或等于 1% 時,它才能通過 1% FDR 閾值。
通過對裂殖酵母糖蛋白組樣本數據集進行 N糖肽分析,對GlycanFinder,pGlyco3(版本 20210615)、MetaMorpheus(版本 0.0.320)和 MSFragger(版本 19.0)進行FDR評估后的對比。所有軟件均使用相同的數據庫和參數。結果如圖所示,GlycanFinder 鑒定出 4035 個 glycoPSMs,比pGlyco3 (3553)多13.6%,比 MSFragger (4720) 低 17.0%。MetaMorpheus 鑒定最多glycoPSM(5232),但它FDR高達 51.6%。當GlycanFinder的Glycan 和Peptide FDR閾值放寬,調整為 0.3% 和 0.2%,以便GlycanFinder與MSFragger的 FDR進行比較,此時GlycanFinder 鑒定出 4518 個 glycoPSM,比MSFragger少4.5%。但值得注意的是MSFragger報告的是聚糖成分,而 GlycanFinder 和 pGlyco3 報告的是聚糖結構,可提供聚糖更全面的信息。
GlycanFinder還鑒定到70種別的軟件沒有鑒定到的糖肽。如圖所示,在蛋白質PO13781|YEO3_SCHPO上的糖基化位點N234處鑒定到的glycoPSMs。GlycanFinder 在該位點鑒定了三個裂殖酵母中常見的聚糖,包括具有高甘露糖結構的 (HexNAc)2(Hex)11 和 (HexNAc)2(Hex)13 ( HexNAc)2(Hex)n。并且在樣品2的編號56,805譜圖中,GlycanFinder在同樣譜圖上鑒定到的高甘露糖聚糖 H11N2比pGlyco3鑒定的H6N6有更好的糖肽B/Y離子。而MSFragger 則沒有在該糖基化位點的報告任何鑒定結果。
4. 基于HUPO人類糖蛋白組學計劃的研究綜合評估
Kawahara等人最近描述了HUPO 人類糖蛋白組學計劃 (HGI)研究,評估來自9個開發(fā)團隊和13個用戶團隊的11個糖蛋白組學軟件的性能,以進行完整的糖肽分析。
他們的研究提供了來自人類血清的標準糖蛋白組學數據集和全面的評價標準。在這里,我們還在相同的基準上對GlycanFinder進行了評估,并與Kawahara報告的結果進行了比較,研究中的結果包括IQ-GPA v2.5,Prospector v5.20.23,GlyXtoolMS v0.1.4,Byonic v2.16.16,Sugar Qb,Glycopeptide Search v2.0alpha、GlyCopeptideGraphMS v1.0、GlycoPAT v2.0和GPQuest v2.0。我們還將我們的結果與Kawahara等人報告的最佳用戶團隊的結果進行了比較。
結果顯示,總體而言,GlycanFinder的性能略好于報告的最佳結果 (0.789 vs 0.777),并超過了其他九個軟件。此外,GlycanFinder在N1-N3、N5、N6(0.833-0.952)的五個標準中始終得分很高,鑒定N-連接糖肽和糖蛋白方面具有很高的準確性,同時適當地控制了FDR。然而,在N4測試中,GlycanFinder在識別的N-連接糖肽的數量方面表現不佳。我們進一步檢查了GlycanFinder和其他工具的結果之間的一致性。左圖顯示GlycanFinder的83%的N-連接的糖鏈成分和78%的N-連接的糖蛋白也被至少三個其他工具報告。右圖顯示了GlycanFinder報告的N-連接聚糖與其他高評分工具(如User Team 15、Prospector或Byonic)報告的N-連接聚糖的一致分類。
5. O-連接糖肽分析方法的評價
O-連接糖是通過絲氨酸(S)或蘇氨酸(T)殘基的羥基連接到蛋白上的。因此,在一個肽序列中通常有不止一個的O-糖基化位點。GlycanFinder允許每個肽最多兩個O-連接的聚糖,并使用內部碎片離子來確定最佳糖基化位點,計算其糖基化位點分配的特定位點定位分數(A-Score)。
GlycanFinder的總體得分為0.730,在超過了Kawahara等人之前的研究中,其他9個軟件報告的最好結果。總體而言,基于HGI研究的benchmark結果表明,GlycanFinder代表了N-糖蛋白組學和O-糖蛋白組學的高性能信息解決方案。
參考文獻
Sun, W., Zhang, Q., Zhang, X. et al. Glycopeptide database search and de novo sequencing with PEAKS GlycanFinder enable highly sensitive glycoproteomics. Nat Commun 14, 4046 (2023). https://doi.org/10.1038/s41467-023-39699-5
悄悄劇透一下,GlycanFinder 2.0 版本即將發(fā)布,敬請期待!
(點擊圖片即可查看活動詳情)
如果您想深入了解更多關于PEAKS 軟件更多內容,歡迎掃描下方二維碼關注我們!