當(dāng)前位置 > 首頁 > 技術(shù)文章 > 多肽從頭測序的深度學(xué)習(xí)方法概述

選型 | 市場 | 應(yīng)用 | 使用 | 法規(guī) | 技術(shù) | 其他

多肽從頭測序的深度學(xué)習(xí)方法概述

瀏覽次數(shù)：1076　發(fā)布日期：2024-6-11　來源：本站　僅供參考，謝絕轉(zhuǎn)載，否則責(zé)任自負(fù)

在自下而上的質(zhì)譜蛋白質(zhì)組學(xué)研究中，來自復(fù)雜生物樣品的蛋白質(zhì)被酶解成多肽，然后經(jīng)過多輪質(zhì)譜分析生成譜圖數(shù)據(jù)，解析每張MSn譜中的離子信息，從而得到準(zhǔn)確的產(chǎn)生該譜的多肽氨基酸序列，便是質(zhì)譜數(shù)據(jù)分析算法研究人員的使命。最初，我們通過手動注釋單個MS2譜圖來解析數(shù)據(jù)，費時費力，對解譜人員的要求也比較高。后來，Sakulai^[1]和Bartels^[2]開發(fā)了早期的從頭測序算法。在過去的幾十年里，多肽從頭測序算法已經(jīng)有了很大的發(fā)展。如今，與許多其他領(lǐng)域一樣，由于引入了深度學(xué)習(xí)方法，多肽從頭測序方法也取得了跨越式進(jìn)展。“深度學(xué)習(xí)”是指任何使用多層神經(jīng)網(wǎng)絡(luò)的機(jī)器學(xué)習(xí)算法^[3]。這些方法通常具有大量的可訓(xùn)練參數(shù)，并且需要相應(yīng)的大量訓(xùn)練數(shù)據(jù)。深度學(xué)習(xí)已成功應(yīng)用于質(zhì)譜蛋白質(zhì)組學(xué)的各個領(lǐng)域，包括預(yù)測碎片離子強(qiáng)度^[4-6]，識別MS1數(shù)據(jù)中的多肽特征峰^[7,8]，對MS2譜圖進(jìn)行大規(guī)模嵌入和聚類^[9]，以及預(yù)測多肽理化性質(zhì)^[5,10-12]。2017年，滑鐵盧大學(xué)的李明院士團(tuán)隊和BSI推出首個用于從頭測序的深度學(xué)習(xí)方法DeepNovo^[13]，此后至少有22種其他深度學(xué)習(xí)方法衍生出來 (表1)。除了其優(yōu)越的性能外，深度學(xué)習(xí)方法在質(zhì)譜分析中得到迅速廣泛應(yīng)用可歸因于三個因素：神經(jīng)網(wǎng)絡(luò)架構(gòu)的出現(xiàn)非常適合質(zhì)譜和多肽，硬件的發(fā)展（包括GPU）加速了神經(jīng)網(wǎng)絡(luò)的并行計算，以及訓(xùn)練這些模型所需的大規(guī)模公共數(shù)據(jù)的公開^[14-17]。

近日，來自華盛頓大學(xué)計算機(jī)科學(xué)與工程系的William Stafford Noble教授團(tuán)隊發(fā)表了關(guān)于多肽從頭測序的深度學(xué)習(xí)方法的綜述，討論了這些方法的特點，并概述該領(lǐng)域的一些主要應(yīng)用與挑戰(zhàn)。

表1 深度學(xué)習(xí)從頭測序算法列表

（注：表1中引用編號為文獻(xiàn)原文順序）

不同的深度學(xué)習(xí)方法模型

隨著深度學(xué)習(xí)的廣泛應(yīng)用，各種神經(jīng)網(wǎng)絡(luò)架構(gòu)也已用于多肽從頭測序。文中作者主要將其分為兩大類進(jìn)行討論：卷積神經(jīng)網(wǎng)絡(luò)和Transformer模型。此外，文中還描述了兩種使用深度學(xué)習(xí)對現(xiàn)有從頭測序方法結(jié)果進(jìn)行后處理的方法。

卷積神經(jīng)網(wǎng)絡(luò)模型

卷積神經(jīng)網(wǎng)絡(luò)（CNN）使用滑動窗口處理矢量輸入，其中每個滑動窗口(即“filter”)學(xué)習(xí)識別數(shù)據(jù)中的獨有特征 (圖2a)。CNN在深度學(xué)習(xí)方法的出現(xiàn)中發(fā)揮了重要作用，部分原因是它提供了強(qiáng)大而通用的模式識別能力，部分原因是它的計算可以通過GPU實現(xiàn)高效運行。首個用于多肽從頭測序的深度學(xué)習(xí)模型DeepNovo^[13]采用了兩個并行模型的迭代解碼過程。根據(jù)訓(xùn)練數(shù)據(jù)的分辨率，使用大小為0.1或0.01 m/z的bin，將訓(xùn)練集中的每張譜圖從m/z軸上分割，轉(zhuǎn)換為向量。這些向量與預(yù)測的prefix整合，產(chǎn)生一個維度為128×26×8×10的張量，其中128是batch size，26是氨基酸種類數(shù)(包括翻譯后修飾[PTMs])， 8是離子類型種類數(shù)（包括b/y離子以及各種中性損失)，10是每個目標(biāo)離子周圍提取的m/z bin的數(shù)量。然后，這個張量經(jīng)過第一個模型ion-CNN處理，譜圖和預(yù)測的peptide prefix作為輸入數(shù)據(jù)，用來預(yù)測下一個氨基酸。第二個模型是一種被稱為“長短期記憶”(LSTM)網(wǎng)絡(luò)的遞歸神經(jīng)網(wǎng)絡(luò)(RNN)模型^[18]，以類似于ion-CNN的方法迭代地預(yù)測譜圖中可能存在的氨基酸。

在解碼過程中，ion-CNN和LSTM通過一個單一的、全連接的神經(jīng)網(wǎng)絡(luò)層進(jìn)行連接，該神經(jīng)網(wǎng)絡(luò)層輸出一個26維對數(shù)概率向量(logits)。DeepNovo還采用了動態(tài)規(guī)劃后處理器，該后處理器使用預(yù)測logits和knapsack算法來確保預(yù)測多肽的質(zhì)量數(shù)落在實際檢測的母離子容許誤差范圍內(nèi)。作為該領(lǐng)域的首個深度學(xué)習(xí)方法，DeepNovo論文被隨后其他多肽從頭測序的論文廣泛引用(圖1)。

圖1 de novo測序方法引用網(wǎng)絡(luò)圖

DeepNovo-DIA^[2]將DeepNovo模型推廣到DIA數(shù)據(jù)的從頭測序分析。該模型的核心類似于DeepNovo，包括ion-CNN、spectrum-CNN和LSTM。主要區(qū)別在于，由于DIA數(shù)據(jù)可以沿著時間軸組織，并且包含有關(guān)給定分析物的多個相鄰掃描信息，因此DeepNovo-DIA的預(yù)處理步驟涉及檢測3D碎片離子特征和2D母離子特征。在實際應(yīng)用時，需要首先使用外部工具處理DIA MS1數(shù)據(jù)以提取母離子特征，然后通過DeepNovo-DIA模型對每個特征進(jìn)行預(yù)測。

此外，諸如SMSNet、RANovo、PepNet和BiATNovo等算法模型也是借鑒了與DeepNovo類似的思路。

Transformer模型
另一種多肽從頭測序的模型是Transformer架構(gòu)(圖2b)。Transformer最初是為自然語言處理而開發(fā)的，例如語言翻譯 ^[19]。Transformer可以處理不固定長度的輸入，且模型體系結(jié)構(gòu)與輸入信息的順序無關(guān)。因此，通常需要對每個輸入對象的位置進(jìn)行編碼，并將這些編碼的位置與標(biāo)記本身一起提供。這樣就可以消除離散質(zhì)譜m/z軸的相應(yīng)問題。此外transformer的另一個關(guān)鍵特征是能夠自動學(xué)習(xí)輸入特征對之間的重要語義關(guān)系。因此，transformer模型已經(jīng)在DNA和蛋白質(zhì)序列的建模領(lǐng)域獲得了成功應(yīng)用。

Casanovo^[20]使用transformer架構(gòu)將從頭測序視為序列到序列的翻譯任務(wù)，將MS2譜圖中的一系列峰翻譯為一系列氨基酸。該模型包括一個編碼器和一個解碼器。編碼器學(xué)習(xí)輸入MS2譜圖的上下文表示，而解碼器根據(jù)譜圖信息和先前預(yù)測的氨基酸預(yù)測多肽序列中的下一個氨基酸。與其他深度學(xué)習(xí)模型一樣，Casanovo每次預(yù)測多肽序列的一個氨基酸，最終尋找得分最高的預(yù)測序列^[21]。ContraNovo^[22]、π-HelixNovo^[23]、NovoB^[24]、AdaNovo^[25]、InstaNovo^[26]、Cascadia^[27]均采用了類似Casanovo的架構(gòu)，各自加入了不同的特征。

DPST^[28]引入了一組歸納偏差來限制search space。首先，它在貝葉斯環(huán)境中重構(gòu)了從頭測序任務(wù)，其中氨基酸后驗概率是根據(jù)譜圖信息和先驗氨基酸預(yù)測的。將較高的先驗概率給予氨基酸，使母離子質(zhì)量與動態(tài)規(guī)劃計算的預(yù)期多肽質(zhì)量之間的差異最小。其次，DPST編碼器根據(jù)其與相鄰峰的一致性為每個峰分配置信值，優(yōu)先考慮編碼譜中氨基酸質(zhì)量分開的峰。

GraphNovo^[29]包括三個階段的處理。首先，將觀測到的譜圖轉(zhuǎn)換成圖，其中節(jié)點對應(yīng)峰，邊表示峰與峰之間的質(zhì)量關(guān)系。該圖隨后由兩個網(wǎng)絡(luò)依次處理：GraphNovo-PathSearcher和GraphNovo-SeqFiller。前者根據(jù)邊緣編碼的質(zhì)量差產(chǎn)生與部分肽預(yù)測和未解析質(zhì)量標(biāo)簽對應(yīng)的最優(yōu)節(jié)點序列，后者輸出完整氨基酸序列。兩種網(wǎng)絡(luò)都采用了六層Graphormer^[30]編碼器架構(gòu)，該架構(gòu)將tranformer和圖形神經(jīng)網(wǎng)絡(luò)結(jié)合在一起。

Transformer-DIA^[31]是在DeepNovo-DIA上進(jìn)行擴(kuò)展的，用transformer自關(guān)注計算層取代了譜圖編碼器中的卷積層。在提取與DeepNovo-DIA相同的MS1 profile和理論碎片離子陣列后，該模型使用位置嵌入對連續(xù)MS2掃描的時間信息進(jìn)行編碼，從而允許LSTM解碼被標(biāo)準(zhǔn)transformer解碼層所取代。此外，Transformer-DIA還包括一個類似于Casanovo所采用的beam search解碼程序。

圖2 Transformer模型示意圖

其他模型

PointNovo^[32]是DeepNovo同一團(tuán)隊在其基礎(chǔ)上衍生的新架構(gòu)。PointNovo的主要創(chuàng)新在于消除了離散譜圖m/z軸的依賴，從而使模型能夠利用高質(zhì)量精度的數(shù)據(jù)，而無需占用大量內(nèi)存。DeepNovo使用長度為150,000的輸入向量來表示譜圖，而PointNovo則將每張譜圖表示為一組(m/z，intensity)對。該模型采用了一種新穎的體系結(jié)構(gòu)，該結(jié)構(gòu)使用了PointNet體系結(jié)構(gòu)^[56]的思想，旨在以一種順序不可知的方式處理一組這樣的元組。與DeepNovo不同，PointNovo的LSTM成分是可選的，盡管經(jīng)驗結(jié)果表明，包括LSTM往往會提供更高質(zhì)量的預(yù)測結(jié)果。PGPointNovo^[33]是PointNovo的改進(jìn)版，支持在多個GPU上并行處理。

還有一些其他模型，如DEPS^[34]使用類似于PointNovo的架構(gòu)，做了一些性能提升。Denovo-GCN^[35]是類似于DeepNovo的模型架構(gòu)。SeqNovo^[36]使用由編碼器和解碼器組成的RNN架構(gòu)^[37]。

數(shù)據(jù)后處理方法

文章中討論了兩種對現(xiàn)有從頭測序方法的輸出結(jié)果進(jìn)行后處理的深度學(xué)習(xí)方法。
pNovo 3算法^[38]通過使用深度學(xué)習(xí)模型對給定的de novo預(yù)測數(shù)據(jù)集進(jìn)行重新排序。該方法建立在pNovo+^[39]的基礎(chǔ)上，pNovo+使用基于譜圖的算法進(jìn)行從頭測序。在pNovo 3中，前10個預(yù)測的候選肽被保留并作為輸入數(shù)據(jù)提供給pDeep深度學(xué)習(xí)模型，該模型預(yù)測碎片離子強(qiáng)度^[40]�；趐Deep輸出一組特征向量，并使用其來訓(xùn)練支持向量機(jī)(SVM)用作排序^[41]。訓(xùn)練模型的最終輸出結(jié)果是得分最高的候選肽。

Spectralis^[42]模型旨在通過“bin分類”的輔助任務(wù)來對給定的從頭測序預(yù)測結(jié)果進(jìn)行優(yōu)化。Spectralis模型利用現(xiàn)有的從頭預(yù)測方法(Casanovo和Novor)做出的預(yù)測，將其轉(zhuǎn)化為更準(zhǔn)確的預(yù)測。其中作者還提出了一種方法，Spectralis-score，用于使用機(jī)器學(xué)習(xí)后處理器重新校準(zhǔn)Novor和Casanovo的分?jǐn)?shù)。

算法性能評估標(biāo)準(zhǔn)
許多從頭測序方法借用了precision（精度）和recall（召回率）的概念，但附加了一些特殊的定義。尤其是由于de novo測序不是一個二元分類任務(wù)，因此傳統(tǒng)的真陽性（TP）、假陽性（FP）、真陰性（TN）和假陰性（FN）分類并不適用。對于de novo，只有三種分類：高于閾值的預(yù)測為“正確”或“不正確”，低于閾值的預(yù)測為“不可預(yù)測”(圖3a)。使用這些分類方法，我們可以做出如下新的定義：

（C 是正確預(yù)測的譜圖數(shù)量，I是不正確預(yù)測的譜圖數(shù)量，U是不可預(yù)測的譜圖數(shù)量）

這種precision（精度）的替代定義與來自二進(jìn)制分類設(shè)置的傳統(tǒng)定義一致，后者是分?jǐn)?shù)大于指定分?jǐn)?shù)閾值的預(yù)測的正確比例。然而，recall（召回率）的定義則不同。在二元分類設(shè)置中，“召回率”是帶有正確標(biāo)簽的樣本被正確預(yù)測為正的比例，新的定義是被正確預(yù)測的全部樣本的比例。因此，使用替代定義的precision-recall曲線與傳統(tǒng)precision-recall曲線有質(zhì)的不同。特別是，當(dāng)閾值移動到排名列表的最末尾時，U的值變?yōu)榱�，此時精度和召回率相等。因此，采用上述替代定義的precision-recall曲線終止于x = y線，而傳統(tǒng)的precision-recall曲線終止于x = 1, y等于數(shù)據(jù)集中陽性預(yù)測的比例(圖3b)。

為了避免這種術(shù)語混淆，一些從頭測序的研究采用了precision-coverage曲線，其中precision的定義如上所述，但coverage的定義是分?jǐn)?shù)大于某個閾值的預(yù)測的比例，而不管預(yù)測是否正確, 這樣生成的曲線總是終止于x = 1(圖3C)。

圖3 肽段召回率和覆蓋度曲線

DeepNovo原始論文中使用的九種基準(zhǔn)數(shù)據(jù)集，采用的是統(tǒng)計在特定精度閾值(95%或99%)下正確預(yù)測的譜圖數(shù)量的方法^[13]。該基準(zhǔn)在隨后的研究中被廣泛使用^{[43-46,23-25，47-48]}。然而存在的問題是，這種簡單的譜圖水平分類方法并不能確保訓(xùn)練集中的多肽序列不會出現(xiàn)在測試集中。因此，如果機(jī)器學(xué)習(xí)算法“記憶”了訓(xùn)練集中序列的特征，那么在處理測試集中相同肽段產(chǎn)生的譜圖時，就會帶來不公平的優(yōu)勢。為了避免這個問題，一些研究選擇了多肽水平的分類，從而防止序列信息從訓(xùn)練集泄漏到測試集。但是這種情況不考慮PTMs，因為同一條肽段的修飾譜與非修飾譜極為相似。
然而，即使在多肽水平考慮，如果訓(xùn)練集和測試集都包含由同一多肽產(chǎn)生的譜圖，也難以避免會產(chǎn)生算法“記憶”導(dǎo)致的偏好。因此，適當(dāng)?shù)挠?xùn)練/測試設(shè)置應(yīng)確保訓(xùn)練集和測試集在任何一種意義上都不重疊。

不同算法性能比較
表1列舉了23種深度學(xué)習(xí)多肽從頭測序的方法，那問題是“哪種方法效果最好?”然而，由于不同的算法使用的評估指標(biāo)、訓(xùn)練數(shù)據(jù)集、測試數(shù)據(jù)集等都不盡相同，沒辦法絕對的說哪個好，哪個不好，只能說在不同的場景下，哪種方法更適合。例如，具有數(shù)百萬個參數(shù)的模型在數(shù)百萬個PSMs規(guī)模上訓(xùn)練時可能表現(xiàn)最佳，而在相對較小的數(shù)據(jù)集上訓(xùn)練時就不如人意了。此外，如AdaNovo^[25]，其重點是改進(jìn)PTM預(yù)測，可能只有在相應(yīng)的數(shù)據(jù)集中才能得到較好的預(yù)測效果。

在實踐中，每項研究通常都會與少數(shù)其他方法進(jìn)行比較，從圖1中的引用圖便可看出。顯然系統(tǒng)的基準(zhǔn)研究才更有意義，其中所有模型都在相同的數(shù)據(jù)上進(jìn)行訓(xùn)練，并在具有明確定義的度量的獨立測試數(shù)據(jù)上進(jìn)行評估。下面列舉兩項外部數(shù)據(jù)上評估從頭測序方法的研究。

首先，Beslic等[49]比較了Novor、pNovo3、DeepNovo、SMSNet、PointNovo和Casanovo在抗體發(fā)現(xiàn)從頭測序分析上的表現(xiàn)。為了避免使用不同的訓(xùn)練數(shù)據(jù)集造成的偏差，他們首先在MassIVE-KB人類譜圖庫上重新訓(xùn)練了上述6種模型 [50]。通過對人類和小鼠抗體數(shù)據(jù)的評估，結(jié)果顯示，Casanovo和PointNovo在不同酶和數(shù)據(jù)集上顯示出更高的肽段召回率。

第二項研究中，Tran等人^[51]在人類酶切、人非酶切、擬南芥，HLA-I型和Prosit生成的模擬數(shù)據(jù)的5個數(shù)據(jù)集上評估了PEAKS、PointNovo、Casanovo和GraphNovo。與之前的基準(zhǔn)測試工作相反，不對模型進(jìn)行重新訓(xùn)練，而是直接使用。因為所有工具最初都是在人類數(shù)據(jù)上進(jìn)行訓(xùn)練的，所以它們在人類測試數(shù)據(jù)上也取得了最好的預(yù)測結(jié)果。然而，當(dāng)對擬南芥數(shù)據(jù)進(jìn)行評估時，性能有所下降，表明測試集與訓(xùn)練集完全不同時，算法上還是存在一些不通用性的�？偟膩碚f，Casanovo和GraphNovo在所有評估數(shù)據(jù)集中都取得了最佳的預(yù)測效果。

深度學(xué)習(xí)從頭測序方法的應(yīng)用
由于許多從頭測序方法都是近幾年發(fā)表的，所以應(yīng)用范圍并不是很廣，然而，表1列舉的方法中，也有幾種相對來說具有比較明確的應(yīng)用方向。其中，DeepNovo應(yīng)用最為廣泛。DeepNovo方法及其后續(xù)方法PointNovo已被納入商業(yè)軟件PEAKS中，表2列舉的應(yīng)用案例中的大多數(shù)都使用了PEAKS。在表2所有27項應(yīng)用案例中，最常見的應(yīng)用是檢測新生抗原和非典型抗原，其次是抗體測序,毒液蛋白組和宏蛋白質(zhì)組。其次，還有些研究通過從頭測序研究短肽。隨著該領(lǐng)域軟件工具質(zhì)量的不斷提升，未來，de novo測序的應(yīng)用可能會擴(kuò)展到其他領(lǐng)域。

表2 深度學(xué)習(xí)從頭測序方法的主要應(yīng)用

（注：表2中引用編號為文獻(xiàn)原文順序）

挑戰(zhàn)

如上所述，從頭測序領(lǐng)域的一個關(guān)鍵挑戰(zhàn)是對現(xiàn)有方法結(jié)果的合理評估。理想的性能評估方案應(yīng)該包括將從頭測序算法的預(yù)測與實際生成譜圖的多肽序列進(jìn)行比較。但在實踐中，不可能對所有譜圖都一一進(jìn)行評價。以下是幾種可供參考的評價方法。
第一種是使用ProteomeTools等數(shù)據(jù)庫中的合成多肽譜圖進(jìn)行比較^[52]。這種方法可以很明確的鑒定采集到的譜圖，但是由于數(shù)據(jù)本身不是來自復(fù)雜樣本，因此會比自然生物樣本的噪音低很多。盡管如此，合成肽的數(shù)據(jù)也已被多種從頭測序方法采用進(jìn)行模型訓(xùn)練^[53]。

第二種方法是應(yīng)用最廣泛的，即使用搜庫的方式將多肽與采集到的譜圖進(jìn)行匹配，然后將這些匹配結(jié)果作為基礎(chǔ)事實。該方法成功的關(guān)鍵在于，采用嚴(yán)格的統(tǒng)計方法來控制搜庫結(jié)果的錯誤發(fā)現(xiàn)率(FDR)^[54-55]。通常，用于從頭測序方法訓(xùn)練和驗證的數(shù)據(jù)集在PSM水平設(shè)定1% FDR閾值。然而，數(shù)據(jù)庫搜索仍然可能會導(dǎo)致錯誤的肽段標(biāo)簽。例如，九種基準(zhǔn)數(shù)據(jù)最初沒有考慮到錯誤分配的同位素峰^[13]，導(dǎo)致從譜圖中錯誤地識別了脫酰胺肽，因為采用了第一個同位素峰而不是使用單同位素峰作為母離子的m/z(圖4)，這個錯誤已經(jīng)得到了修正。因此，使用最新的譜圖注釋方法產(chǎn)生盡可能高質(zhì)量的訓(xùn)練數(shù)據(jù)尤為重要。

圖4 錯誤的肽段標(biāo)簽

此外，作者在一系列不同質(zhì)量的數(shù)據(jù)集上評估了預(yù)訓(xùn)練的Casanovo模型，每個數(shù)據(jù)集包含20,000張譜圖。結(jié)果如圖5，模型的表觀性能如何取決于用于評估的數(shù)據(jù)的質(zhì)量:隨著總離子強(qiáng)度的降低，肽段平均精度變化從0.99也隨之降到0.84，再到0.37。如果采用不同質(zhì)量的數(shù)據(jù)集進(jìn)行訓(xùn)練，這種現(xiàn)象應(yīng)該會更加明顯。

圖5 高質(zhì)量PSMs預(yù)測更準(zhǔn)確

第三種方法是使用FDR的統(tǒng)計方法，這也是評估數(shù)據(jù)庫搜索算法的標(biāo)準(zhǔn)方法。比如，如果在固定的FDR閾值(例如1%)下，A從同一組譜圖中檢測到比B更多的肽，則認(rèn)為方法A比方法B更好。但目前，還沒有成熟的用于從頭測序結(jié)果的FDR評估方法，開發(fā)新的FDR方法是該領(lǐng)域最關(guān)鍵的挑戰(zhàn)之一。不久前，Tran等[50]提出來一種解決方案。

評估從頭測序方法的另一個挑戰(zhàn)是嵌合譜的存在，以一種全新的方式預(yù)測嵌合譜是具有挑戰(zhàn)性的，而評估這種預(yù)測則更加復(fù)雜。另一個重要的復(fù)雜因素是PTMs。為了包括新的PTMs和擴(kuò)展氨基酸字母表，大多數(shù)從頭測序工具必須完全重新訓(xùn)練，納入包括這些新的PTMs的額外數(shù)據(jù)。然而許多與生物學(xué)相關(guān)的PTMs含量低且為可變的，就導(dǎo)致很難收集到足夠的訓(xùn)練數(shù)據(jù)。識別包含多種PTMs的多肽仍然是深度學(xué)習(xí)從頭測序工具的一個巨大挑戰(zhàn)。

目前，深度學(xué)習(xí)從頭測序的方法通常以自回歸的方式生成肽，按順序預(yù)測每個氨基酸。這種方法存在的問題是如果前序氨基酸發(fā)生了預(yù)測錯誤，無法進(jìn)行糾正，或者長肽中存在不連續(xù)碎片峰時無法進(jìn)行預(yù)測，并且由于自回歸解碼不能并行化，因此計算效率很低。

最后，在對新工具進(jìn)行評價時，一個經(jīng)常被忽視的方面是基準(zhǔn)測試的實際實施，特別是涉及到對相同數(shù)據(jù)的再訓(xùn)練時。為了確保每個模型的最佳訓(xùn)練條件，訓(xùn)練過程可能需要針對這個特定的數(shù)據(jù)集進(jìn)行調(diào)整。另外，原始方法提出的默認(rèn)超參數(shù)可能不是最優(yōu)的，導(dǎo)致性能降低并影響基準(zhǔn)測試結(jié)果。

盡管這個領(lǐng)域面臨著許多挑戰(zhàn)，但都是可以通過算法的進(jìn)步逐一克服的。自DeepNovo引領(lǐng)性論文發(fā)表以來，這一領(lǐng)域的發(fā)展相當(dāng)迅速。隨著新的機(jī)器學(xué)習(xí)策略、越來越多的公開可用數(shù)據(jù)和質(zhì)譜儀器的性能提升，從頭測序工具的使用將變得更加普遍，使許多具有挑戰(zhàn)性或不可能進(jìn)行的分析成為可能。

彩蛋
如上所述，多肽從頭測序的各種方法通常是用一些簡單的指標(biāo)來評估測序結(jié)果，但這些指標(biāo)并不能完全反映它們的總體性能。而迄今為止，還沒有一種方法可以用來評估de novo PSM的錯誤發(fā)現(xiàn)率(FDR)和顯著性。針對這一局限，BSI開發(fā)了全面的NovoBoard模型框架，來評估de novo sequencing方法的性能。該框架涵蓋了不同的基準(zhǔn)數(shù)據(jù)集(包括酶切、非酶切、免疫肽組學(xué)和不同物種數(shù)據(jù))，以及一套用于de novo結(jié)果碎片離子、氨基酸和肽段準(zhǔn)確度的評估標(biāo)準(zhǔn)。更重要的是，NovoBoard創(chuàng)新性地基于target-decoy對de novo peptide sequencing方法進(jìn)行評估，并計算其FDR。我們綜合評估了PEAKS de novo、PointNovo、Casanovo和GraphNovo方法在特定應(yīng)用場景和數(shù)據(jù)類型下的性能，結(jié)果表明，GraphNovo總體表現(xiàn)優(yōu)于其他方法。Novoboard方法文章已上線Biorxiv。

什么，算法太復(fù)雜了看不懂？不用擔(dān)心，我們已將相關(guān)算法應(yīng)用到最新的PEAKS 12系列軟件中，只需將待分析的數(shù)據(jù)提交給PEAKS，分析完直接看結(jié)果就好啦，并且可以借助PEAKS優(yōu)秀的可視化界面對譜圖進(jìn)行手動校驗。欲了解軟件詳情或者申請軟件試用，可通過如下聯(lián)系方式咨詢我們~。

參考文獻(xiàn)

1. Sakurai, T., Matsuo, T., Matsuda, H., Katakuse, I. Paas 3: A computer program to determine probable sequence of peptides from mass spectrometric data. Biomedical mass spectrometry 1984, 11, 396–399.
2. Bartels, C. Fast algorithm for peptide sequencing by mass spectroscopy. Biomed. Environmental Mass Spectrometry 1990, 19, 363–368.
3. Y, L., Bengio, Y., nature, H. .-. G. Deep learning. nature 2015, DOI: 10.1038/nature14539
4. Zhou, X., Zeng, W., Chi, H., Luo, C., et al. pDeep: predicting MS/MS spectra of peptides with deep learning. Analytical Chemistry 2017, 89, 12690–12697.
5. Gessulat, S., Schmidt, T., Zolg, D. P., Samaras, P., et al. Prosit: proteome-wide prediction of peptide tandem mass spectra by deep learning. Nature Methods 2019, 16, 509.
6. Tiwary, S., Levy, R., Gutenbrunner, P., Soto, F. S., et al. High-quality MS/MS spectrum prediction for data-dependent and data-independent acquisition data analysis. Nature Methods 2019, 16, 519–525.
7. Zohora, F. T., Rahman, M. Z., Tran, N. H., Xin, L., et al. DeepIso: a deep learning model for peptide feature detection from LC-MS map. Scientific Reports 2019, 9, 17168.
8. Zohora, F. T., Rahman, M. Z., Tran, N. H., Xin, L., et al. Deep neural network for detecting arbitrary precision peptide features through attention based segmentation. Scientific Reports 2021, 11, 18249.
9. Bittremieux, W., May, D. H., Bilmes, J., Noble, W. S. A learned embedding for efficient joint analysis of millions of mass spectra. Nature Methods 2022, 19, 675–678.
10. Bouwmeester, R., Gabriels, R., Hulstaert, N., Martens, L., et al. DeepLC Can Predict Retention Times for Peptides That Carry As-yet Unseen Modifications. Nature Methods 2021, 18, 1363–1369.
11. Plante, P.-L., Francovic-Fontaine, ´E., May, J. C., McLean, J. A., et al. Predicting Ion Mobility Collision Cross-Sections Using a Deep Neural Network: DeepCCS. Analytical Chemistry 2019, 91,5191–5199.
12. Meier, F., K¨ohler, N. D., Brunner, A.-D., Wanka, J.-M. H., et al. Deep Learning the Collisional Cross Sections of the Peptide Universe from a Million Experimental Values. Nature Communications 2021,12, 1185.
13. Tran, N. H., Zhang, X., Xin, L., Shan, B., et al. De novo peptide sequencing by deep learning. Proceedings of the National Academy of Sciences of the United States of America 2017, 31, 8247–8252.
14. Perez-Riverol, Y., Csordas, A., Bai, J., Bernal-Llinares, M., et al. The PRIDE database and related tools and resources in 2019: improving support for quantification data. Nucleic Acids Res 2019, 47, D442–D450.
15. Wang, M., Wang, J., Carver, J., Pullman, B. S., et al. Assembling the Community-Scale Discoverable Human Proteome. Cell Systems 2018, 7, 412–421.e5.
16. Deutsch, E. W., Bandeira, N., Sharma, V., Perez-Riverol, Y., et al. The ProteomeXchange Consortium in 2020: Enabling ’Big Data’ Approaches in Proteomics. Nucleic Acids Research 2019, 48,D1145–D1152.
17. Zolg, D. P., Wilhelm, M., Schnatbaum, K., Zerweck, J., et al. Building ProteomeTools Based on a Complete Synthetic Human Proteome. Nature Methods 2017, 14, 259–262.
18. Hochreiter, S., Schmidhuber, J. Long short-term memory. Neural computation 1997, DOI: 10.1162/neco.1997.9.8.1735.
19. Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., et al. Attention Is All You Need. Advances in Neural Information Processing Systems 2017, 30.
20. Yilmaz, M., Fondrie, W. E., Bittremieux, W., Oh, S., et al. Proceedings of the International Conference on Machine Learning, 2022, pp 25514–25522.
21. Yilmaz, M., Fondrie, W. E., Bittremieux, W., Nelson, R., et al. Sequence-to-sequence translation from mass spectra to peptides with a transformer model. bioRxiv 2023, DOI: 10.1101/2023.01.03.522621.
22. Jin, Z., Xu, S., Zhang, X., Ling, T., et al. ContraNovo: A Contrastive Learning Approach to Enhance De Novo Peptide Sequencing. arXiv preprint arXiv:2312.11584 2023.
23. Yang, T., Ling, T., Sun, B., Liang, Z., et al. Introducing π-HelixNovo for practical large-scale de novo peptide sequencing. Briefings in Bioinformatics 2024, 25, bbae021.
24. Lee, S., Kim, H. Bidirectional de novo peptide sequencing using a transformer model. PLOS Computational Biology 2024, 20, e1011892.
25. Xia, J., Chen, S., Zhou, J., Lin, T., et al. AdaNovo: Adaptive De Novo Peptide Sequencing with Conditional Mutual Information, arXiv:2043.07013v1, 2024.
26. Eloff, K., Kalogeropoulos, K., Morell, O., Mabona, A., et al. De novo peptide sequencing with InstaNovo: Accurate, database-free peptide identification for large scale proteomics experiments. bioRxiv 2023, 2023–08.
27. Sanders, J., Oh, S., Noble, W. S. A transformer model for de novo sequencing of data-independent acquisition mass spectrometry data, Manuscript in preparation.
28. Yang, Y., Hossain, Z., Asif, K., Pan, L., et al. DPST: de novo peptide sequencing with amino-acidaware transformers. arXiv preprint arXiv:2203.13132 2022.
29. Mao, Z., Zhang, R., Xin, L., Li, M. Mitigating the missing fragmentation problem in de novo peptide sequencing with a two stage graph-based deep learning model. Nature Machine Intelligence 2023, 5.
30. Ying, C., Cai, T., Luo, S., Zheng, S., et al. Advances in Neural Information Processing Systems,Curran Associates, Inc.: 2021; Vol. 34, pp 28877–28888.
31. Ebrahimi, S., Guo, X. Transformer-based de novo peptide sequencing for data-independent acquisition mass spectrometry. arXiv preprint arXiv:2402.11363 2024.
32. Qiao, R., Tran, N. H., Xin, L., Chen, X., et al. Computationally instrument-resolution-independent de novo peptide sequencing for high-resolution devices. Nature Machine Intelligence 2021, 3, 420–425.
33. Xu, X., Yang, C., He, Q., Shu, K., et al. PGPointNovo: an efficient neural network-based tool for parallel de novo peptide sequencing. Bioinformatics Advances 2023, 3.
34. Ge, C., Lu, Y., Qu, J., Xie, L., et al. DePS: an improved deep learning model for de novo peptide sequencing. arXiv preprint arXiv:2203.08820 2022.
35. Wu, R., Zhang, X., Wang, R., Wang, H. Denovo-GCN: De Novo Peptide Sequencing by GraphConvolutional Neural Networks. Applied Sciences 2023, 13.
36. Wang, K., Zhu, M., Boulila, W., Driss, M., et al. SeqNovo: De Novo Peptide Sequencing Prediction in IoMT via Seq2Seq. IEEE Journal of Biomedical and Health Informatics 2023.
37. Cho, K., Van Merri¨enboer, B., Gulcehre, C., Bahdanau, D., et al. Learning phrase representations using RNN encoder-decoder for statistical machine translation. arXiv preprint arXiv:1406.1078 2014.
38. Yang, H., Chi, H., Zeng, W., Zhou, W., et al. pNovo 3: precise de novo peptide sequencing using a learning-to-rank framework. Bioinformatics 2019, 35, i83–i90.
39. Chi, H., Chen, H., He, K., Wu, L., et al. pNovo+: de novo peptide sequencing using complementary HCD and ETD tandem mass spectra. Journal of Proteome Research 2013, 12, 615–625.
40. Zhou, X., Zeng, W., Chi, H., Luo, C., et al. pDeep: predicting MS/MS spectra of peptides with deep learning. Analytical Chemistry 2017, 89, 12690–12697.
41. Joachims, T., Finley, T., Yu, C.-N. J. Cutting-plane training of structural SVMs. Machine learning 2009, 77, 27–59.
42. Klaproth-Andrade, D., Hingerl, J., Bruns, Y., Smith, N. H., et al. Deep learning-driven fragment ion series classification enables highly precise and sensitive de novo peptide sequencing. Nature Communications 2024, 15, 151.
43. Liu, Z., Zhao, C. 2020 16th International Conference on Control, Automation, Robotics and Vision (ICARCV), 2020, pp 1165–1170.
44. Wu, S., Luan, Z., Fu, Z., Wang, Q., et al. BiATNovo: A Self-Attention based Bidirectional Peptide Sequencing Method. bioRxiv 2023, 2023–05.
45. Yilmaz, M., Fondrie, W. E., Bittremieux, W., Oh, S., et al. Proceedings of the International Conference on Machine Learning, 2022, pp 25514–25522.
46. Yang, Y., Hossain, Z., Asif, K., Pan, L., et al. DPST: de novo peptide sequencing with amino-acidaware transformers. arXiv preprint arXiv:2203.13132 2022.
47. Ebrahimi, S., Guo, X. Transformer-based de novo peptide sequencing for data-independent acquisition mass spectrometry. arXiv preprint arXiv:2402.11363 2024.
48. Qiao, R., Tran, N. H., Xin, L., Chen, X., et al. Computationally instrument-resolution-independent de novo peptide sequencing for high-resolution devices. Nature Machine Intelligence 2021, 3, 420–425.
49. Beslic, D., Tscheuschner, G., Renard, B. Y., Weller, M. G., et al. Comprehensive evaluation of peptide de novo sequencing tools for monoclonal antibody assembly. Briefings in Bioinoformatics 2022, Advance online access.
50. Wang, M., Wang, J., Carver, J., Pullman, B. S., et al. Assembling the Community-Scale Discoverable Human Proteome. Cell Systems 2018, 7, 412–421.e5.
51. Tran, N. H., Qiao, R., Mao, Z., Pan, S., et al. NovoBoard: a comprehensive framework for evaluating the false discovery rate and accuracy of de novo peptide sequencing. bioRxiv 2024, 2024–04.
52. Zolg, D. P., Wilhelm, M., Schnatbaum, K., Zerweck, J., et al. Building ProteomeTools Based on a Complete Synthetic Human Proteome. Nature Methods 2017, 14, 259–262.
53. Karunratanakul, K., Tang, H.-Y., Speicher, D. W., Chuangsuwanich, E., et al. Uncovering Thousands of New Peptides with Sequence-Mask-Search Hybrid De Novo Peptide Sequencing Framework. Molecular and Cellular Proteomics 2019, 18, 2478–2491.
54. Elias, J. E., Gygi, S. P. Target-decoy search strategy for increased confidence in large-scale protein identifications by mass spectrometry. Nature Methods 2007, 4, 207–214.
55. Lin, A., See, D., Fondrie, W. E., Keich, U., et al. Target-decoy false discovery rate estimation using Crema. Proteomics 2023, 2300084.
56. Qi, C. R., Su, H., Mo, K., Guibas, L. J. Proceedings of the IEEE Conference On Computer Vision and Pattern Recognition, 2016, pp 652–660.

-掃碼關(guān)注-
www.bioinfor.com (EN)
www.deepproteomics.cn（CN）

作為生物信息學(xué)的領(lǐng)軍企業(yè)，BSI專注于蛋白質(zhì)組學(xué)和生物藥領(lǐng)域，通過機(jī)器學(xué)習(xí)和先進(jìn)算法提供世界領(lǐng)先的質(zhì)譜數(shù)據(jù)分析軟件和蛋白質(zhì)組學(xué)服務(wù)解決方案，以推進(jìn)生物學(xué)研究和藥物發(fā)現(xiàn)。我們通過基于AI的計算方案，為您提供對蛋白質(zhì)組學(xué)、基因組學(xué)和醫(yī)學(xué)的卓越洞見。旗下著名的PEAKS^®️系列軟件在全世界擁有數(shù)千家學(xué)術(shù)和工業(yè)用戶，包括：PEAKS^®️ Studio，PEAKS^®️ Online，PEAKS^®️ GlycanFinder, PEAKS^®️ AB，DeepImmu^®️免疫肽組發(fā)現(xiàn)服務(wù)和抗體綜合表征服務(wù)等。
聯(lián)系方式：021-60919891；[email protected]

索取資料

來源：百蓁生物科技（上海）有限公司
聯(lián)系電話：021-60919881
E-mail：[email protected]

【點擊可查看百蓁生物科技（上海）有限公司相關(guān)產(chǎn)品】

分享到：QQ空間新浪微博騰訊微博微信

【所有文章】【本類新聞】【相關(guān)產(chǎn)品】【關(guān)閉窗口】

本類文章

本類新聞

综合图区亚洲网友自拍|亚洲黄色网络|成人无码网WWW在线观看,日本高清视频色视频kk266,激情综合五月天,欧美一区日韩一区中文字幕页

多肽從頭測序的深度學(xué)習(xí)方法概述