生物標(biāo)志物的重要性早已被公眾、科學(xué)界和工業(yè)領(lǐng)域所認(rèn)識(shí)。生物標(biāo)志物可應(yīng)用于疾病的分型、預(yù)測(cè)、治療和預(yù)后,是臨床應(yīng)用轉(zhuǎn)化前期基礎(chǔ),同時(shí)也是早期篩查的重要指標(biāo)。
但真正被食品藥品監(jiān)督管理局批準(zhǔn)的蛋白質(zhì)生物標(biāo)志物數(shù)量不多,目前臨床上常規(guī)使用的蛋白質(zhì)生物標(biāo)志物更少,主要原因是生物標(biāo)志物開(kāi)發(fā)效率低,包括臨床樣本質(zhì)量差、疾病的主觀(guān)臨床定義和客觀(guān)蛋白質(zhì)檢測(cè)結(jié)果之間的差距,以及在發(fā)現(xiàn)階段所識(shí)別的差異蛋白的高錯(cuò)誤發(fā)現(xiàn)率。
在發(fā)現(xiàn)階段關(guān)注到的絕大多數(shù)蛋白都不能成為有效的biomarker,只有少數(shù)的陽(yáng)性候選蛋白具有真正的應(yīng)用價(jià)值。因而開(kāi)發(fā)一種從海量數(shù)據(jù)中篩選高通量、高靈敏、高準(zhǔn)確性且成本合理的潛在生物標(biāo)志物變得至關(guān)重要。
好消息是BIOTREE開(kāi)發(fā)一種集成機(jī)器學(xué)習(xí)算法,將通量蛋白組的檢測(cè)數(shù)據(jù)整合統(tǒng)計(jì)學(xué)檢驗(yàn)和線(xiàn)性回歸等特征選擇算法,高效的鑒定和識(shí)別驗(yàn)證率高且分類(lèi)效果顯著的生物標(biāo)志物診斷panel,從而達(dá)到極.佳的預(yù)判效果,為疾病的分型、預(yù)測(cè)以及治療提供一個(gè)強(qiáng)有力的工具。
那么這個(gè)集成的機(jī)器學(xué)習(xí)算法的框架結(jié)構(gòu)是怎樣的呢?下面就由小編給大家娓娓道來(lái):
框架結(jié)構(gòu)
整套機(jī)器學(xué)習(xí)算法體系分為5個(gè)階段:數(shù)據(jù)預(yù)處理、初篩選、潛在標(biāo)志物組合、機(jī)器學(xué)習(xí)算法二次篩選、標(biāo)志物驗(yàn)證與評(píng)價(jià),如下圖所示:
那么每一個(gè)階段可以獲得哪些核心的數(shù)據(jù)呢?
1.數(shù)據(jù)預(yù)處理與單維統(tǒng)計(jì)法初篩選
對(duì)高通量蛋白組的搜庫(kù)定量數(shù)據(jù)進(jìn)行格式轉(zhuǎn)化、數(shù)據(jù)歸一化等處理,篩選滿(mǎn)足一定蛋白倍數(shù)變化(FC), 且雙尾非配對(duì)Welch T檢驗(yàn)小于0.01的差異蛋白。
2.潛在標(biāo)志物組合
從差異蛋白中隨機(jī)選擇不超過(guò)一定數(shù)量的蛋白組成潛在的標(biāo)志物組合(CPM),每個(gè)蛋白的初始重量值設(shè)為1,并設(shè)置至少1000種group,作為備選CPM。
3.機(jī)器學(xué)習(xí)算法二次篩選
對(duì)于每個(gè)候選CPM,按照一定比率隨機(jī)生成一個(gè)訓(xùn)練集和一個(gè)測(cè)試集數(shù)據(jù)。利用集成的機(jī)器學(xué)習(xí)算法(多種特征選擇算法)對(duì)group進(jìn)行分析并懲罰迭代優(yōu)化幾種蛋白質(zhì)的權(quán)重值。權(quán)重值越大說(shuō)明該蛋白在區(qū)分不同分組樣本中的作用貢獻(xiàn)度越大。
圖2.機(jī)器學(xué)習(xí)算法二次篩選
4.標(biāo)志物驗(yàn)證與評(píng)價(jià)
進(jìn)行5倍交叉驗(yàn)證,根據(jù)Sn和1-Sp評(píng)分繪制ROC,計(jì)算AUC值。確定所有候選CPM的AUC值,并根據(jù)最高AUC值確定最優(yōu)的標(biāo)志物診斷panel,混淆矩陣分析來(lái)評(píng)估機(jī)器學(xué)習(xí)策略的可靠性。
圖3.標(biāo)志物診斷panel的ROC曲線(xiàn)圖
圖4. 標(biāo)志物診斷panel的混淆矩陣
基于以上的層層篩選,關(guān)關(guān)把控,三高一好(高準(zhǔn)確度、高特異性、高陽(yáng)性率,穩(wěn)健性好)的臨床隊(duì)列樣本標(biāo)志物診斷panel就閃亮登場(chǎng)啦~
最特別的一點(diǎn)是,小樣本量也能篩選出分類(lèi)效果好,準(zhǔn)確度高的標(biāo)志物,不僅僅局限于臨床隊(duì)列大樣本,讓在醫(yī)學(xué)領(lǐng)域辛勤耕耘的老師們都有機(jī)會(huì)在標(biāo)志物研究領(lǐng)域做些研究啦~
蛋白標(biāo)志物診斷panel研究應(yīng)用案例
Ⅰ.口腔癌預(yù)后標(biāo)志物研究
IF:12.121 PMID:30185791 Nat Commun 2018 09 05;9(1)
Oral squamous cell carcinoma-口腔鱗狀細(xì)胞癌(OSCC)是頭頸部最常見(jiàn)的惡性腫瘤,其不同區(qū)域具有特殊的組織病理學(xué)和分子特征因而限制了標(biāo)準(zhǔn)的腫瘤淋巴結(jié)轉(zhuǎn)移預(yù)后分類(lèi)。因此,作者將無(wú)淋巴結(jié)轉(zhuǎn)移組(NO,n=14)與由淋巴結(jié)轉(zhuǎn)移組(N+,n=26)的唾液樣本進(jìn)行蛋白組檢測(cè),并開(kāi)發(fā)一種用于測(cè)量肽和蛋白質(zhì)的預(yù)測(cè)能力的機(jī)器學(xué)習(xí)的工作流程,應(yīng)用機(jī)器學(xué)習(xí)策略,評(píng)估了多肽和蛋白質(zhì)的預(yù)測(cè)能力,篩選區(qū)分淋巴結(jié)轉(zhuǎn)移OSCC患者(N+)和無(wú)淋巴結(jié)轉(zhuǎn)移OSCC患者的預(yù)后標(biāo)志物。
Ⅱ. 新冠肺炎的生物標(biāo)志物
IF:22.553 Immunity 2020 11 17;53(5)
2019年冠狀病毒病(COVID-19)的爆發(fā)是一場(chǎng)全球公共衛(wèi)生危機(jī)。然而,對(duì)于新冠病毒-19的發(fā)病機(jī)制和生物標(biāo)志物知之甚少,因此作者收集了來(lái)自武漢金銀潭醫(yī)院的新冠患者的血液樣本進(jìn)行TMT標(biāo)記定量蛋白組檢測(cè)并開(kāi)發(fā)了一種機(jī)器學(xué)習(xí)的算法,確定一組可以準(zhǔn)確區(qū)分/預(yù)測(cè)新冠肺炎不同癥型的生物標(biāo)記物組合。并且這些宿主蛋白的變化為COVID-19的發(fā)病機(jī)制提供了非常有價(jià)值的見(jiàn)解。