通過(guò)cfDNA甲基化和半甲基化分析結(jié)合機(jī)器學(xué)習(xí)檢測(cè)多癌種生物標(biāo)志物
瀏覽次數(shù):514 發(fā)布日期:2024-7-26
來(lái)源:本站 僅供參考,謝絕轉(zhuǎn)載,否則責(zé)任自負(fù)
癌癥是全球主要的公共衛(wèi)生威脅,雖然癌癥死亡率自 1991 年達(dá)到頂峰以來(lái)持續(xù)下降,但僅在 2021 年,美國(guó)就有超過(guò) 60萬(wàn)人死于癌癥。2020年,全球有近1000萬(wàn)人死于癌癥,近年來(lái)一些低收入和中等收入國(guó)家的死亡率有所上升。因此,抗擊癌癥的需求仍然緊迫且未得到滿(mǎn)足。研究表明,早期腫瘤檢測(cè)對(duì)于改善癌癥患者的預(yù)后至關(guān)重要。例如,肝細(xì)胞癌 (HCC) 的早期診斷時(shí)的五年生存率為 34%,但晚期診斷(遠(yuǎn)端轉(zhuǎn)移)時(shí),其生存率則降至3%。因此,開(kāi)發(fā)用于早期癌癥檢測(cè)的檢測(cè)方法至關(guān)重要。血漿中的細(xì)胞游離細(xì)胞DNA(cell-free DNA,cfDNA)是腫瘤檢測(cè)的潛在生物標(biāo)志物,但其中存在于約10%CpG二核苷酸中的半甲基化(hemi-methylation)模式尚未得到充分研究。
2024年7月20日,美國(guó)哥倫比亞大學(xué)Zhiguo Zhang(張志國(guó))教授團(tuán)隊(duì)在Nature子刊《Nature Communications》雜志發(fā)表題為“Tumor detection by analysis of both symmetric- and hemi-methylation of plasma cell-free DNA”的研究論文,研究通過(guò)cfMeDIP-seq結(jié)合機(jī)器學(xué)習(xí)方法分析了肝臟腫瘤和血漿游離DNA(cfDNA)中的差異半甲基化區(qū)域(DHMRs),揭示了大多數(shù)DHMRs與相同樣本中的差異甲基化區(qū)域(DMRs)不重疊,表明DHMRs可以作為獨(dú)立的生物標(biāo)志物。同時(shí),通過(guò)分析患有肝癌或腦癌的個(gè)體樣本以及無(wú)癌癥個(gè)體樣本(對(duì)照組)共計(jì)215例樣本的cfDNA甲基化組,并利用DMRs、DHMRs或DMRs+DHMRs兩者訓(xùn)練機(jī)器學(xué)習(xí)模型。結(jié)合DMRs+DHMRs的模型,比只使用DMRs或DHMRs訓(xùn)練的模型表現(xiàn)出更優(yōu)越的性能,在驗(yàn)證隊(duì)列中,區(qū)分對(duì)照組、肝癌和腦癌的AUROC值分別為0.978、0.990和0.983。這項(xiàng)研究支持了同時(shí)利用DMRs和DHMRs進(jìn)行多癌種檢測(cè)的潛力。
標(biāo)題:Tumor detection by analysis of both symmetric- and hemi-methylation of plasma cell-free DNA(通過(guò)分析血漿cfDNA的對(duì)稱(chēng)甲基化和半甲基化來(lái)檢測(cè)腫瘤)
期刊:Nature Communications
影響因子:IF 14.7 / 1區(qū)
技術(shù)平臺(tái):cfMeDIP-seq等
研究思路:
- 利用改進(jìn)版甲基化DNA免疫沉淀測(cè)序(MeDIP-Seq)方法,分析來(lái)自肝臟腫瘤和腦腫瘤患者以及健康對(duì)照組的血漿cfDNA樣本。
- 研究對(duì)稱(chēng)甲基化(symmetric methylation)和半甲基化(hemi-methylation)在腫瘤檢測(cè)中的獨(dú)立作用。
方案設(shè)計(jì):
本研究通過(guò)分析肝癌患者、腦癌患者和健康對(duì)照者共計(jì)215例樣本的cfDNA甲基化組圖譜,并利用DMRs、DHMRs及兩者結(jié)合訓(xùn)練機(jī)器學(xué)習(xí)模型。
開(kāi)發(fā)兩種甲基化DNA免疫沉淀和鏈特異性(strand-specific,ss)測(cè)序方法(MeDIP-Seq):基于基因組DNA的ssg-MeDIP-Seq和基于血漿cfDNA的sscf-MeDIP-Seq。使用pA-Tn5轉(zhuǎn)座酶進(jìn)行DNA片段化和鏈特異性標(biāo)記。
使用機(jī)器學(xué)習(xí)模型:訓(xùn)練并分析基于差異甲基化區(qū)域(DMRs)和差異半甲基化區(qū)域(DHMRs)的數(shù)據(jù)集。使用GLMnet、隨機(jī)森林和深度神經(jīng)網(wǎng)絡(luò)(DNN)進(jìn)行模型訓(xùn)練和驗(yàn)證。
研究亮點(diǎn):
本研究結(jié)果揭示大多數(shù)DHMRs與相同樣本中的DMRs不重疊,表明DHMRs可以作為獨(dú)立的生物標(biāo)志物。訓(xùn)練的機(jī)器學(xué)習(xí)模型結(jié)合DMRs和DHMRs顯示出比單獨(dú)使用DMRs或DHMRs更好的性能,尤其是在區(qū)分對(duì)照組、肝癌和腦癌方面。
表明利用DMRs和DHMRs作為生物標(biāo)志物,通過(guò)sscf-MeDIP-Seq方法分析血漿cfDNA,可以提高多癌種檢測(cè)的準(zhǔn)確性。研究支持將cfDNA甲基化和半甲基化分析作為癌癥早期檢測(cè)和分類(lèi)的潛在手段。
本研究創(chuàng)新性地開(kāi)發(fā)了sscf-MeDIP-Seq方法,能夠同時(shí)分析cfDNA的對(duì)稱(chēng)甲基化和半甲基化。證明了DHMRs作為獨(dú)立生物標(biāo)志物在腫瘤檢測(cè)中的潛力。機(jī)器學(xué)習(xí)模型的結(jié)合使用DMRs和DHMRs提高了腫瘤檢測(cè)的準(zhǔn)確性(尤其是在獨(dú)立驗(yàn)證隊(duì)列中)。研究提供了一種新的策略,通過(guò)分析血漿cfDNA的甲基化模式來(lái)檢測(cè)和分類(lèi)腫瘤,具有潛在的臨床應(yīng)用價(jià)值。
結(jié)果圖形:
(1)開(kāi)發(fā)基因組甲基化DNA免疫沉淀與鏈特異性測(cè)序方法(ssg-MeDIP-Seq)
圖 1:一種基于 pA-Tn5轉(zhuǎn)座酶的MeDIP-Seq方法,用于以鏈特異性方式分析基因組DNA的甲基化組。
a. ssg-MeDIP-Seq程序,用于以鏈特異性方式分析基因組DNA的DNA甲基化。SM對(duì)稱(chēng)性甲基化,HM半甲基化。
b. 8個(gè)肝臟腫瘤樣本與相應(yīng)鄰近非腫瘤組織(Adj-NT)之間的差異性甲基化區(qū)域(DMRs)熱圖。
c. 3個(gè)肝癌癥樣本及相應(yīng)鄰近非腫瘤組織(Adj-NT)樣本中TBX2基因位點(diǎn)的肝臟腫瘤 DNA DMR。
d-e. 通過(guò)ssg-MeDIP-Seq鑒定的肝癌DMRs與TCGA腫瘤樣本中通過(guò)450K甲基化芯片鑒定的DMRs進(jìn)行重疊分析,通過(guò)小提琴圖(d)和條形圖(e)展示。
f. 肝癌DNA DMRs的序列元件富集分析。首先將 DMRs 與每個(gè)注釋位點(diǎn)重疊,并與隨機(jī)分布中的重疊數(shù)量進(jìn)行比較,以計(jì)算Z分?jǐn)?shù)。P值是通過(guò)單側(cè)隨機(jī)分布計(jì)算得出,沒(méi)有進(jìn)行多重比較校正。顯著富集的序列元件用星號(hào)標(biāo)記,黑色(高甲基化 DMR)和藍(lán)色(低甲基化DMR),每個(gè)類(lèi)別中的DMR數(shù)量在括號(hào)中顯示。(p<0.05; **p<0.01; ***p<0.001)。
(2)肝臟腫瘤DNA的差異半甲基化區(qū)域(DHMRs)和差異甲基化區(qū)域(DMRs)可能是獨(dú)立生物標(biāo)志物
圖2:通過(guò)ssg-MeDIP-Seq分析肝癌樣本的DNA半甲基化。
a. 對(duì)稱(chēng)性甲基化(SM)和半甲基化(HM)示意圖。SM指在Watson和Crick兩條鏈上的CpG二核苷酸位點(diǎn)上等量DNA甲基化,而HM區(qū)域(HMR)指在一條鏈上的CpG位點(diǎn)相較于另一條鏈偏好性甲基化。
b. 兩個(gè)肝臟腫瘤樣本在C1QTNF4基因位點(diǎn)上的腫瘤DNA差異半甲基化區(qū)域(DHMR)快照,與其相應(yīng)的鄰近非腫瘤組織(Adj-NT)進(jìn)行比較,陰影區(qū)域表示DHMR。
c. 肝臟腫瘤DNA HMRs的序列富集分析。
d. 8個(gè)肝臟腫瘤樣本與其相應(yīng)的Adj-NT相比的6864個(gè)DHMRs熱圖。HM水平以顏色從-1~1顯示,其中有2330個(gè)肝臟腫瘤DNA DHMRs在Watson或Crick鏈上顯示增加HM,而4534個(gè)DHMRs與對(duì)照組相比顯示減少HM。
e. 8個(gè)肝臟腫瘤樣本的DMRs和DHMRs與其相應(yīng)的Adj-NT的重疊比較分析。
f. 與對(duì)照樣本相比,增加(黑色)和減少(藍(lán)色)的肝臟腫瘤DNA DHMRs的富集分析。
g. 與肝臟腫瘤DNA HMRs鄰近基因的GO功能富集分析。
h. 與增加的HM相比,與Adj-NT對(duì)照樣本中鄰近肝臟腫瘤DNA DHMRs的GO功能富集分析。
以上結(jié)果表明肝臟腫瘤DHMRs和DMRs很可能是獨(dú)立的生物標(biāo)志物。
(3)開(kāi)發(fā)用于分析cfDNA甲基化和半甲基化的sscf-MeDIP-Seq方法
圖3:一種用于分析血漿cfDNA甲基化的單鏈cfDNA甲基化DNA免疫沉淀測(cè)序(sscf-MeDIP-Seq)方法
a. 用于分析cfDNA甲基化的sscf-MeDIP-Seq方法概述。SM對(duì)稱(chēng)性DNA甲基化,HM半甲基化。單鏈(ss)DNA上的DNA甲基化為半甲基化區(qū)域(HMR)。基于8個(gè)input樣本,由ssDNA產(chǎn)生的HMR的數(shù)量可能很小。
b. TBX2基因位點(diǎn)的cfDNA DMR快照。陰影區(qū)域突出了10個(gè)肝臟腫瘤患者的cfDNA樣本與10個(gè)對(duì)照組cfDNA樣本的DMR,每組僅顯示兩個(gè)樣本。還顯示了兩個(gè)未進(jìn)行甲基化DNA免疫沉淀的input樣本的序列reads片段。
c. 10個(gè)肝癌血漿樣本和10個(gè)非腫瘤對(duì)照血漿樣本的cfDNA DMR熱圖。
d-e. 小提琴圖(d)和條形圖(e)顯示通過(guò)sscf-MeDIP-Seq鑒定肝臟腫瘤cfDNA DMRs與本研究中使用ssg-MeDIP-seq鑒定的肝臟腫瘤DNA DMRs之間的重疊。
f. 10個(gè)肝臟腫瘤樣本和10個(gè)對(duì)照的血漿cfDNA DHMRs熱圖。
g. 與10個(gè)對(duì)照相比,10個(gè)肝臟腫瘤樣本的血漿cfDNA DMRs和cfDNA DHMRs的重疊。
(4)大多數(shù)血漿cfDNA中的DHMRs與cfDNA中的DMRs不重疊,使用 DMR、DHMR 和 DMRs+DHMR 作為input訓(xùn)練的機(jī)器學(xué)習(xí)模型鑒定癌癥類(lèi)型
表1:本研究中使用的所有271個(gè)cfDNA樣本的患者信息,包括癌癥類(lèi)型、性別和年齡
圖4:使用DMRs和DHMRs以及機(jī)器學(xué)習(xí)模型進(jìn)行多癌種檢測(cè)。
a. 機(jī)器學(xué)習(xí)模型訓(xùn)練的流程圖。使用單鏈cfDNA甲基化DNA免疫沉淀測(cè)序(sscf-MeDIP-Seq)分析了來(lái)自三組(對(duì)照組、腦癌和肝癌患者)的271個(gè)cfDNA樣本甲基化組。215個(gè)sscf-MeDIP-seq數(shù)據(jù)集(占80%)被用作訓(xùn)練隊(duì)列,剩余的56個(gè)(占20%)樣本作為獨(dú)立的驗(yàn)證隊(duì)列。訓(xùn)練隊(duì)列用于選擇DMR和DHMR并訓(xùn)練機(jī)器學(xué)習(xí)模型,每個(gè)樣本組使用DMR或DHMR作為訓(xùn)練input,結(jié)果產(chǎn)生了10個(gè)模型。基于DMR和DHMR的模型然后進(jìn)一步統(tǒng)一構(gòu)建最終的校準(zhǔn)模型。然后使用訓(xùn)練有DMRs、DHMRs和DMRs+DHMRs作為input的模型評(píng)估驗(yàn)證隊(duì)列。
b-d. 評(píng)估模型性能,預(yù)測(cè)驗(yàn)證隊(duì)列中的對(duì)照組(b)、肝臟腫瘤(c)和腦腫瘤(d)cfDNA樣本,使用訓(xùn)練有DMRs、DHMRs或DMRs+DHMRs的模型。每種預(yù)測(cè)的最高靈敏度和特異性點(diǎn)用紅點(diǎn)標(biāo)記。每個(gè)模型的AUC的95%置信區(qū)間在括號(hào)中標(biāo)記。
e. 使用訓(xùn)練有DMRs+DHMRs的模型,每組樣本的平均預(yù)測(cè)概率。每一列代表驗(yàn)證樣本組,每一行代表模型預(yù)測(cè)。條形圖顯示為平均值+標(biāo)準(zhǔn)誤差。紅色、黃色和藍(lán)色條分別代表20個(gè)腦癌、15個(gè)肝癌和21個(gè)健康對(duì)照樣本概率。
(5)通過(guò)cfDNA甲基化組區(qū)分神經(jīng)膠質(zhì)瘤亞型
圖5:使用sscf-MeDIP-Seq數(shù)據(jù)集預(yù)測(cè)腦腫瘤亞型。
a. 構(gòu)建腦腫瘤亞型模型流程圖。首先使用訓(xùn)練隊(duì)列樣本鑒定的DMR和DHMR訓(xùn)練IDH WT和IDH突變體神經(jīng)膠質(zhì)瘤模型,然后將這些模型與基于貝葉斯定理的三類(lèi)模型(對(duì)照組、肝癌和腦腫瘤)結(jié)合,得出用于預(yù)測(cè)四個(gè)樣本組的模型:IDH WT腦腫瘤和IDH突變體腦腫瘤、肝臟腫瘤和對(duì)照樣本。
b. 訓(xùn)練DMR、DHMR、DMRs+DHMRs模型在驗(yàn)證隊(duì)列中預(yù)測(cè)IDH突變體腦癌樣本的評(píng)估。
c. 訓(xùn)練DMR、DHMR、DMRs+DHMRs模型在驗(yàn)證隊(duì)列中預(yù)測(cè)IDH WT(野生型)腦癌樣本的評(píng)估。
d. 使用訓(xùn)練DMRs+DHMRs模型,每組樣本的平均預(yù)測(cè)概率。每一列代表驗(yàn)證隊(duì)列中的樣本組,每一行代表模型預(yù)測(cè)。條形圖顯示為平均值+標(biāo)準(zhǔn)誤差。紅色、粉色、黃色和藍(lán)色條分別代表來(lái)自11個(gè)IDH突變體腦癌、9個(gè)IDH WT腦癌、15個(gè)肝癌和21個(gè)健康對(duì)照樣本的概率。
(6)血漿cfDNA DMRs與腫瘤組織樣本基因表達(dá)相關(guān),這些基因表達(dá)能夠預(yù)測(cè)患者生存率
圖6:基于TCGA肝臟腫瘤組織中具有肝臟腫瘤特異性血漿cfDNA DMR鄰近的基因表達(dá)對(duì)肝癌樣本進(jìn)行分類(lèi)及患者生存預(yù)測(cè)。
a. 鑒定在啟動(dòng)子周?chē)辽儆幸粋(gè)肝癌cfDNA DMR且其在TCGA肝臟腫瘤組織樣本中的表達(dá)與患者生存相關(guān)基因的流程。
b. 與至少一個(gè)cfDNA DMR鄰近的150個(gè)基因周?chē)膕scf-MeDIP-Seq信號(hào)密度。以顏色表示的z分?jǐn)?shù),是sscf-MeDIP-Seq信號(hào)的log2(RPKM)。"HyperDMR"至少有一個(gè)高甲基化cfDNA DMR鄰近的基因,"HypoDMR"有一個(gè)低甲基化cfDNA DMR鄰近的基因。
c. 基于上述鑒定的150個(gè)標(biāo)記基因的表達(dá),對(duì)TCGA-LIHC隊(duì)列中的371個(gè)肝臟腫瘤樣本進(jìn)行分類(lèi)。患者被分為兩個(gè)聚類(lèi)。顏色代表371個(gè)肝癌樣本中150個(gè)基因的RNA-seq信號(hào)的log2(RPKM)的z分?jǐn)?shù)。
d. 對(duì)(c)中分為兩個(gè)聚類(lèi)的371個(gè)肝癌患者進(jìn)行Kaplan-Meier生存分析。P值通過(guò)logrank檢驗(yàn)計(jì)算。
參考文獻(xiàn):
Hua X, Zhou H, Wu HC, Furnari J, Kotidis CP, Rabadan R, Genkinger JM, Bruce JN, Canoll P, Santella RM, Zhang Z. Tumor detection by analysis of both symmetric- and hemi-methylation of plasma cell-free DNA. Nat Commun. 2024 Jul 20;15(1):6113. pii: 10.1038/s41467-024-50471-1. doi: 10.1038/s41467-024-50471-1. PubMed PMID: 39030196.