DNA甲基化研究的測(cè)序數(shù)據(jù)挖掘思路分享
瀏覽次數(shù):846 發(fā)布日期:2023-2-24
來(lái)源:本站 僅供參考,謝絕轉(zhuǎn)載,否則責(zé)任自負(fù)
大家好,這里是專注表觀組學(xué)十余年,領(lǐng)跑多組學(xué)科研服務(wù)的易基因。
總體來(lái)說(shuō),DNA甲基化一般遵循三個(gè)步驟進(jìn)行數(shù)據(jù)挖掘。
首先,進(jìn)行整體全基因組甲基化變化的分析,包括平均甲基化水平變化、甲基化水平分布變化、降維分析、聚類分析、相關(guān)性分析等。
其次,進(jìn)行甲基化差異水平分析,篩選具體差異基因,包括DMC/DMR/DMG鑒定、DMC/DMR在基因組元件上的分布、DMC/DMR的TF結(jié)合分析、時(shí)序甲基化數(shù)據(jù)的分析策略、DMG的功能分析等。
最后,將甲基化組學(xué)&轉(zhuǎn)錄組學(xué)關(guān)聯(lián)分析,包括Meta genes整體關(guān)聯(lián)、DMG-DEG對(duì)應(yīng)關(guān)聯(lián)、網(wǎng)絡(luò)關(guān)聯(lián)等。
一、甲基化圖譜分析
(1)平均甲基化水平的比較
- 平均甲基化水平能反應(yīng)樣本整體的甲基化水平。
- 但是平均水平差異不大并不能說(shuō)明樣本間甲基化圖譜沒有差異。
胚胎發(fā)育
果實(shí)成熟
肌肉發(fā)育
(2)CG/CHG/CHH甲基化水平分布
- 不同物種中,甲基化修飾可能傾向于發(fā)生在不同類型的C位點(diǎn)上,該分析有助于反應(yīng)甲基化發(fā)生位點(diǎn)類型的偏好性。
- 甲基化水平分布的組間比較,能夠更進(jìn)一步了解組間甲基化水平的變化。
- 不同基因組元件(CGI相關(guān)元件、重復(fù)序列元件、基因元件等)的甲基化水平分布規(guī)律不同。特別是在不同物種中,基因元件的甲基化水平可能有一定的特點(diǎn)。
- 比較特定元件甲基化水平的組間差異也能發(fā)現(xiàn)潛在的功能差異。
單樣本三類甲基化水平分布
組間CpG甲基化水平分布比較
CGI相關(guān)元件
各類重復(fù)序列元件
基因元件
(3)降維分析
降維分析嘗試找到最能反映數(shù)據(jù)點(diǎn)真實(shí)分布情況的兩個(gè)維度,以方便對(duì)數(shù)據(jù)進(jìn)行直觀把握。一般采用共同覆蓋的5×以上位點(diǎn)進(jìn)行分析:
- 主成分分析(PCA)
- 非度量多維標(biāo)度法(NMDS)
- 主坐標(biāo)分析(PCoA)
PCA可采用統(tǒng)計(jì)檢驗(yàn)分析組間差異的顯著性:
ü 相似性分析(ANOSIM)
ü 置換多元方差分析(ADONIS)
NMDS
PCoA
(4)聚類分析
- 聚類分析考慮的是各樣本之間的距離,即不相似性。一般采用共同覆蓋的5×以上位點(diǎn)進(jìn)行分析。
- 與降維分析的差別在于,聚類分析更真實(shí)地反映樣本的差距,而非僅考慮兩個(gè)代表性維度。
(5)相關(guān)性分析
- 相關(guān)性分析考慮的是各樣本之間的相似性。一般采用共同覆蓋的5×以上位點(diǎn)進(jìn)行分析。
- 一般采用皮爾森相關(guān)系數(shù)
二、差異甲基化位點(diǎn)/區(qū)域分析DMC/DMR分析)
(1)DMC/DMR鑒定
- 差異甲基化位點(diǎn):DMC
- 差異甲基化區(qū)域:DMR
(甲基化位點(diǎn)一般是與附近的位點(diǎn)一起起作用的)
ü 鑒定實(shí)驗(yàn)組與對(duì)照組甲基化圖譜的具體差異。
ü 如果實(shí)驗(yàn)設(shè)計(jì)包括多個(gè)時(shí)間節(jié)點(diǎn),也可以比較相鄰時(shí)間節(jié)點(diǎn)/感興趣的時(shí)間節(jié)點(diǎn)之間的甲基化圖譜的差異。
DMC在基因組上的分布
DMR在基因組上的分布
(2)DMC/DMR轉(zhuǎn)錄因子結(jié)合分析(TF binding motif )
主要關(guān)注Promoter和Enhancer等調(diào)控區(qū)域DMC/DMR的TF結(jié)合位點(diǎn)。
3)時(shí)序甲基化數(shù)據(jù)的分析策略(Time Course)
l 比較相鄰時(shí)間點(diǎn)的差異
l 直接篩選時(shí)間階段相關(guān)的DMC和DMR
ü 線性模型/混合線性模型
(可以排除混雜因素干擾,如性別)
l 共甲基化模式分析(階段特異性Cluster篩選)
ü WGCNA(權(quán)重基因共表達(dá)網(wǎng)絡(luò)分析)
ü MEGENA(多尺度嵌入式基因共表達(dá)網(wǎng)絡(luò)分析)
ü mfuzz
ü ... ...
(4)DMC/DMR在基因元件上的分布
- TE(轉(zhuǎn)座元件):影響基因組穩(wěn)定性
- Promoter:影響基因表達(dá)
- Genebody
(5)差異甲基化基因集(DMGs)的功能分析
分析策略:
- 可以分為Hyper-DMG和Hypo-DMG
- 可以分為Promoter-DMG和Genebody-DMG
- Gene Ontology
- KEGG pathway
- Reactome pathway
- DisGeNET disease
- Disease Ontology
三、組學(xué)關(guān)聯(lián)分析:甲基化組學(xué)&轉(zhuǎn)錄組學(xué)
(1)Meta genes整體關(guān)聯(lián)
- 同一樣本/組別內(nèi),所有基因的表達(dá)水平與對(duì)應(yīng)基因的甲基化水平進(jìn)行關(guān)聯(lián)。
- 研究的是基因甲基化與表達(dá)的整體關(guān)系。
TSS位點(diǎn)附近負(fù)相關(guān)
Genebody區(qū)正相關(guān)
整體負(fù)相關(guān)
(2)DMG-DEG對(duì)應(yīng)關(guān)聯(lián)
特點(diǎn):簡(jiǎn)單粗暴,也適用于樣本量少的情況。
分析結(jié)果:韋恩圖。
特點(diǎn):準(zhǔn)確計(jì)算相關(guān)性程度(R值),及其顯著性(p值)。
分析結(jié)果:散點(diǎn)圖(+擬合線);相關(guān)性熱圖
(3)網(wǎng)絡(luò)關(guān)聯(lián)
基于基因表達(dá)具有功能和通路的富集性。有最低樣本數(shù)量要求。
- 共表達(dá)-共甲基化網(wǎng)絡(luò)關(guān)聯(lián):
ü WGCNA module correlation
ü EMDN algorithm
- 融合網(wǎng)絡(luò)關(guān)聯(lián):
ü SNF algorithm
以上就是關(guān)于DNA甲基化測(cè)序的數(shù)據(jù)挖掘思路分享。