染色質(zhì)免疫共沉淀測(cè)序(ChIP-seq)的數(shù)據(jù)挖掘思路
瀏覽次數(shù):1004 發(fā)布日期:2023-3-27
來源:本站 僅供參考,謝絕轉(zhuǎn)載,否則責(zé)任自負(fù)
CHIP-seq研究的數(shù)據(jù)挖掘思路主要分為3步:
1. 整體把握CHIP-seq圖譜特征:peak/reads在基因組上的分布、peak在元件上的富集、peak在基因元件上的分布、peak的motif分析、peak距離TSS位點(diǎn)的距離分析、peak修飾基因的功能分析
2. 篩選具體差異peak和基因:差異 peak鑒定、非時(shí)序數(shù)據(jù)的分析策略、時(shí)序數(shù)據(jù)的分析策略、差異peak關(guān)聯(lián)基因的功能分析、差異peak關(guān)聯(lián)基因的PPI分析、感興趣目標(biāo)區(qū)域的可視化展示
3. CHIP-seq&轉(zhuǎn)錄組學(xué)關(guān)聯(lián)分析:Meta genes整體關(guān)聯(lián)、peak關(guān)聯(lián)基因與DEG對(duì)應(yīng)關(guān)聯(lián)、目標(biāo)區(qū)域和靶基因的篩選
后期視情況是否需要下游實(shí)驗(yàn)設(shè)計(jì)驗(yàn)證TF結(jié)合/組蛋白修飾的目標(biāo)區(qū)域和候選靶基因。
1、圖譜分析
(1)peak/reads在基因組上的分布
l Peak的分布就是蛋白與DNA互作圖譜。
l 不同蛋白對(duì)DNA的結(jié)合可以按照峰的寬窄和分布特征分為:
· narrow peak:即發(fā)生在DNA上特定的短序列,結(jié)合的區(qū)域很短。
· broad peak:這種類型的peak在DNA上呈彌 散的連續(xù)的分布,峰型較寬。
l 一般來說,轉(zhuǎn)錄因子的峰型都是narrow peak;而對(duì)于組蛋白修飾,有的峰型為 narrow peak,有的為broad peak。
· 可以通過調(diào)整參數(shù)或使用不同的軟件分別鑒定narrow peak及broad peak。
(2)信號(hào)的富集程度分析——覆蓋度累積曲線
對(duì)樣本比對(duì)結(jié)果reads累積情況進(jìn)行展示。一定長(zhǎng)度窗口(bin)上reads數(shù)進(jìn)行計(jì)數(shù),然后排序,再依次累加畫圖。input (能測(cè)到90 DNA片段)在基因組理論上是均勻分布,隨著測(cè)序深度增加趨近于直線,實(shí)驗(yàn)組在排序越高的窗口處reads累積速度越快,說明這些區(qū)域富集的越特異。
narrow peak :富集程度高;broad peak:富集程度低。
· 富集程度低不代表失敗, 如broad peak。
· 但是如果是轉(zhuǎn)錄因子, 富集程度低則需要謹(jǐn)慎對(duì)待。
(3)peak/reads的基因元件富集分析
· reference-point(relative to a point): 計(jì)算某個(gè)點(diǎn)的信號(hào)豐度
· scale-regions(over a set of regions): 把所有基因組區(qū)段縮放至同樣大小,然后計(jì)算其信號(hào)豐度。
- 基于信號(hào)富集的靶基因集分類鑒定(基于聚類算法)
(4)peak/reads的基因元件分布分析
(5)peak/reads與TSS的相對(duì)距離分布
轉(zhuǎn)錄因子、組蛋白修飾往往具有重要的轉(zhuǎn)錄調(diào)控功能,而TSS附近是主要的轉(zhuǎn)錄調(diào)控區(qū)域,因此判斷peak與TSS的位置關(guān)系有重要的意義。
(6)降維分析
將基因組分為等長(zhǎng)窗口(bins),計(jì)算各樣本各窗口內(nèi)的Reads覆蓋情況并進(jìn)行標(biāo)準(zhǔn)化。基于此數(shù)據(jù)進(jìn)行相關(guān)性、聚類和PCA分析。
(7)motif分析
Motif為一段有特征的DNA短序列,主要為轉(zhuǎn)錄因子的識(shí)別位點(diǎn),不同的motif對(duì)應(yīng)不同的轉(zhuǎn)錄因子。
· 根據(jù)motif可以推測(cè)結(jié)合的轉(zhuǎn)錄因子。
· 已知轉(zhuǎn)錄因子則分析該轉(zhuǎn)錄因子識(shí)別的序列特征。
(8)peak的基因注釋和功能分析
· ORA
· GSEA: 可以按照peak信號(hào)強(qiáng)度排序
2、差異peak分析
(1)非時(shí)間序列數(shù)據(jù):
(2)時(shí)間序列數(shù)據(jù):
(3)差異peak關(guān)聯(lián)基因的PPI分析
(4)感興趣基因的差異peak展示
3、組學(xué)關(guān)聯(lián)分析:CHIP-seq&轉(zhuǎn)錄組學(xué)
(1)Meta genes整體關(guān)聯(lián)
- 距離TSS位點(diǎn)不同距離的peak注釋到的基因的表達(dá)水平分析
- 不同表達(dá)水平的基因,peak的數(shù)量分布對(duì)比
轉(zhuǎn)錄水平倍數(shù)變化 vs. peak倍數(shù)變化
(2)差異peak基因-DEG對(duì)應(yīng)關(guān)聯(lián):篩選關(guān)鍵目的基因
- peak關(guān)聯(lián)基因與差異表達(dá)基因的重疊分析。
- peak關(guān)聯(lián)基因可以是peak注釋到啟動(dòng)子區(qū),TSS±10kb區(qū)的基因,也可以來自已 知公共數(shù)據(jù)庫的注釋,如Human Enhancer Disease Database (HEDD)。
- 九象限圖法