玩轉(zhuǎn)數(shù)據(jù)庫(kù),助你發(fā)牛文!
癌癥研究究竟有多難?讓我們來(lái)捋一下基本思路:首先,要有一定數(shù)量的高質(zhì)量腫瘤臨床樣本;其次……等一下,是不是在“首先”這一步就卡住了?癌癥研究中的高質(zhì)量的腫瘤樣本不但要有切除適當(dāng)?shù)哪[瘤瘤體和癌旁組織,還需要每個(gè)病人的各項(xiàng)病理指征、家族病史、治療手段、療效以及對(duì)病人不間斷的隨訪信息。要滿足這些苛刻的要求,無(wú)論對(duì)于戰(zhàn)斗在一線的臨床醫(yī)生,還是各大高校的科研人員都是十分困難的。難道真的沒(méi)有解決辦法嗎?當(dāng)然有!TCGA數(shù)據(jù)庫(kù),質(zhì)量高、樣本多,而且還是免費(fèi)的!【歡脫的傳送門:https://cancergenome.nih.gov/】
TCGA(The Cancer Genome Atlas),即癌癥和腫瘤基因圖譜計(jì)劃,是由美國(guó)國(guó)家癌癥和腫瘤研究所(NCI)和國(guó)家人類基因組研究所(NHGRI)聯(lián)合進(jìn)行的。該計(jì)劃通過(guò)應(yīng)用基因組分析技術(shù),特別是采用大規(guī)模的基因組測(cè)序,將人類全部癌癥(近期目標(biāo)為50種包括亞型在內(nèi)的腫瘤)的基因組變異圖譜繪制出來(lái),并進(jìn)行系統(tǒng)分析,旨在找到所有致癌和抑癌基因的微小變異,了解癌細(xì)胞發(fā)生、發(fā)展的機(jī)制,在此基礎(chǔ)上取得新的診斷和治療方法,最后勾畫出整個(gè)新型“預(yù)防癌癥的策略”。我們先來(lái)看看這個(gè)數(shù)據(jù)庫(kù)有多少干貨:
以肝癌為例,TCGA數(shù)據(jù)庫(kù)中一共包含377個(gè)肝癌樣本,全部包含高質(zhì)量的病理、化療、放療以及隨訪信息。其中375個(gè)樣本有SNV(單核苷酸多態(tài)性和短序列插入缺失突變)變異檢測(cè)結(jié)果、376個(gè)樣本有表達(dá)譜(包含mRNA和miRNA)數(shù)據(jù),376個(gè)樣本有CNV(拷貝數(shù)變異)芯片數(shù)據(jù)。除此之外,還有外顯子測(cè)序數(shù)據(jù)以及甲基化測(cè)序數(shù)據(jù)等等!小編語(yǔ):這個(gè)樣本量!這個(gè)信息量!資深生物狗表示hin雞凍有木有。!】
那我們?cè)倌贸鲆恍└韶泚?lái)展示如何利用TCGA數(shù)據(jù)庫(kù)進(jìn)行深度癌癥研究AND發(fā)大牛文章!再度歡脫的傳送門:Cell. 2016 Jan 28;164(3):550-63. http://dx.doi.org/10.1016/j.cell.2015.12.028】
膠質(zhì)瘤通常根據(jù)顯微鏡下細(xì)胞形態(tài)和一些病理特征臨床分類分級(jí),然后采取不同的治療方法。但是傳統(tǒng)分類法難以解釋某些現(xiàn)象,比如某些惡性程度高的腫瘤生存期很長(zhǎng),而某些分級(jí)較低的腫瘤的患者則很快死亡。本文的作者采用TCGA數(shù)據(jù)庫(kù)中1122個(gè)膠質(zhì)瘤樣本,對(duì)膠質(zhì)瘤常見(jiàn)的driver基因進(jìn)行了DNA突變、RNA表達(dá)譜以及表觀修飾等不同層面的分析,從分子層面給膠質(zhì)瘤的分類提供了新的思路,從而指導(dǎo)臨床上更精細(xì)的個(gè)性化治療。
下圖展示了利用異檸檬酸脫氫酶(isocitrate dehydrogenase, IDH)的DNA甲基化數(shù)據(jù)進(jìn)行聚類分析,揭示出膠質(zhì)瘤可以被分為不同的六個(gè)亞型(圖A);而利用RNAseq的表達(dá)量數(shù)據(jù)進(jìn)行聚類,膠質(zhì)瘤可以被分為四個(gè)亞群(圖B)。綜合兩種分析方法可以從分子層面繪制清晰直觀的Tumor Map(圖C)。
下圖展示了同樣包含野生型IDH的樣本在不同類型的膠質(zhì)瘤中顯示出不同的生存期(圖A)。通過(guò)進(jìn)一步分析發(fā)現(xiàn),之前根據(jù)表觀聚類分離出六種不同亞型在四類膠質(zhì)瘤群體里分布有明顯區(qū)別(圖B)。一些常見(jiàn)的癌癥Driver基因突變以及表達(dá)譜在四類膠質(zhì)瘤中也有明顯區(qū)別(圖C)。利用之前的表觀聚類,發(fā)現(xiàn)EReg基因(圖D)以及隨機(jī)驗(yàn)證的探針(圖E)也和之前的表觀聚類結(jié)果吻合的很好。
以上研究解釋了為何同樣包含野生型IDH的患者生存期會(huì)有極大的差別:DNA甲基化程度高的樣本腫瘤發(fā)展較為緩慢,而且甲基化程度低的樣本則進(jìn)展極快,表現(xiàn)出類似其他突變型的特征,而實(shí)質(zhì)上,它只是野生型突變的一個(gè)亞型。
【小編寄語(yǔ)】
大樣本、高質(zhì)量、多層面,這樣的數(shù)據(jù),無(wú)論對(duì)于腫瘤的基礎(chǔ)研究還是臨床應(yīng)用來(lái)說(shuō),無(wú)疑都是莫大的福音。TCGA就是這樣一個(gè)集合了以上所有閃光點(diǎn)的優(yōu)質(zhì)數(shù)據(jù)庫(kù)。高性價(jià)比的套路,比如利用TCGA數(shù)據(jù)進(jìn)行機(jī)制分析和挖掘+實(shí)驗(yàn)驗(yàn)證,再比如利用易獲得的小樣本實(shí)驗(yàn)+數(shù)據(jù)分析進(jìn)行潛在的marker篩選+TCGA大樣本驗(yàn)證,諸如此類等等等等任你DIY,發(fā)文章、搞產(chǎn)品、助攻臨床,統(tǒng)統(tǒng)妥妥滴!公共數(shù)據(jù)庫(kù),就像一個(gè)待發(fā)掘的寶藏,潛心挖掘潛心分析,相信它帶給我們的驚喜會(huì)越來(lái)越多。
長(zhǎng)按加關(guān)注