斯坦福大學(xué)醫(yī)學(xué)院的遺傳學(xué)教授Michael Snyder及其同事利用Pacific Biosciences系統(tǒng),對(duì)三個(gè)家庭成員的類(lèi)淋巴母細(xì)胞轉(zhuǎn)錄組進(jìn)行了測(cè)序,并將獲得的reads與Illumina平臺(tái)上獲得的較短reads進(jìn)行比較。通過(guò)這些轉(zhuǎn)錄組,他們開(kāi)發(fā)出一名家庭成員的等位基因特異的全長(zhǎng)轉(zhuǎn)錄組。
斯坦福大學(xué)的研究人員利用一種基于long-read的方法,生成了個(gè)人的轉(zhuǎn)錄組。這項(xiàng)成果于近日發(fā)表在《美國(guó)國(guó)家科學(xué)院院刊》上。
文章的通訊作者是斯坦福大學(xué)醫(yī)學(xué)院的遺傳學(xué)教授Michael Snyder。他的實(shí)驗(yàn)室主要利用各種方法來(lái)分析基因組及調(diào)控網(wǎng)絡(luò)。他們的研究對(duì)象包括酵母和人類(lèi)。Snyder教授曾在《Cell》、《Science》、《Nature》等雜志上發(fā)表了多篇具有影響力的文章。
在這項(xiàng)研究中,Snyder及其同事利用Pacific Biosciences系統(tǒng),對(duì)三個(gè)家庭成員的類(lèi)淋巴母細(xì)胞轉(zhuǎn)錄組進(jìn)行了測(cè)序,并將獲得的reads與Illumina平臺(tái)上獲得的較短reads進(jìn)行比較。通過(guò)這些轉(zhuǎn)錄組,他們開(kāi)發(fā)出一名家庭成員的等位基因特異的全長(zhǎng)轉(zhuǎn)錄組。他們能夠區(qū)分兩個(gè)等位基因,即使是復(fù)雜的基因如HLA。
研究人員在文章中寫(xiě)道:“據(jù)我們所知,我們生成了最深且最長(zhǎng)的單分子long-read數(shù)據(jù)集。”他們認(rèn)為,這種個(gè)人的轉(zhuǎn)錄組,將對(duì)了解個(gè)體生物學(xué)和疾病很重要。
Snyder及其同事利用PacBio平臺(tái),對(duì)GM12878細(xì)胞系的大約711,000個(gè)環(huán)化一致分子(circular consensus read molecules)進(jìn)行測(cè)序。他們產(chǎn)生了較長(zhǎng)的reads(平均讀長(zhǎng)為1,188 bp),這比去年他們?cè)凇禢ature Biotechnology》上展示的人體器官panel的數(shù)據(jù)集更長(zhǎng)(平均讀長(zhǎng)為999.9 bp)。
他們也指出,盡管兩個(gè)數(shù)據(jù)集都同樣產(chǎn)生了較短的分子(長(zhǎng)度介于0.8 kb和1.3 kb),但是現(xiàn)有的數(shù)據(jù)集更好地代表了長(zhǎng)于1.7 kb的分子。
此外,這個(gè)斯坦福的團(tuán)隊(duì)也在Illumina的平臺(tái)上對(duì)100 M個(gè)101 bp的雙端reads進(jìn)行測(cè)序,并利用Cufflinks開(kāi)展分析。
這兩種技術(shù)都發(fā)現(xiàn)了約99,000個(gè)帶注釋的外顯子-外顯子接頭,且Illumina的reads發(fā)現(xiàn)了額外92,000個(gè)注釋接頭,而PacBio的reads發(fā)現(xiàn)了額外992個(gè)。此外,對(duì)于22,600個(gè)被Gencode歸為蛋白編碼基因或lincRNA的剪接基因,long-read的單分子測(cè)序和101 bp的雙端測(cè)序同時(shí)鑒定出其中的9,200個(gè)。long-read還發(fā)現(xiàn)了40個(gè)基因,雙端測(cè)序發(fā)現(xiàn)了6,400個(gè)基因,而還有7,000個(gè)基因利用兩種方法都未發(fā)現(xiàn)。
研究人員推測(cè),由于環(huán)狀一致read的產(chǎn)生需要讀長(zhǎng)至少是cDNA長(zhǎng)度的兩倍,故consensus split-mapped molecules(CSMM)不包含大量較長(zhǎng)的基因。
研究人員表示,轉(zhuǎn)錄組學(xué)研究的目標(biāo)是能夠指定表達(dá)RNA分子的等位基因。他們認(rèn)為,long-read測(cè)序應(yīng)該能夠確定影響單個(gè)RNA分子的每個(gè)SNV。
為了追蹤在GM12878子細(xì)胞系中發(fā)現(xiàn)的這些等位基因的來(lái)源,他們合并了GM12891和GM12892母細(xì)胞系的數(shù)據(jù),并研究了子代中存在的SNV是否存在于親代數(shù)據(jù)中。
通過(guò)主成分分析,他們能夠分離出兩個(gè)等位基因。對(duì)于166個(gè)注釋有兩個(gè)雜合SNP的基因,研究人員發(fā)現(xiàn)其中的158個(gè)有兩個(gè)或以上的SNP,2個(gè)基因有一個(gè)SNP,而6個(gè)基因似乎不是雜合的。
一些基因,尤其是HLA基因,包含多個(gè)SNP,而對(duì)于它們,研究人員基本能夠確定相位!凹词故菑(fù)雜的基因(如HLA基因,其序列可能與參考序列相差甚遠(yuǎn)),兩個(gè)等位基因通常也是清晰可辨的,”Snyder及其同事寫(xiě)道。
原文檢索
Defining a personal, allele-specific, and single-molecule long-read transcriptome
Published online before print June 24, 2014, doi: 10.1073/pnas.1400447111 PNAS June 24, 2014
了解PacBio單分子測(cè)序儀的更多信息