基因芯片 vs RNA-seq哪個好 ?
最近幾年二代測序(又叫NGS)很火,而且價格越來越便宜,原來都用芯片檢測mRNA、miRNA、LncRNA表達量的,好像不少都換用RNA-seq了。那么,到底選擇哪種更好呢?今天就來回答下這個問題。一句話—— 看研究目的。
常見誤區(qū)一:
測序的準確性高,獲得的信息更豐富
對,但又不對。
首先,大家需要明確,檢測到和準確分析基因表達量的概念是不同的,只有mapping到基因上的reads達到一定數(shù)量,才能得到相對準確的分析結(jié)果。因此RNA-Seq能檢測到多少可靠的信息完全取決于測序深度,測序深度,測序深度!不同于芯片的雜交法,RNA-seq是通過讀數(shù)來檢測,讀數(shù)多(即測序深度深)代表著RNA-seq的采樣率高。采樣率低了準確度自然就低了。
那么有沒有一個實驗能說明芯片和RNA-seq之間數(shù)據(jù)準確度的差異呢?
發(fā)表在PNAS上面的這篇文章就幫大家做了一個對比(PNAS 2011, 108(9):3707-3712.)。圖中綠色點/黑色線是測序得到的數(shù)據(jù),紅色點/紅色線是芯片得到的數(shù)據(jù)。在~50M reads數(shù)據(jù)量的情況下,當基因表達豐度較高時(橫坐標RPKM較大時),兩者之間的數(shù)據(jù)質(zhì)量都是非常好的(縱坐標CoV即變異系數(shù)越小,數(shù)據(jù)質(zhì)量越高),但當基因表達豐度變低時(橫坐標RPKM較小時),RNA-seq的數(shù)據(jù)質(zhì)量就急劇下降了,而芯片則仍然維持著高水準。這篇文章得到的結(jié)論是:~80%以上的基因,RNA-seq的數(shù)據(jù)質(zhì)量/可信度都低于芯片。市場上最流行的的6G數(shù)據(jù)量的RNA-seq,其實就是40M reads或者20M paired reads,對于研究高表達豐度的基因來說,差不多是夠用了。但是對于中、低表達豐度轉(zhuǎn)錄本就不夠用了。
常見誤區(qū)二:
RNA-seq可以同時檢測已知和未知基因,基因芯片只能檢測已知基因,這是一個巨大的局限。
首先,這個觀點的一個潛在假設(shè)是,每次測序都能夠發(fā)現(xiàn)一些未知分子。但對于人、大鼠、小鼠以及其他一些模式生物,該發(fā)現(xiàn)的基因基本上都已經(jīng)發(fā)現(xiàn)完了。因此基因是否已知,在很多情況下并非重點,重點在于該基因在您研究的領(lǐng)域中功能是否已知。芯片上已知基因的功能大多都還不清楚,只是盲目地去追求發(fā)現(xiàn)新分子并不可取。
在探索性研究和非模式生物研究中,RNA-seq才是更合適的選擇。
常見誤區(qū)三:
RNA-seq現(xiàn)在已經(jīng)很便宜了,比基因芯片還便宜很多。
測序中收費標準之一來源于數(shù)據(jù)量(即測序深度),剛剛說了,市場上最流行的的RNA-seq服務數(shù)據(jù)量是6G/樣本,即40M reads或者20M paired reads ,這時候確實比很多芯片都便宜了。但是如果希望更準確檢測中、低豐度RNA,就需要更深度的測序保證數(shù)據(jù)可靠性,這就會導致測序成本急劇上升。下表幫大家總結(jié)了一些常見研究的測序數(shù)據(jù)要求。Nature biotechnology有篇文章指出,如想要檢測lncRNA、轉(zhuǎn)錄異構(gòu)體等一般表達豐度極低的轉(zhuǎn)錄本,至少需要300M reads的測序量才能達到80%的數(shù)據(jù)準確度(Nature biotechnology, 2014, 32(9): 903-914.)。
那么芯片又如何呢?拿Affymetrix HTA系列的芯片來說,它的數(shù)據(jù)量,可是相當于480M reads測序深度!哇,好像看到了好多錢
常見誤區(qū)四:
RNA-seq在測表達量的同時還可以發(fā)現(xiàn)突變,基因芯片不能。
基因芯片(這里專指測RNA的表達譜芯片)確實不能發(fā)現(xiàn)突變。RNA-seq是通過測序來檢測RNA豐度的,確實可以獲得序列信息,但是因為測序本身有錯誤率,而RNA-seq常做的測序深度很低,得到的突變信息其實并不準確。要想準確,就需要極高的測序深度,那么又回到老問題了,成本基本是不可接受的。
那么有些同學要問啦,市場上的基因芯片有好多種啊,不知從何入手?小編下期再給大家聊聊基因芯片類型的選擇。
長按加關(guān)注