《Nature Methods》是專門用來對生命科學(xué)研究領(lǐng)域具有顯著性意義的新方法和研究技術(shù)改進(jìn)的經(jīng)典雜志。單細(xì)胞轉(zhuǎn)錄組測序是2019年不折不扣的熱點(diǎn)領(lǐng)域,截至2019年9月,Nature Methods總共發(fā)表了10篇關(guān)于單細(xì)胞轉(zhuǎn)錄組測序相關(guān)的研究報(bào)道。本期,小編和大家一起分享這些重要的研究成果。
1.用于評估單細(xì)胞RNA-seq數(shù)據(jù)批次效應(yīng)的工具
來自德國計(jì)算生物學(xué)研究所的研究人員發(fā)表了“A test metric for assessing single-cell RNA-seq batch correction”的研究報(bào)道。該研究開發(fā)了一個(gè)強(qiáng)大、靈敏度高的基于k-nearest-neighbor批次效應(yīng)評價(jià)工具(kBET; https://github.com/theislab/kBET )。研究人員使用kBET來評估常用的批次回歸和標(biāo)準(zhǔn)化方法,并量化其在保留生物變異性的同時(shí)去除批次效應(yīng)的程度。這對未來的數(shù)據(jù)集成工作(如Human Cell Atlas計(jì)劃)具有重要意義。
圖1 批次類型和kBET
2.用于改善scRNA-seq數(shù)據(jù)可視化的基于快速內(nèi)嵌的t-SNE工具
t-SNE是一種常見的scRNA-seq數(shù)據(jù)可視化工具,但對于大數(shù)據(jù)背景時(shí)適用有限。來自耶魯大學(xué)數(shù)據(jù)應(yīng)用中心的研究人員發(fā)表了“Fast interpolation-based t-SNE for improved visualization of single-cell RNA-seq data”的研究報(bào)道。該研究大大加速了t-SNE分析速度,避免了對數(shù)據(jù)下采樣的需求,從而允許稀有細(xì)胞群的可視化。此外,研究人員基于一維t-SNE實(shí)現(xiàn)了針對scRNA-seq的熱圖樣式可視化,以同時(shí)可視化數(shù)千個(gè)基因的表達(dá)模式。
軟件在線鏈接:https://github.com/KlugerLab/FIt-SNE和https://github.com/KlugerLab/t-SNE-Heatmaps。
3.使用單細(xì)胞數(shù)據(jù)譜對bulk基因組數(shù)據(jù)的細(xì)胞組成分析
來自以色列特拉維夫大學(xué)的研究人員發(fā)表了“Cell composition analysis of bulk genomics using single-cell data”的研究。該研究引入了一種基于反卷積算法的細(xì)胞群體圖譜(CPM)工具,其利用參考scRNA-seq譜來推斷大量轉(zhuǎn)錄組數(shù)據(jù)('scBio'CRAN R-package)中細(xì)胞類型和狀態(tài)的組成。通過對流感病毒感染小鼠的肺個(gè)體差異的分析揭示,細(xì)胞豐度和臨床癥狀之間的關(guān)系是細(xì)胞狀態(tài)特異性的,其沿著細(xì)胞活化狀態(tài)的連續(xù)性逐漸變化。在隨后的實(shí)驗(yàn)中證實(shí)了這種逐漸變化,并且通過數(shù)學(xué)模型進(jìn)一步解釋了其中臨床結(jié)果與激活過程中的細(xì)胞狀態(tài)動態(tài)相關(guān)。該結(jié)果證明了CPM在重建異質(zhì)組織內(nèi)細(xì)胞狀態(tài)的連續(xù)譜中的能力。
圖2 CPM算法流程模式圖
4.使用深度遞歸學(xué)習(xí)從單細(xì)胞轉(zhuǎn)錄組學(xué)中對細(xì)胞類型組成進(jìn)行可擴(kuò)展分析
從單細(xì)胞組學(xué)數(shù)據(jù)中識別細(xì)胞類型是單細(xì)胞研究的重中之重。來自加州大學(xué)藥物化學(xué)系的研究人員發(fā)表題為“Scalable analysis of cell-type composition from single-cell transcriptomics using deep recurrent learning”的研究,提出了一種稱為scScope的,可擴(kuò)展的,基于深度學(xué)習(xí)的方法。該方法可以從數(shù)百萬個(gè)嘈雜的單細(xì)胞基因表達(dá)譜中準(zhǔn)確、快速地鑒定細(xì)胞類型組成。
圖3 scScope分析框架及模擬數(shù)據(jù)集的表現(xiàn)
5.評估單細(xì)胞轉(zhuǎn)錄組學(xué)的關(guān)聯(lián)度量
由于scRNA-seq獨(dú)特?cái)?shù)據(jù)特性,從單細(xì)胞轉(zhuǎn)錄組學(xué)中鑒定基因-基因和細(xì)胞-細(xì)胞關(guān)系的最佳關(guān)聯(lián)方法仍不清楚。來自哥倫比亞大學(xué)邁克爾史密斯實(shí)驗(yàn)室的研究人員發(fā)表題為“Evaluating measures of association for single-cell transcriptomics”的研究。該研究對17種關(guān)聯(lián)度量算法進(jìn)行了大規(guī)模的評估,評價(jià)了它們重建細(xì)胞網(wǎng)絡(luò)的能力,相同類型的聚類細(xì)胞以及將細(xì)胞類型特異性轉(zhuǎn)錄與疾病聯(lián)系起來的能力。該研究表明,計(jì)算組成數(shù)據(jù)向量之間比例關(guān)系的比例度量方法,來描述兩個(gè)變量之間的相關(guān)性是跨數(shù)據(jù)集和測試的最佳表現(xiàn)方法。該分析為單細(xì)胞轉(zhuǎn)錄組學(xué)中的基因和細(xì)胞網(wǎng)絡(luò)分析提供了指導(dǎo)。
圖4 不同關(guān)聯(lián)方法對已知細(xì)胞類型聚類準(zhǔn)確性結(jié)果
6. 使用混合對照實(shí)驗(yàn)建立單細(xì)胞RNA測序分析標(biāo)準(zhǔn)
在單細(xì)胞轉(zhuǎn)錄組研究領(lǐng)域,由于缺乏標(biāo)準(zhǔn)基準(zhǔn)數(shù)據(jù)集使研究人員難以系統(tǒng)地比較許多可用方法的性能。來自沃爾特和伊麗莎霍爾醫(yī)學(xué)研究所的研究人員發(fā)表題為“Benchmarking single cell RNA-sequencing analysis pipelines using mixture control experiments”的研究。該研究通過對單細(xì)胞和細(xì)胞或RNA的混合物產(chǎn)生了一個(gè)多達(dá)五種不同的癌細(xì)胞系的“假細(xì)胞”庫。使用基于液滴和基于板的scRNA-seq方案,生成14個(gè)數(shù)據(jù)集。隨后,該研究比較了3,913種數(shù)據(jù)分析方法組合,用于從歸一化到聚類,軌跡分析和數(shù)據(jù)整合,提出適合不同類型數(shù)據(jù)的分析方法。該研究的數(shù)據(jù)和分析提供了一個(gè)用于對最常見的scRNA-seq分析步驟進(jìn)行基準(zhǔn)測試的全面框架。
圖5 實(shí)驗(yàn)設(shè)計(jì)思路及標(biāo)準(zhǔn)分析流程
7.MULTI-seq:基于脂質(zhì)標(biāo)記的多樣本單細(xì)胞RNA測序方法
多樣本標(biāo)記對于降低單細(xì)胞RNA測序成本和鑒定多細(xì)胞率等都非常重要。來自加州大學(xué)舊金山分校藥物化學(xué)系的研究人員發(fā)表“MULTI-seq: sample multiplexing for single-cell RNA sequencing using lipid-tagged indices”的研究。該研究建立了一種稱為MULTI-seq的方法:使用脂質(zhì)標(biāo)記indices進(jìn)行單細(xì)胞和單核RNA測序的多樣本標(biāo)記。MULTI-seq reagents可憑借易進(jìn)入的質(zhì)膜對來自任何物種的任何細(xì)胞類型或細(xì)胞核進(jìn)行條形碼編碼。該方法涉及最少的樣品處理,從而保持細(xì)胞活力和內(nèi)源基因表達(dá)模式。當(dāng)使用MULTI-seq條形碼對不同樣本的細(xì)胞進(jìn)行標(biāo)記分類時(shí),可通過雙重鑒定和具有低RNA含量的細(xì)胞回收來改善數(shù)據(jù)質(zhì)量。
圖6 MULTI-seq設(shè)計(jì)原理及流程
8.異質(zhì)單細(xì)胞RNA-seq數(shù)據(jù)集的聯(lián)合分析
單細(xì)胞RNA測序數(shù)據(jù)在實(shí)際運(yùn)用中可能會涉及到不同個(gè)體,不同條件和組織間的多樣本比較。為鑒定異質(zhì)數(shù)據(jù)集下的特征細(xì)胞亞型挖掘,來自哈佛醫(yī)學(xué)院生物醫(yī)學(xué)信息學(xué)系的研究人員發(fā)表題為“Joint analysis of heterogeneous single-cell RNA-seq dataset collections”的研究,開發(fā)了一種稱為Conos的方法。該方法是一種依賴于多個(gè)可信樣本間映射來構(gòu)建連接所有細(xì)胞全局圖的方法。該圖能夠識別多樣本或圖集規(guī)模集合中的特征細(xì)胞簇和數(shù)據(jù)集之間的信息關(guān)聯(lián)。
圖7 Conos法數(shù)據(jù)整合原理示意圖及BM樣本結(jié)果圖
9.通過單細(xì)胞表達(dá)相關(guān)性分析構(gòu)建發(fā)育組織的基因表達(dá)圖譜
果蠅翼盤已成為發(fā)現(xiàn)關(guān)鍵信號通路和對發(fā)育過程理解的基本模型系統(tǒng)。然而,缺乏該組織中基因表達(dá)的完整圖譜。來自德國癌癥研究中心的研究人員發(fā)表題為“Gene expression atlas of a developing tissue by single cell expression correlation analysis”的研究。為了獲得翼盤中的基因表達(dá)圖譜,研究人員采用單細(xì)胞RNA測序(scRNA-seq)并開發(fā)了基于基因表達(dá)相關(guān)性而非細(xì)胞作圖的分析scRNA-seq數(shù)據(jù)的方法。該方法能夠計(jì)算翼盤中所有檢測到的基因的表達(dá)圖譜,并發(fā)現(xiàn)具有空間限制表達(dá)模式的824個(gè)基因。該方法鑒定具有相似表達(dá)模式和功能相關(guān)性的基因簇。作為概念證明,該研究描述了先前未研究的基因CG5151,并表明它調(diào)節(jié)Wnt信號傳導(dǎo)通路。該方法將能夠利用scRNA-seq數(shù)據(jù)進(jìn)行發(fā)育過程中產(chǎn)生未分化組織的表達(dá)圖譜構(gòu)建。
圖8 翼盤SPG細(xì)胞鑒定及marker基因表達(dá)
10.轉(zhuǎn)換學(xué)習(xí)用于單細(xì)胞轉(zhuǎn)錄組的數(shù)據(jù)去噪
單細(xì)胞RNA測序(scRNA-seq)數(shù)據(jù)嘈雜且稀疏。為降低數(shù)據(jù)噪音,來自賓夕法尼亞大學(xué)統(tǒng)計(jì)系的研究人員發(fā)表題為“Data denoising with transfer learning in single-cell transcriptomics”的研究。在該研究中,研究人員表明跨數(shù)據(jù)集的轉(zhuǎn)換學(xué)習(xí)顯著提高了數(shù)據(jù)質(zhì)量。通過將深度自動編碼器與貝葉斯模型耦合,SAVER-X方法從不同實(shí)驗(yàn)室,不同條件和不同物種的數(shù)據(jù)中提取可轉(zhuǎn)移的基因-基因關(guān)系,以實(shí)現(xiàn)對新的目標(biāo)數(shù)據(jù)集進(jìn)行去噪。
圖9 SAVER-X轉(zhuǎn)移學(xué)習(xí)框架
平均每月發(fā)表超過一篇,單細(xì)胞轉(zhuǎn)錄組相關(guān)的研究方法在《Nature Methods》的展現(xiàn)足見單細(xì)胞轉(zhuǎn)錄組學(xué)的熱門與重要。相信在接下來的時(shí)間里,該領(lǐng)域的成果還會持續(xù)上榜。單細(xì)胞轉(zhuǎn)錄組學(xué),任重而道遠(yuǎn),前途也無量。