大家好!為大家介紹一篇2022 年發(fā)表在Nucleic Acids Research上的文章,題目是“STRIDE: accurately decomposing and integrating spatial transcriptomics using single-cell RNA sequencing”。本文提出了使用一種名為“STRIDE”的解卷積新方法,通過整合scRNA-seq數(shù)據(jù)和空間轉(zhuǎn)錄組數(shù)據(jù),來解析空間轉(zhuǎn)錄組的每個(gè)spot的細(xì)胞類型組成。此外,該模型還可以對(duì)不同心臟組織切片進(jìn)行三維重建,從而形成心臟的三維模型。本文通訊作者為同濟(jì)大學(xué)的王晨飛教授,研究方向?yàn)閱渭?xì)胞及空間多組學(xué)生物信息學(xué)方法開發(fā)。
背景介紹
有研究表明,細(xì)胞異質(zhì)性不僅由其內(nèi)部調(diào)控網(wǎng)絡(luò)的影響,還受到其外部微環(huán)境的影響。目前,scRNA-seq技術(shù)的快速發(fā)展使得我們能更好理解細(xì)胞內(nèi)部調(diào)節(jié)網(wǎng)絡(luò)的運(yùn)轉(zhuǎn)機(jī)制。而在空間轉(zhuǎn)錄組上,雖然目前已開發(fā)了許多的解卷積模型來解析空間轉(zhuǎn)錄組中spot的細(xì)胞類型組成來幫助我們理解細(xì)胞外部微環(huán)境對(duì)細(xì)胞基因表達(dá)的影響,但現(xiàn)有的解卷積方法都依賴于marker基因,這可能會(huì)受到高drop-out率和一些不感興趣基因表達(dá)波動(dòng)的影響。其模型敏感性和特異性不高。因此,迫切需要一種能平衡敏感性和特異性的解卷積模型。
設(shè)計(jì)思路
在機(jī)器學(xué)習(xí)中,文本挖掘領(lǐng)域的一類最常見的主題模型(topic model)是隱狄利克雷分布,簡(jiǎn)稱LDA (Latent Dirichlet allocation)。其目的是為了從文檔中發(fā)現(xiàn)潛在的語義結(jié)構(gòu)。而在生物信息學(xué)中,大部分需要處理的單細(xì)胞基因表達(dá)矩陣數(shù)據(jù)存在稀疏性。又因?yàn)橹黝}模型能容忍數(shù)據(jù)的稀疏性并且具有很好的可解釋性,從而使得可以被應(yīng)用于處理scRNA-seq數(shù)據(jù)。
本文開發(fā)的解卷積方法STRIDE可以整合利用scRNA-seq數(shù)據(jù)對(duì)空間轉(zhuǎn)錄組數(shù)據(jù)每個(gè)spot進(jìn)行細(xì)胞類型解析。STRIDE首先使用LDA對(duì)帶注釋的scRNA-seq數(shù)據(jù)進(jìn)行主題建模,通過variational Bayes (VB)算法求解基因表達(dá)-主題分布和主題-細(xì)胞分布(即每種細(xì)胞類型潛在的基因表達(dá)模式)的參數(shù),最后再通過貝葉斯推斷得到細(xì)胞類型-主題分布。然后使用細(xì)胞類型-主題分布可以將scRNA-seq數(shù)據(jù)中的每個(gè)細(xì)胞分配到最可能的細(xì)胞類型,從而達(dá)到對(duì)scRNA-seq數(shù)據(jù)進(jìn)行細(xì)胞的分解的目的。
在空間轉(zhuǎn)錄組數(shù)據(jù)中每個(gè)spot的基因表達(dá)可以被看作是不同類型的多個(gè)細(xì)胞的混合物。所以,對(duì)于空間轉(zhuǎn)錄組數(shù)據(jù),先根據(jù)在scRNA-seq數(shù)據(jù)中獲得基因-主題分布使用LDA去估計(jì)spot-主題分布,而后聯(lián)合spot-主題分布和細(xì)胞類型-主題分布計(jì)算spot屬于每種細(xì)胞類型的概率,反過來就可以將這種概率看作每種細(xì)胞類型在spot中所占的比例,從而達(dá)到對(duì)ST數(shù)據(jù)進(jìn)行細(xì)胞的分解的目的。此外,STRIDE還提供幾個(gè)下游分析,包括特征(即主題)檢測(cè)和可視化,基于鄰域細(xì)胞群的空間聚類和區(qū)域識(shí)別,空間結(jié)構(gòu)的3D重建。圖1是整個(gè)方法的過程以及其下游分析。
圖1 STRIDE工作流程的示意圖
數(shù)據(jù)介紹
首先,作者從乳腺癌(BRCA)scRNA-seq數(shù)據(jù)模擬了三個(gè)ST數(shù)據(jù)集,具有已知細(xì)胞類型組成的合成混合物可以作為基準(zhǔn),用來測(cè)試 STRIDE 在分解細(xì)胞類型方面的性能。作者驗(yàn)證了主題建模發(fā)現(xiàn)特定細(xì)胞類型主題的能力,得出的28個(gè)不同的主題富含不同的細(xì)胞類型,GO注釋表明主題與特定細(xì)胞類型之間的有效關(guān)聯(lián)(圖2A)。接著,基于訓(xùn)練的相同數(shù)據(jù)集并驗(yàn)證,STRIDE可實(shí)現(xiàn)較高的細(xì)胞類型分配準(zhǔn)確度(圖2B)。作者將STRIDE模型和其他已發(fā)表方法進(jìn)行比較(圖2D-F),使用了Pearson’correlation系數(shù)評(píng)估模型預(yù)測(cè)和真實(shí)的一致性,以及計(jì)算組內(nèi)均方根誤差(RMSE)來評(píng)價(jià)模型的靈敏度和特異性,STRIDE均表現(xiàn)出最佳性能。最后,作者比較不同測(cè)序深度下STRIDE的魯棒性,如圖2G所示,STRIDE模型在6類測(cè)序深度的數(shù)據(jù)上預(yù)測(cè)值和真實(shí)值的相關(guān)性都是最大的,STRIDE模型的魯棒性高于其它解卷積模型。
圖2. 使用模擬數(shù)據(jù)對(duì)STRIDE的性能進(jìn)行基準(zhǔn)測(cè)試
為了考察STRIDE模型在真實(shí)數(shù)據(jù)集上的表現(xiàn)。作者將其應(yīng)用在小鼠小腦ST數(shù)據(jù)集上。因?yàn)樾∈笮∧X呈現(xiàn)明確定義的細(xì)胞類型層結(jié)構(gòu),因此可用于評(píng)估STRIDE模型的細(xì)胞類型分解性能。結(jié)果如圖3A,這與以前的研究結(jié)果(圖3B)一致,兩種類型的分子層中間神經(jīng)元MLI1和MLI2被映射到小腦皮質(zhì)的頂層和最外層。伯格曼細(xì)胞(bergmann)和普爾基涅細(xì)胞(purkinje)共定位于同一中間層—Purkinje層,而顆粒細(xì)胞(granule)定位于底層顆粒層—Granule層(圖3C)。少突膠質(zhì)細(xì)胞(oligodendrocytes)和星形膠質(zhì)細(xì)胞(astrocytes)分散在顆粒層下方(圖3D)。
圖3. STRIDE在小鼠小腦的應(yīng)用
此外,作者還將STRIDE模型應(yīng)用于人類鱗狀細(xì)胞癌微環(huán)境中腫瘤細(xì)胞研究其異質(zhì)性。STRIDE計(jì)算得到spot的細(xì)胞類型比例(圖4A),進(jìn)一步根據(jù)spot細(xì)胞類型比例的相似性進(jìn)行空間聚類(圖4B),共獲得6個(gè)簇。其中C4簇和C2簇分別代表著纖維血管生態(tài)位和免疫相關(guān)前端,而C3簇主要由上皮細(xì)胞(epithelial)和惡性細(xì)胞(malignant)構(gòu)成,由此可以將C3簇區(qū)域視為腫瘤區(qū)域,這與之前的研究結(jié)果一致。作者同時(shí)探討了免疫細(xì)胞亞群分布與腫瘤相對(duì)位置之間的關(guān)系,表明STRIDE解卷積可以定義空間域,并進(jìn)一步表征腫瘤微環(huán)境中細(xì)胞類型的空間分布模式。
由于腫瘤細(xì)胞通常表現(xiàn)出高度的異質(zhì)性,所以作者利用上述的空間域來研究腫瘤細(xì)胞異質(zhì)性與其空間位置之間的潛在關(guān)系。作者將C3定義為腫瘤核心區(qū)域,C1,C4,C5作為腫瘤邊緣區(qū)域(圖4D)。然后分別對(duì)兩個(gè)區(qū)域進(jìn)行了差異基因表達(dá)分析和功能富集分析。結(jié)果表明腫瘤核心和腫瘤邊緣區(qū)域顯示出不同的hallmark通路。腫瘤核心區(qū)的特點(diǎn)是雌激素反應(yīng)和膽固醇穩(wěn)態(tài)通路的富集,據(jù)以前的研究,這在鱗狀細(xì)胞癌的發(fā)生中起著重要作用。相比之下,邊緣區(qū)域特異性基因在干擾素相關(guān)的信號(hào)通路中高度富集,這與之前研究的結(jié)果一致。綜上所述,STRIDE的細(xì)胞類型解卷積結(jié)果有助于識(shí)別空間局部區(qū)域。
圖4. 描述人鱗狀細(xì)胞癌微環(huán)境的異質(zhì)性
為了驗(yàn)證STRIDE在不同生物系統(tǒng)中的應(yīng)用,作者還將其應(yīng)用于器官發(fā)育的空間組織研究。作者收集了6.5–7個(gè)孕周心臟的scRNA-seq數(shù)據(jù)來訓(xùn)練模型,并對(duì)三個(gè)發(fā)育階段(4.5–5、6.5和9個(gè)孕周)的所有樣本進(jìn)行細(xì)胞類型解卷積。結(jié)果如圖5A所示,在所有三個(gè)階段中心房細(xì)胞(atrial)和心室肌細(xì)胞(ventricular cardiomyocytes)被預(yù)測(cè)位于上心室和下心室。心外膜細(xì)胞(epicardial)也被正確地映射到心臟的外層,即心外膜(epicardium)。通過STRIDE模型繪制的細(xì)胞類型映射與此前通過整合ISS和scRNA-seq生成的空間細(xì)胞類型圖高度一致(圖5B)。綜上所述,STRIDE可以推斷不同的時(shí)間點(diǎn)的組織細(xì)胞類型混合模式。
圖5. STRIDE在發(fā)育中的人類心臟上的應(yīng)用
為了進(jìn)一步展示STRIDE模型生成主題的應(yīng)用,作者開始探索利用STRIDE解卷積結(jié)果去對(duì)多個(gè)樣本進(jìn)行綜合分析。主要思想是根據(jù)spot的主題分布特征將相鄰兩張slide上的spot進(jìn)行配對(duì),即在兩個(gè)slide上的具有相似細(xì)胞組成的spot進(jìn)行映射配對(duì)。結(jié)果如圖6A所示,在心室區(qū)域(ventricle)內(nèi)主要包含心室肌細(xì)胞(ventricular cardiomyocytes)的spot之間互相映射,在左心房和右心房中的心房細(xì)胞(atrial cardiomyocytes)在局部區(qū)域被正確映射。隨后作者將這些slide按順序排序,從而構(gòu)建了人類心臟的三維模型(圖6B)。使用這種方法對(duì)發(fā)育中的人類心臟進(jìn)行三維重建僅需要細(xì)胞的空間表達(dá)信息即可,不需要基于圖像的配準(zhǔn),由此可見STRIDE模型的應(yīng)用廣泛。
圖6. 發(fā)育中的人體心臟的三維模型重建
總結(jié)
作者將機(jī)器學(xué)習(xí)中的主題建模模型應(yīng)用于整合單細(xì)胞數(shù)據(jù)和空間轉(zhuǎn)錄組數(shù)據(jù)來解析空間轉(zhuǎn)錄組的細(xì)胞類型組成,開發(fā)了一種高靈敏性和高特異性且魯棒性很好的方法STRIDE。這種方法不僅能夠分析空間轉(zhuǎn)錄組中spot的細(xì)胞類型組成,而且其衍生的主題分布還能夠用于特征(即主題)檢測(cè)和可視化,空間聚類和空間域的識(shí)別,以及重建心臟的三維模型等。STRIDE利用單細(xì)胞數(shù)據(jù)來解析空間轉(zhuǎn)錄組數(shù)據(jù)的細(xì)胞類型組成,從而研究細(xì)胞外部的微環(huán)境對(duì)細(xì)胞基因表達(dá)的影響,為研究細(xì)胞的異質(zhì)性提供了極大的便利。
原文鏈接
https://academic.oup.com/nar/advance-article/doi/10.1093/nar/gkac150/6543547
* 本文經(jīng)楊朝勇課題組授權(quán)轉(zhuǎn)發(fā)。