目前進(jìn)行細(xì)胞軌跡分析的方法和軟件非常之多,常見的軌跡分析主要是通過monocle軟件為代表的擬時(shí)序分析(pseudotime analysis)。事實(shí)上monocle提供了一套具有啟發(fā)意義的軌跡方法,通過簡單粗暴的方式試圖彌補(bǔ)這理想與現(xiàn)實(shí)的間隙。在monocle軟件里軌跡與圖譜是分離的,即TSNE/UMAP的圖譜以及另一個(gè)降維空間的軌跡。那么有沒有一種降維技術(shù)能夠把兩者結(jié)合起來呢?今天我們介紹的scanpy的PAGA(graph abstraction reconciles clustering with trajectory inference through a topogy preserving map of single cells)寄希望在保留細(xì)胞圖譜的基礎(chǔ)上完成細(xì)胞軌跡的推斷,從而在聚類核軌跡上實(shí)現(xiàn)了統(tǒng)一。
圖1 基于分區(qū)的圖抽象生成保留拓?fù)涞膯渭?xì)胞映射
PAGA可以被看作是一種易于解釋和穩(wěn)健的拓?fù)鋽?shù)據(jù)分析方法,通過高維基因表達(dá)數(shù)據(jù)降維后計(jì)算鄰域關(guān)系的相關(guān)距離度量來表示kNN圖。將kNN圖以期望的分辨率進(jìn)行分區(qū),其中分區(qū)表示連續(xù)的細(xì)胞群(partitions represent groups of connected cells)。為此,可以使用Louvain算法,當(dāng)然也可以通過其他方式進(jìn)行分區(qū)。接下來,PAGA圖通過將一個(gè)節(jié)點(diǎn)與每個(gè)分區(qū)關(guān)聯(lián)起來,并通過分區(qū)間連同性的統(tǒng)計(jì)度量的加權(quán)邊連接每個(gè)節(jié)點(diǎn)。然后,通過丟棄低權(quán)重的假邊,PAGA圖揭示了數(shù)據(jù)在選定分辨率下的去噪拓?fù),并揭示了其連接和斷開的區(qū)域。是不是感覺很繞,簡單來說就是,點(diǎn)代表一個(gè)細(xì)胞類群,兩點(diǎn)之間的連線代表兩個(gè)細(xì)胞類群之間有關(guān)系,線的長短反映兩個(gè)細(xì)胞類群在聚類圖上的位置關(guān)系(請(qǐng)選擇忽視),線的粗細(xì)表示得到的軌跡關(guān)系的置信度(請(qǐng)選擇重視),線越粗,置信度越高。
接下來,我們一起來看看scanpy中PAGA的效果怎么樣吧。
最近,Plass等人利用PAGA對(duì)來自21,612個(gè)細(xì)胞的scRNA-seq數(shù)據(jù)重建了整個(gè)成年動(dòng)物的細(xì)胞譜系。作者研究了使整體連通性最大化的樹狀子圖(通過逆PAGA連通性加權(quán)的G∗的最小生成樹),同時(shí),作者還展示了如何將PAGA用于生成具有多種分辨率的數(shù)據(jù)映射圖。同流形學(xué)習(xí)(連接的組織類型以斷開或重疊的形式出現(xiàn))相反,每個(gè)映射都保留了數(shù)據(jù)的拓?fù)。PAGA的多分辨率功能直接解決探索性數(shù)據(jù)分析,特別是對(duì)于單細(xì)胞數(shù)據(jù):需要更高細(xì)節(jié)的區(qū)域重新聚類。
圖2 PAGA應(yīng)用于整個(gè)扁蟲的圖譜
盡管PAGA圖中的連接通常對(duì)應(yīng)于實(shí)際的生物軌跡,但情況并不總是如此。這是PAGA應(yīng)用于kNN圖的結(jié)果,它只包含關(guān)于數(shù)據(jù)拓?fù)涞男畔。因此,我們不禁思考,既然每個(gè)生命從長遠(yuǎn)來看所有的細(xì)胞都來自一個(gè)細(xì)胞,是不是在一套數(shù)據(jù)集中可以設(shè)置一個(gè)遙遠(yuǎn)的點(diǎn)作為發(fā)育的起點(diǎn)呢?這樣是不是更能反映軌跡推斷的實(shí)際呢?
因此,有人考慮基于RNA速率的有向圖,用于存儲(chǔ)有關(guān)細(xì)胞轉(zhuǎn)變的信息。為了實(shí)現(xiàn)這一目的,我們將無向的PAGA連接性度量擴(kuò)展到此類有向圖,并使用它來定向PAGA圖中的邊。由于高維特征空間scRNA-seq數(shù)據(jù)的特殊性,直接擬合RNA速率向量是很困難的。
PAGA是否能夠提供了一種可以提取拓?fù)湫畔⒑蚏NA速率信息的方法?
接下來,通過對(duì)Wagner等人的斑馬魚數(shù)據(jù)進(jìn)行分析,將PAGA用來分析斑馬魚胚胎在不同發(fā)育時(shí)間點(diǎn)收集的53,181個(gè)細(xì)胞。PAGA圖準(zhǔn)確地獲取了時(shí)間進(jìn)展的鏈拓?fù),并且更容易解釋的?xì)胞類型譜系關(guān)系。通過對(duì)PAGA坐標(biāo)初始化ForceAtlas2布局自動(dòng)產(chǎn)生的單細(xì)胞數(shù)據(jù)。將精細(xì)細(xì)胞類型的PAGA圖與的粗線度圖進(jìn)行比較,再現(xiàn)了作者之前的結(jié)果。
圖3 PAGA應(yīng)用于斑馬魚胚胎數(shù)據(jù)
小編小結(jié)
scRNA-seq近些年的發(fā)展對(duì)生物醫(yī)學(xué)研究領(lǐng)域產(chǎn)生極大的影響。由此產(chǎn)生的數(shù)據(jù)集也是海量的,然而,對(duì)這些景觀(landscape)數(shù)據(jù)反映細(xì)胞異質(zhì)性和模式的算法分析,仍然面臨著巨大的挑戰(zhàn)。目前的計(jì)算方法通常以如下兩種方式之一來解決這一點(diǎn) :細(xì)胞聚類和細(xì)胞軌跡分析。雖然前者是大多數(shù)單細(xì)胞數(shù)據(jù)分析的基礎(chǔ),而后者可以更好地解釋連續(xù)表型和過程。PAGA基于圖形的分析方法把這兩種分析思路進(jìn)行了統(tǒng)一,先通過Louvain algorithm算法對(duì)細(xì)胞進(jìn)行降維,生成低緯度的聚類圖,基于聚類圖進(jìn)一步分析不同細(xì)胞類群之間的關(guān)系。所以,與其說PAGA是軌跡分析圖,不如說是軌跡關(guān)系圖。
參考文獻(xiàn)
F. Alexander Wolf et al,PAGA: graph abstraction reconciles clustering with trajectory inference through a topology preserving map of single cells.Genome Biol . 2019.doi:10.1186/s13059-019-1663-x.