高通量單細(xì)胞組學(xué)數(shù)據(jù)的一個(gè)顯著性特點(diǎn)就是數(shù)據(jù)量大,一次能反映的細(xì)胞數(shù)量多。因此,通過降維和可視化去展示細(xì)胞數(shù)據(jù)特征是一個(gè)非常重要的工作。翻開各類發(fā)表的單細(xì)胞組學(xué)文章,不管是CNS的還是其他,幾乎所有的結(jié)果中,映入眼簾的第一張圖片通常是數(shù)據(jù)結(jié)果的降維圖形化展示。
圖1 PBMC細(xì)胞單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)展示圖
實(shí)現(xiàn)高維數(shù)據(jù)可視化的理論基礎(chǔ)是基于降維算法。降維算法一般分為兩類:那些尋求在數(shù)據(jù)中保存距離結(jié)構(gòu)的,以及傾向于保存局部距離而不是全局距離的。PCA[1]、MDS[2]等算法屬于前者,t-SNE[3,4]、diffusion maps[5]等算法都屬于后者。
對(duì)高維單細(xì)胞數(shù)據(jù)的可視化展示,以t-SNE為代表的非線性降維技術(shù),由于其能夠避免集群表示的過度擁擠,在重疊區(qū)域上能表示出不同的集群而被廣泛運(yùn)用。然而,任何技術(shù)方法都不是完美的,t-SNE也一樣,它的局限性體現(xiàn)在丟失大規(guī)模信息(集群間關(guān)系)、計(jì)算時(shí)間較慢以及無法有效地表示非常大的數(shù)據(jù)集[6]等方面。
那么,有沒有其它方法能在一定程度上克服這些弱點(diǎn)呢?
UMAP就是這樣一個(gè)能解決這些問題的降維和可視化的工具。
統(tǒng)一流形逼近與投影(UMAP,Uniform Manifold Approximation and Projection)是一種新的降維流形學(xué)習(xí)技術(shù)。UMAP是建立在黎曼幾何和代數(shù)拓?fù)淅碚摽蚣苌系摹MAP是一種非常有效的可視化和可伸縮降維算法。在可視化質(zhì)量方面,UMAP算法與t-SNE具有競(jìng)爭(zhēng)優(yōu)勢(shì),但是它保留了更多全局結(jié)構(gòu)、具有優(yōu)越的運(yùn)行性能、更好的可擴(kuò)展性。此外,UMAP對(duì)嵌入維數(shù)沒有計(jì)算限制,這使得它可以作為機(jī)器學(xué)習(xí)的通用維數(shù)約簡(jiǎn)技術(shù)。
從上述定義可以看到,UMAP對(duì)于單細(xì)胞這類大數(shù)據(jù)、高維數(shù)據(jù)來說,是一個(gè)正中下懷的好工具。那么,在真實(shí)數(shù)據(jù)運(yùn)用中,這種優(yōu)勢(shì)能體現(xiàn)出來嗎?以下我們通過實(shí)際數(shù)據(jù)對(duì)比進(jìn)行展示。
1.小數(shù)據(jù)集中,t-SNE和UMAP差別不是很大
我們分別以個(gè)和個(gè)單細(xì)胞的轉(zhuǎn)錄組數(shù)據(jù)為基礎(chǔ),分別通過和進(jìn)行降維可視化展示,得到如下圖:
圖2 200和500個(gè)細(xì)胞的單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)的t-SNE和UMAP降維分群圖
可以看到,在小數(shù)據(jù)集下,兩者對(duì)細(xì)胞集群的展示上,效果比較類似,基本能把不同類型的細(xì)胞群進(jìn)行區(qū)分。所以,當(dāng)數(shù)據(jù)集比較小的情景下,已能足夠展示不同群體細(xì)胞特征。
2.大數(shù)據(jù)集中,UMAP優(yōu)勢(shì)明顯(30多萬個(gè)細(xì)胞的降維可視化分析)
我們同時(shí)在一個(gè)數(shù)據(jù)集上運(yùn)行、和,該數(shù)據(jù)集涵蓋了來自個(gè)不同的富含和自然殺傷細(xì)胞的人體組織的個(gè)樣本,共含有萬多個(gè)細(xì)胞。
圖3 PCA,t-SNE和UMPA的降維展示圖
通過數(shù)據(jù)降維和可視化展示可以看出,PCA分群效果最差,UMAP和t-SNE都成功將與相似細(xì)胞群相對(duì)應(yīng)的簇聚集在一起。但是與t-SNE相比,UMAP還提供了有用的和直觀的特性、保留了更多的全局結(jié)構(gòu),特別是細(xì)胞子集的連續(xù)性。
接下來,我們對(duì)上述數(shù)據(jù)分別用細(xì)胞類型和組織來源類型進(jìn)行著色展示:
(1).細(xì)胞類型著色
圖4 根據(jù)細(xì)胞類型的細(xì)胞著色圖
(2).組織類型著色
圖5 根據(jù)組織來源的細(xì)胞著色圖
通過在和圖上對(duì)來源組織進(jìn)行顏色編碼,我們發(fā)現(xiàn)比更經(jīng)常地根據(jù)來源組織分離細(xì)胞群;相反,根據(jù)細(xì)胞在每個(gè)主要集群中的起源對(duì)細(xì)胞進(jìn)行排序,大致是從臍帶血和外周血單個(gè)核細(xì)胞到肝臟和脾臟,以及一端的扁桃體到另一端的皮膚、腸道和肺。
當(dāng)我們對(duì)特定T細(xì)胞標(biāo)志性marker進(jìn)行繪圖,我們觀察到UMAP能夠概括T細(xì)胞內(nèi)每個(gè)主要集群的分化階段,從UMAP投影上的駐留記憶T細(xì)胞標(biāo)志物CD69和CD103、記憶T細(xì)胞標(biāo)記CD45RO和幼稚T細(xì)胞標(biāo)記CCR7的表達(dá)水平可見。相比之下,雖然t-SNE在群集中確定了類似的連續(xù)性,但它們沿共同軸沒有明顯的結(jié)構(gòu)。
由此可見,在大數(shù)據(jù)降維和可視化方面優(yōu)勢(shì)突出。
圖6 Marker基因的細(xì)胞標(biāo)記圖
隨著研究成本的降低和深入,單細(xì)胞研究的細(xì)胞數(shù)量和數(shù)據(jù)信息肯定會(huì)往上走,未來單細(xì)胞組學(xué)數(shù)據(jù)將會(huì)從現(xiàn)有千萬的基礎(chǔ)上增加到個(gè)數(shù)量級(jí)。因此,在這種發(fā)展趨勢(shì)下,的發(fā)展空間會(huì)更大更廣。
參考文獻(xiàn):
[1] Harold Hotelling. Analysis of a complex of statistical variables into principal components. Journal of educational psychology, 24(6):417, 1933.
[2] J. B. Kruskal. Multidimensional scaling by optimizing goodness of fit to anonmetric hypothesis. Psychometrika, 29(1):1–27, Mar 1964.
[3] Laurens van der Maaten and Geo‚rey Hinton. Visualizing data using t-sne.Journal of machine learning research, 9(Nov):2579–2605, 2008.
[4] Laurens van der Maaten. Accelerating t-sne using tree-based algorithms. Journal of machine learning research, 15(1):3221–3245, 2014.
[5] Ronald R Coifman and Stephane Lafon. Diffusion maps. Applied and computational harmonic analysis, 21(1):5–30, 2006.
[6]. Van Der Maaten, L. & Hinton, G. Visualizing high-dimensional data using t-SNE.journal of machine learning research. J. Mach. Learn. Res. 9, 26 (2008).
[7]. McInnes, L. & Healy, J. UMAP: uniform manifold approximation and projection for dimension reduction. Preprint at https://arxiv.org/abs/1802.03426 (2018).