以10x Genomics為代表的單細胞組學檢測技術的發(fā)展,為我們從細胞層面去理解生命體的發(fā)育過程,疾病發(fā)生和發(fā)展過程提供了重要的手段。以單細胞轉錄組(scRNA-Seq)為例,我們可以發(fā)現(xiàn),單細胞組學數(shù)據(jù)具有橫向細胞數(shù)量巨大,縱向數(shù)據(jù)分布稀疏的特點。因此,針對單細胞數(shù)據(jù),從分析的角度提出了巨大的挑戰(zhàn)。在這個過程中,流形學習的發(fā)展,為單細胞數(shù)據(jù)的降維和可視化提供一種解決方案。
以下,我們通過Q&A形式來分享流形學習在單細胞數(shù)據(jù)分析中的運用。
1.什么是流形學習?
流形學習是機器學習的一種,2000年以后被認為屬于非線性降維的一個分支。流形學習的本質(zhì)是用低維度數(shù)據(jù)分布去解釋高維度數(shù)據(jù),也可以把它理解成尋找一個高維數(shù)據(jù)空間到低維數(shù)據(jù)空間的映射。非線性降維技術(廣義上“非線性降維技術”≈“流形學習”,狹義上后者是前者子集)。流形學習在單細胞數(shù)據(jù)中的作用就是為了解決使高維的數(shù)據(jù)進行合理降維的過程。
2.流形學習的分類有哪些?
流形學習從算法分類的角度分為線性流形學習算法和非線性流形學習算法,線性方法是對非線性方法的線性擴展,比如我們熟悉的主成分分析(Principal component analysis,PCA),多維尺度變換(Multidimensional scaling,MDS)等就屬于線性算法,t-SNE[1]方法就屬于非線性算法。
不同方法衍生出的算法見上圖
3.流形學習有哪些經(jīng)典算法?
流形學習中,最基本的降維原理是找到一個映射從流形到歐式距離,經(jīng)典的算法主要有ISOMAP, LLE和LE三種:
a) Isomap等距映射:Isomap試圖通過保持任意兩點之間的測地線距離來保持流形的全局幾何結構。
b) 局部線性嵌入(Locally Linear Embedding ,LLE):也是非常重要的降維方法 ,LLE從局部來進行分析。
上圖中LLE首先假設數(shù)據(jù)在較小的局部是線性的,也就是說,某一個數(shù)據(jù)可以由它鄰域中的幾個樣本來線性表示,LLE 分析方法的出發(fā)點便是“流形在局部可以近似等價于歐氏空間”。
c) 拉普拉斯特征映射(Laplacian eigenmaps,LE):基于圖譜理論,希望保持流形的近鄰關系,將原始空間中相近的點映射成目標空間中相近的點,通過構建近鄰圖、計算每條邊的權重(不相連的邊權重為0)、求解特征向量方程來達到降維、聚類的結果。
4.為什么在單細胞分群展示時不用PCA?
Principal Component Analysis(PCA) 采用線性投影的方法進行降維,它的目的是使得數(shù)據(jù)在給定的方向上投影得到最大的方差,PCA 是到目前為止應用最為廣泛的一個降維算法,在機器學習本身的眾多場景中也通常被用作數(shù)據(jù)預處理的首要方法,當流形是一個線性流形時,PCA 得到的結果是最優(yōu)的。然而單細胞數(shù)據(jù)基本上是高維、非線性的并且稀疏的matrix數(shù)據(jù)結構,所以PCA只能作為數(shù)據(jù)預處理的一種方式,而基于流形學習的非線性降維方法,結果都會明顯優(yōu)于PCA,每一個算法都是從不同角度去看問題,所以必須有針對性地選擇算法來分析單細胞的數(shù)據(jù)。
5.流形學習用在單細胞數(shù)據(jù)分析的理論基礎是什么?
由于scRNA-seq數(shù)據(jù)的噪聲和復雜性,許多降維方法都不能有效地在二維或三維空間中捕獲足夠的信息,從而無法實現(xiàn)可視化。在這種情況下,流形學習框架對于降維和數(shù)據(jù)可視化都很有用。
流形假設中將單細胞RNA-seq實驗中的觀測結果建模為從細胞狀態(tài)的光滑流形中采樣。通過將流形學習方法應用于多個細胞間的基因表達矩陣,學習數(shù)據(jù)的潛在鄰域結構,恢復數(shù)據(jù)的潛在低維表示;然后通過應用一個核函數(shù)(核函數(shù)的作用就是隱含著一個從低維空間到高維空間的映射,而這個映射可以把低維空間中線性不可分的兩類點變成線性可分的),核函數(shù)可以測量保留密切相關的細胞之間的相關距離、沿流形的主要變化軸計算擬時間,例如可以構建、呈現(xiàn)發(fā)育過程中分化的進程,進而利用數(shù)據(jù)的流形表示進行降維和可視化[2]。
6.流形圖和流形學習之間是什么關系?
流形學習實現(xiàn)了對單細胞數(shù)據(jù)的降維和可視化過程,沿著流形變化軸,我們可以構建細胞變化過程。因此,擬時間序列分析所采用的降維算法其原理也是基于流形學習。我們常用來進行擬時間序列分析的Monocle 2就是基于圖模型來推測細胞的變化過程。流形圖是一種二維密度估計的等值線。舉個例子:在地理課上我們經(jīng)常會看到等高線:即地面上海拔高度相同的各點的連線。二維密度估計的等值線是一個和等高線差不多的利器,在原始圖中添加類似等高線(二維密度估計的等值線)的表示,用以標記密集程度,也是間接計算距離的一種算法思想。
目前的流形學習基本上都是基于圖模型,下圖為擬時序分析的軌跡圖,雖然都是樹枝樣的分支,流形背景顯示出每個類別中的分支路線的獨有性,類似于不同的群山山脈特點。通過流形學習得到的擬時序軌跡圖,再加上流形背景,這樣不僅能夠可視化單細胞的軌跡路線,也能從另外一個維度來展現(xiàn)同個流形空間上細胞的關系,整個過程就是高維映射到低維,然后又mapping回高維來展示,使結果的呈現(xiàn)更加多元化、立體化和更加能準確地回溯細胞的整個軌跡。
以上是有關于流行學習在單細胞組學數(shù)據(jù)用的運用原理和運用方向,對于具體的運用環(huán)境,需要根據(jù)自身的數(shù)據(jù)特點選擇最合適的方法。當然,現(xiàn)有的一些單細胞數(shù)據(jù)分析包里面已經(jīng)很好地嵌入了相應的算法公式,我們只要進行合理的利用,就可以對數(shù)據(jù)進行最優(yōu)篩選和展示。
參考文獻:
1. Donaldson, J. (2016). T-Distributed Stochastic Neighbor Embedding for R (t-SNE). R package version 0, 1–3
2. Moon, K.R., et al., Manifold learning-based methods for analyzing single-cell RNA-sequencing data. Current Opinion in Systems Biology, 2018. 7: p. 36-46.