指標一
原始數(shù)據(jù)質控
單細胞轉錄組測序獲得的原始數(shù)據(jù)為 fastq(或為壓縮文件 fq.gz)格式,每個樣本有 read1.fastq.gz 和 read2.fastq.gz兩個文件,其中read1 為 barcode 和 UMI 信息,read2 為測序的 RNA 序列信息,后續(xù)根據(jù)序列標簽信息可進行數(shù)據(jù)拆分及定量。在數(shù)據(jù)分析過程中,我們首先需要對下機的原始數(shù)據(jù)進行一系列嚴格的質控,去除掉低質量數(shù)據(jù),保留高質量數(shù)據(jù)以確保后續(xù)數(shù)據(jù)分析結果的真實性及可靠性。FastQC軟件可以快速對測序數(shù)據(jù)進行整體統(tǒng)計及質量評估,直觀地反映出測序數(shù)據(jù)的好壞。
Q:單細胞轉錄組推薦的測序數(shù)據(jù)量是多少?
答:中科使用Single Cell 3' V3.1版試劑盒,官方建議最低測序量20K reads/cell。目前,中科提供的數(shù)據(jù)量默認為90G/樣,客戶可依據(jù)具體的實驗目的決定數(shù)據(jù)量的多少。
Q:如何判斷測序數(shù)據(jù)的好壞?
答:通過計算每個堿基的質量值,對測序的read 進行質量評估。堿基質量值 Q= -10×Log10(P),在生物物理學中是堿基識別出錯概率的整數(shù)映射,用于分析每個堿基被識別錯誤的概率,其值越高表明堿基識別越可靠。質控標準中的 Q20 表示該堿基錯誤的概率為 0.01,Q30 表示錯誤率為0.001。一般Q20在85%以上,Q30在80%以上視為測序質量較好。
指標二
細胞過濾
我們在做單細胞測序的時候,首先要做細胞分離。分離條件對某些類型的細胞不適應,造成細胞破碎或凋亡,RNA溢出,導致線粒體基因比例上升,會干擾細胞分群。因此,在Cell Ranger 生成表達矩陣之后,還需要進一步對細胞進行過濾。
Q:如何判定線粒體的過濾標準?
答:細胞本身就需要能量,所以必然含有一定的線粒體基因。線粒體過濾的原則為,去除線粒體基因含量過高的細胞,但不能大量丟失樣本的細胞信息。目前統(tǒng)計的文章線粒體過濾閾值在5%~30%之間不等,但是一些特殊樣本,如腫瘤組織、心臟樣本、肌肉樣本,因其本身的線粒體含量偏高,固定閾值篩選原則顯然是不合適的,故而此標準需要進行調整。
目前,中科關于線粒體過濾采用絕對中位差(Median Absolute Deviation,MAD)。
絕對中位差是一種統(tǒng)計離差的測量。而且,MAD是一種魯棒統(tǒng)計量,比標準差更能適應數(shù)據(jù)集中的異常值。對于標準差,使用的是數(shù)據(jù)到均值的距離平方,所以大的偏差權重更大,異常值對結果也會產生重要影響。對于MAD,少量的異常值不會影響最終的結果。且MAD是一個比樣本方差或者標準差更魯棒的度量,對于不存在均值或者方差的分布效果更好。
指標三
多樣本批次矯正
當涉及多個樣本進行比較分析時,需要對這些樣本進行合并分析和批次矯正。目前,中科采用 Harmony 方法對scRNA 數(shù)據(jù)進行多樣本合并和批次效應的校正。
圖1 Harmony原理圖
Harmony原理:利用PCA將轉錄組表達譜嵌入到低維空間中,不同顏色表示不同數(shù)據(jù)集,不同形狀表示不同的細胞類型,然后應用迭代過程去除數(shù)據(jù)集特有的影響。
A. Harmony概率性地將細胞分配給cluster,從而使每個cluster內數(shù)據(jù)集的多樣性最大化;
B. Harmony計算每個cluster的所有數(shù)據(jù)集的全局中心,以及特定數(shù)據(jù)集的中心;
C. 在每個cluster中,Harmony基于中心為每個數(shù)據(jù)集計算校正因子;
D. 最后,Harmony使用基于C的特定于細胞的因子校正每個細胞。由于Harmony使用軟聚類,因此可以通過多個因子的線性組合對其A中進行的軟聚類分配進行線性校正,來修正每個單細胞。
重復步驟A到D,直到收斂為止。聚類分配和數(shù)據(jù)集之間的依賴性隨著每一輪的減少而減小。
Harmony算法與其他整合算法相比的優(yōu)勢:
(1)整合數(shù)據(jù)的同時對稀有細胞的敏感性依然很好;
(2)適合于更復雜的單細胞分析實驗設計,可以比較來自不同供體,組織和技術平臺的細胞。
總結
本期分享到這里就結束啦,通過這三期Q&A內容的學習,相信各位老師對單細胞轉錄組已經有了比較深入的了解,以及如何將單細胞技術應用于自己的課題也有了明確的方向。中科新生命單細胞多組學相關產品持續(xù)熱銷中,歡迎感興趣的老師前來咨詢。
參考文獻
[1] Korsunsky I , Fan J , Slowikowski K , et al. Fast, sensitive, and flexible integration of single cell data with Harmony[J]. Cold Spring Harbor Laboratory, 2018(12).
往期推薦