編者按:
單細胞轉(zhuǎn)錄組的研究如火如荼,然而面對測序后獲得的海量結(jié)果,我們常常望洋興嘆。在挖掘生物學意義時,最重要的就是找到與表型相關的特征基因。常規(guī)的差異分析有時很難獲得有意義的特征基因。此時,我們就可以嘗試非負矩陣分解(NMF)算法。其因為非負性、稀疏性和可解釋性強等特點,成為很多生信分析工作者們的心頭好。在這里,小編概述了NMF的定義、應用和案例,希望能幫助科研工作者們從單細胞組學數(shù)據(jù)中挖掘新的生物學意義。
01 非負矩陣分解介紹
非負矩陣分解(Non-negative Matrix Factorization, NMF)是一種常用于數(shù)據(jù)降維和特征提取的算法。它的核心思想是將一個非負矩陣分解為兩個非負矩陣的乘積。NMF廣泛應用于文本挖掘、圖像處理、生物信息學等領域。
NMF原理是給定一個非負矩陣V(m×n),利用NMF分解出兩個矩陣W(m×k)和H(k×n),滿足V≈W×H,且k通常遠小于m和n。該算法優(yōu)勢是生成的矩陣W和H都是非負的,因此分解結(jié)果具有較好的可解釋性,特別適合需要非負表示的數(shù)據(jù)(NMF的非負性約束符合大多數(shù)生物數(shù)據(jù)的特點,比如基因表達水平不為負)。但是,由于NMF 的目標函數(shù)是非凸的,因此可能會陷入局部最優(yōu)解。此外,NMF 對噪聲較為敏感,在實際應用中需要結(jié)合正則化等技巧?傊,NMF 是一種強大且直觀的工具,適合于從復雜數(shù)據(jù)中提取有意義的特征。
02 NMF在單細胞轉(zhuǎn)錄組分析中的應用
NMF在單細胞轉(zhuǎn)錄組中的應用主要集中在基因表達模式(基因表達程序)的提取和細胞類型的識別。單細胞轉(zhuǎn)錄組通過測量單個細胞中的基因表達譜,提供了復雜和高維度的數(shù)據(jù),而NMF的降維和特征提取能力使其在這一領域得到了廣泛應用。將基因×細胞矩陣作為V矩陣進行NMF分解,獲得基因×表達程序(W)和表達程序×細胞(H) 兩個矩陣;×表達程序(W)矩陣代表了基因的特征表達模式,也就是基因程序,存儲了基因在不同程序中的權重(一般將權重較高的n個基因當作該程序的特征基因)。表達程序×細胞(H)矩陣代表了每個程序在細胞中的權重(強弱)。
通過NMF分解獲得的基因程序,往往與特定的生物過程或功能相關,能夠揭示在不同細胞群體中共同表達的基因模塊,從而探究特定的基因群是否與某些生物過程相關,如細胞周期、免疫反應等。這對理解細胞的功能狀態(tài)和生物學機制具有重要意義。此外,NMF也可以用于單細胞多組學數(shù)據(jù),識別出不同組學數(shù)據(jù)之間的共同特征,從而更全面地理解細胞的狀態(tài)和功能。
03 文獻案例分享
為了更好地解釋NMF算法在單細胞轉(zhuǎn)錄組研究中的應用思路,小編在這里分享兩篇文獻案例,詳細介紹NMF在實際科研中的使用方式和挖掘到的重要生物學結(jié)果。
案例一:單細胞多組學分析揭示腎透明細胞癌的調(diào)控程序
本研究利用單細胞轉(zhuǎn)錄組和單細胞ATAC測序技術繪制了腎透明細胞癌(ccRCC)的轉(zhuǎn)錄和表觀基因組圖譜,確定了四個介導腫瘤細胞特異性調(diào)控程序的關鍵TFs(HOXC5、VENTX、ISL1和OTP),它們具有預后意義。接下來,研究者聯(lián)合分析了CD8+T細胞和巨噬細胞亞群的染色質(zhì)可及性和基因表達模式,發(fā)現(xiàn)了這些細胞亞群中不同的調(diào)控元件。此外,研究者還描述了TME中配體-受體相互作用所介導的細胞間通訊。綜上所述,這種單細胞多組學方法進一步闡明了ccRCC的細胞異質(zhì)性,并確定潛在的治療靶點。
圖1.ccRCC中的惡性轉(zhuǎn)錄程序
為了確認惡性細胞的基因表達模式異質(zhì)性,研究者利用NMF算法從四名患者中的3564個腫瘤細胞分解出11個轉(zhuǎn)錄程序,進一步聚類成2個元程序,在四個患者中共享。富集分析發(fā)現(xiàn)兩個元程序分別富集在應激相關途徑或代謝相關的生物過程。元程序1高表達的患者總生存期較差,而元程序2高表達的患者總生存期較好。
案例二:宮頸鱗狀細胞癌的多組學分析確定了具有生物學和臨床意義的細胞生態(tài)系統(tǒng)
宮頸鱗狀細胞癌 (CSCC) 對免疫檢查點阻斷(ICB)的反應有限,為了解析腫瘤免疫微環(huán)境 (TIME) 的分子特征,本研究使用單細胞轉(zhuǎn)錄組、空間轉(zhuǎn)錄組和空間蛋白質(zhì)組技術,結(jié)合遺傳和藥理學擾動,系統(tǒng)地開發(fā)了 CSCC 中腫瘤內(nèi)表達異質(zhì)性的空間高分辨率圖譜,并發(fā)現(xiàn)了3種腫瘤狀態(tài)重現(xiàn)了鱗狀分化的不同階段,顯示出獨特的TIME。上皮-角蛋白惡性細胞與免疫抑制性腫瘤相關成纖維細胞(CAF)之間的雙向相互作用通過 FABP5 介導的轉(zhuǎn)化生長因子β (TGFβ)通路信號形成免疫排斥微環(huán)境。在 Epi-Imm 腫瘤中,惡性細胞通過干擾素信號傳導與自然殺傷細胞和 T 細胞相互作用。對宮頸癌臨床試驗 (NCT04516616) 樣本的初步分析表明,新輔助化療可誘導向 Epi-Imm 的狀態(tài)轉(zhuǎn)變,這與免疫檢查點阻斷治療后的病理完全緩解相關。這些發(fā)現(xiàn)加深了對 CSCC 中細胞狀態(tài)多樣性的理解。
圖2.CSCC 患者的腫瘤細胞中識別出的NMF程序之間的成對相似性的層次聚類
為了確認惡性細胞多樣性,利用NMF算法對20168 個惡性鱗狀細胞轉(zhuǎn)錄組進行分解,獲得了8個元程序(MP)。MP6、7和8三種程序分別代表鱗狀不同的分化階段。相關性分析發(fā)現(xiàn)MP7與MP8呈正相關,而與MP6呈負相關。MP6與CAF豐度呈正相關,與免疫細胞豐度呈負相關。相比之下,MP7與免疫細胞呈正相關,與間質(zhì)細胞呈負相關。更多的分析和驗證實驗證實MP6具有抑制免疫細胞浸潤的免疫抑制性功能。
04 參考文獻
[1] Long, Zhilin et al. “Single-cell multiomics analysis reveals regulatory programs in clear cell renal cell carcinoma.” Cell discovery vol. 8,1 68. 19 Jul. 2022.
[2] Fan, Junpeng et al. “Multiomic analysis of cervical squamous cell carcinoma identifies cellular ecosystems with biological and clinical relevance.” Nature genetics vol. 55,12 (2023): 2175-2188.