華聯(lián)于 2012 年 7 月~ 9 月的科技專題中,介紹芯片實驗設計時,概略介紹了一些常用的數(shù)據(jù)分析方法,有許多客戶及好學的讀者紛紛來信,希望我們另辟單元,仔細教學這些對他們很有幫助的分析軟件;數(shù)據(jù)分析素來是華聯(lián)的強項之一,我們很樂意也很興奮地開辟這個新單元 - 數(shù)據(jù)分析教學,本期以主成份分析法 (Principal Component Analysis,PCA)作為起頭,并搭配影片教學,讓大家學習事半功倍。
在微陣列數(shù)據(jù) (Microarray data) 分析中,主成份分析法 (PCA) 是一種常用于簡化數(shù)據(jù)集 (Data set)、觀察樣本或基因群之間相關性的技術。微陣列數(shù)據(jù)通常是上萬筆基因、數(shù)十個樣本所組成的一個數(shù)據(jù)矩陣,利用主成份分析可以減少數(shù)據(jù)的維數(shù) (Dimension),同時保留數(shù)據(jù)對變異數(shù)貢獻最大的特征,藉以觀察樣本或基因群的主要差異。主要原理是經由保留低階主成分,并忽略高階主成分。通常低階成分較能夠保留住數(shù)據(jù)的最重要成分。但是由于主成份分析依賴所給予的數(shù)據(jù),所以數(shù)據(jù)的準確性(或者我們也可以說實驗的準確與否)對分析結果影響很大。
主成份分析法由卡爾.皮爾遜于1901年創(chuàng)建,用于分析數(shù)據(jù)及建立數(shù)理模型。其方法主要是通過對共變異數(shù)矩陣(這邊可以想成微陣列數(shù)據(jù)矩陣)進行特征分解3,以得出數(shù)據(jù)的主成份(即特征向量, Eigenvector) 與它們的權值(或稱特征值, Eigenvalue) 。特征向量的長度在該線性變換下縮放的比例我們稱之為其特征值,前面提到,將影響樣本變異數(shù)貢獻最大的特征向量放于第一維度,第二貢獻度的放于第二維度,藉此可得到樣本于平面坐標之間的關系圖,如圖一。
這邊我們用顏色來區(qū)分不同樣本,微陣列實驗常以技術性重復來增加統(tǒng)計上的意義,圖中技術性重復以同一顏色來表示。一般來說,技術性重復的實驗因為來自同一管制備的RNA,所以理論上相關性應該很高;但由于樣本取得、實驗過程、數(shù)據(jù)取得以及分析方式都可能造成誤差,所以實際上的結果會有變異性。圖中可見到技術性重復的結果很接近,但是標示黑色、紫色的樣本和紅色、綠色樣本間”特征差異性”比較大。我們也可以利用前三組貢獻最大的特征向量畫成3 度空間分布圖(如圖二),能進一步了解樣本于空間中分布的情形;從圖中可以發(fā)現(xiàn),當我們轉了一個角度,標示紅色和綠色的樣本在空間坐標中還是有段距離;代表其特征值還是有差異性。
數(shù)據(jù)對應的特征值如表一,我們可以觀察到這邊將主成份 (Principal Components) 分成PC1~PC7共七等份,全部加成起來代表了所有樣本的特征信息,以百分比 (%Var)表示的話,總共100%;用白話一點的方式來說,前三個主成份(維度)就可以取得這些樣本約略 84%的特征信息,足以用其代表的特征值來區(qū)分樣本之間的差異性。所以當實驗完成、取得微陣列數(shù)據(jù)后,常常第一件事就是做主成份分析或叢集式分群分析(HierarchicalClustering),觀察樣本間的技術性或生物性重復做的好不好、實驗組和對照組之間的差異大不大,以及是否可以觀察到樣本間的特征差異性等等。這樣的分析可以做為一種質量控管(Quality Control)的依據(jù),決定是否繼續(xù)分析或是重新作實驗的重要參考指標。
之后的分析工作,主成份分析也扮演了重要角色。特別當我們找出一些基因群、足以分別代表其生物調節(jié)功能、代謝作用或藥物調控的變化指標,也可以將這些基因作主成份分析,如圖三。這邊我們特定挑選了一些有顯著差異表現(xiàn)的基因來試作,經過主成份分析后被分成了五群,每個顏色代表一特定基因群,而每個基因群在研究中可能扮演了重要的調控機制。
小結
本期介紹的主成份分析為芯片數(shù)據(jù)分析的第一關,將芯片數(shù)萬點的信息簡化成幾個低維度的分析數(shù)據(jù),以歸納出彼此的群落分布,藉以比對各自的近似關系;觀察樣本間的技術性或生物性重復做的好不好、可不可信,進而決定是否繼續(xù)接下來的進階分析。
華聯(lián)將在未來幾期的科技專題中介紹更多的數(shù)據(jù)分析方法,包含叢集式分群分析(Hierarchical Clustering)、基因功能分類 (Gene Ontology)、訊息傳遞路徑分析 (Pathways analysis)...等等,若有分析上的疑惑也歡迎隨時與我們連絡喲!。