综合图区亚洲网友自拍|亚洲黄色网络|成人无码网WWW在线观看,日本高清视频色视频kk266,激情综合五月天,欧美一区日韩一区中文字幕页

English | 中文版 | 手機(jī)版 企業(yè)登錄 | 個(gè)人登錄 | 郵件訂閱
當(dāng)前位置 > 首頁 > 技術(shù)文章 > 數(shù)據(jù)分析介紹(I) 主成份分析法

數(shù)據(jù)分析介紹(I) 主成份分析法

瀏覽次數(shù):3274 發(fā)布日期:2013-5-8  來源:本站 僅供參考,謝絕轉(zhuǎn)載,否則責(zé)任自負(fù)

      華聯(lián)于 2012 年 7 月~ 9 月的科技專題中,介紹芯片實(shí)驗(yàn)設(shè)計(jì)時(shí),概略介紹了一些常用的數(shù)據(jù)分析方法,有許多客戶及好學(xué)的讀者紛紛來信,希望我們另辟單元,仔細(xì)教學(xué)這些對他們很有幫助的分析軟件;數(shù)據(jù)分析素來是華聯(lián)的強(qiáng)項(xiàng)之一,我們很樂意也很興奮地開辟這個(gè)新單元 - 數(shù)據(jù)分析教學(xué),本期以主成份分析法 (Principal Component Analysis,PCA)作為起頭,并搭配影片教學(xué),讓大家學(xué)習(xí)事半功倍。
     
      在微陣列數(shù)據(jù) (Microarray data) 分析中,主成份分析法 (PCA) 是一種常用于簡化數(shù)據(jù)集 (Data set)、觀察樣本或基因群之間相關(guān)性的技術(shù)。微陣列數(shù)據(jù)通常是上萬筆基因、數(shù)十個(gè)樣本所組成的一個(gè)數(shù)據(jù)矩陣,利用主成份分析可以減少數(shù)據(jù)的維數(shù) (Dimension),同時(shí)保留數(shù)據(jù)對變異數(shù)貢獻(xiàn)最大的特征,藉以觀察樣本或基因群的主要差異。主要原理是經(jīng)由保留低階主成分,并忽略高階主成分。通常低階成分較能夠保留住數(shù)據(jù)的最重要成分。但是由于主成份分析依賴所給予的數(shù)據(jù),所以數(shù)據(jù)的準(zhǔn)確性(或者我們也可以說實(shí)驗(yàn)的準(zhǔn)確與否)對分析結(jié)果影響很大。
      主成份分析法由卡爾.皮爾遜于1901年創(chuàng)建,用于分析數(shù)據(jù)及建立數(shù)理模型。其方法主要是通過對共變異數(shù)矩陣(這邊可以想成微陣列數(shù)據(jù)矩陣)進(jìn)行特征分解3,以得出數(shù)據(jù)的主成份(即特征向量, Eigenvector) 與它們的權(quán)值(或稱特征值, Eigenvalue) 。特征向量的長度在該線性變換下縮放的比例我們稱之為其特征值,前面提到,將影響樣本變異數(shù)貢獻(xiàn)最大的特征向量放于第一維度,第二貢獻(xiàn)度的放于第二維度,藉此可得到樣本于平面坐標(biāo)之間的關(guān)系圖,如圖一。

      這邊我們用顏色來區(qū)分不同樣本,微陣列實(shí)驗(yàn)常以技術(shù)性重復(fù)來增加統(tǒng)計(jì)上的意義,圖中技術(shù)性重復(fù)以同一顏色來表示。一般來說,技術(shù)性重復(fù)的實(shí)驗(yàn)因?yàn)閬碜酝还苤苽涞腞NA,所以理論上相關(guān)性應(yīng)該很高;但由于樣本取得、實(shí)驗(yàn)過程、數(shù)據(jù)取得以及分析方式都可能造成誤差,所以實(shí)際上的結(jié)果會(huì)有變異性。圖中可見到技術(shù)性重復(fù)的結(jié)果很接近,但是標(biāo)示黑色、紫色的樣本和紅色、綠色樣本間”特征差異性”比較大。我們也可以利用前三組貢獻(xiàn)最大的特征向量畫成3 度空間分布圖(如圖二),能進(jìn)一步了解樣本于空間中分布的情形;從圖中可以發(fā)現(xiàn),當(dāng)我們轉(zhuǎn)了一個(gè)角度,標(biāo)示紅色和綠色的樣本在空間坐標(biāo)中還是有段距離;代表其特征值還是有差異性。
       數(shù)據(jù)對應(yīng)的特征值如表一,我們可以觀察到這邊將主成份 (Principal Components) 分成PC1~PC7共七等份,全部加成起來代表了所有樣本的特征信息,以百分比 (%Var)表示的話,總共100%;用白話一點(diǎn)的方式來說,前三個(gè)主成份(維度)就可以取得這些樣本約略 84%的特征信息,足以用其代表的特征值來區(qū)分樣本之間的差異性。所以當(dāng)實(shí)驗(yàn)完成、取得微陣列數(shù)據(jù)后,常常第一件事就是做主成份分析或叢集式分群分析(HierarchicalClustering),觀察樣本間的技術(shù)性或生物性重復(fù)做的好不好、實(shí)驗(yàn)組和對照組之間的差異大不大,以及是否可以觀察到樣本間的特征差異性等等。這樣的分析可以做為一種質(zhì)量控管(Quality Control)的依據(jù),決定是否繼續(xù)分析或是重新作實(shí)驗(yàn)的重要參考指標(biāo)。

      之后的分析工作,主成份分析也扮演了重要角色。特別當(dāng)我們找出一些基因群、足以分別代表其生物調(diào)節(jié)功能、代謝作用或藥物調(diào)控的變化指標(biāo),也可以將這些基因作主成份分析,如圖三。這邊我們特定挑選了一些有顯著差異表現(xiàn)的基因來試作,經(jīng)過主成份分析后被分成了五群,每個(gè)顏色代表一特定基因群,而每個(gè)基因群在研究中可能扮演了重要的調(diào)控機(jī)制。

小結(jié)
      本期介紹的主成份分析為芯片數(shù)據(jù)分析的第一關(guān),將芯片數(shù)萬點(diǎn)的信息簡化成幾個(gè)低維度的分析數(shù)據(jù),以歸納出彼此的群落分布,藉以比對各自的近似關(guān)系;觀察樣本間的技術(shù)性或生物性重復(fù)做的好不好、可不可信,進(jìn)而決定是否繼續(xù)接下來的進(jìn)階分析。
      華聯(lián)將在未來幾期的科技專題中介紹更多的數(shù)據(jù)分析方法,包含叢集式分群分析(Hierarchical Clustering)、基因功能分類 (Gene Ontology)、訊息傳遞路徑分析 (Pathways analysis)...等等,若有分析上的疑惑也歡迎隨時(shí)與我們連絡(luò)喲!。  

來源:華聯(lián)生物科技股份有限公司
聯(lián)系電話:免費(fèi)服務(wù)電話: 400-6400-860
E-mail:cninfo@phalanxbiotech.com

用戶名: 密碼: 匿名 快速注冊 忘記密碼
評論只代表網(wǎng)友觀點(diǎn),不代表本站觀點(diǎn)。 請輸入驗(yàn)證碼: 8795
Copyright(C) 1998-2024 生物器材網(wǎng) 電話:021-64166852;13621656896 E-mail:info@bio-equip.com