综合图区亚洲网友自拍|亚洲黄色网络|成人无码网WWW在线观看,日本高清视频色视频kk266,激情综合五月天,欧美一区日韩一区中文字幕页

English | 中文版 | 手機版 企業(yè)登錄 | 個人登錄 | 郵件訂閱
當前位置 > 首頁 > 技術(shù)文章 > 特征選擇在生物信息學中的應用

特征選擇在生物信息學中的應用

瀏覽次數(shù):5735 發(fā)布日期:2009-2-4  來源:本站 僅供參考,謝絕轉(zhuǎn)載,否則責任自負
隨著生物信息學的發(fā)展,許多模式識別技術(shù)無法滿足處理大量不相關(guān)特征的需求,因此特征選擇技術(shù)(FS techniques)在生物信息學中的應用就變得越來越重要了。

        在過去的幾年里,應用特征選擇技術(shù)已經(jīng)從僅僅作為一個說明性的例子發(fā)展到了建立模型所需要的先決條件了。特征選擇技術(shù)最重要的目的有3點:(1)避免過度適應和提高模型的性能;(2)提供更快的和更有效的模型;(3)對生成數(shù)據(jù)的潛在的過程獲得更深入的了解。當然,特征選擇技術(shù)在搜索相關(guān)特征的子集時也會為建立模型引入額外的復雜度。下面將簡要介紹特征選擇技術(shù)在生物信息學中的應用。

1、序列分析中的特征選擇
 
        序列分析是生物信息學中常見的工作,對鄰近序列的特征選擇可以分為兩類:內(nèi)容分析(content analysis)和信號分析(signal analysis)。內(nèi)容分析著眼于序列主要的特征,例如序列編碼蛋白的傾向性或者實現(xiàn)的某種生物學的功能。而信號分析則著眼于序列中重要基序的識別,例如基因的結(jié)構(gòu)元件或者調(diào)控元件。

(1)內(nèi)容分析。

        編碼蛋白的子序列的預測(編碼潛在性的預測)一直是生物信息學研究的問題。由于許多特征可以從序列中提取出來,并且大部分特征之間的依賴關(guān)系僅僅與相鄰的位置有關(guān),因此,各種Markov模型被用于該問題的研究。起初,為了處理有限數(shù)量樣本中大量的可能特征,引入了內(nèi)插值填補的Markov模型(interpolated Markov model,IMM)。該模型通過在少量樣本條件下往Markov模型的不同特征次序中插入某一特征,然后利用過濾方法選擇僅僅有聯(lián)系的特征。接著,IMM的框架被擴展來處理非相鄰特征的依賴性,產(chǎn)生了內(nèi)插值填補的鄰近模型(interpolated context model,ICM)。該模型將Bayesian決策樹與過濾方法結(jié)合起來評估特征的相關(guān)性。

        近來,F(xiàn)S技術(shù)的方法被用于編碼潛在性的預測。該方法將幾種不同的編碼潛在性預測的方法結(jié)合起來,然后用Markov覆蓋多元過濾的方法(Markov blanket multivariate filter approach,MBF)只保留下有相關(guān)性的特征。

        內(nèi)容分析的第二類問題就是從序列預測蛋白的功能。早期的工作是將遺傳算法和gamma檢測結(jié)合起來,為從大量rRNA子集分類出來的特征的集合打分,這種工作啟發(fā)了研究者使用FS技術(shù)來分析與蛋白功能種類有關(guān)的氨基酸的子集。其中有一項技術(shù)就是對支持向量集(SVM)進行有選擇的核心度量來估計特征的權(quán)重,然后去掉低權(quán)重的特征。

       另外,F(xiàn)S技術(shù)在序列分析的域分析中也有了進一步的應用,比如識別啟動子區(qū)域和microRNA靶點預測。

(2)信號分析

        許多序列分析的方法都包括識別序列中短的保守的信號,這種信號表現(xiàn)為各種蛋白或者蛋白復合物的綁定位點。通常用來尋找調(diào)控基序的方法是用回歸的方法將基序與基因表達水平聯(lián)系起來,然后使用FS技術(shù)搜索基序,使之能最大程度上適合這個回歸模型。

        信號分析中另一個重要的問題就是預測基因的結(jié)構(gòu)元件,例如剪接位點(splice sites)和轉(zhuǎn)錄起始位點(translation initiation site,TIS)。對于剪接位點的預測,可以結(jié)合連續(xù)的回溯方法(sequential backward method)和嵌入式SVM評估標準(embedded SVM evaluation criterion)來估計特征的相關(guān)性,或者利用分布式算法評估(estimation of distribution algorithm,EDA)來獲得相關(guān)的特征。同樣的,利用FS技術(shù)預測TIS,可以使用特征分類熵(feature-class entropy)作為篩選量度來去除不相關(guān)的特征。
在今后的研究中,F(xiàn)S技術(shù)被期望用于其他的預測工作,例如鑒別與選擇性剪接位點或者選擇性轉(zhuǎn)錄起始位點有關(guān)的相關(guān)特征。

2、單核苷酸多態(tài)性分析中的特征選擇

        單核苷酸多態(tài)性(single nucleotide polymorphisms,SNPs)是進化過程中單個核苷酸位點的突變并且可以通過遺傳傳遞下去,這可以解釋不同個體間大部分的遺傳變異。SNPs是許多疾病基因研究的前沿,在人的基因組中數(shù)目估計在7百萬左右,因此選擇一個具有充足信息并且足夠小的SNPs子集來描述基因型是疾病基因相關(guān)研究中重要的一步。

        在過去的幾年中已經(jīng)發(fā)展了一些計算方法來選擇單體型標簽SNP(htSNP)。一種方法假設人類基因組可以被認為是離散的區(qū)域集合,僅僅共享很小的共用單體型集合。這種方法的目的是確定一個SNPs的集合來區(qū)分所有的共用的單體型,或者至少可以解釋其中的一部分。第二種共用htSNPs的選擇方法是基于SNPs的配對原理,試圖選擇一個htSNPs的集合使得一個單體型上的每個SNPs都和一個htSNPs高度相關(guān)。第三種方法認為htSNPs是所有SNPs的一個子集,通過這個子集可以重構(gòu)剩余的SNPs。這種選擇htSNPs的方法取決于剩余沒有選擇的SNPs預測的精確程度。

        如果目標區(qū)域中單體型的結(jié)構(gòu)未知,常用的方法是在相等的間隔上選擇標記物,給出要選擇的SNPs的數(shù)據(jù)和期望的間距。較為有效的方法包括基于遺傳算法與SVM結(jié)合的方法、包括3個分類算法(k-NN,SVM和naïve Bayes)的Relief-F特征選擇算法和多元線性回歸SNP預測算法等。

3、文本和文獻挖掘中的特征選擇

       文本和文獻挖掘是生物學中數(shù)據(jù)挖掘方面的一個新興領(lǐng)域,文本和文件的一個重要表示就是所謂的BOW(bag-of-words)表示,將文本中的每一個詞表示為一個變量,而它的值為該詞在文本中出現(xiàn)的頻率。這樣的表示方式就使得從一個文本得到一個很高維度的數(shù)據(jù)集,因此需要使用特征選擇技術(shù)來進行文本挖掘。
盡管特征選擇技術(shù)經(jīng)常應用于文本分類領(lǐng)域,但是對于生物醫(yī)學領(lǐng)域還是新興技術(shù)。

        到目前為止,在醫(yī)學注釋工作上,應用了Kullback-Leibler散度(Kullback-Leibler divergence)作為一個單變量過濾方法來尋找有差別的單詞,在蛋白相互作用發(fā)現(xiàn)中,應用了對稱原理的不確定性(symmetrical uncertainty,一種基于熵的過濾方法)來鑒別相關(guān)的特征。同樣可以預計到,用來對生物醫(yī)學文檔的聚類和分類方法引入的大量特征選擇技術(shù)將會應用于生物醫(yī)學的文獻挖掘中。

        除了以上的幾個方面的應用以外,特征選擇技術(shù)還被應用于微陣列(microarray)數(shù)據(jù)分析和質(zhì)譜(MS)數(shù)據(jù)分析這些海量數(shù)據(jù)分析方面。由此可預見,隨著對特征選擇技術(shù)的進一步發(fā)展和完善,特征技術(shù)將在海量數(shù)據(jù)分析中發(fā)揮極其重要的作用。


參考文獻:

Yvan Saeys, Inaki Inza and Pedro Larranaga. (2007)A review of feature selection techniques in bioinformatics. Bioinformatics, 23, 2507-2517.
來源:上海伯豪生物技術(shù)有限公司
聯(lián)系電話:021-58955370
E-mail:market@shbio.com

用戶名: 密碼: 匿名 快速注冊 忘記密碼
評論只代表網(wǎng)友觀點,不代表本站觀點。 請輸入驗證碼: 8795
Copyright(C) 1998-2024 生物器材網(wǎng) 電話:021-64166852;13621656896 E-mail:info@bio-equip.com