在后基因體時(shí)代,基因芯片 (microarray) 的出現(xiàn)讓研究人員得以宏觀的視野來探討分子機(jī)轉(zhuǎn)。在許多努力和資源投入到尋找新的疾病基因后,許多單基因疾病已成功地找出致病基因。然而,在復(fù)雜疾病 (例如高血壓、糖尿病及一些常見癌癥) 的研究上,收獲卻不如期待中的豐富。大多數(shù)復(fù)雜疾病的研究中都可找出分布在不同染色體上的致病基因,但其與疾病僅有小至中等的連結(jié) (linkage) 或關(guān)聯(lián)性 (association),且只有極少數(shù)的致病基因能在大量人口資料中,仍對(duì)疾病的連結(jié)或關(guān)聯(lián)性具有顯著性。目前從復(fù)雜疾病研究找到的致病基因,大多數(shù)在跨研究的報(bào)告中皆不具重現(xiàn)性。
復(fù)雜疾病具異質(zhì)性、多源性
以肥胖為例,在2004年Dr. Perusse1的研究發(fā)現(xiàn):與人類肥胖相關(guān)的113個(gè)候選基因 (candidate gene) 在50個(gè)全基因掃描研究中,僅有18個(gè)基因在五個(gè)以上的研究提出一致的正面相關(guān)報(bào)導(dǎo)。另外,2005年Dr. Agarwal2 的評(píng)論提到 (如圖一所示),25個(gè)高血壓基因在不同的連結(jié)或關(guān)聯(lián)性研究中,有9個(gè)基因在連結(jié)性研究中負(fù)面相關(guān)的報(bào)導(dǎo)多于正面相關(guān)的報(bào)導(dǎo)。而25個(gè)基因中,多數(shù)在關(guān)聯(lián)性研究中正面相關(guān)和負(fù)面相關(guān)的報(bào)導(dǎo)不相上下。
文獻(xiàn)中將復(fù)雜疾病的致病基因在跨研究間缺乏重復(fù)性的現(xiàn)象,歸納出了幾點(diǎn)解釋。其中一個(gè)最廣為接受的看法是這些多因子疾病的異質(zhì)性 (heterogeneous)。另外,因在不同研究中,對(duì)各種表型 (phenotype,如血壓、血糖) 定義上的不同和量測(cè)的不精確、對(duì)環(huán)境危險(xiǎn)或保固因子 (如抽煙量,對(duì)污染物的攝取量) 的不同暴露程度以及不同人口之間基因背景的差異等因素,皆會(huì)遮蔽、加強(qiáng)或改變基因的作用并造成不同程度的疾病外顯率 (penetrance)。
簡(jiǎn)而言之,由于復(fù)雜疾病患者病因的多源性,稀釋了任何一個(gè)基因變異的效果。所以,當(dāng)我們將許多病患集中在一起,試圖比較他們的基因和正常人有何不同時(shí)可能會(huì)發(fā)現(xiàn)不同的致病基因,甚至亦會(huì)發(fā)現(xiàn)跟疾病無關(guān)而是與病患其他特性相關(guān)的基因。
生物路徑叢 (Pathway Cluster) 概念
目前在復(fù)雜疾病的研究上,一般以使用類似的表型以減少樣本間的異質(zhì)性。然而,表型的同質(zhì)化并不等于基因型的同質(zhì)化。再者,一個(gè)疾病可能只是多種表型類似,但起源(基因)不同的病征組合。這個(gè)概念雖曾在文獻(xiàn)中被提出過,但科學(xué)家所使用的簡(jiǎn)化表型方法并不盡理想。譬如在精神疾病領(lǐng)域,許多學(xué)者提出 ”endophenotype”,也就是「內(nèi)在生物表型」這個(gè)概念。但他們所提出的操作方法,僅只是簡(jiǎn)單化(或減化)表型,譬如:以解剖學(xué)、影像學(xué),或癥兆定義上來減化,而沒有著眼在減化「參與病征發(fā)展的生化路徑」上。
這個(gè)問題的主要瓶頸在于科學(xué)家對(duì)于疾病發(fā)展的機(jī)制還不夠了解。因此,中研院潘文涵教授3 提出以下建議:在現(xiàn)今大量產(chǎn)生的基因表現(xiàn)數(shù)據(jù)上,運(yùn)用「數(shù)據(jù)探勘 (data mining)」的方法,進(jìn)行群組分析 (cluster analysis);將這些資料分成若干個(gè)群組內(nèi)相關(guān),但群組間不相關(guān)的多個(gè)群組,每一個(gè)群組可能代表一兩個(gè)少數(shù)源頭基因、和一些他的下游基因的表現(xiàn)狀態(tài)。所得群組同構(gòu)型高且接近病原的潛在基因,因此可視為「生物路徑叢」的指針。
我們首先用遺傳流行病學(xué)的方法學(xué)來檢驗(yàn),這些群組是否具遺傳性,再用此表現(xiàn)群組所得的分?jǐn)?shù)(數(shù)量性狀)或再進(jìn)一步切割出來的 0/1 性質(zhì)來進(jìn)行基因定位,成功率必大為增加。
高血壓研究案例
本公司特約研究員林可軒博士在中研院潘文涵教授實(shí)驗(yàn)室服務(wù)期間,即在高血壓的研究上4運(yùn)用特殊的人工神經(jīng)網(wǎng)絡(luò) (artificial neural network) 模型,以華聯(lián)的人類表達(dá)譜芯片 (HOA, Human OneArray®) 所產(chǎn)生的大量基因數(shù)據(jù)來實(shí)現(xiàn)「生物路徑叢」的概念。如圖二所示,基因數(shù)據(jù)自神經(jīng)網(wǎng)絡(luò)左方的輸入端進(jìn)入模型。藉由不同的聯(lián)機(jī)連接到中間的隱藏點(diǎn) (hidden node)。這些中間的隱藏點(diǎn)及代表不同的「生物路徑叢」。藉由聯(lián)機(jī)上不同的權(quán)重,決定各生物路徑叢包含的基因。最后,各生物路徑叢對(duì)各所屬基因加權(quán) 的結(jié)果決定是否送出影響輸出端 (output node) 做決策的信號(hào)。最后,輸出端對(duì)各生物路徑叢送出信號(hào)加權(quán)的結(jié)果決定是否誘發(fā)高血壓。林博士在文獻(xiàn)中詳述了決定各聯(lián)機(jī)的權(quán)重及生物路徑叢數(shù)量的方法。鑒于篇幅有限,本文中不予詳述。圖三顯示該文中以類神經(jīng)網(wǎng)絡(luò)所構(gòu)建之生物路徑叢與血壓的關(guān)系。圖中左方顯示高血壓病人的數(shù)據(jù),右方顯示正常血壓者的數(shù)據(jù)。圖中由上而下分別為收縮壓、舒張壓、模型輸出端信號(hào)、模型隱藏點(diǎn)信號(hào)以及構(gòu)建的三個(gè)生物路徑叢中實(shí)際基因的表現(xiàn)量。從模型隱藏點(diǎn)信號(hào) (圖三(g)及(h)) 可看出三個(gè)生物路徑叢在高血壓病人及正常血壓者中呈現(xiàn)不同樣板。紅色樣板代表該生物路徑叢是處于表現(xiàn) (expressed) 的狀況,藍(lán)色樣板則代表該生物路徑叢是處于不 (或低) 表現(xiàn)的狀況。從圖中可看出,生物路徑叢一 (endophenotype 1) 是強(qiáng)保固的 (strongly protective),生物路徑叢二是弱保固的 (weakly protective),生物路徑叢三則是強(qiáng)危害的 (strongly risk)。這三個(gè)生物路徑叢將高血壓病人及正常血壓者分成幾個(gè)群組,不同群組中,含生物路徑叢三者血壓最高,含生物路徑叢二者血壓微降,含生物路徑叢一者血壓下降最多。即構(gòu)建的三個(gè)生物路徑叢對(duì)血壓調(diào)控有不同的角色。生物路徑叢亦可對(duì)高血壓病人做適當(dāng)?shù)姆秩骸?/FONT>
結(jié)論
這一年來華聯(lián)快訊介紹基因芯片在各領(lǐng)域的應(yīng)用,在年末我們希望藉這期簡(jiǎn)短的介紹,帶大家認(rèn)識(shí)生物路徑叢的概念,拓展基因芯片數(shù)據(jù)在構(gòu)建與表型相關(guān)之分析模塊的可能方向。面對(duì)復(fù)雜疾病或表型的異質(zhì)與多源性,我們預(yù)期這個(gè)生物路徑叢概念的運(yùn)用應(yīng)能幫助簡(jiǎn)化復(fù)雜疾病或表型的面向,而有效定位疾病或表型,并協(xié)助找出致病基因及其他因子,以期早日找出有效治療方針或追蹤的生物標(biāo)志。
圖一、2005年Dr. Agarwal 的評(píng)論中針對(duì)25個(gè)高血壓基因在不同的連結(jié)或關(guān)聯(lián)性研究中的統(tǒng)計(jì)報(bào)導(dǎo)
圖二、運(yùn)用特殊的人工神經(jīng)網(wǎng)絡(luò)模型配合大量基因數(shù)據(jù)來仿真基因、生物路徑叢跟高血壓之間的關(guān)系
圖三、構(gòu)建之生物路徑叢與血壓及不同病人群組的關(guān)系
參考文獻(xiàn):
1. Perusse L, Rankinen T, Zuberi A, Chagnon YC, Weisnagel SJ, Argyropoulos G, Walts B, Snyder EE, Bouchard C. 2005. The human obesity gene map: the 2004 update. Obes Res 13:381–490.
2. Agarwal A, Williams GH, Fisher ND. 2005. Genetics of human hypertension. Trends Endocrinol Metab 16:127–133.
3. Pan WH, Lynn KS, Chen CH, Wu YL, Lin CY, Chang HY. Using endophenotypes for pathway cluster to map complex disease genes. Genet. Epidemiol. 2006;30:143-154.
4. Lynn KS, Li LL, Lin YJ, Wang CH, Sheng SH, Lin JH, Liao W, Hsu WL, Pan WH. A neural network model for constructing endophenotypes of common complex diseases: an application to male young-onset hypertension microarray data. Bioinformatics. 2009 Apr 15;25(8):981-8.