Illumina測序平臺在“千人藏族基因組測序”項目研究中的應(yīng)用
瀏覽次數(shù):1032 發(fā)布日期:2023-11-13
來源:本站 僅供參考,謝絕轉(zhuǎn)載,否則責(zé)任自負(fù)
藏族人群對高海拔環(huán)境的遺傳適應(yīng)是現(xiàn)代人適應(yīng)性進(jìn)化最經(jīng)典的案例之一。遺傳學(xué)和考古學(xué)研究表明藏族人群祖先早在舊石器時代就遷居到了青藏高原,世代的自然選擇使得藏族人群積累了適應(yīng)性的遺傳變異,并獲得了生理上的適應(yīng)特征,包括較低的血紅蛋白水平、更強(qiáng)的低氧通氣反應(yīng)、更好的心肺功能和更好的生殖適合度等。
為了能更深入的探究這種適應(yīng)性遺傳變異的秘密,來自中科院昆明動物所和西藏大學(xué)的研究人員在國家自然科學(xué)基金基礎(chǔ)科學(xué)中心項目、中科院戰(zhàn)略先導(dǎo)專項、中科院青促會項目、西藏自治區(qū)重點(diǎn)研發(fā)計劃和云南省自然科學(xué)基金項目的資助下,使用來自Illumina的測序平臺進(jìn)行了“千人藏族基因組測序”項目。該項目發(fā)表在Genome Biology(IF:12.3)上。
論文的網(wǎng)址鏈接為:
https://doi.org/10.1186/s13059-023-02912-1
文章簡介
進(jìn)入基因組時代以來,國內(nèi)外學(xué)者利用全基因組信號掃描找到了一系列在藏族人群基因組中受到正選擇的變異位點(diǎn),共報道了682個基因。然而,由于樣本量小、變異位點(diǎn)密度低、檢測方法單一等局限,只有EPAS1和EGNL1兩個基因能在多項獨(dú)立研究中成功重復(fù),而其他基因的選擇信號仍不確定。
此外,目前的功能研究發(fā)現(xiàn)這兩個基因只能解釋少數(shù)幾個適應(yīng)性狀,而其他藏族人群高原適應(yīng)性特征,比如更好的心肺功能,仍無法被目前的正選擇基因所解釋。因此,在藏族人群高原適應(yīng)遺傳研究的拼圖中,目前的數(shù)據(jù)仍有許多不足和未確定的部分,需要大規(guī)模全基因組測序(WGS)數(shù)據(jù)和綜合性達(dá)爾文正選擇檢測方法重新評估和確定。
為了全面評估藏族人群高原適應(yīng)的遺傳位點(diǎn),中國科學(xué)院昆明動物所宿兵團(tuán)隊與西藏大學(xué)、西藏阜康醫(yī)院等單位合作,利用Illumina NovaSeqTM產(chǎn)生了1,001個藏族人群的WGS數(shù)據(jù),樣本覆蓋了中國青藏高原的主要人口分布區(qū)。
通過對“千人藏族基因組”數(shù)據(jù)的系統(tǒng)分析,發(fā)現(xiàn)了3500萬個變異,其中超過三分之一是新發(fā)現(xiàn)的變異。利用大規(guī)模WGS數(shù)據(jù),基于藏族人群的變異位點(diǎn)頻譜和連鎖不平衡譜,研究人員構(gòu)建了首個藏族人群基因組參考面板(1,000 Tibetan-Genome Panel,1KTGP)。
此外,通過使用多信號綜合分析(Composite of Multiple Signals,CMS)方法,重新確定了藏族人群基因組中受到達(dá)爾文正選擇的遺傳位點(diǎn)和基因,包括4320個高可信的受選擇位點(diǎn),涉及192個基因。功能注釋和富集分析表明,這192個基因涉及多個基因器官和生理系統(tǒng),支持藏族人群高原適應(yīng)是多基因效應(yīng)的假說。研究團(tuán)隊發(fā)現(xiàn)了4個具有強(qiáng)選擇信號的新基因:TMEM132C、ATP13A3、SANBR和KHDRBS2,與藏族更好的心肺功能相關(guān)。該研究基于大規(guī)模的藏族全基因組測序數(shù)據(jù)和發(fā)現(xiàn)的適應(yīng)性基因?qū)⒊蔀槲磥砀咴貐^(qū)人群遺傳和醫(yī)學(xué)研究的寶貴資源。
研究背景
在最近的人類進(jìn)化研究中,藏族人對高海拔環(huán)境的遺傳適應(yīng)被視為一個經(jīng)典案例。遺傳和考古數(shù)據(jù)都支持藏族人在高海拔地區(qū)的舊石器時代聚居地(超過1000代人)就已經(jīng)出現(xiàn)雛形,這使得自然選擇能夠豐富賦予藏族人適應(yīng)能力的基因突變。這些已知的適應(yīng)特征包括相對較低的血紅蛋白水平,更有效的呼吸,更好的心肺功能,以及更好的生殖能力。
然而,在過去的十年里,盡管科學(xué)家們已經(jīng)進(jìn)行了許多使用全基因組數(shù)據(jù)的研究,以尋找在藏族人中顯示達(dá)爾文陽性選擇信號的變異和基因——總共已經(jīng)報道了682個基因;并且只有兩個基因(EPAS1和EGNL1) 在多次研究中被成功復(fù)制,其他基因的選擇信號仍無法得到驗證。此外,已發(fā)表的EPAS1和EGLN1的遺傳關(guān)聯(lián)分析和功能實(shí)驗數(shù)據(jù)似乎只占適應(yīng)性特征的一小部分,包括保護(hù)藏族人免受高原紅細(xì)胞增多癥影響的相對較低的血紅蛋白水平和更好的通風(fēng)。因此,目前的研究仍無法解答藏族的基因適應(yīng)。
藏族基因適應(yīng)未解之謎源于當(dāng)前數(shù)據(jù)的三大局限性:
(1)樣本量小,即所有已報道的藏族全基因組測序(WGS)數(shù)據(jù)的個體數(shù)都不到50個,導(dǎo)致對等位基因頻率的估計不準(zhǔn)確,檢測基因組中選擇信號的能力有限;
(2)變異密度低,即已報道的大樣本研究只產(chǎn)生覆蓋有限基因組的SNP陣列數(shù)據(jù);
(3)在檢測自然選擇信號方面存在偏差, 即已發(fā)表的研究只采用一種或兩種方法(但研究不同)來尋找選擇信號,研究結(jié)果不一致。
方法
取樣及測序
在中國西藏自治區(qū)拉薩某醫(yī)院(海拔3650 m)共招募1064名受試者。這些被招募的藏族女性均無親屬關(guān)系(來自醫(yī)院婦產(chǎn)科),她們來自83個不同的地理位置(海拔范圍:2300-4900米)。每位受試者均獲得書面知情同意。本研究方案經(jīng)中國科學(xué)院昆明動物研究所內(nèi)審委員會審核通過(批準(zhǔn)號:SMKX-20160311-45)。采集血樣,通過prefill Blood DNA Kit-DUO (KFRPD801212)提取基因組DNA,在Illumina NovaSeq™平臺上進(jìn)行WGS,平均每人40 Gb (11.8×depth)數(shù)據(jù)(圖1B)。在測序和分析之前,為了保護(hù)隱私,所有樣本都被剝離了個人標(biāo)識符。所有程序都符合人體實(shí)驗負(fù)責(zé)委員會的道德標(biāo)準(zhǔn)。
結(jié)果
1,001名藏族人的全基因組測序
圖1:抽樣調(diào)查藏族地理位置及WGS數(shù)據(jù)質(zhì)量評估
A 本研究中藏族樣本的地理位置。標(biāo)明了抽樣地點(diǎn)和樣本量。
科研人員招募了來自青藏高原83個不同地理位置(海拔范圍:2300-4900米)的1064名藏族參與者。
B 藏區(qū)1001WGS數(shù)據(jù)的質(zhì)量,反映在深度和Q30值上。平均深度和Q30用紅色虛線表示。
共計1064名個體的基因在Illumina NovaSeq™平臺上進(jìn)行了WGS測序,測序平均深度為11.8×,數(shù)據(jù)質(zhì)量平均Q30為93%。經(jīng)過嚴(yán)格的過濾,最終保留了1001個個體的WGS數(shù)據(jù),用于全基因組變異調(diào)用和下游分析。
C 所有已鑒定SNV的次要等位基因頻譜。已知的和新的變種分別以紅色和藍(lán)色顯示。
使用標(biāo)準(zhǔn)的GATK流程,鑒定出3470萬個變異,其中包括2990萬個單核苷酸變異(SNV)和480萬個INDELs(插入和缺失大小小于50bp)。在2820萬個雙等位SNV中,有36%是沒有在數(shù)據(jù)庫dbSNP (版本154)中報告的新SNV。
D 藏族和18個東亞代表性群體的全基因組主成分分析圖。紅圈是本次研究的1001個樣本(藏族),藍(lán)圈是已發(fā)表的33個WGS樣本(藏族*)
通過主成分分析(PCA),包括1000基因組計劃第三階段(簡稱1KGP3)和人類基因組多樣性計劃(HGDP)的1001名藏族人和6527名全球個體,以及33名已發(fā)表的藏族人。當(dāng)只包括東亞人口時,1001名藏族人與33名藏族人緊密地聚集在一起,他們一起形成了一個獨(dú)立于其他東亞人口的群體,且來自中國的三個民族(土族、納西族和彝族)與藏族人關(guān)系較近。這三個民族生活在青藏高原周圍與藏族人雜居。藏族的全基因組雜合率為1.41±0.046,藏族與漢族(藏漢)的遺傳距離為0.0095。
藏族人的變異頻率和連鎖不平衡譜系
圖2:藏族的全基因組變異頻率和LD譜系
A 1001 WGS數(shù)據(jù)和公共的數(shù)據(jù)之間的MAF的SNV計數(shù)比較。1001個WGS數(shù)據(jù)在檢測罕見變異方面比公共的數(shù)據(jù)要強(qiáng)大得多。
基于1001個基因組序列建立了西藏人的全基因組變異頻率和LD譜系與以往小樣本量的西藏WGS研究或大樣本量的陣列數(shù)據(jù)相比,該的變異集在檢測罕見變異(小等位基因頻率,MAF<3%)和全基因組的無偏覆蓋方面表現(xiàn)出顯著的能力
B 人群間差異較大的SNVs(FST(Tibetan-Han))的HWE偏差分布,HWE偏差的卡值為1e-6。
對藏族人的全基因組變異進(jìn)行了Hardy-Weinberg平衡(Hardy–Weinberg equilibrium ,HWE)偏離測試,有207個變異顯示出明顯的HWE偏差(P<1e-6)。同時,它們也顯示出藏族和漢族之間的深度分化,這是強(qiáng)烈自然選擇的表現(xiàn)(FST(Tibetan-Han)>0.2)。這些變異的質(zhì)量都很穩(wěn)定,并通過了所有嚴(yán)格的質(zhì)量控制,包括讀深度、映射質(zhì)量(MQ)、堿基質(zhì)量(BQ)和基因型質(zhì)量(GQ)。
C 通過Sanger測序驗證三個具有高FST(Tibetan-Han)的HWE偏移的SNVs(藏族-漢族)。中間的直方圖表示三個數(shù)據(jù)集中三個SNVs的小等位基因頻率(MAF),包括1001個藏族人的WGS數(shù)據(jù)(藍(lán)色),1001個WGS數(shù)據(jù)中的96個隨機(jī)樣本(綠色),以及96個樣本的Sanger測序數(shù)據(jù)(紅色)。直方圖下的p值表示基于三個數(shù)據(jù)集的三個SNPs的HWE偏差的顯著性水平。
為了進(jìn)一步驗證這些HWE偏移的變異,并排除測序錯誤的可能性,研究人員選擇了三個具有高FST(Tibetan-Han)值的變異(rs117115595,rs9954838和rs6490276),并在在96個隨機(jī)選擇的藏族人中進(jìn)行Sanger測序。三個被選擇的變異的基因型頻率和HWE模式與WGS數(shù)據(jù)高度一致,表明HWE偏移的變異很可能是在藏族中經(jīng)歷了正向選擇的真正突變,而不是基因分型錯誤。結(jié)果表明:對于經(jīng)歷強(qiáng)烈自然選擇的人群(如西藏人),HWE偏差的顯著性閾值應(yīng)該更寬松。
D 藏族和世界其他人群的LD衰減模式的比較。虛線框表示藏族人獨(dú)特的LD衰變模式。對于長基因組區(qū)域(>100kb)的衰變,藏族顯示出比世界其他人群更慢的衰變(反映在更高的r2值),這是擴(kuò)展單倍型同質(zhì)性的表現(xiàn)。
E 來自1001個西藏WGS數(shù)據(jù)和3008個西藏陣列數(shù)據(jù)的全基因組SNVs的派生等位基因頻率(derived allele frequency, DAF)的相關(guān)性,由1KTGP進(jìn)行歸因。
利用獲取的1001個基因組序列重建了一個西藏特有的LD參考(簡稱1KTGP),并對已發(fā)表的使用全球人群參考的陣列數(shù)據(jù)(簡稱1KGP3)的歸因準(zhǔn)確性進(jìn)行了評估。結(jié)果發(fā)現(xiàn),1KTGP估算的基因型頻率與1,001 WGS數(shù)據(jù)高度一致。
F 用1KGP3歸因時的相關(guān)圖。
1KGP3計算的基因型頻率有許多SNVs與1001 WGS數(shù)據(jù)有嚴(yán)重偏差,例如位于EPAS1基因區(qū)域的SNVs。
重新定義藏族人的正向選擇的基因組特征
圖3:西藏人達(dá)爾文陽性選擇的全基因組信號。
A藏族全基因組SNVs的CMS評分分布。192個前導(dǎo)基因區(qū)域(lead gene regions)用紅色(新發(fā)現(xiàn)的基因)和藍(lán)點(diǎn)(已報道的基因)分別標(biāo)記。排名前10位的TSNGs以基因名稱標(biāo)示(4個新發(fā)現(xiàn),6個已報道)。維恩圖顯示了本研究中報告的基因集和鑒定的基因集之間的重疊。
科研人員通過多種信號復(fù)合(Composite of Multiple Signals ,CMS)的方法來識別正選擇下的變異體。首先生成了具有最高1‰CMS得分(>7.66)的變異集,然后對該變異集進(jìn)行過濾,只保留顯示西藏特有富集的變異,即與全球四個主要人群(漢族、日本人、歐洲人和非洲人)相比,西藏人的富集等位基因頻率更高。最終的數(shù)據(jù)集包含了4320個被認(rèn)為是西藏選擇主導(dǎo)的SNVs(Tibetan selection-nominated SNVs,TSNSs)變異。它們位于236個獨(dú)立的基因組區(qū)域,由192個主導(dǎo)基因代表,被稱為西藏選擇指定基因(TSNGs)。在這192個TSNGs中,34個是以前報道過的,其他158個是新發(fā)現(xiàn)的基因。
B 4320個TSNGs的功能注釋。“調(diào)控區(qū)”是指帶有調(diào)控注釋的非編碼區(qū)。
通過對4320個TSNSs進(jìn)行功能注釋發(fā)現(xiàn),大部分(75.4%)位于非編碼區(qū),632個(14.6%)位于被注釋的調(diào)節(jié)區(qū)。編碼區(qū)有90個TSNSs,包括22 missenses(錯義突變), 20 synonymous(同義突變), 2 stop-gained(外顯子提前終止翻譯), 2 splice acceptor(剪接受體), 10 deleterious(有害突變), and 34 likely_benig/benign(可能是良性突變)。
C不同方法下TSNGs的功能富集模式。在氣泡圖中,有意義的項用紅色表示。
使用7種方法進(jìn)行功能富集分析發(fā)現(xiàn):在細(xì)胞類型和組織方面,這些TSNGs在人臍靜脈內(nèi)皮細(xì)胞(HUVECs)、胎盤和睪丸中顯著富集,反映了藏族人在氧感(內(nèi)皮細(xì)胞)、發(fā)育(胎盤)和生殖能力(睪丸)方面的適應(yīng)性變化,與小鼠敲除表型(出生后生長異常和體型減小)以及疾病期(青少年特發(fā)性脊柱側(cè)凸)一致。新發(fā)現(xiàn)的322 bp內(nèi)含子缺失PKHD1L1 (PKHD1 ciliary IPT domain containing fibrocystin/polyductin like 1;含 PKHD1 纖毛 IPT 結(jié)構(gòu)域纖維囊蛋白/多管蛋白)在藏族人群中富集(49.5%),但在非藏族人群中相對較少(<23%)嗜睡癥通路富集結(jié)果相呼應(yīng)。
表1:藏族人中14種高豐富度的錯義變體
粗體顯示的錯義TSNGs是本研究中新發(fā)現(xiàn)的
在22個錯義TSNS中,有13個在藏族中高度富集,與全球其他人群相比,在藏族中的頻率>20%,其中4個是以前報道過的,包括EGLN1(rs186996510)、TMEM247(rs116983452和rs12612916)、ADH1B(rs1229984)和OCA2(rs1800414),而其他10個是本研究中新發(fā)現(xiàn)的。例如,rs79703522是RP11-766F14.2(編碼一種在肌肉、心臟和腎臟中表達(dá)的功能未知的蛋白)的錯義突變,在藏族人中占優(yōu)勢(87%),平均比全球其他人群高59%。值得注意的是,在之前的研究中,有54個頻率豐富的錯義和功能缺失突變被報道,這其中只有5個可以在本次的大規(guī)模WGS數(shù)據(jù)中成功驗證(FST(Tibetan-Han)>0.1),這表明大樣本量對于準(zhǔn)確估計等位基因頻率至關(guān)重要。
新發(fā)現(xiàn)的頂級TSNSs解釋了西藏人心肺功能的適應(yīng)
圖4:前10個信號中有4個新發(fā)現(xiàn)的TSNGs。
A-D CMS評分和重組率的區(qū)域圖,其中的峰表示選擇信號。峰值SNVs用顏色標(biāo)記。并給出了四種基因的滑動窗Fay和Wu’s H檢驗結(jié)果。計算的重組率(r2)表示峰值SNV與其他SNVs之間估計的連鎖不平衡(linkage disequilibrium,LD)程度,并以顏色編碼。CMS=7.66(前1‰)的顯著性閾值用紅色虛線表示。H值為給定區(qū)域(紅色標(biāo)記)的最大得分,覆蓋了4個基因SNVs峰值的上、下游500 kb區(qū)域
表2西藏基因組中的十大選擇信號
粗體顯示的TSNGs是本研究中新發(fā)現(xiàn)的4個
在前10個TSNGs中,除了先前報道的6個基因(EPAS1、EGLN1、HLA_DQB1、L3MBTL2、SLC52A3和BICDL1)外,我們還發(fā)現(xiàn)了4個具有強(qiáng)選擇性的新基因,包括TMEM132C、ATP13A3、SANBR和KHDRBS2。
A TMEM132C基因區(qū)
TMEM132C(跨膜蛋白132C)是TMEM132家族的成員,其分子功能尚不清楚。峰SNV rs7486929 (CMS=12.71) 位于TMEM132C的內(nèi)含子區(qū),具有藏族特異性富集(ΔDAF>29%)。Fay和Wu的H檢驗進(jìn)一步證實(shí)了TMEM132C的選擇信號(H= - 55.87, p<0.001)。之前基于家族的研究中報道了該基因的突變與肺和肺功能(1 s用力呼氣量(forced expiratory volume in 1 s ,F(xiàn)EV1))有關(guān)。
B ATP13A3基因區(qū)
ATP13A3 (ATPase 13A3)是P型ATP酶家族的一員,可跨細(xì)胞膜運(yùn)輸多種陽離子,是哺乳動物多胺運(yùn)輸系統(tǒng)的主要組成部分。藏族人與其他人群相比,排在最高的SNV rs11714317表現(xiàn)出強(qiáng)烈的選擇特征和獨(dú)特的LD衰減模式(CMS=11.7, XPEHH=5.7)。Fay和Wu的H檢驗進(jìn)一步驗證了ATP13A3的選擇(H= - 71.34, p<0.001)。ATP13A3在肺血管重構(gòu)和肺動脈高壓(pulmonary arterial hypertension ,PAH)中發(fā)揮重要作用。西藏富集的ATP13A3突變可能能保護(hù)西藏人免于肺動脈高壓(PAH)。
C SANBR基因區(qū)
SANBR (CSR的SANT和BTB結(jié)構(gòu)域調(diào)節(jié)因子,也稱為KIAA1841)因其與過氧化物酶體生物發(fā)生障礙有關(guān)而聞名。SANBR的選擇性信號在各種統(tǒng)計數(shù)據(jù)中是一致的,包括Fay和Wu’H檢驗(H= - 72.19, p<0.001)。排名最前的SNV rs1627608在藏族和漢族之間存在高度分化(FST(Tibetan-Han)=0.25),根據(jù)GTEx數(shù)據(jù)庫,它是睪丸、肺、動脈-主動脈、肌肉-骨骼和心-房附件的表達(dá)數(shù)量性狀位點(diǎn)(expression quantitative trait locus,eQTL)。
D KHDRBS2基因區(qū)
KHDRBS2 (KHRNA-binding domain containing, signal transduction associated 2)是一種參與選擇性剪接調(diào)控的RNA結(jié)合蛋白,在肺和腦中大量表達(dá)。排名最前的SNV rs12208789位于KHDRBS2的內(nèi)含子區(qū),在藏族人中表現(xiàn)出強(qiáng)烈的正選擇,在藏族人中的頻率比全球其他人群高32%。大規(guī)模人口GWAS研究顯示,KHDRBS2與肺功能(FEV/FEC比值)和房間隔缺損相關(guān)。
西藏人遺傳適應(yīng)的多基因和多效性效應(yīng)
圖5:192個TSNGs的多基因和多效性效應(yīng)
通過GeneORGANizer,將基因在現(xiàn)有功能數(shù)據(jù)庫的基礎(chǔ)上分配到不同的器官或生理系統(tǒng)。前10個TSNGs以紅色(新發(fā)現(xiàn))和藍(lán)色(已報道)的粗體突出顯示。
通過GeneORGANizer分析來確定192個在本研究中已鑒定的TSNGs如何促進(jìn)西藏人各種生理系統(tǒng)的適應(yīng)。結(jié)果表明,這些TSNGs在多個器官/系統(tǒng)中起作用,包括藏族人已知具有適應(yīng)性特征的器官/系統(tǒng),如血液(45個基因)、肺(35個基因)、心臟(36個基因)和生殖(26個基因),以及那些與適應(yīng)沒有已知聯(lián)系的器官/系統(tǒng),如大腦(65個基因)、面部(36個基因)、肌肉(37個基因)、腎臟(25個基因)、消化(37個基因)、皮膚(36個基因)和骨骼(30個基因)。值得注意的是,許多TSNGs似乎在多個器官/系統(tǒng)中起作用,例如,HLA-DQB1是排名前十的TSNGs之一,由于其在免疫系統(tǒng)中的作用,它幾乎在所有列出的器官/系統(tǒng)中都起作用。同樣,SLC52A3出現(xiàn)在7個不同的器官/系統(tǒng)中,這意味著SLC52A3除了在大腦中已知的作用外,它還可能有助于其他器官的適應(yīng)。
結(jié)論
通過這個研究,科研人員利用Illumina NovaSeq™生成了大規(guī)模的藏族WGS數(shù)據(jù),并為藏族人群提供了特定人群的參考。在這份大規(guī)模的藏族WGS數(shù)據(jù)中,鑒定出了一組具有正選擇信號的高置信度基因(192個TSNGs)。這些基因可能在人體的多個器官/系統(tǒng)中發(fā)揮多基因和多效性作用,它們可能共同作用形成西藏人的適應(yīng)性狀。這些發(fā)現(xiàn)證明了大規(guī)模WGS數(shù)據(jù)在群體研究中的巨大價值和潛力。