“二代和三代宏基因組+代謝組”結(jié)合,揭秘個(gè)體間的腸道菌群SV突變
瀏覽次數(shù):1154 發(fā)布日期:2022-8-9
來源:本站 僅供參考,謝絕轉(zhuǎn)載,否則責(zé)任自負(fù)
百趣代謝組學(xué)資訊:“二代和三代宏基因組+代謝組”三劍合璧,揭秘健康個(gè)體間的腸道菌群SV突變
近日,中國科學(xué)院微生物研究所研究員王軍團(tuán)隊(duì)在Nature Communications(IF=14.919)上發(fā)表了題為"Short- and long-read metagenomics expand individualized structural variations in gut microbiomes"的論文。
中國科學(xué)院微生物研究所王軍研究員和動(dòng)物所宋默識研究員為共同通訊作者;中國科學(xué)院微生物研究所助理研究員陳亮和趙娜,博士研究生曹家寶,碩士研究生劉小林等為第一作者;上海百趣代謝組學(xué)技術(shù)研究中心創(chuàng)始團(tuán)隊(duì)劉志鵬研究員和研究人員范艷群為論文共同作者。
該研究建立了ONT三代測序和Illumina二代測序數(shù)據(jù)混合組裝的新方法(圖1a),檢測出了更多包括插入突變、缺失突變和基因倒位在內(nèi)的結(jié)構(gòu)變異(structural variations, SVs)。同時(shí),通過對100個(gè)人組成的健康人群橫斷面隊(duì)列和由10個(gè)人組成的縱向跟蹤隊(duì)列的宏基因組學(xué)和代謝組學(xué)的聯(lián)合分析,發(fā)現(xiàn)了SVs在不同個(gè)體間存在明顯不同,但在同一個(gè)體內(nèi)有相對穩(wěn)定,同時(shí)也發(fā)現(xiàn)SVs不僅影響菌群與代謝物的功能,對人體表型也有一定影響。
研究團(tuán)隊(duì)首先用已知數(shù)據(jù)集(ZymoBIOMICS™ Microbial Community)對ONT和Illumina的混合組裝方法與其他幾種組裝方式進(jìn)行比較,發(fā)現(xiàn)混合組裝方式從完整度、污染率、細(xì)菌基因組平均遺傳相似度(average nucleotide identity, ANI)和編碼密度方面都有更好的效果。同時(shí)通過對兩個(gè)人群的腸道數(shù)據(jù)分析發(fā)現(xiàn),混合組裝方式能提高數(shù)據(jù)質(zhì)量。與二代宏基因組組裝結(jié)果比較發(fā)現(xiàn),混合組裝方式雖然少了17.3%的contigs,但組裝序列數(shù)量多了5.1%,N50值提高了3倍多。對contigs進(jìn)行分箱后得到能代表單個(gè)菌種的重建宏基因組裝基因組 (metagenome-assembled genomes,MAGs),通過混合組裝方式得到平均N50為117kb的9,612個(gè)MAGs(每個(gè)樣本20~83個(gè)),去重后得到692個(gè)MAGs(圖1b,1c),其中有623在UHGG數(shù)據(jù)庫中,且有208個(gè)MAGs的質(zhì)量更高,同時(shí)也發(fā)現(xiàn)了67個(gè)新的genomic bins,用新版本dRep去重后減少了2個(gè)MAGs。從全面性考慮,159個(gè)非冗余的MAGs均包含了23S、16S和5S rRNA序列,448個(gè)MAGs至少含有其中一種類型的rRNA;贗llumina的組裝方式得到616個(gè)MAGs,N50約為混合組裝的一半,且只有9個(gè)MAGs含有三種類型的rRNA序列,258個(gè)MAGs含有至少一種rRNA序列。所有樣本中,Fusicatenibacter saccharivorans出現(xiàn)的頻率最高,其次是Anaerostipes hadrus和gathobacter rectalis,有189個(gè)菌以MAGs的形式出現(xiàn)在至少10個(gè)樣本中。
鑒于ONT測序能發(fā)現(xiàn)更多SVs的特點(diǎn),通過MAGs的比對,發(fā)現(xiàn)多種類型的SVs。189個(gè)菌通過dRep比對,鑒定出了317558個(gè)插入突變,34129個(gè)缺失突變和1373個(gè)基因倒位(圖1d);接下來又隨機(jī)選取插入突變和缺失突變兩個(gè)峰中(140~160bp和1050~1150bp,圖1e)SVs片段進(jìn)行分析,發(fā)現(xiàn)移動(dòng)元件和染色體外移動(dòng)基因元件(extrachromosomal mobile genetic elements,eMGEs)在兩種突變的短SVs片段中更多,從而推斷短序列的SVs可能與噬菌體整合和其他移動(dòng)元件相關(guān);但并不是所有SVs都有可檢測的移動(dòng)元件,其他的SVs可能是復(fù)制和重組引起,具體機(jī)制有待進(jìn)一步驗(yàn)證。
圖1. 三代和二代混合組裝方式驗(yàn)證結(jié)果
接下來,通過重新匹配參考MAG或者M(jìn)AG中含有SV的序列,以進(jìn)一步驗(yàn)證檢測出的SVs。人工匹配后發(fā)現(xiàn)97%以上隨機(jī)挑選SVs集與ONT多處位置的Reads數(shù)目一致,從而驗(yàn)證了單分子測序得到特異SVs的可靠性(圖2a),同時(shí)也發(fā)現(xiàn)同一個(gè)體相同細(xì)菌基因SVs的低異質(zhì)性。
對種水平(MAGs)的SVs分析發(fā)現(xiàn),SVs總數(shù)與所有樣本中的MAGs數(shù)和基因大小正相關(guān)。但由于細(xì)菌基因組中SVs在人群中分布的不均勻性,所以進(jìn)一步校正平均SV數(shù)和基因組大小,發(fā)現(xiàn)1M基因組中門水平多樣性最高的Firmicutes有20.4的SVs,Akkermensia所屬的Verrucomicrobia有19.5的SVs,而Desulfobacteroita和Proteobacteria的SVs最少(圖2b,2c)。
對兩個(gè)人群的189個(gè)MAGs分析發(fā)現(xiàn),不同個(gè)體間每Mb基因組中有16.7的SVs,而同一個(gè)體不同時(shí)間點(diǎn)每Mb基因組種SVs的中位值為0。因此,SVs可用于區(qū)分個(gè)體間的細(xì)菌種類和腸道菌群,同時(shí)對于特定菌10天內(nèi)在個(gè)體內(nèi)的穩(wěn)定性(圖2d)結(jié)果間接表明LifeLines cohort隊(duì)列發(fā)現(xiàn)的3年內(nèi)菌株分化或置換可能是由于SV的逐步累積引起。
圖2. 人體腸道微生物結(jié)構(gòu)變異結(jié)果
接下來,對人群中檢測出來的SVs相關(guān)的基因進(jìn)行功能富集分析,發(fā)現(xiàn)267個(gè)通路與插入突變和缺失突變(圖3a)相關(guān),但未發(fā)現(xiàn)與基因倒位相關(guān)的通路,前30個(gè)通路中有19個(gè)通路是與多糖降解、鞘脂代謝組學(xué)等與代謝組學(xué)相關(guān)的通路;同時(shí)也發(fā)現(xiàn)一些與環(huán)境信息處理相關(guān)的通路(如磷酸轉(zhuǎn)移酶系統(tǒng)(phosphotransferase system,PTS)和ABC轉(zhuǎn)運(yùn)蛋白等)。
為進(jìn)一步研究SVs對機(jī)體功能(尤其是微生物代謝組學(xué))的影響,對橫斷面隊(duì)列的糞便、血清和尿液樣本進(jìn)行代謝組學(xué)分析,結(jié)果表明,SVs導(dǎo)致基因功能發(fā)生改變,從而使得SVs突變組中的菌與代謝物不相關(guān),而不含SVs突變組中菌與代謝物顯著相關(guān)。相關(guān)性分析表明,11個(gè)菌與糞便、血清和尿液中的代謝物顯著相關(guān),其中涉及到889個(gè)受SV影響的細(xì)菌-代謝物關(guān)聯(lián)對(圖3b,3c)。
SVs與代謝組學(xué)的關(guān)聯(lián)分析發(fā)現(xiàn),70個(gè)SVs影響了細(xì)菌與74個(gè)糞便代謝物顯著性關(guān)聯(lián),31個(gè)SVs影響了細(xì)菌與66個(gè)尿液代謝物的關(guān)聯(lián),2個(gè)SVs影響了細(xì)菌與 2個(gè)血清代謝物顯著關(guān)聯(lián)。之前的研究中,inositol已被發(fā)現(xiàn)與Anaerostipes hadrus的缺失突變有關(guān),而本文研究中發(fā)現(xiàn)Bacteroides uniformis基因組的基因座上插入突變和缺失突變均使得該菌與尿液樣本中inositol的關(guān)聯(lián)消失。12個(gè)SV-affected基因的存在,使得Fusicatenibacter saccharivorans與糞便樣本中Neotrehalose的關(guān)聯(lián)不顯著(圖3d);同樣,33個(gè)SV-affected基因的存在使得Agathobacter rectalis與F1P間的關(guān)聯(lián)不顯著(圖3e)。功能分析的結(jié)果也表明SVs通過影響相關(guān)基因的功能對菌和代謝物關(guān)聯(lián)產(chǎn)生影響。
為進(jìn)一步研究SVs突變對表型的影響,選取橫截面隊(duì)列樣本中受SVs影響的兩個(gè)代謝物F1P和neotrehalose與空腹血糖做關(guān)聯(lián)分析,發(fā)現(xiàn)F1P和neotrehalose均與空腹血糖顯著負(fù)相關(guān),且F.saccharivorans與空腹血糖也顯著負(fù)相關(guān),但在SVs亞組中,關(guān)聯(lián)變得不顯著(圖3h);SVs的存在也使得A.rectalis與glucose的關(guān)聯(lián)減弱(圖3i)。
圖3. 腸道微生物中與SVs相關(guān)的功能研究結(jié)果
由于噬菌體侵染細(xì)菌基因組和病毒的逃離均會(huì)導(dǎo)致SVs的產(chǎn)生,因此用ProphageHunter對所有MAGs進(jìn)行分析,得到基因組大小在1236bp和91792bp間以長尾噬菌體Siphoviridae和肌尾噬菌體Myoviridae為主的2247個(gè)原噬菌體(圖4a)。對原噬菌體元件和細(xì)菌基因組進(jìn)行關(guān)聯(lián)分析,得到1,077個(gè)原噬菌體-宿主對(圖4b);其中,只有72個(gè)在MVP數(shù)據(jù)庫中;而二代測序數(shù)據(jù)只檢測到1815個(gè)原噬菌體,其中80.77%在混合組裝中檢測到;從結(jié)果我們可以看出,ONT-二代混合組裝數(shù)據(jù)更有利于原噬菌體的發(fā)現(xiàn)。
除原噬菌體外,菌群基因中還有用于抵抗病毒重復(fù)感染的CRISPR-Cas系統(tǒng),該系統(tǒng)中l(wèi)oci的spacers包含有特定病毒的特征序列,可能與菌種的插入突變或者缺失突變有關(guān)。同樣,對所有MAGs的分析發(fā)現(xiàn)了150058個(gè)CRISPR spacers,平均每個(gè)樣本中1665±560個(gè)spacers,大部分的spacers是新發(fā)現(xiàn)的,只有17,600個(gè)(11.73%)在CRISPROpenDB數(shù)據(jù)庫匯總,22962(15.30%)在西方人群的腸道菌群中出現(xiàn);基于二代測序的組裝方式,只發(fā)現(xiàn)了9542個(gè)spacers。由此我們也能看出,新的宏基因組組裝方式具有更強(qiáng)的發(fā)現(xiàn)基因元件(如CRISPR spacers)的能力。
對原噬菌體/CRISPR spacers的β多樣性分析發(fā)現(xiàn)(Jaccard distance距離),橫截面隊(duì)列中個(gè)體的差異性顯著大于跟蹤隊(duì)列個(gè)體內(nèi)的差異性。群體水平對原噬菌體和CRISPR spacers的組成分析表明兩者間有較強(qiáng)的共變;能揭示原噬菌體和病毒群落組成間相關(guān)性的Procrustes分析結(jié)果表明,橫截面隊(duì)列中不同個(gè)體間原噬菌體和病毒組成顯著相關(guān)(圖4c);對宏基因組數(shù)據(jù)中活性病毒序列的分析發(fā)現(xiàn),2247個(gè)鑒定出的原噬菌體匯中有47個(gè)有潛在活性的,從而表明細(xì)菌基因中存在大量無活性的原噬菌體,從而保持SVs的穩(wěn)定性。
圖4. 腸道菌群匯中與病毒和CRISPR相關(guān)的研究結(jié)果
本研究建立了基于三代測序和二代測序的混合組裝方式,不僅提高了數(shù)據(jù)質(zhì)量,也能檢測出大量包括插入突變和基因倒位在內(nèi)的結(jié)構(gòu)變異,也有利于原噬菌體以及CRISPR spacers等基因元件的發(fā)現(xiàn)。同時(shí)通過橫截面隊(duì)列和縱向跟蹤隊(duì)列數(shù)據(jù)的分析,發(fā)現(xiàn)SVs在不同個(gè)體間存在較強(qiáng)的異質(zhì)性以及個(gè)體內(nèi)的穩(wěn)定性;通過功能分析和代謝組學(xué)分析,發(fā)現(xiàn)SVs能影響菌群與代謝物和表型間的關(guān)聯(lián)。
文/阿趣代謝組學(xué)