隨著疫情進(jìn)入攻堅(jiān)階段,基于實(shí)時(shí)熒光RT-PCR法的核酸檢測技術(shù)在新冠病毒快速鑒定及確診中發(fā)揮了重要作用。然而,若要對新冠病毒來源、變異進(jìn)化及致病機(jī)理等進(jìn)行研究,需獲取完整的病毒基因組信息,這離不開高通量測序和病毒序列組裝。
為全面深入地揭示新冠病毒的相關(guān)特性,華大智造可為新型冠狀病毒高通量測序、序列組裝、變異進(jìn)化分析等流程提供一體化解決方案,并已協(xié)助全國多地疾控中心成功組裝新型冠狀病毒全長序列。結(jié)果顯示,它們與公布的參考基因組序列高度一致。
新冠病毒序列組裝過程中的難點(diǎn)及要求
如大家所知,高通量測序在新冠病毒鑒定及診斷中可與RT-PCR法形成互補(bǔ),不僅能提高陽性檢出率,還能進(jìn)行并發(fā)檢測,提供更多可能感染的病原信息。更為重要的是,它還可以對病毒序列進(jìn)行組裝,獲得病毒全長基因組信息,為追溯病毒來源、監(jiān)測病毒變異趨勢、探究致病機(jī)理提供研究基礎(chǔ)。
為獲取完整的病毒基因組序列,目前廣泛應(yīng)用的高通量測序技術(shù)是將核酸序列打斷成短片段進(jìn)行測序,然后通過分析軟件將測得的短序列進(jìn)行拼接組裝。然而,新型冠狀病毒作為一種新發(fā)病毒,人們在測序深度、測序準(zhǔn)確性、重復(fù)序列比例等方面,還沒有形成具有參考意義的經(jīng)驗(yàn)值。如果要將海量的短序列還原出原始的基因組序列,則會在序列拼接中出現(xiàn)以下問題:
首先,難免出現(xiàn)測序錯(cuò)誤,導(dǎo)致某些重疊可信度低;其次,基因組序列的不完全覆蓋性以及高重復(fù)序列的干擾,會影響拼接的準(zhǔn)確性和完整性;最后,宏轉(zhuǎn)錄組測序樣本中的人源序列占85%以上,病原序列僅占5%左右,這使得病毒基因組序列拼接難度更高。
圖1 序列拼接組裝難點(diǎn)及其對測序方案的要求
優(yōu)化測序策略,確保病毒序列信息完整性
為破解上述新冠病毒序列在組裝過程中遇到的難題,華大智造可提供含建庫、高通量測序、序列組裝、變異進(jìn)化分析等流程在內(nèi)的一體化解決方案。
在建庫環(huán)節(jié)中,為避免樣本在采樣、保存和運(yùn)輸過程中因不確定性導(dǎo)致提取的核酸含量出現(xiàn)較大差異,華大智造可提供兩種方案:一是對核酸含量高的樣本建議進(jìn)行rRNA去除再建庫,提高有效數(shù)據(jù)占比;二是對核酸含量低的樣本,直接進(jìn)行RNA建庫,減少核酸損失,提升建庫成功率,并加大測序深度。
其次,在測序環(huán)節(jié)采用華大智造MGISEQ-200測序儀,它不僅小巧靈活,同時(shí)高效專注,已協(xié)助全國多地疾控中心完成鑒定并成功拼接出各地首例新冠病毒序列。
最后,通過病原鑒定系統(tǒng)對新冠病毒序列進(jìn)行數(shù)據(jù)分析并采用IDBA方法完成拼接。
這樣,即使是在未去除宿主的情況下,也可以滿足宏轉(zhuǎn)錄組測序病毒序列組裝對數(shù)據(jù)量的要求,保證序列信息的完整性。
圖2 針對新型冠狀病毒序列組裝的解決方案與策略
實(shí)例解析新冠病毒全基因組序列獲取全流程
接下來,我們將以某疾控中心收到的1例新冠病毒肺炎疑似樣本為例,為您解析該CDC首例新型冠狀病毒感染病例呼吸道標(biāo)本宏轉(zhuǎn)錄組測序及病毒序列組裝全流程:
圖3 新型冠狀病毒全基因組序列獲取全流程
新冠病毒全基因組序列獲取全流程
2020年1月20日 - 1月22日上午
1月20日,文庫制備
針對核酸量不同的樣本,團(tuán)隊(duì)分別采用了不同的建庫策略,并使用MGIEasy RNA文庫制備試劑套裝進(jìn)行建庫。經(jīng)反轉(zhuǎn)錄、接頭連接、PCR擴(kuò)增、純化等一系列操作后獲得文庫產(chǎn)物,再使用滾環(huán)擴(kuò)增技術(shù),制備DNA納米球。
圖4 MGIEasy RNA文庫制備試劑套裝
1月21日,上機(jī)測序
基于MGISEQ-200平臺,對該地發(fā)現(xiàn)的首例病例的呼吸道標(biāo)本進(jìn)行300M的高深度測序。
圖5 某疾控中心運(yùn)行的MGISEQ-200測序儀
1月22日上午,數(shù)據(jù)分析
產(chǎn)出32Gb數(shù)據(jù),總reads數(shù)318M。結(jié)合病原感染快速鑒定系統(tǒng),鑒定出2,337,442條新型冠狀病毒reads。
圖6 分析報(bào)告病毒鑒定結(jié)果
1月22日上午,拼接組裝
分析軟件自動將2,337,442條的新型冠狀病毒reads從所有序列中抽出。使用拼接效率高的IDBA方法進(jìn)行組裝,成功完成新型冠狀病毒的序列組裝,獲得基因組序列全長29.9kb。
圖7 病毒基因組序列拼接組裝流程
知己知彼,百戰(zhàn)不殆。盡管我們對新型冠狀病毒的認(rèn)識有待進(jìn)一步研究,但通過宏轉(zhuǎn)錄組測序和病毒序列組裝獲得新型冠狀病毒全基因組序列,有助于揭示病毒相關(guān)特性。通過對全基因組序列相似性比較和變異位點(diǎn)分析,可以為構(gòu)建進(jìn)化圖譜、追溯病毒來源、追蹤變異路徑、了解致病機(jī)理等提供重要參考信息,助力抗擊疫情。