目前,絕大部分的人類基因組已獲得測定。但基因組中仍有許多的區(qū)域未獲得測序。這其中的首要原因是在每條染色體的中心區(qū)域(稱為著絲粒)含有大量重復(fù)DNA序列。這些重復(fù)片段中常常含有不少未知功能的基因,不同個(gè)體間重復(fù)片段的拷貝數(shù)不同。不少科學(xué)家認(rèn)為諸如紅斑狼瘡、精神發(fā)育遲滯、精神分裂癥、色盲、牛皮癬,以及和年齡相關(guān)的眼部黃斑變性等疾病都與此相關(guān)。因此,對重復(fù)片段數(shù)量、含量以及位置測序就顯得尤為重要。
但目前的測序方法都依賴于大量相同拷貝的讀取,因而大量擴(kuò)增的CGG重復(fù)(>100)只能生成不連貫的信號。這阻礙了研究人員獲得單堿基分辨率的測序數(shù)據(jù)。現(xiàn)在,利用Pacific Biosciences公司的單分子實(shí)時(shí)(SMRT)測序技術(shù),可以從大量擴(kuò)增的CGG重復(fù)序列中產(chǎn)生高質(zhì)量的測序數(shù)據(jù),其原始讀長可以超過10 kb,采用BLASR算法將長讀取裝配成環(huán)狀共有序列(CCS),而目標(biāo)序列的覆蓋度至少為3倍,使得環(huán)狀共有序列覆蓋了超過750個(gè)CGG重復(fù)片段。
bio-equip.com