歷經(jīng)三十年,全球科學家繪制出完整的人類基因組圖譜,開啟了基因世界的大門。然而,每個人的遺傳密碼中都存在數(shù)百萬個變異,迄今為止只有0.07%的人類已被測序,并存在數(shù)據(jù)代表性不足。
如何加速解碼生命密碼?
如何解決基因組數(shù)據(jù)代表性不足?
如何推動基因組學應(yīng)用于改善人類健康?
基因組學領(lǐng)域的“ChatGPT”——
PrimateAI-3D,正加速解碼精準醫(yī)療和藥物靶點發(fā)現(xiàn)!
6月1日,全球基因測序和芯片技術(shù)的領(lǐng)導(dǎo)者因美納(納斯達克股票代碼:ILMN),宣布推出全新的人工智能(AI)算法——PrimateAI-3D,利用靈長類動物基因和先進的人工智能技術(shù)來改善遺傳風險預(yù)測和藥物靶點發(fā)現(xiàn)。
同期,《科學》(Science)雜志發(fā)表主題特刊(第6648期)該期特刊中8篇論文中的4篇來自因美納和24個國家/地區(qū)的科學家們的合作,其中兩篇由因美納人工智能副總裁Kyle Farh擔任通訊作者,詳細介紹了PrimateAI-3D算法的訓練方式及其在英國生物樣本庫(UK Biobank)隊列中50萬個基因組的應(yīng)用情況。另外兩篇有關(guān)靈長類動物進化研究的論文也同期發(fā)表,為PrimateAI-3D的開發(fā)提供了信息。
自人類基因組圖譜繪成以來,全球科學家與臨床醫(yī)生不斷致力于深入研究基因變異,解碼基因與人類健康的奧秘。每個人都攜帶著數(shù)百萬種基因變異,正是這些變異導(dǎo)致了健康和疾病風險的個體差異,但目前大多數(shù)變異的作用方式尚不明確。盡管全球有80億人口,但全人類的遺傳多樣性仍然與10,000個共同祖先(起源種群)相似。要真正了解人類基因組,僅憑人類基因組測序中的數(shù)據(jù)遠遠不夠。
DNA就是活歷史
進化是世界上持續(xù)時間最長的實驗。大自然在進化中不斷通過隨機突變來測試基因,那些危害動物健康的變異很快就會從基因庫中剔除,而那些中性或有益的變異則會留存并傳遞下去。Farh表示:“這些大自然實驗的結(jié)果記錄在每個物種的基因組中,并一直留存下來,形成一份活檔案。”
盡管在形態(tài)上千差萬別,但現(xiàn)存靈長類動物(包括猿、猴、原猴亞目,例如狐猴和懶猴)與人類之間仍有90%以上的DNA是相同的。在黑猩猩或倭黑猩猩身上發(fā)生的突變同樣會在人類身上發(fā)生,而因美納科學家的研究表明,如果某種變異在另一種靈長類動物身上是接受自然選擇的結(jié)果,則該變異有99%的概率不會在人類身上引發(fā)疾病*[1]。
因此,通過對現(xiàn)代靈長類動物進行測序,我們可以更好地了解哪些變異不會致病。本期《科學》(Science)雜志中題為《The landscape of tolerated genetic variation in humans and primates》的研究對來自233個非人靈長類的800余個動物進行了測序,物種涵蓋全部16個科和86%以上的現(xiàn)存屬。但測序只是第一步:掌握所有數(shù)據(jù)之后,還需要進行解讀。為此,因美納開發(fā)了PrimateAI-3D用作數(shù)據(jù)解讀方法。
PrimateAI-3D將最新的人工智能技術(shù)與先進的基因測序能力結(jié)合在一起,這一產(chǎn)品的推出,振奮人心。因美納將持續(xù)助力臨床醫(yī)生和研究人員同步研究大量基因組數(shù)據(jù),并有可能成倍地加速正在進行的關(guān)鍵工作,以更好地為患者提供服務(wù)。
通過自然選擇訓練的AI算法
由因美納研發(fā)的PrimateAI-3D可高度準確地發(fā)現(xiàn)致病變異,解決疾病面臨的關(guān)鍵挑戰(zhàn),從而成功實現(xiàn)個體化基因組精準醫(yī)學。
為了獲得先進的性能,PrimateAI-3D采用了與ChatGPT和AlphaFold類似的深度神經(jīng)網(wǎng)絡(luò)架構(gòu),不同之處在于PrimateAI-3D是根據(jù)基因組序列而不是人類語言來進行訓練。另外,在ChatGPT等生成性語言模型中,現(xiàn)有的文本就可以為訓練提供信息,而人類基因組中導(dǎo)致疾病的基因變異在很大程度上卻是未知的。
為解決這個問題,PrimateAI-3D有效地利用自然選擇來訓練深度神經(jīng)網(wǎng)絡(luò)的參數(shù)。這種訓練基于此前對233種不同靈長類動物進行測序時發(fā)現(xiàn)的數(shù)百萬種良性基因變異來開展,這也是迄今為止開展的最大規(guī)模的非人類靈長類物種測序工作。神經(jīng)網(wǎng)絡(luò)會學習基因中代表良性變異的位置,并通過自然淘汰過程判斷哪些區(qū)域如果發(fā)生突變可能致病。PrimateAI-3D通過這種方式學習如何準確預(yù)測人類的致病變異,準確度高于任何人類預(yù)測。
PrimateAI-3D
解碼精準醫(yī)療和基于基因的藥物靶點發(fā)現(xiàn)
《科學》(Science)雜志上發(fā)表的《Rare penetrant mutations confer severe risk of common diseases》研究使用以下4種專病隊列比較了PrimateAI-3D與其他15種機器學習方法:神經(jīng)發(fā)育障礙隊列、自閉類障礙隊列、先天性心臟病隊列和英國生物樣本庫(UK Biobank)。前三個隊列是迄今為止最大規(guī)模的測序研究之一,研究對象包括患病兒童及其未患病的父母;而英國生物樣本庫中的50萬個基因組則大多來自普通人群中的健康成員。該研究還在國立衛(wèi)生研究院的ClinVar數(shù)據(jù)庫和其他數(shù)據(jù)集中評估了該算法。在6種不同的臨床基準方面,PrimateAI-3D的表現(xiàn)均遠勝過所有其他現(xiàn)有方法。這些發(fā)現(xiàn)有助于研究人員優(yōu)先考慮一小部分最有可能影響人類健康的變異。
罕見基因變異對復(fù)雜人類特征的多基因貢獻,以血清膽固醇為代表
此外,PrimateAI-3D在預(yù)測英國生物樣本庫隊列中的常見病患病風險升高人群方面表現(xiàn)出驚人的提升,特別是在非歐洲種族群體中,首次證明了多基因風險評分在很大程度上不受祖先偏差影響,為公平地實施基于基因的精準醫(yī)療邁出關(guān)鍵一步,適用于更多元化的人群。
我們發(fā)現(xiàn),普通人群中有97%的健康人群攜帶臨床相關(guān)疾病的高度可干預(yù)變異,到目前為止,我們掌握的信息是患有罕見病或癌癥才需要接受基因組測序,但實際情況似乎是,人群中每個健康個體的基因組中都存在極具影響力的變異,這些變異具有臨床相關(guān)性,而且至關(guān)重要。
將最新的人工智能技術(shù)應(yīng)用于基因組學,以揭示糖尿病、心臟病和自身免疫性疾病等復(fù)雜遺傳疾病的關(guān)鍵底層信息,這一技術(shù)的推出為因美納在遺傳風險預(yù)測和藥物靶點發(fā)現(xiàn)方面給來巨大機遇。
PrimateAI-3D將集成在因美納的互聯(lián)軟件中,供基因組學界廣泛使用。
4篇最新Science論文
帶您了解因美納AI算法驅(qū)動的
基因組學“ChatGPT”:
[1]這一結(jié)論不適用于親緣關(guān)系較遠的哺乳動物,比如一種在老鼠或狗身上無害的變異,在大猩猩或人類身上可能就是致病的。