AlphaFold2在蛋白質(zhì)三維結(jié)構(gòu)研究中的應(yīng)用
瀏覽次數(shù):1850 發(fā)布日期:2021-10-8
來源:MedChemExpress
天下苦“蛋白質(zhì)三維結(jié)構(gòu)”久矣
天然蛋白質(zhì)具有特定的三維空間立體結(jié)構(gòu)。一生二,二生三,三生空間結(jié)構(gòu),構(gòu)成蛋白質(zhì)肽鏈的氨基酸線性序列 (一級結(jié)構(gòu)) 包含了形成復(fù)雜三維結(jié)構(gòu)所需要的全部信息。理論來說,已知蛋白質(zhì)氨基酸序列組成,就能輕松獲得蛋白質(zhì)三維結(jié)構(gòu),但現(xiàn)實遠沒有那么簡單。目前已知氨基酸序列的蛋白質(zhì)分子約有 2.1 億個,但截至今天 RCSB PDB (www.rcsb.org) 上收錄的被實驗解析的蛋白質(zhì)三維結(jié)構(gòu)僅有 18,1295 個,不到蛋白質(zhì)總數(shù)的 0.1%。究其根本,通過 X 射線衍射、核磁共振或冷凍電鏡等方法獲得蛋白質(zhì)三維結(jié)構(gòu),哪個不耗時費力、需要大量資金投入?另,計算機預(yù)測蛋白質(zhì)結(jié)構(gòu)有諸多限制,SWISS-MODEL 要求序列同源性 > 30%,I-TASSER 要求序列能穿到現(xiàn)有結(jié)構(gòu),ROBETTA 要求氨基酸序列 < 200。天下苦“蛋白質(zhì)三維結(jié)構(gòu)”久矣!直到 AlphaFold2 橫空出世。
圖 1. 蛋白的一、二、三、四級結(jié)構(gòu)
AlphaFold2 橫空出世
2020 年末,AlphaFold2 (DeepMind 公司開發(fā)的 AI 程序) 在 CASP14 (第 14 屆蛋白質(zhì)結(jié)構(gòu)預(yù)測比賽) 中將蛋白結(jié)構(gòu)預(yù)測準(zhǔn)確性從 40 分拔高到 92.4 分,實現(xiàn)了原子精度或者接近原子精度的結(jié)構(gòu)預(yù)測,震驚生物界。2021 年 7 月 16 日,DeepMind 團隊在 Nature 上公布了 AlphaFold2 的源代碼。僅一周后,DeepMind 團隊再發(fā) Nature,公布 AlphaFold 數(shù)據(jù)集,再次引爆科研圈!AlphaFold 數(shù)據(jù)集覆蓋幾乎整個人類蛋白質(zhì)組 (98.5% 的所有人類蛋白),還包括大腸桿菌、果蠅、小鼠等 20 個科研常用生物的蛋白質(zhì)組數(shù)據(jù),蛋白質(zhì)結(jié)構(gòu)總數(shù)超過 35 萬個!而且,數(shù)據(jù)集中 58% 的預(yù)測結(jié)構(gòu)達到可信水平,其中更有 35.7% 達到高信度!
圖 2. Alphafold 數(shù)據(jù)集網(wǎng)站
(免費開放網(wǎng)址:alphafold.ebi.ac.uk)
深究 AlphaFold2 計算模型發(fā)現(xiàn),AlphaFold2 沒有借鑒 AlphaFold 使用的神經(jīng)網(wǎng)絡(luò)類似 ResNet 的殘差卷積網(wǎng)絡(luò),而是采用最近 AI 研究中興起的 Transformer 架構(gòu),其中與文本類似的數(shù)據(jù)結(jié)構(gòu)為氨基酸序列,通過多序列比對,把蛋白質(zhì)的結(jié)構(gòu)和生物信息整合到了深度學(xué)習(xí)算法中。從模型圖中可知,AlphaFold2 與 AlphaFold 不同,并沒有采用往常簡化了的原子間距或者接觸圖,而是直接訓(xùn)練蛋白質(zhì)結(jié)構(gòu)的原子坐標(biāo),并使用機器學(xué)習(xí)方法,對幾乎所有的蛋白質(zhì)都預(yù)測出了正確的拓?fù)鋵W(xué)的結(jié)構(gòu)。統(tǒng)計 AlphaFold2 預(yù)測的結(jié)構(gòu)發(fā)現(xiàn):大約 2/3 的蛋白質(zhì)預(yù)測精度達到了結(jié)構(gòu)生物學(xué)實驗的測量精度。
圖 3. AlphaFold2 計算蛋白三維結(jié)構(gòu)模型圖
ZINC20 新增數(shù)十億分子
AlphaFold2 給藥物研發(fā)帶來的革命性變化不言而喻:AlphaFold2 能低成本預(yù)測疾病相關(guān)的蛋白質(zhì)結(jié)構(gòu),進而通過藥物重定位、虛擬篩選等方法尋找這些疾病的潛在藥物。而化合物數(shù)據(jù)庫作為虛擬篩選的重要工具,同樣決定了小分子藥物研發(fā)的速度和質(zhì)量。
ZINC 是一個匯總了化合物相關(guān)信息的公開數(shù)據(jù)庫,是支持 2D、3D 化合物分子形式下載以及可進行快速分子查找、類似物搜索的服務(wù)網(wǎng)站,其分子量已經(jīng)目前增長到近 20 億,其中可購買的 13 億化合物來自于 150 個公司共 310 個產(chǎn)品目錄。盡管全球庫存化合物的數(shù)量 (現(xiàn)在約為 1400 萬) 每年僅增長百分之幾,但按需定制化合物數(shù)量幾乎呈指數(shù)增長,目前按需定制化合物的需求量已經(jīng)增長至數(shù)百億個分子,數(shù)年后將達到千億級。ZINC20 (zinc20.docking.org) 新增百億個按需定制化合物 (暫未添加到 ZINC 庫中),這些化合物在骨架和分子多樣性上都明顯優(yōu)于物理篩選數(shù)據(jù)庫。
圖 4. 按需定制化合物增長需求量 (NPMI 分析)
VirtualFlow, 5 小時虛擬篩選 10 億分子
一方面,蛋白結(jié)構(gòu)井噴式被解析,合成方法學(xué)高速發(fā)展,化合物數(shù)據(jù)庫幾何級數(shù)增長,虛擬篩選成為眾多藥物化學(xué)工作者手中的利器。另一方面,云平臺、AI 算法大放異彩。一個 CPU 上篩選 10 億種化合物,每個配體的平均對接時間為 15 秒,全部篩完大概需要 475 年,而 VirtualFlow 平臺調(diào)用 16 萬個 CPU 對接 10 億個分子僅耗時約 15 小時。更高的命中率,更快的計算速度,更強的迭代能力,虛擬篩選在藥物研發(fā)進程中從未掉隊。MCE 擁有專業(yè)的虛擬篩選團隊、高性能的計算機服務(wù)器、高度標(biāo)準(zhǔn)的數(shù)據(jù)隱私管理,可提供專業(yè)的分子對接、虛擬篩選服務(wù)。更有 40 余種高通量化合物庫,涵蓋 600 萬有現(xiàn)貨、可重復(fù)供應(yīng)、結(jié)構(gòu)多樣、具有類藥性的化合物,任您挑選。最終項目報告包含背景調(diào)研、流程概述、結(jié)果分析,更有符合文章發(fā)表要求的 2D/3D 分子對接圖。MCE 一站式藥物篩選平臺,虛擬篩選、化合物活性篩選、基于離子通道的化合物篩選,“快,不止一步”!
相關(guān)產(chǎn)品 |
MCE Bioactive Compound Library MCE 活性化合物數(shù)據(jù)庫,含有 11,000+ 已知高活性的化合物集合,結(jié)構(gòu)多樣,是老藥新用、新適應(yīng)癥篩選的有效工具。國內(nèi)現(xiàn)貨供應(yīng)。 |
MCE Fragment Library 基于 RO3 原則精選 14,000+ 片段化合物,用于 FBDD。國內(nèi)現(xiàn)貨供應(yīng)。 |
HTS Compound Library 包含 2,115,979 種具有獨特結(jié)構(gòu)和性質(zhì)的化合物,數(shù)量大,結(jié)構(gòu)多樣性豐富。 |
Advanced Library 包含 493,968 種類先導(dǎo)化合物,化合物的多官能團和類先導(dǎo)化合物的特性使 Advanced 庫成為先導(dǎo)化合物發(fā)現(xiàn)的有效工具。 |
Premium Library 46,441 種最具最佳分子特性 (高 Fsp3、低 logP 和 MW ) 的化合物集合,精選庫。 |
Discovery Diversity Set 10 Enamine Discovery Diversity Sets (DDS) 專注于新型化合物結(jié)構(gòu)式,適合新型化合物的隨機篩選。DDS 庫含有共 60,800 個新型化合物。Discovery Diversity Set 10 由高度特異且不重復(fù)的 10,560 個化合物組成。 |
Discovery Diversity Set 50 Enamine Discovery Diversity Sets (DDS) 專注于新型化合物結(jié)構(gòu)式,適合新型化合物的隨機篩選。Discovery Diversity Set 50 是 Discovery Diversity Set 10 的補充,由 50,240 個化合物組成。 |
Chemspace Lead-Like Compound Library 來源于 Chemspace,包含 981,244 個類先導(dǎo)化合物,結(jié)構(gòu)多樣,適用于高通量篩選。 |
Chemspace Scaffold derived set Chemspace 骨架庫,精心選擇 3,373 個骨架,每個骨架 3 個化合物,在骨架基礎(chǔ)上添加官能團,增加化合物空間結(jié)構(gòu)覆蓋率。 |
Chinese National Compound Library 國家化合物樣品庫有近 140 萬個化合物,具有結(jié)構(gòu)多樣化、存儲專業(yè)化、管理集中化、信息系統(tǒng)化和質(zhì)控標(biāo)準(zhǔn)化等特點。 |
Life Chemicals 50K Diversity Library Life Chemicals 50K Diversity Library 是一個相當(dāng)大的高度多樣化的化合物庫,由 50,240 個類先導(dǎo)物化合物組成。 |
Life Chemicals HTS Compound Collection 來源于 Life Chemicals,包含 494,471 個化合物,多樣性豐富,適用于高通量篩選。 |
Maybridge Screening Collection 來源于 Maybridge,包含 53,000 種高度多樣的類先導(dǎo)化合物,是藥物篩選的有效工具。 |
Specs HTS Compounds Library 來源于 Specs,包含 210,070 種化合物,多樣性豐富,適用于高通量篩選。 |
MCE 的所有產(chǎn)品僅用作科學(xué)研究或藥證申報,我們不為任何個人用途提供產(chǎn)品和服務(wù)。注:
1、每個庫中的分子數(shù)量實時變動,以上分子數(shù)量僅供參考,以官網(wǎng)實時數(shù)據(jù)為準(zhǔn)。
2、更多數(shù)據(jù)庫詳見 MCE 官網(wǎng)。參考文獻1. Callaway E. DeepMind's AI for protein structure is coming to the masses[J]. Nature, 2021.2. Jumper J, Evans R, Pritzel A, et al. Highly accurate protein structure prediction with AlphaFold[J]. Nature, 2021:1-11.3. Baek M, Dimaio F, Anishchenko I, et al. Accurate prediction of protein structures and interactions using a three-track neural network[J]. Science.4. JIrwin J J, Tang K G, Young J, et al. ZINC20-A Free Ultralarge-Scale Chemical Database for Ligand Discovery [J]. Journal of Chemical Information and Modeling, 2020, 60, 12, 6065–6073.5. Gorgulla C, Boeszoermenyi A, Wang ZF, et al. An open-source drug discovery platform enables ultra-large virtual screens. Nature. 2020; 580(7805):663-668.