一般而言,一種藥物研發(fā)周期在 10 年以上,研發(fā)投入在數(shù)十億美金,并且呈現(xiàn)逐年上升的趨勢。近年來,深度學(xué)習(xí) (Deep Learning, DL) 技術(shù)在語音識別、圖像識別等領(lǐng)域取得重大突破,迅速成為學(xué)術(shù)界和工業(yè)界的研究熱點。
此前的研究表明,深度學(xué)習(xí)技術(shù)在優(yōu)化化學(xué)合成路線、預(yù)測藥物的藥代動力學(xué)性質(zhì)、預(yù)測藥物的作用靶點以及生成新型分子等方面具有優(yōu)勢。
圖 1. 虛擬篩選在藥物開發(fā)流程中的地位[1]。
▐ 虛擬篩選:化合物-靶蛋白的親和力Yelena Guttman 等人基于 DeepChem 框架,構(gòu)建了一個 CYP3A4 抑制劑預(yù)測模型。先基于 lipinski 五原則對庫中化合物進行排除,再基于此模型對 FOODB 庫中 68,900 個化合物進行 CYP3A4 抑制活性預(yù)測,順利得到了兩種新的 CYP3A4 抑制劑。
圖 2. 基于 DeepChem 的 CYP3A4 抑制劑預(yù)測[2]。
在 KNIME 分析平臺 4.0.314 中創(chuàng)建了一個工作流來準(zhǔn)備和分析虛擬篩選。
▐ 預(yù)測化合物的 ADMET 性質(zhì)Liu 等人利用定向消息傳遞網(wǎng)絡(luò) (directed message passing neural networks, D-MPNN,又稱 Chemprop) 對 FOODB 庫中化合物進行了 Nrf2 激動活性預(yù)測及毒性分析,順利得到了Nicotiflorin這一兼具 Nrf2 激動活性和安全性的藥物,并且在體內(nèi)外實驗中得到了驗證[3]。
近年來,人們已經(jīng)看到人工智能 (AI) 開始為化學(xué)合成帶來革命性的變化。然而,由于缺乏合適的化學(xué)反應(yīng)表示方式和反應(yīng)數(shù)據(jù)的稀缺性,限制了人工智能在反應(yīng)預(yù)測中的廣泛應(yīng)用。深度學(xué)習(xí)可以通過對大量的化學(xué)合成數(shù)據(jù)進行訓(xùn)練和學(xué)習(xí),自動識別和提取合成路線的特征和模式,用來預(yù)測新的合成路線的效率和選擇性,從而加速新藥的開發(fā)和生產(chǎn)。
圖 4. 深度學(xué)習(xí)在預(yù)測化學(xué)反應(yīng)合成路線上的應(yīng)用[4]。
Schwaller 等人結(jié)合了深度學(xué)習(xí)網(wǎng)絡(luò)和符號人工智能來規(guī)劃化學(xué)合成路線。他們開發(fā)了一個名為“MoleculeNet”的框架,該框架能夠預(yù)測反應(yīng)是否可能成功,并使用這些預(yù)測來規(guī)劃出從起始原料到目標(biāo)分子的合成路徑[5]。
深度學(xué)習(xí)在虛擬篩選領(lǐng)域中的應(yīng)用,主要是通過神經(jīng)網(wǎng)絡(luò)來預(yù)測化合物的活性或性質(zhì),從而在虛擬環(huán)境中篩選出有潛力的候選藥物或材料。
以下是一些常見的深度學(xué)習(xí)算法在虛擬篩選中的應(yīng)用:
卷積神經(jīng)網(wǎng)絡(luò) (CNN):CNN 特別適合處理圖像數(shù)據(jù),如分子結(jié)構(gòu)圖。通過識別和提取分子中的特征,如原子和化學(xué)鍵的類型和位置,CNN 可以預(yù)測分子的性質(zhì)和活性。
循環(huán)神經(jīng)網(wǎng)絡(luò) (RNN):對于處理序列數(shù)據(jù) (如化學(xué)分子序列) 的虛擬篩選任務(wù),RNN 特別有用。RNN 可以捕捉分子序列中的長期依賴關(guān)系,從而更準(zhǔn)確地預(yù)測分子的性質(zhì)。
生成對抗網(wǎng)絡(luò) (GAN):GAN 可以生成新的分子結(jié)構(gòu),這在進行虛擬篩選時非常有用。通過訓(xùn)練 GAN,可以生成具有所需性質(zhì)的分子,從而大大減少實驗的必要性。
圖神經(jīng)網(wǎng)絡(luò) (GNN):GNN 特別適合處理圖結(jié)構(gòu)數(shù)據(jù),如分子圖。GNN 可以捕捉分子中原子和化學(xué)鍵之間的關(guān)系,從而更準(zhǔn)確地預(yù)測分子的性質(zhì)。
Transformer:對于處理長序列數(shù)據(jù)的虛擬篩選任務(wù),如多步化學(xué)反應(yīng)預(yù)測,Transformer 是一個很好的選擇。Transformer 可以捕捉序列中的長期依賴關(guān)系,從而更準(zhǔn)確地預(yù)測分子的性質(zhì)。
今天,小 M 給大家介紹了深度學(xué)習(xí)在藥物研發(fā)領(lǐng)域的應(yīng)用方向及常見算法,作為一種新興的技術(shù),AI / 深度學(xué)習(xí)技術(shù)在新藥研發(fā)領(lǐng)域已初見成效,相信隨著科學(xué)的進步,AI 助力藥物篩選一定會在生物醫(yī)藥領(lǐng)域有著更加深遠(yuǎn)的影響。
虛擬篩選 (Virtual Screening, VS) 是基于小分子數(shù)據(jù)庫開展的活性化合物篩選。利用小分子化合物與藥物靶標(biāo)間的分子對接運算,虛擬篩選可快速從幾十至上百萬分子中,遴選出具有成藥性的活性化合物,大大降低實驗篩選化合物數(shù)量,縮短研究周期,降低藥物研發(fā)的成本。 |
MCE 50K Diversity Library 由 50,000 種類藥化合物組成。依據(jù)谷本相似性 (Tanimoto Coefficient) 及聚類算法 (Bemis-Murcko) 對上百萬化合物進行篩選以確保結(jié)構(gòu)多樣性。本多樣性庫具備新穎性、類藥性,化合物結(jié)構(gòu)類型多樣、化學(xué)空間豐富,庫中化合物可重復(fù)供應(yīng),是新藥研發(fā)的有力工具,可以廣泛地應(yīng)用于高通量篩選 (HTS) 和高內(nèi)涵篩選 (HCS)。 |
MegaUni 10M Virtual Diversity Library 運用生成式人工智能技術(shù),依托強大的計算能力,基于高質(zhì)量的 40,662 個分子砌塊,匹配合適的反應(yīng)規(guī)則,選擇最優(yōu)的化合物生成策略,去除合成難度高、類藥性低、PAINS 等不利化合物后,進一步分析化合物骨架,優(yōu)選出類藥多樣性分子組成虛擬庫,適用于 AI 藥物篩選、大型虛擬篩選等。 |
MegaUni 50K Virtual Diversity Library Retatrutide 是胰高血糖素受體 (GCGR)、葡萄糖依賴性促胰島素多肽受體 (GIP 優(yōu)選 50,000 個分子組成 MegaUni 50K Virtual Diversity Library。50,000 個分子具有 46,744 種 BMS 分子骨架,每種分子骨架僅包含 1-3 個化合物,化學(xué)空間多樣,結(jié)構(gòu)新穎,適用于新型先導(dǎo)物發(fā)現(xiàn)等。 |
[2] Guttman Y, Kerem Z. Dietary Inhibitors of CYP3A4 Are Revealed Using Virtual Screening by Using a New Deep-Learning Classifier. J Agric Food Chem. 2022 Mar ;70(8):2752-2761.
[3] Liu S, et al. Virtual Screening of Nrf2 Dietary-Derived Agonists and Safety by a New Deep-Learning Model and Verified In Vitro and In Vivo. J Agric Food Chem. 2023 May ;71(21):8038-8049.
[4] Li B, et al. A deep learning framework for accurate reaction prediction and its application on high-throughput experimentation data. J Cheminform. 2023 Aug;15(1):72.
[5] Segler MHS, et al. Planning chemical syntheses with deep neural networks and symbolic AI. Nature. 2018 Mar ;555(7698):604-610.