文章來(lái)源:智藥邦 2024年11月15日 08:02 上海
2024年11月4日,Nature發(fā)表文章Five protein-design questions that still challenge AI,討論了蛋白質(zhì)的AI設(shè)計(jì)仍然面臨的五個(gè)問(wèn)題。
德國(guó)慕尼黑大學(xué)的Alena Khmelinskaia說(shuō):“希望設(shè)計(jì)定制蛋白質(zhì)就像訂餐一樣簡(jiǎn)單。想象一下一臺(tái)自動(dòng)售貨機(jī),任何研究人員都可以用它來(lái)指定所需的蛋白質(zhì)的功能、大小、位置、partners和其他特征。理想情況下,你會(huì)得到一個(gè)完美的設(shè)計(jì),能夠同時(shí)完成所有這些事情。”
蛋白質(zhì)設(shè)計(jì),這一曾被視為遙不可及的夢(mèng)想,如今正隨著計(jì)算技術(shù)與機(jī)器學(xué)習(xí)的飛速發(fā)展而逐步變?yōu)楝F(xiàn)實(shí)。傳統(tǒng)方法依賴于微生物的變異來(lái)產(chǎn)生所需蛋白質(zhì),過(guò)程繁瑣且效率低下。然而,機(jī)器學(xué)習(xí)算法的興起徹底顛覆了這一領(lǐng)域。
借助如RFdiffusion、Chroma等AI工具,研究人員能在電腦上輕松生成新的蛋白質(zhì)結(jié)構(gòu),并通過(guò)ProteinMPNN等算法找到匹配的氨基酸序列。更令人振奮的是,RoseTTAFold和AlphaFold等技術(shù)的出現(xiàn),使得預(yù)測(cè)新蛋白質(zhì)能否正確折疊成為可能。這一系列技術(shù)進(jìn)步極大地縮短了從設(shè)計(jì)到驗(yàn)證的周期,提高了蛋白質(zhì)設(shè)計(jì)的成功率。2024年諾貝爾化學(xué)獎(jiǎng)的頒發(fā),更是對(duì)AlphaFold等蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)與設(shè)計(jì)程序的極高認(rèn)可。這不僅證明了人工智能在蛋白質(zhì)設(shè)計(jì)領(lǐng)域的巨大潛力,也預(yù)示著這一技術(shù)將為人類帶來(lái)前所未有的福祉。然而,挑戰(zhàn)依然存在。這篇Nature的采訪揭示了蛋白質(zhì)設(shè)計(jì)所面臨的最大難題,以及專家們提出的解決方案。盡管前路尚有坎坷,但隨著技術(shù)的不斷進(jìn)步和科研人員的不懈努力,我們有理由相信,蛋白質(zhì)設(shè)計(jì)的未來(lái)將更加光明,其帶來(lái)的益處也將更加深遠(yuǎn)。
構(gòu)建可靠的結(jié)合物
蛋白質(zhì)設(shè)計(jì)領(lǐng)域早期面臨的核心挑戰(zhàn)之一,是如何精確預(yù)測(cè)蛋白質(zhì)間的相互作用,這對(duì)于制藥行業(yè)尤為重要。因?yàn)樘囟ǖ鞍踪|(zhì)的“結(jié)合物”能夠作為藥物,精準(zhǔn)地激活或抑制疾病通路。在這一背景下,2024年諾貝爾化學(xué)獎(jiǎng)得主、西雅圖華盛頓大學(xué)的計(jì)算蛋白質(zhì)設(shè)計(jì)先驅(qū)David Baker及其團(tuán)隊(duì),通過(guò)開(kāi)發(fā)RFdiffusion和AlphaProteo等生成式人工智能程序,極大地簡(jiǎn)化了這一復(fù)雜任務(wù)。
Baker指出,這些生成式AI工具能夠像手一樣精確地為特定目標(biāo)(如癌癥蛋白)設(shè)計(jì)出結(jié)合物。例如,在2023年,他的團(tuán)隊(duì)就利用RFdiffusion技術(shù)成功制造出了一種傳感器蛋白,該蛋白在附著于特定肽類激素時(shí)會(huì)發(fā)光,這一成果展示了生成式AI在蛋白質(zhì)設(shè)計(jì)上的巨大潛力。
蛋白質(zhì)設(shè)計(jì)先驅(qū)David Baker蛋白質(zhì)-蛋白質(zhì)結(jié)合算法的成功,很大程度上得益于其“語(yǔ)言”的簡(jiǎn)潔性:所有天然蛋白質(zhì)均由相同的20個(gè)氨基酸構(gòu)成。這種統(tǒng)一性為機(jī)器學(xué)習(xí)提供了豐富的數(shù)據(jù)和理想的學(xué)習(xí)案例,如Generate Biomedicines的計(jì)算機(jī)科學(xué)家John Ingraham所言,PDB(蛋白質(zhì)數(shù)據(jù)庫(kù))中成千上萬(wàn)的結(jié)構(gòu)和蛋白質(zhì)-蛋白質(zhì)相互作用數(shù)據(jù),為AI學(xué)習(xí)提供了堅(jiān)實(shí)的基礎(chǔ)。然而,挑戰(zhàn)并未因此消失。對(duì)于與藥物和其他小分子結(jié)合的蛋白質(zhì),由于可用訓(xùn)練數(shù)據(jù)相對(duì)較少,AI設(shè)計(jì)的結(jié)合蛋白可靠性往往較低。此外,許多制藥公司的小分子結(jié)構(gòu)及其與蛋白質(zhì)的相互作用數(shù)據(jù)都是嚴(yán)格保密的,這進(jìn)一步限制了AI的學(xué)習(xí)范圍。谷歌DeepMind公司的計(jì)算生物學(xué)家Jue Wang指出,現(xiàn)有公共數(shù)據(jù)的注釋質(zhì)量參差不齊,且結(jié)構(gòu)多樣性有限,這可能導(dǎo)致訓(xùn)練出的模型無(wú)法學(xué)習(xí)到通用的化學(xué)規(guī)則。 盡管如此,DeepMind還是通過(guò)發(fā)布AlphaFold3等更新版本,不斷提升AI預(yù)測(cè)蛋白質(zhì)與小分子結(jié)合影響的能力。據(jù)該公司表示,與現(xiàn)有預(yù)測(cè)方法相比,AlphaFold3在蛋白質(zhì)與其他分子類型的相互作用預(yù)測(cè)上至少提高了50%,對(duì)于某些重要相互作用類別的預(yù)測(cè)準(zhǔn)確率更是翻倍。然而,Baker強(qiáng)調(diào),挑戰(zhàn)遠(yuǎn)未解決。例如,即使一個(gè)結(jié)合蛋白能夠很好地與目標(biāo)結(jié)合,也并不意味著它就能發(fā)揮預(yù)期的生物功能。有些結(jié)合蛋白可能激活靶點(diǎn),而有些則可能阻斷靶點(diǎn),而AlphaFold等程序并不總能區(qū)分這兩種情況。此外,生成式AI系統(tǒng)還容易“幻化”出自然界中不存在的蛋白質(zhì)結(jié)構(gòu),這反映了AI在追求最優(yōu)解時(shí)可能忽視生物物理學(xué)的實(shí)際限制。為了克服這些挑戰(zhàn),Ingraham認(rèn)為,更好地理解生物物理學(xué)以及獲取更多關(guān)于蛋白質(zhì)如何與分子結(jié)合的高質(zhì)量數(shù)據(jù)至關(guān)重要。他的公司正在通過(guò)整合盡可能多的蛋白質(zhì)相互作用和功能數(shù)據(jù),以及模型生成的設(shè)計(jì)高通量數(shù)據(jù),來(lái)尋找通用的解決方案。這一努力旨在充分利用現(xiàn)有的蛋白質(zhì)信息,推動(dòng)蛋白質(zhì)設(shè)計(jì)領(lǐng)域向更高層次發(fā)展。
新催化劑
科學(xué)家們正致力于利用計(jì)算工具設(shè)計(jì)具有全新功能的酶,如清除二氧化碳的催化劑或分解塑料的酶,以期解決環(huán)境問(wèn)題。雖然從具有類似功能的天然酶出發(fā)看似合理,但蛋白質(zhì)結(jié)構(gòu)與功能之間的復(fù)雜關(guān)系卻構(gòu)成了重大挑戰(zhàn)。相似的形狀并不總意味著相似的功能,而看似無(wú)關(guān)的酶卻可能執(zhí)行相同任務(wù)。
天然酶雖為進(jìn)化產(chǎn)物,但其結(jié)構(gòu)未必是設(shè)計(jì)新酶的理想起點(diǎn)。研究人員需深入分析酶在進(jìn)化中的保守序列,以確定哪些部分對(duì)功能至關(guān)重要。然而,即使進(jìn)化保守的序列也可能包含看似無(wú)用實(shí)則關(guān)鍵的氨基酸鏈,它們影響著蛋白質(zhì)與其他分子的結(jié)合或構(gòu)象變化。為應(yīng)對(duì)這一挑戰(zhàn),研究人員正開(kāi)發(fā)新方法以識(shí)別并利用這些關(guān)鍵部分。Baker及其團(tuán)隊(duì)利用射頻擴(kuò)散技術(shù)創(chuàng)造了水解酶,并通過(guò)機(jī)器學(xué)習(xí)分析酶的活性位點(diǎn),進(jìn)而構(gòu)建全新蛋白質(zhì)。盡管他們已成功設(shè)計(jì)出能以新方式水解底物的酶,但將活性位點(diǎn)轉(zhuǎn)移到新蛋白質(zhì)環(huán)境中仍面臨挑戰(zhàn)。蛋白質(zhì)的動(dòng)態(tài)性使得這一任務(wù)更加復(fù)雜。蛋白質(zhì)并非靜態(tài)物體,而是處于不斷運(yùn)動(dòng)中。當(dāng)動(dòng)態(tài)變化出現(xiàn)時(shí),現(xiàn)有的建模方法往往難以準(zhǔn)確預(yù)測(cè)。因此,研究人員需進(jìn)一步探索蛋白質(zhì)的動(dòng)態(tài)特性,以更精確地設(shè)計(jì)具有全新功能的酶。盡管挑戰(zhàn)重重,但科學(xué)家們?nèi)詫?duì)計(jì)算工具在蛋白質(zhì)設(shè)計(jì)領(lǐng)域的潛力寄予厚望。
構(gòu)象變化
蛋白質(zhì)構(gòu)象多變,受溫度、pH值、化學(xué)環(huán)境及分子結(jié)合等因素影響。然而,實(shí)驗(yàn)通常只能捕捉到最穩(wěn)定構(gòu)象,難以揭示蛋白質(zhì)活躍態(tài)。計(jì)算所有可能構(gòu)象對(duì)超級(jí)計(jì)算機(jī)也是巨大挑戰(zhàn),因一個(gè)僅含100個(gè)氨基酸的蛋白質(zhì)就有3的100次方種可能構(gòu)象。Microsoft Research的機(jī)器學(xué)習(xí)科學(xué)家Kevin Yang說(shuō),要真正了解蛋白質(zhì)的工作原理,研究人員需要了解其潛在運(yùn)動(dòng)和構(gòu)象的全部范圍--這些替代形式不一定在PDB中。機(jī)器學(xué)習(xí)雖能助力縮小范圍,但受限于訓(xùn)練數(shù)據(jù)不足。為解決此問(wèn)題,研究人員正設(shè)計(jì)大型蛋白質(zhì)庫(kù),通過(guò)變異揭示蛋白質(zhì)動(dòng)態(tài)變化。同時(shí),設(shè)計(jì)能在兩種構(gòu)象間切換的蛋白質(zhì),既助訓(xùn)練AI模型,又可為構(gòu)建復(fù)雜分子機(jī)器提供構(gòu)件。
此外,有團(tuán)隊(duì)開(kāi)發(fā)算法如AF-Cluster,引入隨機(jī)性探索其他構(gòu)象,但適用性尚待驗(yàn)證?傮w而言,蛋白質(zhì)構(gòu)象的多樣性和動(dòng)態(tài)性為研究和設(shè)計(jì)帶來(lái)了巨大挑戰(zhàn),也激發(fā)了科研人員不斷探索新的解決方法。
復(fù)雜的創(chuàng)造
除了酶,研究人員還在探索設(shè)計(jì)其他功能多樣的蛋白質(zhì),如自組裝結(jié)構(gòu)、載體、產(chǎn)生物理力或糾正折疊錯(cuò)誤等。計(jì)算設(shè)計(jì)已在醫(yī)療領(lǐng)域取得突破,如SKYCovione疫苗的成功,展示了計(jì)算蛋白質(zhì)設(shè)計(jì)的實(shí)際應(yīng)用潛力。
現(xiàn)在,研究人員正利用機(jī)器學(xué)習(xí)開(kāi)發(fā)更多功能,如空心納米粒子用于藥物傳輸。然而,對(duì)于更復(fù)雜結(jié)構(gòu)如細(xì)菌鞭毛,因缺乏足夠理解透徹的例子,機(jī)器學(xué)習(xí)仍面臨挑戰(zhàn)。因此,人類研究人員需要思考構(gòu)成分子機(jī)器的部件,并使用設(shè)計(jì)工具逐一創(chuàng)建。這些部件可能包括分子開(kāi)關(guān)、車輪、車軸及邏輯門系統(tǒng)等。Kortemme的實(shí)驗(yàn)室正在設(shè)計(jì)可納入合成信號(hào)轉(zhuǎn)導(dǎo)級(jí)聯(lián)的細(xì)胞信號(hào)分子,以拓展蛋白質(zhì)設(shè)計(jì)的應(yīng)用范圍。Wang強(qiáng)調(diào),在蛋白質(zhì)的巧妙重組中,人類的聰明才智將發(fā)揮關(guān)鍵作用。研究人員正致力于制造蛋白質(zhì)的螺絲、螺栓、杠桿和滑輪等基礎(chǔ)構(gòu)件,并探索其創(chuàng)新應(yīng)用。未來(lái),如何巧妙利用這些構(gòu)件,將決定蛋白質(zhì)設(shè)計(jì)的無(wú)限可能。
從錯(cuò)誤中學(xué)習(xí)
盡管蛋白質(zhì)設(shè)計(jì)在預(yù)測(cè)算法上取得進(jìn)步,但仍然很難一次就生成準(zhǔn)確結(jié)果。Steinegger指出,算法驗(yàn)證與軟件發(fā)展存在時(shí)間不匹配,導(dǎo)致算法難以從錯(cuò)誤中吸取教訓(xùn)。此外,研究人員往往不公布負(fù)面結(jié)果,限制了有用信息的共享。為解決這些問(wèn)題,Khmelinskaia強(qiáng)調(diào)合作的重要性,認(rèn)為建立涵蓋多方面技能的團(tuán)隊(duì)是挑戰(zhàn),但合作能加速研究進(jìn)展。Yang也表示,計(jì)算機(jī)資源和數(shù)據(jù)已就緒,合作將推動(dòng)領(lǐng)域更快發(fā)展。