當(dāng)前位置 > 首頁(yè) > 技術(shù)文章 > Nature文章分享：蛋白質(zhì)的AI設(shè)計(jì)仍然面臨的五個(gè)問(wèn)題

選型 | 市場(chǎng) | 應(yīng)用 | 使用 | 法規(guī) | 技術(shù) | 其他

Nature文章分享：蛋白質(zhì)的AI設(shè)計(jì)仍然面臨的五個(gè)問(wèn)題

瀏覽次數(shù)：668　發(fā)布日期：2024-11-21　來(lái)源：本站　僅供參考，謝絕轉(zhuǎn)載，否則責(zé)任自負(fù)

文章來(lái)源：智藥邦 2024年11月15日 08:02 上海

2024年11月4日，Nature發(fā)表文章Five protein-design questions that still challenge AI，討論了蛋白質(zhì)的AI設(shè)計(jì)仍然面臨的五個(gè)問(wèn)題。

德國(guó)慕尼黑大學(xué)的Alena Khmelinskaia說(shuō)：“希望設(shè)計(jì)定制蛋白質(zhì)就像訂餐一樣簡(jiǎn)單。想象一下一臺(tái)自動(dòng)售貨機(jī)，任何研究人員都可以用它來(lái)指定所需的蛋白質(zhì)的功能、大小、位置、partners和其他特征。理想情況下，你會(huì)得到一個(gè)完美的設(shè)計(jì)，能夠同時(shí)完成所有這些事情。”

蛋白質(zhì)設(shè)計(jì)，這一曾被視為遙不可及的夢(mèng)想，如今正隨著計(jì)算技術(shù)與機(jī)器學(xué)習(xí)的飛速發(fā)展而逐步變?yōu)楝F(xiàn)實(shí)。傳統(tǒng)方法依賴于微生物的變異來(lái)產(chǎn)生所需蛋白質(zhì)，過(guò)程繁瑣且效率低下。然而，機(jī)器學(xué)習(xí)算法的興起徹底顛覆了這一領(lǐng)域。

借助如RFdiffusion、Chroma等AI工具，研究人員能在電腦上輕松生成新的蛋白質(zhì)結(jié)構(gòu)，并通過(guò)ProteinMPNN等算法找到匹配的氨基酸序列。更令人振奮的是，RoseTTAFold和AlphaFold等技術(shù)的出現(xiàn)，使得預(yù)測(cè)新蛋白質(zhì)能否正確折疊成為可能。這一系列技術(shù)進(jìn)步極大地縮短了從設(shè)計(jì)到驗(yàn)證的周期，提高了蛋白質(zhì)設(shè)計(jì)的成功率。2024年諾貝爾化學(xué)獎(jiǎng)的頒發(fā)，更是對(duì)AlphaFold等蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)與設(shè)計(jì)程序的極高認(rèn)可。這不僅證明了人工智能在蛋白質(zhì)設(shè)計(jì)領(lǐng)域的巨大潛力，也預(yù)示著這一技術(shù)將為人類帶來(lái)前所未有的福祉。然而，挑戰(zhàn)依然存在。這篇Nature的采訪揭示了蛋白質(zhì)設(shè)計(jì)所面臨的最大難題，以及專家們提出的解決方案。盡管前路尚有坎坷，但隨著技術(shù)的不斷進(jìn)步和科研人員的不懈努力，我們有理由相信，蛋白質(zhì)設(shè)計(jì)的未來(lái)將更加光明，其帶來(lái)的益處也將更加深遠(yuǎn)。

構(gòu)建可靠的結(jié)合物

蛋白質(zhì)設(shè)計(jì)領(lǐng)域早期面臨的核心挑戰(zhàn)之一，是如何精確預(yù)測(cè)蛋白質(zhì)間的相互作用，這對(duì)于制藥行業(yè)尤為重要。因?yàn)樘囟ǖ鞍踪|(zhì)的“結(jié)合物”能夠作為藥物，精準(zhǔn)地激活或抑制疾病通路。在這一背景下，2024年諾貝爾化學(xué)獎(jiǎng)得主、西雅圖華盛頓大學(xué)的計(jì)算蛋白質(zhì)設(shè)計(jì)先驅(qū)David Baker及其團(tuán)隊(duì)，通過(guò)開(kāi)發(fā)RFdiffusion和AlphaProteo等生成式人工智能程序，極大地簡(jiǎn)化了這一復(fù)雜任務(wù)。

Baker指出，這些生成式AI工具能夠像手一樣精確地為特定目標(biāo)（如癌癥蛋白）設(shè)計(jì)出結(jié)合物。例如，在2023年，他的團(tuán)隊(duì)就利用RFdiffusion技術(shù)成功制造出了一種傳感器蛋白，該蛋白在附著于特定肽類激素時(shí)會(huì)發(fā)光，這一成果展示了生成式AI在蛋白質(zhì)設(shè)計(jì)上的巨大潛力。

蛋白質(zhì)設(shè)計(jì)先驅(qū)David Baker蛋白質(zhì)-蛋白質(zhì)結(jié)合算法的成功，很大程度上得益于其“語(yǔ)言”的簡(jiǎn)潔性：所有天然蛋白質(zhì)均由相同的20個(gè)氨基酸構(gòu)成。這種統(tǒng)一性為機(jī)器學(xué)習(xí)提供了豐富的數(shù)據(jù)和理想的學(xué)習(xí)案例，如Generate Biomedicines的計(jì)算機(jī)科學(xué)家John Ingraham所言，PDB（蛋白質(zhì)數(shù)據(jù)庫(kù)）中成千上萬(wàn)的結(jié)構(gòu)和蛋白質(zhì)-蛋白質(zhì)相互作用數(shù)據(jù)，為AI學(xué)習(xí)提供了堅(jiān)實(shí)的基礎(chǔ)。然而，挑戰(zhàn)并未因此消失。對(duì)于與藥物和其他小分子結(jié)合的蛋白質(zhì)，由于可用訓(xùn)練數(shù)據(jù)相對(duì)較少，AI設(shè)計(jì)的結(jié)合蛋白可靠性往往較低。此外，許多制藥公司的小分子結(jié)構(gòu)及其與蛋白質(zhì)的相互作用數(shù)據(jù)都是嚴(yán)格保密的，這進(jìn)一步限制了AI的學(xué)習(xí)范圍。谷歌DeepMind公司的計(jì)算生物學(xué)家Jue Wang指出，現(xiàn)有公共數(shù)據(jù)的注釋質(zhì)量參差不齊，且結(jié)構(gòu)多樣性有限，這可能導(dǎo)致訓(xùn)練出的模型無(wú)法學(xué)習(xí)到通用的化學(xué)規(guī)則。盡管如此，DeepMind還是通過(guò)發(fā)布AlphaFold3等更新版本，不斷提升AI預(yù)測(cè)蛋白質(zhì)與小分子結(jié)合影響的能力。據(jù)該公司表示，與現(xiàn)有預(yù)測(cè)方法相比，AlphaFold3在蛋白質(zhì)與其他分子類型的相互作用預(yù)測(cè)上至少提高了50%，對(duì)于某些重要相互作用類別的預(yù)測(cè)準(zhǔn)確率更是翻倍。然而，Baker強(qiáng)調(diào)，挑戰(zhàn)遠(yuǎn)未解決。例如，即使一個(gè)結(jié)合蛋白能夠很好地與目標(biāo)結(jié)合，也并不意味著它就能發(fā)揮預(yù)期的生物功能。有些結(jié)合蛋白可能激活靶點(diǎn)，而有些則可能阻斷靶點(diǎn)，而AlphaFold等程序并不總能區(qū)分這兩種情況。此外，生成式AI系統(tǒng)還容易“幻化”出自然界中不存在的蛋白質(zhì)結(jié)構(gòu)，這反映了AI在追求最優(yōu)解時(shí)可能忽視生物物理學(xué)的實(shí)際限制。為了克服這些挑戰(zhàn)，Ingraham認(rèn)為，更好地理解生物物理學(xué)以及獲取更多關(guān)于蛋白質(zhì)如何與分子結(jié)合的高質(zhì)量數(shù)據(jù)至關(guān)重要。他的公司正在通過(guò)整合盡可能多的蛋白質(zhì)相互作用和功能數(shù)據(jù)，以及模型生成的設(shè)計(jì)高通量數(shù)據(jù)，來(lái)尋找通用的解決方案。這一努力旨在充分利用現(xiàn)有的蛋白質(zhì)信息，推動(dòng)蛋白質(zhì)設(shè)計(jì)領(lǐng)域向更高層次發(fā)展。

新催化劑

科學(xué)家們正致力于利用計(jì)算工具設(shè)計(jì)具有全新功能的酶，如清除二氧化碳的催化劑或分解塑料的酶，以期解決環(huán)境問(wèn)題。雖然從具有類似功能的天然酶出發(fā)看似合理，但蛋白質(zhì)結(jié)構(gòu)與功能之間的復(fù)雜關(guān)系卻構(gòu)成了重大挑戰(zhàn)。相似的形狀并不總意味著相似的功能，而看似無(wú)關(guān)的酶卻可能執(zhí)行相同任務(wù)。

天然酶雖為進(jìn)化產(chǎn)物，但其結(jié)構(gòu)未必是設(shè)計(jì)新酶的理想起點(diǎn)。研究人員需深入分析酶在進(jìn)化中的保守序列，以確定哪些部分對(duì)功能至關(guān)重要。然而，即使進(jìn)化保守的序列也可能包含看似無(wú)用實(shí)則關(guān)鍵的氨基酸鏈，它們影響著蛋白質(zhì)與其他分子的結(jié)合或構(gòu)象變化。為應(yīng)對(duì)這一挑戰(zhàn)，研究人員正開(kāi)發(fā)新方法以識(shí)別并利用這些關(guān)鍵部分。Baker及其團(tuán)隊(duì)利用射頻擴(kuò)散技術(shù)創(chuàng)造了水解酶，并通過(guò)機(jī)器學(xué)習(xí)分析酶的活性位點(diǎn)，進(jìn)而構(gòu)建全新蛋白質(zhì)。盡管他們已成功設(shè)計(jì)出能以新方式水解底物的酶，但將活性位點(diǎn)轉(zhuǎn)移到新蛋白質(zhì)環(huán)境中仍面臨挑戰(zhàn)。蛋白質(zhì)的動(dòng)態(tài)性使得這一任務(wù)更加復(fù)雜。蛋白質(zhì)并非靜態(tài)物體，而是處于不斷運(yùn)動(dòng)中。當(dāng)動(dòng)態(tài)變化出現(xiàn)時(shí)，現(xiàn)有的建模方法往往難以準(zhǔn)確預(yù)測(cè)。因此，研究人員需進(jìn)一步探索蛋白質(zhì)的動(dòng)態(tài)特性，以更精確地設(shè)計(jì)具有全新功能的酶。盡管挑戰(zhàn)重重，但科學(xué)家們?nèi)詫?duì)計(jì)算工具在蛋白質(zhì)設(shè)計(jì)領(lǐng)域的潛力寄予厚望。

構(gòu)象變化

蛋白質(zhì)構(gòu)象多變，受溫度、pH值、化學(xué)環(huán)境及分子結(jié)合等因素影響。然而，實(shí)驗(yàn)通常只能捕捉到最穩(wěn)定構(gòu)象，難以揭示蛋白質(zhì)活躍態(tài)。計(jì)算所有可能構(gòu)象對(duì)超級(jí)計(jì)算機(jī)也是巨大挑戰(zhàn)，因一個(gè)僅含100個(gè)氨基酸的蛋白質(zhì)就有3的100次方種可能構(gòu)象。Microsoft Research的機(jī)器學(xué)習(xí)科學(xué)家Kevin Yang說(shuō)，要真正了解蛋白質(zhì)的工作原理，研究人員需要了解其潛在運(yùn)動(dòng)和構(gòu)象的全部范圍--這些替代形式不一定在PDB中。機(jī)器學(xué)習(xí)雖能助力縮小范圍，但受限于訓(xùn)練數(shù)據(jù)不足。為解決此問(wèn)題，研究人員正設(shè)計(jì)大型蛋白質(zhì)庫(kù)，通過(guò)變異揭示蛋白質(zhì)動(dòng)態(tài)變化。同時(shí)，設(shè)計(jì)能在兩種構(gòu)象間切換的蛋白質(zhì)，既助訓(xùn)練AI模型，又可為構(gòu)建復(fù)雜分子機(jī)器提供構(gòu)件。

此外，有團(tuán)隊(duì)開(kāi)發(fā)算法如AF-Cluster，引入隨機(jī)性探索其他構(gòu)象，但適用性尚待驗(yàn)證�？傮w而言，蛋白質(zhì)構(gòu)象的多樣性和動(dòng)態(tài)性為研究和設(shè)計(jì)帶來(lái)了巨大挑戰(zhàn)，也激發(fā)了科研人員不斷探索新的解決方法。

復(fù)雜的創(chuàng)造

除了酶，研究人員還在探索設(shè)計(jì)其他功能多樣的蛋白質(zhì)，如自組裝結(jié)構(gòu)、載體、產(chǎn)生物理力或糾正折疊錯(cuò)誤等。計(jì)算設(shè)計(jì)已在醫(yī)療領(lǐng)域取得突破，如SKYCovione疫苗的成功，展示了計(jì)算蛋白質(zhì)設(shè)計(jì)的實(shí)際應(yīng)用潛力。

現(xiàn)在，研究人員正利用機(jī)器學(xué)習(xí)開(kāi)發(fā)更多功能，如空心納米粒子用于藥物傳輸。然而，對(duì)于更復(fù)雜結(jié)構(gòu)如細(xì)菌鞭毛，因缺乏足夠理解透徹的例子，機(jī)器學(xué)習(xí)仍面臨挑戰(zhàn)。因此，人類研究人員需要思考構(gòu)成分子機(jī)器的部件，并使用設(shè)計(jì)工具逐一創(chuàng)建。這些部件可能包括分子開(kāi)關(guān)、車輪、車軸及邏輯門系統(tǒng)等。Kortemme的實(shí)驗(yàn)室正在設(shè)計(jì)可納入合成信號(hào)轉(zhuǎn)導(dǎo)級(jí)聯(lián)的細(xì)胞信號(hào)分子，以拓展蛋白質(zhì)設(shè)計(jì)的應(yīng)用范圍。Wang強(qiáng)調(diào)，在蛋白質(zhì)的巧妙重組中，人類的聰明才智將發(fā)揮關(guān)鍵作用。研究人員正致力于制造蛋白質(zhì)的螺絲、螺栓、杠桿和滑輪等基礎(chǔ)構(gòu)件，并探索其創(chuàng)新應(yīng)用。未來(lái)，如何巧妙利用這些構(gòu)件，將決定蛋白質(zhì)設(shè)計(jì)的無(wú)限可能。

從錯(cuò)誤中學(xué)習(xí)

盡管蛋白質(zhì)設(shè)計(jì)在預(yù)測(cè)算法上取得進(jìn)步，但仍然很難一次就生成準(zhǔn)確結(jié)果。Steinegger指出，算法驗(yàn)證與軟件發(fā)展存在時(shí)間不匹配，導(dǎo)致算法難以從錯(cuò)誤中吸取教訓(xùn)。此外，研究人員往往不公布負(fù)面結(jié)果，限制了有用信息的共享。為解決這些問(wèn)題，Khmelinskaia強(qiáng)調(diào)合作的重要性，認(rèn)為建立涵蓋多方面技能的團(tuán)隊(duì)是挑戰(zhàn)，但合作能加速研究進(jìn)展。Yang也表示，計(jì)算機(jī)資源和數(shù)據(jù)已就緒，合作將推動(dòng)領(lǐng)域更快發(fā)展。

索取資料

來(lái)源：上海瑋馳儀器有限公司
聯(lián)系電話：18521301252
E-mail：[email protected]

【點(diǎn)擊可查看上�，|馳儀器有限公司相關(guān)產(chǎn)品】

分享到：QQ空間新浪微博騰訊微博微信

【所有文章】【本類新聞】【相關(guān)產(chǎn)品】【關(guān)閉窗口】

本類文章

本類新聞

综合图区亚洲网友自拍|亚洲黄色网络|成人无码网WWW在线观看,日本高清视频色视频kk266,激情综合五月天,欧美一区日韩一区中文字幕页

Nature文章分享：蛋白質(zhì)的AI設(shè)計(jì)仍然面臨的五個(gè)問(wèn)題