在使用殷賦云計(jì)算平臺(tái)的時(shí)候,有不少用戶對(duì)于如何選擇蛋白晶體結(jié)構(gòu)存在疑問。本篇就這個(gè)話題做一些經(jīng)驗(yàn)分享。任何標(biāo)準(zhǔn)都有一個(gè)適用范圍。我們?cè)谶@里只討論用于分子對(duì)接的蛋白晶體結(jié)構(gòu)的選擇原則和方法。
1. 確定蛋白種屬在實(shí)驗(yàn)當(dāng)中,研究人員通常使用動(dòng)物模型(如小鼠)來研究人源蛋白。這樣做有許多原因,比如:
1) 無法獲得(提純分離)人源蛋白;
2) 需要在體內(nèi)考察蛋白的功能,但無法直接進(jìn)行人體臨床試驗(yàn);
3) 使用動(dòng)物蛋白更方便、更便宜;
4) 其他限制因素。
而計(jì)算模擬則便利很多。如果我們真正的研究對(duì)象是人體,則一般情況下應(yīng)當(dāng)使用人源蛋白。但是,如果需要根據(jù)對(duì)接計(jì)算的結(jié)果去指導(dǎo)實(shí)驗(yàn)或解釋實(shí)驗(yàn)現(xiàn)象,或者開展后續(xù)實(shí)驗(yàn)(如定點(diǎn)突變)對(duì)計(jì)算結(jié)果進(jìn)行驗(yàn)證,那么,原則上應(yīng)當(dāng)讓計(jì)算用的蛋白種屬與實(shí)驗(yàn)一致,否則氨基酸序列可能對(duì)應(yīng)不上。
比如,在UniprotKB數(shù)據(jù)庫(kù)(https://www.uniprot.org/)輸入基因名1DH1,得到以下結(jié)果。然后,根據(jù)我們確定的種屬查詢相應(yīng)的蛋白。
(UniprotKB數(shù)據(jù)庫(kù)蛋白查詢結(jié)果)
假設(shè)我們要研究人的蛋白,那么,可以在RCSB Protein Data Bank數(shù)據(jù)庫(kù)中搜索它的Entry name(1DHC_HUMAN)。另一方面,PDB數(shù)據(jù)庫(kù)也會(huì)給出每個(gè)晶體結(jié)構(gòu)的種屬信息。
(PDB詳情頁的蛋白種屬信息)
做任何研究都應(yīng)當(dāng)對(duì)研究對(duì)象有充分了解。UniprotKB數(shù)據(jù)庫(kù)為我們整合了蛋白的相關(guān)知識(shí),我們可以通過它獲得重要的信息。比如,了解蛋白的功能是什么,序列有多長(zhǎng),結(jié)合位點(diǎn)在哪里,有哪些蛋白結(jié)構(gòu)。
(UniprotKB蛋白詳情頁,了解蛋白功能與結(jié)構(gòu)信息)
(蛋白的結(jié)合區(qū)域信息)
對(duì)于某些蛋白,RCSB PDB數(shù)據(jù)庫(kù)可能存在許多晶體結(jié)構(gòu)。這種情況下,應(yīng)當(dāng)選擇包含完整口袋的晶體結(jié)構(gòu)。比如,當(dāng)我們尋找1DH1基因的蛋白(Isocitrate dehydrogenase [NADP] cytoplasmic,Uniprot AC: IDHC_HUMAN)時(shí),找到許多晶體結(jié)構(gòu)。以4UMX和4UMY為例,如果查看三維結(jié)構(gòu),我們會(huì)發(fā)現(xiàn)4UMY有較多殘基缺失。最關(guān)鍵的是,一大段組成口袋的殘基缺失了,導(dǎo)致口袋的形狀改變(對(duì)比4UMX可知)。相反,4UMX則較為完整。因此,我們不應(yīng)選擇4UMY,而應(yīng)選擇4UMX作為候選結(jié)構(gòu)。
(口袋完整與殘基缺失的蛋白對(duì)比)
很多時(shí)候,蛋白晶體結(jié)構(gòu)中不只是蛋白,還可能有核酸、多肽、輔酶、小分子化合物(抑制劑、拮抗劑、激動(dòng)劑、底物)、助溶劑、表面活性劑、金屬離子和水分子以及其他分子;除了目標(biāo)蛋白,可能還有其他蛋白。在PDB數(shù)據(jù)庫(kù)的蛋白詳情頁內(nèi)有詳細(xì)記錄,我們需要了解各組分是什么物質(zhì),各自的作用是什么,哪個(gè)是共晶配體。
(蛋白晶體結(jié)構(gòu)中各組分的信息)
一些很小的分子,數(shù)量很多的分子,結(jié)合在很淺的蛋白表面的分子,通常不會(huì)是配體分子(但也有例外)。還有一些名稱非常常見的,比如:GOL、ACT、PEG、SO4等等,這些只是蛋白結(jié)晶所需要的或者在溶液中存在的分子,不是真正意義上的配體分子。
仍然以4UMX為例,通過查詢它的詳細(xì)記錄(https://www.rcsb.org/structure/4UMX),我們了解到NAP是輔酶,VVS是小分子配體,GOL是助溶劑分子而已。那么,我們應(yīng)當(dāng)以VVS的結(jié)合位置為對(duì)接口袋,而不應(yīng)以NAP為對(duì)接位點(diǎn)。考慮到NAP與VVS有直接的相互作用,我們應(yīng)當(dāng)在對(duì)接時(shí)保留NAP,把它作為受體的一部分參與對(duì)接。
常見的輔酶還有:ADP、ATP、NAD+、NADH、NADP+、NADPH、HEME。
5. 選擇共晶配體相似的晶體結(jié)構(gòu)當(dāng)有多個(gè)蛋白晶體結(jié)構(gòu)可選,并且很多是包含共晶配體的,我們可以選擇共晶配體與要對(duì)接的化合物在結(jié)構(gòu)上比較相似的那個(gè)。因?yàn)榈鞍着c配體在結(jié)合過程中,會(huì)發(fā)生“誘導(dǎo)契合”效應(yīng)。有的蛋白的口袋柔性較大,這種效應(yīng)更加明顯,蛋白跟不同配體結(jié)合時(shí),口袋會(huì)有所改變。更為極端的是,有可能存在“開”和“合”等不同狀態(tài)。而對(duì)接過程中,蛋白結(jié)構(gòu)是剛性不變的。因此,選擇口袋形狀合適的晶體結(jié)構(gòu)會(huì)有利于對(duì)接。
6. 選擇分辨率高的晶體結(jié)構(gòu)蛋白晶體結(jié)構(gòu)的質(zhì)量指標(biāo)之一是resolution,它表示晶體結(jié)構(gòu)模型中的原子位置的不確定程度。在有許多晶體結(jié)構(gòu)可選的情況下,我們選擇分辨率高的,即resolution數(shù)值小的。一般來說,resolution < 2 Å就足夠好了。但這不是最重要的選擇標(biāo)準(zhǔn),很多人一上來就根據(jù)這條規(guī)則過濾掉大部分蛋白,這是不夠嚴(yán)謹(jǐn)、合理的。因?yàn)檫@樣有可能導(dǎo)致被過濾掉的低分辨率蛋白中包含共晶配體,而剩下的高分辨率蛋白中卻沒有配體的情況。此時(shí)選擇高分辨率蛋白就無法確定口袋的位置(雖然可以通過低分辨率蛋白來了解口袋位置,但仍然不便于定位口袋)和獲得適合的口袋形狀。
(蛋白結(jié)構(gòu)分辨率resolution)
值得注意的是,晶體結(jié)構(gòu)由于分辨率問題,通常不含氫原子,只有個(gè)別超高分辨率的文件,才能看到氫原子的確切位置。相反,核磁結(jié)構(gòu)通常含有氫原子,且有較多構(gòu)象(它是溶液中的狀態(tài)),但不含配體分子。在蛋白分辨率的選擇問題上,我們應(yīng)有合理的依據(jù),而非教條主義、人云亦云。
總結(jié)事實(shí)上,如何選擇蛋白晶體結(jié)構(gòu),是個(gè)帕累托最優(yōu)問題。我們需要綜合判斷,選擇最適合于當(dāng)前研究的晶體結(jié)構(gòu)。上述內(nèi)容雖然是針對(duì)分子對(duì)接計(jì)算來講的,但同樣適用于其他計(jì)算模擬的情況。