在使用殷賦云計算平臺的時候,有不少用戶對于如何選擇蛋白晶體結(jié)構(gòu)存在疑問。本篇就這個話題做一些經(jīng)驗分享。任何標準都有一個適用范圍。我們在這里只討論用于分子對接的蛋白晶體結(jié)構(gòu)的選擇原則和方法。
1. 確定蛋白種屬在實驗當中,研究人員通常使用動物模型(如小鼠)來研究人源蛋白。這樣做有許多原因,比如:
1) 無法獲得(提純分離)人源蛋白;
2) 需要在體內(nèi)考察蛋白的功能,但無法直接進行人體臨床試驗;
3) 使用動物蛋白更方便、更便宜;
4) 其他限制因素。
而計算模擬則便利很多。如果我們真正的研究對象是人體,則一般情況下應(yīng)當使用人源蛋白。但是,如果需要根據(jù)對接計算的結(jié)果去指導(dǎo)實驗或解釋實驗現(xiàn)象,或者開展后續(xù)實驗(如定點突變)對計算結(jié)果進行驗證,那么,原則上應(yīng)當讓計算用的蛋白種屬與實驗一致,否則氨基酸序列可能對應(yīng)不上。
比如,在UniprotKB數(shù)據(jù)庫(https://www.uniprot.org/)輸入基因名1DH1,得到以下結(jié)果。然后,根據(jù)我們確定的種屬查詢相應(yīng)的蛋白。
(UniprotKB數(shù)據(jù)庫蛋白查詢結(jié)果)
假設(shè)我們要研究人的蛋白,那么,可以在RCSB Protein Data Bank數(shù)據(jù)庫中搜索它的Entry name(1DHC_HUMAN)。另一方面,PDB數(shù)據(jù)庫也會給出每個晶體結(jié)構(gòu)的種屬信息。
(PDB詳情頁的蛋白種屬信息)
2. 了解更多關(guān)于蛋白功能/結(jié)構(gòu)的信息做任何研究都應(yīng)當對研究對象有充分了解。UniprotKB數(shù)據(jù)庫為我們整合了蛋白的相關(guān)知識,我們可以通過它獲得重要的信息。比如,了解蛋白的功能是什么,序列有多長,結(jié)合位點在哪里,有哪些蛋白結(jié)構(gòu)。
(UniprotKB蛋白詳情頁,了解蛋白功能與結(jié)構(gòu)信息)
(蛋白的結(jié)合區(qū)域信息)
3. 選擇口袋完整的晶體結(jié)構(gòu)對于某些蛋白,RCSB PDB數(shù)據(jù)庫可能存在許多晶體結(jié)構(gòu)。這種情況下,應(yīng)當選擇包含完整口袋的晶體結(jié)構(gòu)。比如,當我們尋找1DH1基因的蛋白(Isocitrate dehydrogenase [NADP] cytoplasmic,Uniprot AC: IDHC_HUMAN)時,找到許多晶體結(jié)構(gòu)。以4UMX和4UMY為例,如果查看三維結(jié)構(gòu),我們會發(fā)現(xiàn)4UMY有較多殘基缺失。最關(guān)鍵的是,一大段組成口袋的殘基缺失了,導(dǎo)致口袋的形狀改變(對比4UMX可知)。相反,4UMX則較為完整。因此,我們不應(yīng)選擇4UMY,而應(yīng)選擇4UMX作為候選結(jié)構(gòu)。
(口袋完整與殘基缺失的蛋白對比)
4. 選擇含有共晶配體的結(jié)構(gòu)很多時候,蛋白晶體結(jié)構(gòu)中不只是蛋白,還可能有核酸、多肽、輔酶、小分子化合物(抑制劑、拮抗劑、激動劑、底物)、助溶劑、表面活性劑、金屬離子和水分子以及其他分子;除了目標蛋白,可能還有其他蛋白。在PDB數(shù)據(jù)庫的蛋白詳情頁內(nèi)有詳細記錄,我們需要了解各組分是什么物質(zhì),各自的作用是什么,哪個是共晶配體。
(蛋白晶體結(jié)構(gòu)中各組分的信息)
一些很小的分子,數(shù)量很多的分子,結(jié)合在很淺的蛋白表面的分子,通常不會是配體分子(但也有例外)。還有一些名稱非常常見的,比如:GOL、ACT、PEG、SO4等等,這些只是蛋白結(jié)晶所需要的或者在溶液中存在的分子,不是真正意義上的配體分子。
仍然以4UMX為例,通過查詢它的詳細記錄(https://www.rcsb.org/structure/4UMX),我們了解到NAP是輔酶,VVS是小分子配體,GOL是助溶劑分子而已。那么,我們應(yīng)當以VVS的結(jié)合位置為對接口袋,而不應(yīng)以NAP為對接位點?紤]到NAP與VVS有直接的相互作用,我們應(yīng)當在對接時保留NAP,把它作為受體的一部分參與對接。
常見的輔酶還有:ADP、ATP、NAD+、NADH、NADP+、NADPH、HEME。
5. 選擇共晶配體相似的晶體結(jié)構(gòu)當有多個蛋白晶體結(jié)構(gòu)可選,并且很多是包含共晶配體的,我們可以選擇共晶配體與要對接的化合物在結(jié)構(gòu)上比較相似的那個。因為蛋白與配體在結(jié)合過程中,會發(fā)生“誘導(dǎo)契合”效應(yīng)。有的蛋白的口袋柔性較大,這種效應(yīng)更加明顯,蛋白跟不同配體結(jié)合時,口袋會有所改變。更為極端的是,有可能存在“開”和“合”等不同狀態(tài)。而對接過程中,蛋白結(jié)構(gòu)是剛性不變的。因此,選擇口袋形狀合適的晶體結(jié)構(gòu)會有利于對接。
6. 選擇分辨率高的晶體結(jié)構(gòu)蛋白晶體結(jié)構(gòu)的質(zhì)量指標之一是resolution,它表示晶體結(jié)構(gòu)模型中的原子位置的不確定程度。在有許多晶體結(jié)構(gòu)可選的情況下,我們選擇分辨率高的,即resolution數(shù)值小的。一般來說,resolution < 2 Å就足夠好了。但這不是最重要的選擇標準,很多人一上來就根據(jù)這條規(guī)則過濾掉大部分蛋白,這是不夠嚴謹、合理的。因為這樣有可能導(dǎo)致被過濾掉的低分辨率蛋白中包含共晶配體,而剩下的高分辨率蛋白中卻沒有配體的情況。此時選擇高分辨率蛋白就無法確定口袋的位置(雖然可以通過低分辨率蛋白來了解口袋位置,但仍然不便于定位口袋)和獲得適合的口袋形狀。
(蛋白結(jié)構(gòu)分辨率resolution)
值得注意的是,晶體結(jié)構(gòu)由于分辨率問題,通常不含氫原子,只有個別超高分辨率的文件,才能看到氫原子的確切位置。相反,核磁結(jié)構(gòu)通常含有氫原子,且有較多構(gòu)象(它是溶液中的狀態(tài)),但不含配體分子。在蛋白分辨率的選擇問題上,我們應(yīng)有合理的依據(jù),而非教條主義、人云亦云。
總結(jié)事實上,如何選擇蛋白晶體結(jié)構(gòu),是個帕累托最優(yōu)問題。我們需要綜合判斷,選擇最適合于當前研究的晶體結(jié)構(gòu)。上述內(nèi)容雖然是針對分子對接計算來講的,但同樣適用于其他計算模擬的情況。