在一般的分子對接計(jì)算中,一個(gè)不可或缺的步驟是定義配體分子(通常為有機(jī)小分子)的結(jié)合位置,即對接口袋。對于蛋白-小分子復(fù)合物X-ray晶體結(jié)構(gòu),口袋內(nèi)就有一個(gè)配體,它為我們指示了對接口袋的位置。但還有很多X-ray晶體結(jié)構(gòu)、NMR解析的結(jié)構(gòu)沒有配體結(jié)構(gòu),我們該如何確定對接口袋呢?更一般地,對于核酸、多肽以及主客體中的主體分子,又該如何定義對接口袋呢?
對接口袋這個(gè)概念存在于分子對接計(jì)算中,是受體中配體結(jié)合的可能區(qū)域。通過設(shè)定足夠大的盒子把口袋囊括起來來告知對接程序它的位置。如果對接口袋被設(shè)定在真正的活性結(jié)合位點(diǎn)上,則有更大概率找到配體正確的活性構(gòu)象與結(jié)合模式。對接口袋,顧名思義,通常呈口袋狀(開口小、肚子大、能容納一定體積的分子結(jié)構(gòu)),也有其他形狀,比如管道狀、凹槽狀和淺洼狀,而以口袋形狀最為典型。對于蛋白-配體復(fù)合物而言,大且深的疏水性空腔對于配體結(jié)合至關(guān)重要。對于蛋白結(jié)構(gòu),這一特點(diǎn)便成為各種算法尋找對接口袋/識別結(jié)合位點(diǎn)的重要依據(jù)和原則。
識別蛋白口袋/配體結(jié)合位點(diǎn)的方法下面針對蛋白講述確定對接口袋的常用策略。由于核酸、多肽以及主體分子的口袋特點(diǎn)千差萬別,難以一概而論,但若能靈活變通,這些策略也經(jīng)常適用,甚至操作上更為簡單。
一、 文獻(xiàn)/數(shù)據(jù)庫調(diào)研法最可靠的信息,莫過于實(shí)驗(yàn)數(shù)據(jù)。我們可通過文獻(xiàn)調(diào)研,從他人/前人的實(shí)驗(yàn)結(jié)果中獲悉該蛋白的主要功能和所屬家族,找到它的活性位點(diǎn)信息。比如,胰凝乳蛋白酶的His-Asp-Ser催化三聯(lián)體、鋅指蛋白的Zn2+結(jié)合位點(diǎn)。通過對已有較多研究的其他種屬的同源蛋白進(jìn)行比較研究,找到對應(yīng)的口袋信息。UniprotKB數(shù)據(jù)庫(https://www.uniprot.org/)整合了豐富的蛋白結(jié)構(gòu)-功能信息,有的還包含突變位點(diǎn)信息。這為我們識別蛋白口袋/配體結(jié)合位點(diǎn)提供可靠的依據(jù)。
二、 實(shí)驗(yàn)篩查法如果文獻(xiàn)和數(shù)據(jù)庫上缺少有用信息,而實(shí)驗(yàn)手段又相當(dāng)方便且便宜時(shí),那就自己做實(shí)驗(yàn)吧,比如定點(diǎn)突變(通常用在對計(jì)算結(jié)果的驗(yàn)證,而非相反)、熒光探針標(biāo)記[1]。
三、 軟件預(yù)測法這是最簡單、最直接的辦法。目前已有眾多軟件/算法可以幫助人們預(yù)測蛋白的活性口袋或者識別配體的結(jié)合位點(diǎn)。下圖總結(jié)了部分預(yù)測程序的基本情況。
(蛋白口袋/配體結(jié)合位點(diǎn)預(yù)測本地程序或在線服務(wù),點(diǎn)擊此處跳轉(zhuǎn)相關(guān)鏈接頁面)
各程序?qū)斎雰?nèi)容的要求大同小異,輸出結(jié)果卻千差萬別。感興趣的讀者,可進(jìn)行一番探索。這里以在線服務(wù)POCASA為例,講解如何預(yù)測蛋白受體1UWH的口袋。該晶體結(jié)構(gòu)為蛋白-配體復(fù)合物,配體分子指示了結(jié)合位點(diǎn),正好用來檢驗(yàn)POCASA能否正確預(yù)測口袋位置。
1、登錄POCASA網(wǎng)站:http://altair.sci.hokudai.ac.jp/g6/service/pocasa/
2、在PDB ID欄輸入1uwh,其他參數(shù)保持默認(rèn)值,點(diǎn)擊Get Pockets and Cavities按鈕
等待片刻即返回結(jié)果。Chain ID默認(rèn)為NULL,表示選擇蛋白文件的第一條鏈。該蛋白晶體結(jié)構(gòu)包含A、B兩條鏈,均有配體小分子,我們預(yù)測A鏈上的口袋位置。
(POCASA提交任務(wù)界面)
3、從返回的結(jié)果中找到Output files,下載我們需要的pdb文件
文件①是輸入的pdb文件(我們輸入了PDB ID,POCASA自動從RCSB PDB庫中下載蛋白文件),文件②是我們需要的輸出結(jié)果,包含了若干潛在口袋的位置信息。將兩者下載下來,然后使用PyMOL或其他分子圖形軟件觀察分析。
(POCASA的輸出文件,其中XXXX_TopN_pockets.pdb是預(yù)測的口袋位置)
另外,在Rank order欄目下,POCASA還告訴我們一共生成了多少個(gè)Pocket,每個(gè)Pocket都有自己的編號,按照體積排序,依次是Rank 1、2、3……通常,體積最大的Pocket最有可能是真正的蛋白口袋,但體積太大也有可能是假口袋。最保險(xiǎn)的做法是進(jìn)行可視化分析。
(POCASA計(jì)算的口袋體積和口袋可能性排序)
4、使用PyMOL可視化分析
打開1uwh.pdb和1uwh_TopN_pockets.pdb文件,隱藏冗余結(jié)構(gòu),以cartoon形式顯示蛋白A鏈,以sticks形式顯示配體,以spheres形式顯示pockets。
(蛋白是深綠色條帶,配體是粉橙色棍棒,Pocket A~F用各種顏色的小球表示)
可見,體積最大的Pocket并不完全是配體的結(jié)合口袋;Pocket A只有大約一半體積與配體重疊,Pocket B與配體分子大部分重疊,兩個(gè)Pocket共同構(gòu)成配體結(jié)合口袋。正如本例所示,我們不能完全相信軟件預(yù)測的結(jié)果,只看體積大小,可能會判斷失誤。在實(shí)踐中,應(yīng)花時(shí)間去考察各個(gè)預(yù)測口袋。
四、 人工觀察法對蛋白口袋/配體結(jié)合位點(diǎn)的準(zhǔn)確識別,離不開人工觀察和分析,僅憑軟件預(yù)測就匆匆下結(jié)論是非常危險(xiǎn)的。上面使用POCASA預(yù)測1uwh蛋白的口袋位置,Pocket A和B正好組成配體的結(jié)合口袋,其實(shí)這里面存在一點(diǎn)trick。根據(jù)“誘導(dǎo)契合”理論,在配體結(jié)合過程中,蛋白與配體都會發(fā)生不同程度的構(gòu)象調(diào)整,以達(dá)到“最舒服”的狀態(tài)。這種狀態(tài)與游離蛋白(free protein,無配體結(jié)合的蛋白)是有差異的。上述示例使用了實(shí)際上是復(fù)合物的蛋白進(jìn)行預(yù)測,成功概率會更大。但實(shí)際情況中,需要用到口袋預(yù)測的蛋白往往是不含配體的。因此,我們不能期望軟件預(yù)測的結(jié)果總能如示例那樣顯而易見(Pocket A和B的體積顯著大于其他)。在一些口袋不典型、存在多口袋的蛋白中,軟件很可能預(yù)測不出有效的Pocket,或者預(yù)測出多個(gè)Pocket。這就需要人工觀察去排除可能性極低的Pocket、保留可能性高的Pocket。
續(xù)上例,使用PyMOL顯示蛋白的(范德華)分子表面。通過觀察,我們發(fā)現(xiàn),兩個(gè)Pocket各自形成亞口袋,配體分子橫跨兩者。Pocket A開口足夠大,并與Pocket F共同形成一個(gè)極大的空間區(qū)域;Pocket B較為典型,深而且窄;其他Pocket要么體積太小,要么幾乎完全暴露在溶液中,不適合充當(dāng)口袋。因而,Pocket A和B都是有潛在口袋。如果沒有配體分子,我們并不能確定哪個(gè)才是真正的口袋,或者兩者都是或不是。這是普遍存在的情況。嚴(yán)謹(jǐn)?shù)淖龇ㄊ牵ò凑丈鲜鰳?biāo)準(zhǔn))排除明顯不行的Pocket,把剩下的作為候選口袋,留到后續(xù)研究(比如分子對接)中再進(jìn)一步排除或識別。
還記得上面給出的尋找口袋的原則嗎?沒錯(cuò),配體的結(jié)合需要疏水作用,通常來說,疏水性空腔更有可能成為口袋。通過蛋白的疏水性分布表面,可以進(jìn)一步判斷口袋的可行性。當(dāng)然,蛋白內(nèi)部通常是疏水性的,從形狀和位置上也能大致判斷某個(gè)預(yù)測的口袋的疏水性是否足夠。PyMOL做疏水性分布表面不怎么方便,我們就忽略這一步驟了。另外,對接打分在一定程度上也能反映口袋的疏水程度,可據(jù)此篩選蛋白口袋、識別正確的結(jié)合位點(diǎn)。
(淺紫色的蛋白表面顯示出大大小小的空腔,預(yù)測的Pocket小球指示潛在口袋的位置)
在殷賦云計(jì)算平臺上定義對接口袋
說了這么多,分子對接中使用游離蛋白作為受體時(shí),又該如何定義對接口袋呢?
計(jì)算平臺為我們提供了三種定義口袋的方式,對于復(fù)合物蛋白,可以通過“選擇文件”選擇之前就提取出來的配體分子進(jìn)行定義(詳見平臺教程,在微信公眾號首頁回復(fù)“計(jì)算教程”即可獲得下載鏈接);對于游離蛋白,可通過上傳包含口袋信息的分子文件或者通過下拉列表選擇口袋中的氨基酸殘基來定義。
還是以1UWH為例,我們把蛋白擺放到與上圖差不多的角度,就知道口袋的大致位置(下圖綠圈),然后在口袋中找一個(gè)或幾個(gè)氨基酸殘基(要求其原子集合的幾何中心盡量接近口袋中心),把鼠標(biāo)放至其上,就會顯示出相關(guān)信息(下圖黃圈)。然后,在下拉列表中勾選這些殘基(下圖紅框)即可。
(在殷賦云計(jì)算平臺上通過指定氨基酸殘基的方式來定義對接口袋)
另一種更便捷的方式是,上傳一個(gè)指明口袋中心的分子文件(使用pdb、mol2、sdf等常用格式[2-4])到平臺,平臺會計(jì)算它們的幾何中心,從而確定對接口袋的中心位置。比如,用文本編輯器NotePad++打開POCASA輸出文件1uwh_TopN_pockets.pdb,刪除Pocket C~F的信息,保留Pocket A和B的信息,保存pdb文件,上傳到平臺。POCASA非常貼心地為各個(gè)Pocket分配了不同的鏈名A~F;根據(jù)上面提到的Rank order信息,Pocket A的殘基名為222、Pocket B為146。據(jù)此,可以迅速找到兩個(gè)Pocket的所有信息。
(用文本編輯器處理POCASA輸出文件中的Pocket信息)
(通過上傳刪減的POCASA 1uwh_TopN_pockets.pdb文件來定義對接口袋)
當(dāng)然,該方式不限于POCASA的輸出文件,也可以使用其他預(yù)測軟件的輸出文件,還可以上傳自己創(chuàng)建的文件,比如通過PyMOL等軟件在口袋中選擇若干氨基酸殘基,保存為pdb文件。如果格式不正確,平臺會拋出異常錯(cuò)誤。對于不太了解分子文件格式的用戶,建議使用下拉列表的方式來定義對接口袋。
【下期預(yù)告】我們將在下期發(fā)布Vina和Dock6方案的5分鐘分子對接視頻教程,敬請期待。
參考文獻(xiàn)
1. Tina Seifert et al. Identification of the Binding Site of Chroman-4-one-Based Sirtuin 2-Selective Inhibitors using Photoaffinity Labeling in Combination with Tandem Mass Spectrometry. J. Med. Chem. 2016, 59, 23: 10794-99. DOI:10.1021/acs.jmedchem.6b01117
2. PDB格式:http://www.wwpdb.org/documentation/file-format-content/format33/v3.3.html
Mol2格式:http://chemyang.ccnu.edu.cn/ccb/server/AIMMS/mol2.pdf 或http://www.csb.yale.edu/userguides/datamanip/dock/DOCK_4.0.1/html/Manual.41.html
SDF格式:http://www.nonlinear.com/progenesis/sdf-studio/v0.9/faq/sdf-file-format-guidance.aspx或http://link.fyicenter.com/out.php?ID=571
更多資訊,請登錄www.yinfotek.com或關(guān)注微信公眾號“殷賦科技”。我司建立了微信學(xué)術(shù)交流群,為生物醫(yī)藥領(lǐng)域的朋友搭建溝通交流的互動平臺。想入群的朋友,請?jiān)谖⑿殴娞柌藛螜谳斎?ldquo;加群”,根據(jù)提示操作即可。