作者:彬彬
編輯:李寶珠,三羊
浙江大學(xué)與之江實(shí)驗(yàn)室研究團(tuán)隊(duì)提出了一種基于蛋白質(zhì)口袋 (protein pocket) 的 3D 分子生成模型——ResGen,與以往最優(yōu)技術(shù)相比,速度提升 8 倍,成功地生成了具有更低結(jié)合能和更高多樣性的類藥物分子。
過(guò)去,創(chuàng)新藥物的發(fā)現(xiàn)往往依賴于古早配方或?qū)嶒?yàn)中的偶然事件,例如青霉素。多年來(lái),分子生物學(xué)和計(jì)算化學(xué)的進(jìn)步,使藥物設(shè)計(jì)模式實(shí)現(xiàn)了從盲目篩選到合理設(shè)計(jì)的轉(zhuǎn)變。
盡管如此,藥物研發(fā)設(shè)計(jì)仍然是一個(gè)多環(huán)節(jié)流程,鏈路長(zhǎng)且成本高昂,每一個(gè)環(huán)節(jié)的效率提高都有巨大價(jià)值。近年來(lái),隨著 AI、大數(shù)據(jù)等技術(shù)的廣泛應(yīng)用,AI 輔助藥物設(shè)計(jì)也在一次次的實(shí)驗(yàn)中愈發(fā)成熟,AI 正在藥物研發(fā)的多個(gè)環(huán)節(jié)進(jìn)行著提效增質(zhì)的升級(jí)改革。
其中,高質(zhì)量的分子生成模型可以有效提升先導(dǎo)化合物發(fā)現(xiàn)的效率。目前,大多分子生成工作都采用了基于配體的方法 (LBMG),然而該方法存在諸多局限性,例如無(wú)法考慮分子與靶標(biāo)之間相互作用模式等。因此研究者們?cè)絹?lái)越關(guān)注基于結(jié)構(gòu)的分子生成 (SBMG,structure-based molecular generative) 的方法,即基于靶標(biāo)結(jié)構(gòu)進(jìn)行相應(yīng)的分子生成。
浙江大學(xué)侯廷軍教授、謝昌諭教授和之江實(shí)驗(yàn)室陳廣勇聯(lián)合團(tuán)隊(duì),提出了一種以蛋白質(zhì)口袋為條件的 3D 分子生成模型——ResGen。該模型采用并行多尺度建模策略,可以捕捉到蛋白靶點(diǎn)與配體間更高層次的相互作用,并實(shí)現(xiàn)更高的計(jì)算效率。
分子生成過(guò)程被表述為全局自回歸和原子自回歸,以更好地考慮蛋白質(zhì)口袋的幾何形狀。研究結(jié)果表明,與現(xiàn)有最先進(jìn)方法相比,ResGen 生成的分子具有更合理的化學(xué)結(jié)構(gòu),并擁有更好的靶點(diǎn)親和能力。
獲取論文:
https://www.nature.com/articles/s42256-023-00712-7
公眾號(hào)后臺(tái)回復(fù)「3D 分子生成」獲取完整 PDF
數(shù)據(jù)集:訓(xùn)練集與測(cè)試集間的序列相似性小于 40%
該研究使用的訓(xùn)練數(shù)據(jù)集是 CrossDock2020,該數(shù)據(jù)集用于蛋白質(zhì)-小分子相互作用研究,特別是用于評(píng)估分子對(duì)蛋白質(zhì)口袋的結(jié)合能力。
該數(shù)據(jù)集的初始數(shù)據(jù)包含超過(guò) 2,200 萬(wàn)個(gè)蛋白質(zhì)-小分子配對(duì) (protein–ligand pairs),為確保訓(xùn)練集與測(cè)試集之間的序列相似性小于 40%,研究人員經(jīng)過(guò)篩選,得到了約 10 萬(wàn)個(gè)蛋白質(zhì)-小分子配對(duì),測(cè)試集中包含了 100 個(gè)蛋白質(zhì)口袋。
數(shù)據(jù)集鏈接:
https://1lh.cc/DjuQrx
ResGen 模型:兩個(gè)分層自回歸
ResGen 模型將以蛋白質(zhì)口袋感知為條件的分子生成問(wèn)題,表述為兩個(gè)尺度的自回歸問(wèn)題,即全局尺度和原子組件尺度。其中,全局自回歸 (global autoregression) 是指,ResGen 所生成的每個(gè)原子,都是基于之前步驟中生成的分子片段和蛋白質(zhì)口袋結(jié)構(gòu);原子自回歸 (atomic autoregression) 依次產(chǎn)生新添加的原子坐標(biāo)和拓?fù)洹?/p>
ResGen 可以將完整的分子生成過(guò)程分解為分步采樣,從而以自回歸式方式實(shí)現(xiàn)整個(gè)分子的生成。此外,為了更好地捕獲更高層次的相互作用和降低計(jì)算成本,研究團(tuán)隊(duì)在這個(gè)三維條件生成問(wèn)題中引入了并行多尺度建模技術(shù)。
- 圖 A 示意:在分子生成的過(guò)程中,逐步地確認(rèn)生長(zhǎng)點(diǎn),添加原子(全局自回歸),確認(rèn)原子的位置,然后添加邊(原子自回歸)。
- 圖 B 示意:口袋和參考分子被表示成原子特征 (vector) 和原子坐標(biāo) (scalar)。
- 圖 E 示意:分子生成過(guò)程。i 中的灰色點(diǎn)云代表新生成的原子,具有位置信息;ii 中的綠色點(diǎn)云,是新生成的原子,補(bǔ)充了原子類型紅色圓圈表示每一步的焦點(diǎn)原子( focal atom,生長(zhǎng)點(diǎn)),而數(shù)字是每個(gè)原子成為生長(zhǎng)點(diǎn)的概率。
效果驗(yàn)證:優(yōu)于當(dāng)前最優(yōu)模型
一直以來(lái),對(duì)于基于蛋白質(zhì)口袋的 3D 分子生成模型有 2 個(gè)廣泛應(yīng)用的檢驗(yàn)指標(biāo)——模型是否學(xué)習(xí)了配體在不同蛋白質(zhì)口袋中的特征拓?fù)浞植迹窗悬c(diǎn)的分子圖分布),以及口袋內(nèi)配體的幾何分布(即原子位置和構(gòu)象的合理性)。
對(duì)此,研究團(tuán)隊(duì)對(duì) ResGen 和現(xiàn)有的最先進(jìn)模型進(jìn)行了系列評(píng)估。
對(duì)于第一條檢驗(yàn)指標(biāo),團(tuán)隊(duì)評(píng)估了針對(duì)測(cè)試集中的靶點(diǎn)和真實(shí)的治療靶點(diǎn)設(shè)計(jì)生成的分子的結(jié)合能 (binding energies) 和類藥性 (drug-like properties)。
對(duì)于第二條檢驗(yàn)指標(biāo),團(tuán)隊(duì)設(shè)計(jì)了構(gòu)象合理性實(shí)驗(yàn),并分析了蛋白與小分子之間的相互作用模式。
在測(cè)試集上生成分子:評(píng)估模型泛化能力
對(duì)比結(jié)果顯示,ResGen 生成的分子在包括結(jié)合能和藥物相似性在內(nèi)的大部分指標(biāo)上都優(yōu)于 GraphBP 和 Pocket2Mol 生成的分子。
-
GraphBP:采用 3D 圖神經(jīng)網(wǎng)絡(luò)來(lái)提取語(yǔ)義信息,然后通過(guò)自回歸流模型依次生成原子。通過(guò)將特定類型和位置的原子逐個(gè)放置到給定的結(jié)合位點(diǎn)來(lái)生成與給定蛋白質(zhì)結(jié)合的 3D 分子。
-
Pocket2Mol:用于建模三維蛋白質(zhì)口袋的化學(xué)和幾何特征,并采用一種新的高效算法來(lái)采樣基于口袋條件的新的3D候選藥物。
如上圖所示,Vina Score 代表了生成分子和對(duì)應(yīng)蛋白靶標(biāo)的結(jié)合能,該指標(biāo)能夠在一定程度上反映模型是否感知到了口袋內(nèi)的化學(xué)環(huán)境。
ResGen 在 Vina Score 上的表現(xiàn)意味著,ResGen 更有機(jī)會(huì)生成和靶標(biāo)結(jié)合更緊密的分子,研究團(tuán)隊(duì)認(rèn)為這可能是因?yàn)?ResGen 采用了多尺度建模表征結(jié)構(gòu),因?yàn)檫@種結(jié)構(gòu)更有利于捕捉蛋白質(zhì)口袋和配體間更高層次的相互作用(如片段-殘基相互作用)。
此外,能否將一個(gè)有機(jī)化合物推進(jìn)為候選藥物,不僅取決于其與蛋白質(zhì)相互作用的強(qiáng)度,還取決于它的類藥性和可合成性。因此 QED、SA、Lipinski 以及 LogP 這些類藥性指標(biāo)被納入評(píng)估。ResGen 在 SA 和 Lipinski 指標(biāo)上得分最高,表明 ResGen 更有可能為未認(rèn)知的蛋白質(zhì)口袋生成易于合成的類藥配體。
針對(duì)真實(shí)靶標(biāo)的分子生成:評(píng)估現(xiàn)實(shí)場(chǎng)景中的表現(xiàn)
為了對(duì)模型在真實(shí)藥物設(shè)計(jì)場(chǎng)景中的表現(xiàn)進(jìn)行評(píng)估,研究團(tuán)隊(duì)以蛋白激酶 B 中 AKT1 和 CDK2 (Cyclin-Dependent Kinase 2) 作為案例,整理了其靶標(biāo)結(jié)構(gòu)以及具有實(shí)驗(yàn)活性的配體化合物,并隨機(jī)選擇了一批無(wú)活性小分子作為陰性對(duì)照。
上圖展示了各組分子的結(jié)合親和力分布,分布越偏左,結(jié)合能絕對(duì)值越大,親和力越高。結(jié)果表明,ResGen(綠色) 生成的分子不僅比陰性對(duì)照 (Random) 和其他現(xiàn)有最先進(jìn)模型生成的分子得分更高,而且整體分布甚至略好于 Active。
鍵長(zhǎng)分布實(shí)驗(yàn):評(píng)估構(gòu)象合理性
在構(gòu)象合理性實(shí)驗(yàn)中,研究團(tuán)隊(duì)計(jì)算了直接生成的分子構(gòu)象,與傳統(tǒng)構(gòu)像軟件生成的分子構(gòu)象之間的均方根偏差,并比較了生成樣本與訓(xùn)練分子之間的鍵長(zhǎng)分布。
在 7 種鍵長(zhǎng)中,ResGen 在 5 種鍵長(zhǎng)中表現(xiàn)最佳,大大優(yōu)于 GraphBP(大約 10 倍)。與其他兩個(gè)現(xiàn)有的最先進(jìn)模型相比,ResGen 能生成更平滑的構(gòu)象,這突出了其在捕捉蛋白質(zhì)口袋內(nèi)部復(fù)雜幾何分布方面的強(qiáng)大能力。
AlphaFold 預(yù)測(cè)結(jié)構(gòu)分析:評(píng)估模型對(duì)相互作用的敏感度
為驗(yàn)證 ResGen 是否成功學(xué)習(xí)了依賴靶點(diǎn)幾何結(jié)構(gòu)的相互作用模式,以及模型對(duì)蛋白-小分子相互作用的敏感度,研究團(tuán)隊(duì)以 X 射線晶體結(jié)構(gòu)和 AlphaFold 預(yù)測(cè)結(jié)構(gòu)為條件分別生成了兩組分子,并對(duì)了比這兩組分子的結(jié)構(gòu)特征。
基于晶體結(jié)構(gòu)和 AlphaFold 預(yù)測(cè)結(jié)構(gòu)生成的分子。其中白色配體為共晶配體,X ? 為經(jīng)過(guò)對(duì)齊后預(yù)測(cè)結(jié)構(gòu)與真實(shí)結(jié)構(gòu)間的 RMSD。第一列中的白色圓球代表可能的結(jié)合位點(diǎn)。
AlphaFold 預(yù)測(cè)的構(gòu)象 「封閉 」了晶體構(gòu)象中存在的口袋,導(dǎo)致模型無(wú)法在原口袋位置生成完整的分子,而是在新形成的空腔中生成小片段,表明了 ResGen 的分子生成過(guò)程靈敏地依賴于給定的蛋白質(zhì)口袋。
AlphaFold 預(yù)測(cè)構(gòu)象中形成的口袋與晶體口袋相比差異較小,但是模型仍然可以捕捉到這種變化。ResGen 生成的分子更多地占據(jù)了 AlphaFold 預(yù)測(cè)構(gòu)象中的空腔結(jié)構(gòu)(如圖中紅圈所示)。
這一實(shí)驗(yàn)證明了 ResGen 對(duì)靶點(diǎn)結(jié)構(gòu)的敏感性,也暗示了正確的蛋白結(jié)構(gòu)對(duì)于 SBMG 策略的重要性。
「AlphaFold2 推理蛋白質(zhì)結(jié)構(gòu)」詳細(xì)教程:
https://openbayes.com/console/public/tutorials/m6k2bdSu30C
AlphaFold 蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)集:
https://openbayes.com/console/public/datasets/ETTgyY1oZat/1/overview
點(diǎn)擊「閱讀原文」即可一鍵 input,無(wú)需下載數(shù)據(jù)集
侯廷軍:致力于計(jì)算機(jī)輔助藥物設(shè)計(jì)核心問(wèn)題的研究
分子生成是一項(xiàng)典型的多目標(biāo)優(yōu)化任務(wù)。我們生成的分子不僅希望他具有好的親和力,還需要有好的成藥性,低的毒性,高的合成性等。
——侯廷軍
在傳統(tǒng)的藥物發(fā)現(xiàn)過(guò)程中,藥物創(chuàng)新存在研發(fā)周期長(zhǎng)、投入高、風(fēng)險(xiǎn)大等問(wèn)題。先導(dǎo)化合物的發(fā)現(xiàn)和優(yōu)化是整個(gè)藥物發(fā)現(xiàn)過(guò)程中最具挑戰(zhàn)性的階段,需要克服化合物化學(xué)空間巨大的難題(可能達(dá)到 10 的 60 次方量級(jí));此外,先導(dǎo)物的篩選、優(yōu)化和評(píng)價(jià)過(guò)程非常復(fù)雜。
而通過(guò)深度學(xué)習(xí)和大數(shù)據(jù)分析,AI 能夠高效處理和解讀大規(guī)模的生物信息學(xué)數(shù)據(jù),挖掘隱藏在龐大數(shù)據(jù)集中的模式和關(guān)聯(lián),提高對(duì)潛在藥物靶點(diǎn)的識(shí)別準(zhǔn)確性,加速藥物篩選和設(shè)計(jì)的過(guò)程。
面向 AI 輔助藥物研發(fā)領(lǐng)域,侯廷軍教授及其團(tuán)隊(duì)長(zhǎng)期圍繞計(jì)算機(jī)輔助藥物設(shè)計(jì)中的核心問(wèn)題,展開前沿交叉學(xué)科研究,并取得一系列頗具價(jià)值的成果,例如:
- 分子對(duì)接虛擬篩選方面,提出新型的基于圖表征學(xué)習(xí)的蛋白-小分子相互作用的打分方法 IGN、基于深度學(xué)習(xí)的高通量分子對(duì)接框架 KarmaDock 等。
*智能分子生成和優(yōu)化方面,提出基于配體的多約束分子生成方法 MCMG、基于拓?fù)浔砻婧蛶缀谓Y(jié)構(gòu)的 3D 分子生成方法 SurfGen 等。
*分子成藥性及安全性評(píng)估方面,提出基于多圖注意力模型的毒性預(yù)測(cè)方法 MGA,成藥性預(yù)測(cè)軟件系統(tǒng) ADMETlab2.0 等。
除此之外,侯廷軍教授團(tuán)隊(duì)還研發(fā)了基于子結(jié)構(gòu)掩蓋的 AI 模型可解釋性方法 SME,對(duì) AI 模型的可解釋性提出了解決方法。
盡管 AI 在藥物研發(fā)中發(fā)揮的巨大價(jià)值日益凸顯,但作為新興研究,在實(shí)際落地中或許還存在相應(yīng)的挑戰(zhàn),而這些恰恰也將成為未來(lái)的重點(diǎn)研究方向。
對(duì)此,侯廷軍教授表示,如何有效提升基于 AI 的性質(zhì)預(yù)測(cè)方法的預(yù)測(cè)能力、基于 AI 的打分函數(shù)在虛擬篩選中的預(yù)測(cè)能力、關(guān)鍵成藥性參數(shù)和毒性終點(diǎn)的預(yù)測(cè)精度,將是 AI 輔助藥物發(fā)現(xiàn)領(lǐng)域未來(lái)需要重點(diǎn)關(guān)注的方向與挑戰(zhàn)。文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-814558.html
參考資料:
https://mp.weixin.qq.com/s/cxpbeGmrHULcWsbVbvQmJA文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-814558.html
到了這里,關(guān)于比最優(yōu)技術(shù)快 8 倍:浙大侯廷軍等人提出 ResGen,基于蛋白質(zhì)口袋的 3D 分子生成模型的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!