抗生素通过针对入侵的生物体将自己置身于宿主-病原体的进化军备竞赛中。然而随着病原体因自然选择进化出的耐药性抗生素治疗效果下降。另外抗生素的研发是一个成本高及周期长的工程耐药性的出现促使人们对有望加快候选药物发现的计算方法产生了极大的兴趣。本文阐述了人工智能AIDD在小分子抗生素和抗菌肽的发现方面取得的进展。除了抗菌活性的基本预测外还强调抗菌化合物的表征、类药性的预测、抗菌素耐药性和从头分子设计。RefCommun. Biol. Published: 9 September 2021 IF6.268链接https://doi.org/10.1038/s42003-021-02586-0一、研究背景细菌耐药性(AMR)的出现减弱了抗生素的功效使全球发病率和死亡率水平升高。美国疾病控制和预防中心估计美国每年有280万感染是由耐药细菌引起的其中有3.5万人死于这种无法治疗的感染。临床试验中的抗生素也与现有的耐药机制的药物类似进一步强调了发现全新抗生素的必要性。抗生素的研发是一个成本高及周期长的工程。2014年至2019年期间只有14种新的抗生素成功研发并通过审批。在一项对超过21000种化合物的近186000项临床试验的调查中研发的新药能够成功治疗传染病的可能性仅为25.2%。这种失败的风险促使企业以更高的投资回报保证进行研发为学术界启动抗生素设计和优化的早期阶段开辟了道路。随着人工智能和大数据的广泛应用越来越多的科研工作者使用AIDD的方法来研发药物有可能从根本上改变药物发现中计算模型的准确性和可靠性。可用的开源数据集表1、计算机工程的进步以及机器学习算法模型极大地促进了机器学习在药物研发的应用 AIDD特别是抗生素发现中的应用。本文主要介绍了人工智能在小分子抗生素和抗菌肽研发中的应用。表1与抗生素研发相关的数据库二、化合物表征为避免浪费大量时间用于合成非活性化合物和进行实验研究人员通过计算来预测新设计分子的活性在计算模型中分子的表征也是比较重要的一部分图1。分子的各种性质和实验可以产生大量的信息。如为了描述简单的氨基酸残基在线数据库中已经有400多个不同的测量方法对于小分子药物有计算和压缩量子力学推导出的描述符来表示拓扑性质的方法。然而多次测量中包含的大量数据和冗余信息使得使用所有描述符变得不切实际或适得其反。因此需要将实验数据组合成简单的描述符以尽可能少的维度来描述尽可能多的信息。如本文中提到可是使用AI中的图卷积网络利用分子的几何形状和连接性将它们自然地转换成图使用神经网络从化学结构中学习分子的特征。循环神经网络RNN也多用于处理分子的SMILES表示或结合长短期记忆神经网络LSTM从已知药物的SMILES学习分子特征并生成新的化合物或RNN也可与强化学习结合根据药物的SMILES生成药物的embedding特征。此外RNN还用于抗菌肽的表征。图1基于人工智能抗生素的研发方法三、抗菌活性预测抗菌活性的预测是AIDD整合到抗生素开发中的核心经过多年的研究并为此提供了新的解决方案。如研究人员使用逻辑回归对训练集中的分子片段进行分类构造了一个基于分子片段的活性“片段库”可以将这些分子片段拼接起来作为有活性的新抗生素研究人员利用神经网络来表示化合物然后评估其抗菌能力以试图从现有的药物中选出具有抗菌作用的药物基于支持向量机预测分子的抗菌活性基于深度神经网络预测多肽对铜绿假单胞菌的活性基于RNN的回归模型对抗菌肽活性的预测等方法。四、性质预测较差的药代动力学特性和毒性是临床试验失败的主要原因因此迫切需要借助AIDD的方法对此进行预测。预测的性质主要包括吸收、分布、代谢、排泄和毒性ADMET。本文也提到有一系列工作分别利用神经网络、分类树、梯度提升分类器和共识模型预测抗菌肽和类抗菌肽药物的溶血活性。也有一系列研究利用随机森林、深度神经网络和深度泰勒分解用于预测候选药物的细胞毒性。为考虑抗菌肽的溶解性和稳定性。已有相关工作借用神经网络、梯度增强模型、逻辑回归分类器、支持向量机和随机森林预测蛋白质溶解度。因为蛋白酶的降解也会影响抗菌肽稳定性的评估所以可利用支持向量机、卷积神经网络、随机森林分类器和逻辑回归模型来预测水解位点以有利于先导抗菌肽的挑选和稳定性优化。五、耐药性预测与大多数治疗方法不同抗生素设计的目标是杀死具有耐药性进化能力的细菌。因此抗生素药物设计需要考虑细菌耐药性进化。虽然当前已有基于机器学习的耐药性预测方法在临床上预测抗生素配方的耐药性但它也可能在药物开发的实验中有用。基于耐药性基因组学的机器学习方法将越来越多地专门用于药物开发例如利用机器学习对先导化合物的耐药性实验进行预测。目前基于机器学习的抗药性预测都是基于细菌的基因组特征而不是药物或分子靶点特征。已有工作基于病原体基因组数据训练了能够预测细菌对抗生素的敏感性和耐药性表型的机器学习模型(AIDD)。也有工作利用SVM预测外排介导的耐药性。虽然“黑盒”方法可能会限制AIDD在降低耐药风险的效果但可解释性的模型可以使模型能够在机体和种群规模上找出耐药性的进化原因。将AIDD与基因-蛋白结构图谱相结合可研究结核分枝杆菌耐药性进化的驱动因素其假设赋予细菌耐药性的基因之间的相互作用表现为它们在SVM超平面的权重和符号的相关性。另外也可基于蛋白质同源性的基因变异定位的可解释耐药性预测。六、基于生成模型抗生素的发现生成模型已经被用于化学工程和蛋白质工程包括无机物的逆向设计和基于图的神经网络模型蛋白质折叠生成。作者着重介绍分子从头设计其通常使用AIDD中的生成对抗网络(GANs)变分自动编码器(VAEs)相关的架构。已有工作分别利用了结合深度强化学习的生成网络深度生成对抗自动编码器可微分强化学习和对抗训练神经网络结合蒙特卡罗树搜索的深度神经网络结合随机和目标指引分子设计的自动编码器GAN用于从头药物设计AIDD。鉴于对序列数据的适用性也有工作利用接受SMILES输入的RNN模型进行药物设计。如GAN已被用于生成对大肠杆菌的最低抑制浓度明显低于氨苄青霉素的抗菌肽。基于迁移学习的LSTM生成模型表明在对较小数据集的目标特异性生物活性分子进行微调后可以成功生成已知的靶向金黄色葡萄球菌的分子。此外有研究者在一个基于单向LSTM的抗菌肽设计中观察到82%的生成肽是潜在的抗菌肽而训练数据的氨基酸分布中只有65%的随机排列被预测为抗菌素。综之基于AIDD的方法均可加速抗生素或抗菌肽的发现。参考文献[1] Melo, M.C.R., Maasch, J.R.M.A. de la Fuente-Nunez, C. Accelerating antibiotic discovery through artificial intelligence. Commun Biol 4, 1050 (2021).
科学智能AI4S应用:人工智能加速加速抗生素发现(AIDD助力药物研发)
抗生素通过针对入侵的生物体将自己置身于宿主-病原体的进化军备竞赛中。然而随着病原体因自然选择进化出的耐药性抗生素治疗效果下降。另外抗生素的研发是一个成本高及周期长的工程耐药性的出现促使人们对有望加快候选药物发现的计算方法产生了极大的兴趣。本文阐述了人工智能AIDD在小分子抗生素和抗菌肽的发现方面取得的进展。除了抗菌活性的基本预测外还强调抗菌化合物的表征、类药性的预测、抗菌素耐药性和从头分子设计。RefCommun. Biol. Published: 9 September 2021 IF6.268链接https://doi.org/10.1038/s42003-021-02586-0一、研究背景细菌耐药性(AMR)的出现减弱了抗生素的功效使全球发病率和死亡率水平升高。美国疾病控制和预防中心估计美国每年有280万感染是由耐药细菌引起的其中有3.5万人死于这种无法治疗的感染。临床试验中的抗生素也与现有的耐药机制的药物类似进一步强调了发现全新抗生素的必要性。抗生素的研发是一个成本高及周期长的工程。2014年至2019年期间只有14种新的抗生素成功研发并通过审批。在一项对超过21000种化合物的近186000项临床试验的调查中研发的新药能够成功治疗传染病的可能性仅为25.2%。这种失败的风险促使企业以更高的投资回报保证进行研发为学术界启动抗生素设计和优化的早期阶段开辟了道路。随着人工智能和大数据的广泛应用越来越多的科研工作者使用AIDD的方法来研发药物有可能从根本上改变药物发现中计算模型的准确性和可靠性。可用的开源数据集表1、计算机工程的进步以及机器学习算法模型极大地促进了机器学习在药物研发的应用 AIDD特别是抗生素发现中的应用。本文主要介绍了人工智能在小分子抗生素和抗菌肽研发中的应用。表1与抗生素研发相关的数据库二、化合物表征为避免浪费大量时间用于合成非活性化合物和进行实验研究人员通过计算来预测新设计分子的活性在计算模型中分子的表征也是比较重要的一部分图1。分子的各种性质和实验可以产生大量的信息。如为了描述简单的氨基酸残基在线数据库中已经有400多个不同的测量方法对于小分子药物有计算和压缩量子力学推导出的描述符来表示拓扑性质的方法。然而多次测量中包含的大量数据和冗余信息使得使用所有描述符变得不切实际或适得其反。因此需要将实验数据组合成简单的描述符以尽可能少的维度来描述尽可能多的信息。如本文中提到可是使用AI中的图卷积网络利用分子的几何形状和连接性将它们自然地转换成图使用神经网络从化学结构中学习分子的特征。循环神经网络RNN也多用于处理分子的SMILES表示或结合长短期记忆神经网络LSTM从已知药物的SMILES学习分子特征并生成新的化合物或RNN也可与强化学习结合根据药物的SMILES生成药物的embedding特征。此外RNN还用于抗菌肽的表征。图1基于人工智能抗生素的研发方法三、抗菌活性预测抗菌活性的预测是AIDD整合到抗生素开发中的核心经过多年的研究并为此提供了新的解决方案。如研究人员使用逻辑回归对训练集中的分子片段进行分类构造了一个基于分子片段的活性“片段库”可以将这些分子片段拼接起来作为有活性的新抗生素研究人员利用神经网络来表示化合物然后评估其抗菌能力以试图从现有的药物中选出具有抗菌作用的药物基于支持向量机预测分子的抗菌活性基于深度神经网络预测多肽对铜绿假单胞菌的活性基于RNN的回归模型对抗菌肽活性的预测等方法。四、性质预测较差的药代动力学特性和毒性是临床试验失败的主要原因因此迫切需要借助AIDD的方法对此进行预测。预测的性质主要包括吸收、分布、代谢、排泄和毒性ADMET。本文也提到有一系列工作分别利用神经网络、分类树、梯度提升分类器和共识模型预测抗菌肽和类抗菌肽药物的溶血活性。也有一系列研究利用随机森林、深度神经网络和深度泰勒分解用于预测候选药物的细胞毒性。为考虑抗菌肽的溶解性和稳定性。已有相关工作借用神经网络、梯度增强模型、逻辑回归分类器、支持向量机和随机森林预测蛋白质溶解度。因为蛋白酶的降解也会影响抗菌肽稳定性的评估所以可利用支持向量机、卷积神经网络、随机森林分类器和逻辑回归模型来预测水解位点以有利于先导抗菌肽的挑选和稳定性优化。五、耐药性预测与大多数治疗方法不同抗生素设计的目标是杀死具有耐药性进化能力的细菌。因此抗生素药物设计需要考虑细菌耐药性进化。虽然当前已有基于机器学习的耐药性预测方法在临床上预测抗生素配方的耐药性但它也可能在药物开发的实验中有用。基于耐药性基因组学的机器学习方法将越来越多地专门用于药物开发例如利用机器学习对先导化合物的耐药性实验进行预测。目前基于机器学习的抗药性预测都是基于细菌的基因组特征而不是药物或分子靶点特征。已有工作基于病原体基因组数据训练了能够预测细菌对抗生素的敏感性和耐药性表型的机器学习模型(AIDD)。也有工作利用SVM预测外排介导的耐药性。虽然“黑盒”方法可能会限制AIDD在降低耐药风险的效果但可解释性的模型可以使模型能够在机体和种群规模上找出耐药性的进化原因。将AIDD与基因-蛋白结构图谱相结合可研究结核分枝杆菌耐药性进化的驱动因素其假设赋予细菌耐药性的基因之间的相互作用表现为它们在SVM超平面的权重和符号的相关性。另外也可基于蛋白质同源性的基因变异定位的可解释耐药性预测。六、基于生成模型抗生素的发现生成模型已经被用于化学工程和蛋白质工程包括无机物的逆向设计和基于图的神经网络模型蛋白质折叠生成。作者着重介绍分子从头设计其通常使用AIDD中的生成对抗网络(GANs)变分自动编码器(VAEs)相关的架构。已有工作分别利用了结合深度强化学习的生成网络深度生成对抗自动编码器可微分强化学习和对抗训练神经网络结合蒙特卡罗树搜索的深度神经网络结合随机和目标指引分子设计的自动编码器GAN用于从头药物设计AIDD。鉴于对序列数据的适用性也有工作利用接受SMILES输入的RNN模型进行药物设计。如GAN已被用于生成对大肠杆菌的最低抑制浓度明显低于氨苄青霉素的抗菌肽。基于迁移学习的LSTM生成模型表明在对较小数据集的目标特异性生物活性分子进行微调后可以成功生成已知的靶向金黄色葡萄球菌的分子。此外有研究者在一个基于单向LSTM的抗菌肽设计中观察到82%的生成肽是潜在的抗菌肽而训练数据的氨基酸分布中只有65%的随机排列被预测为抗菌素。综之基于AIDD的方法均可加速抗生素或抗菌肽的发现。参考文献[1] Melo, M.C.R., Maasch, J.R.M.A. de la Fuente-Nunez, C. Accelerating antibiotic discovery through artificial intelligence. Commun Biol 4, 1050 (2021).