元学习方法助力的生物活性预测
AIDDPro
2024年09月04日 20:16

今天给大家讲一篇2024年7月在nature machine intelligence上发表的一篇基于元学习方法的生物活性预测的文章。由于药物活性数据获取的成本高且实验难度大,以至于数据有限从而影响目前机器学习方法的预测能力和泛化性。因此作者提出了一种名为ActFound的生物活性基础模型,该模型旨在解决现有机器学习方法在生物活性预测中泛化能力不足的问题,还引入采用成对学习方法,通过学习同一实验中两个化合物之间的相对生物活性差异来克服不同实验之间的数据不一致性问题。此外,ActFound还利用元学习技术以优化各个任务中的模型性能。实验结果表明ActFound具有准确的域内预测能力,以及跨实验类型和分子骨架的优越的泛化能力。该策略的提出使其有望成为化合物生物活性预测的有效基础模型,为基于机器学习的药物设计和发现铺平了道路。

  01  引言

在药物发现及研发的过程中,生物活性预测是一项至关重要的任务。它涉及到评估化合物与生物靶标的相互作用、对生物体系的影响以及潜在的治疗效果。这一过程对于早期筛选、先导化合物优化等方面都具有重要意义。传统的生物活性预测方法依赖于物理化学实验和计算模型,这些方法往往成本高昂、耗时且需要大量的实验数据。

随着机器学习和人工智能技术的发展,特别是元学习方法的出现,生物活性预测领域迎来了新的发展机遇。在生物活性预测中,该方法通过在大量多样化的实验数据上进行预训练来学习到通用的分子特征表示,然后在特定的生物活性预测任务上进行微调,从而实现对新化合物生物活性的准确预测。

元学习方法可以有效地解决在生物活性预测中的数据稀缺、实验成本高昂以及计算资源有限等问题。该方法使得模型不仅能够学习到化合物的一般物理化学性质,还能够捕捉到特定实验条件下的复杂生物活性模式,以提高药物研发的效率和成功率。

元学习方法在生物活性预测以及其他人工智能领域中展现出巨大的潜力和价值,为解决实际问题提供了新的工具和思路。随着研究的深入,元学习有望在未来的药物发现和设计中发挥更加关键的作用。

  02  人工智能模型设计流程

2.1 ActFound设计流程

作者提出了一种生物活性基础模型ActFound,它通过预训练策略来学习大量实验(assays)的数据。在预训练结束后,该模型可以使用少量已知实验数据的化合物(test assay)进行微调,从而实现预测同一测试实验中其他未测量化合物的生物活性值(图1a)。作者以此提出了一种双层优化策略。首先在内循环中,模型会针对每个实验的数据调整模型参数,以提高在特定实验上的预测性能。在外循环中,模型会综合内循环的微调结果,进一步更新模型参数,以优化模型在所有实验上的整体性能。

最后,通过利用一些具有实验生物活性值的化合物对ActFound进行了微调来预测未测量的化合物的生物活性(图1c)。该方法通过预训练和微调两个阶段,使其在新的实验中快速准确地预测化合物的生物活性,这对于药物发现及设计具有重要意义。

图1 ActFound方法设计流程

  03  实验分析与探究

3.1 域内的生物活性预测

作者使用了ChEMBLBindingDB数据集中的多种类型的实验数据(化合物的吸收、分布、代谢、排泄等)来评估ActFound的预测性能。在每个任务中仅使用16个化合物来微调模型,其余化合物用于评估模型的泛化性。由图2a与b所示, ActFound在这两个数据集上的分类效果均优于其他竞争方法,此外,ActFound的表现优于传统的元学习方法,如MAML和ProtoNet,这表明使用成对学习来学习相对生物活性值是有效的。与使用迁移学习的ActFound方法相比,采用元学习的ActFound表现更好,这表明了从多样化实验中训练基础模型的优势。进一步,当数据集包含的样本数量越多时,ActFound能够更好地利用元学习的优势快速适应新的实验任务(图2c)。而当移除kNN-MAML模块时,ActFound的性能显著下降,这证明了该策略在微调阶段的有效性。

为了验证ActFound在学习相对生物活性差异方面的表现能力,作者进一步用t-SNE方法比较了ActFound和MAML方法获得的化合物嵌入表征,其中每个点表示一个化合物,并且同一类型的化合物应该具有相似的化学结构。与MAML相比,ActFound的嵌入表征表现的更分散,可以有效地将不同类别的化合物分开(图2f)。

图2 域内生物活性评估

3.2 跨域性能分析

与在领域内预测实验相比,ActFound在跨领域中的预测性能略有下降,这表明跨域任务对于ActFound更具挑战性。其中BindingDB和ChEMBL中可能存在重叠的实验数据,因此会存在数据泄露的问题(图3a和b)。进一步,为了更准确的为了评估ActFound的跨领域预测性能,作者使用了两个独立的激酶抑制剂数据集KIBA和Davis作为测试集。由结果可知ActFound相对于MAML在KIBA数据集上的性能提升比在Davis数据集上更大,表明了成对学习和元学习的优势(图3c-f)。

图3 域外生物活性评估

  04  结论

作者提出了一种生物活性预测模型ActFound。它通过结合元学习和成对学习方法可以有效地利用不同实验中的化合物信息,从而在少样本的生物活性预测中表现出色。此外,ActFound在领域内和跨领域的生物活性预测上都展现了卓越的性能,并且在实际应用中,如FEP测试和新细胞系的药物敏感性预测,也证明了其实用性。

然而该方法也存在一些局限性。目前,该模型还未能整合每个实验的所有数据,例如靶标的序列或相关的实验描述。在未来,可以利用这些数据使得模型提取更多有价值的信息。此外,ActFound目前仅使用基于分子指纹的特征,没有利用任何预训练的化合物属性预测模型。因此纳入其他预训练方法,可以有助于提升模型性能。

参考文献

  1. Feng B, Liu Z, Huang N, et al. A bioactivity foundation model using pairwise meta-learning[J]. Nature Machine Intelligence, 2024: 1-13.

版权信息

本文系AIDD Pro接受的外部投稿,文中所述观点仅代表作者本人观点,不代表AIDD Pro平台,如您发现发布内容有任何版权侵扰或者其他信息错误解读,请及时联系AIDD Pro (请添加微信号sixiali_fox59)进行删改处理。

本文为原创内容,未经授权禁止转载,授权后转载亦需注明出处。有问题可发邮件至sixiali@stonewise.cn