准确率72.46%!中南大学团队提出多源相似性融合模型MSSF,精准预测药物副作用频率
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
将ScienceAI设为星标
第一时间掌握
新鲜的AIforScience资讯
编辑丨%
生病吃药的时候,常会在说明书上看到对此药副作用的说明。对副作用的识别研究有助于药物开发过程中风险的降低,在优化联合治疗方案中也有着重要地位。
早期的药物副作用识别研究主要集中在预测药物与副作用之间的关联,近年来才逐渐转向药物副作用频率的预测。传统方法多将副作用频率预测视为回归问题,导致离散标签的边界模糊,且易受单模态数据限制。
中南大学研究团队针对这些问题,提出了多源相似性融合模型(MSSF),通过重构预测任务为多分类问题,在基准数据集上实现72. 46%的准确率,较次优模型HMMF提升15. 9%,为该领域提供了突破性解决方案。
论文链接:https ://academic. oup.com/bioinformatics/article/41/6/btaf319/8151546
多模态数据到贝叶斯推理
MSSF的具体研究内容可以如此概括:基于收集到的药物和副作用的多模态数据生成药物相似矩阵与副作用相似矩阵,生成对应的特征向量及三种组合向量。
这三个组合向量经三模块处理——EN-con自编码器通过特征拼接捕捉显式关联,EN-add自编码器以加和操作挖掘隐含交互,CNN-im卷积网络解析空间特征——实现多维度信息的深度融合。
图1:MSSF概述。
为了降低过拟合的风险并提高泛化性,团队在模型中引入了BVI模块。产生定点估计的确定性模型不同,BVI提供了一个概率框架,用于通过近似模型参数的后验分布来学习潜在表示。
在药物安全等高风险生物医学应用中,这种不确定性意识对于下游决策和互作性至关重要。
此外,团队在实验中还引进了了基于SIDER数据库构建的Zhao的数据集进行独立测试,然后从基准数据集中收集这些药物的副作用频率类别,构建训练数据集。
表1:使用10倍交叉验证在基准数据集上不同方法的性能比较。
为了评估MSSF预测新药副作用频率类别的能力,团队设计了一个冷启动实验和一个独立测试,将所有药物分为10个部分,并进行10倍交叉验证实验。
在交叉验证的结果图表中,MSSF在基准数据集的ACC为0. 7246,较次优模型HMMF(0. 6254)提升15. 9%。
在冷启动实验中,当测试集包含新药物时,MSSF的准确率达56. 01%,较HMMF(42. 82%)提升13. 19%;独立测试基于SIDER数据库验证,准确率仍保持56. 06%,充分验证了模型的泛化能力。
表2:冷启动条件下不同方法的性能比较。
此外,MSSF计算了10种不同的药物相似性和4种不同的副作用相似性,团队在每次实验中依次排除一个相似性特性,并根据十倍交叉验证重新训练模型。最差的结果显示准确率仅比使用所有相似性特征的结果低1. 2%,这表明MSSF仍然可以在相似性特征较少的情况下保持良好的性能。
小结
在这项工作中,研究团队将频率预测任务从回归问题重新表述为多类分类问题,使建模方法与基准数据集中频率标签的离散性质保持一致。
MSSF模型通过三种互补的特征提取策略整合了各种类型的药物和副作用信息。这些特征使用多头自注意力机制进行融合,使模型能够捕获复杂的跨特征依赖关系。实验表明,MSSF在各种评估指标上明显优于现有的最先进方法,尤其是在以前看不到药物副作用对的冷启动场景中。
未来的工作里,团队将探索整合其他数据源和改进的泛化策略,可能包括解决数据稀缺问题的小样本学习技术,以及集成其他模态以增强特征表示和泛化能力。
模型开源:https ://github. com/dingxlcse/MSSF. git
人工智能×[生物神经科学数学物理化学材料]
「ScienceAI」关注人工智能与其他前沿技术及基础科学的交叉研究与融合发展。
欢迎关注标星,并点击右下角点赞和在看。
点击阅读原文,加入专业从业者社区,以获得更多交流合作机会及服务。