今天为大家介绍一篇来自Bioinformatics的有关药物靶标结合亲和力预测的文章★✿◈。近年来★✿◈,深度学习已成为药物-靶标结合亲和力预测的主流方法★✿◈。然而★✿◈,现有方法存在两个缺陷★✿◈:(1)通常忽略序列元素的个体信息★✿◈,导致序列特征表示较差★✿◈。(2)如果没有先验生物知识★✿◈,基于深度神经网络的注意力权重对结合区域的预测可能难以验证★✿◈,会给生物学研究人员造成干扰★✿◈。因此★✿◈,本文提出了一种新型的多功能稳健药物-靶标结合亲和力预测方法——MFR-DTA★✿◈。具体来说★✿◈,设计了一种新的生物序列特征提取模块★✿◈,帮助模型提取序列元素的单个特征★✿◈;提出了一种新的特征融合块来细化提取的特征★✿◈;构建了一个混合解码器模块提取药物-靶标相互作用信息★✿◈,同时预测其结合区域★✿◈。所提方法在基准数据集上取得了优异的性能★✿◈,证明了其相较于现有方法的优越性★✿◈。
药物-靶点相互作用(DTI)预测对于药物发现至关重要★✿◈,计算机辅助DTI已成为该任务最流行和最有效的方法★✿◈。通常★✿◈,DTI预测被表述为二元分类任务★✿◈,然而使用二元标签(0 或 1)来定量反映交互强度具有挑战性★✿◈。为了弥合这一差距铃木亚美★✿◈,Tang 等人首先将DTI预测视为回归任务★✿◈,后He等人提出了预测药物-靶标结合亲和力(DTA)的概念★✿◈。尽管大多数现有的DTI和DTA预测方法都取得了可喜的结果★✿◈,但它们并非没有问题天生赢家 一触即发处方药★✿◈。★✿◈。一方面★✿◈,主流的生物序列特征提取方法在提取丰富的蛋白质和药物特征方面存在不足★✿◈:(1)1D卷积和MLP都完全忽略了每个元素的单独特征★✿◈。(2)LSTM和GNN直接提取单独特征★✿◈,但不足以获取全局特征★✿◈。(3)2D卷积通过增加卷积核或卷积层来提取单独和全局特征★✿◈,但其计算消耗大★✿◈。另一方面★✿◈,许多现有方法尝试通过注意力机制来提高表现★✿◈。然而★✿◈,这些方法试图通过高注意力响应来识别BR(相互作用结合区域)★✿◈,这很难验证★✿◈,也缺乏理论基础★✿◈,因为突出显示的区域与蛋白质的生物学特征无关★✿◈。
图1 现有方法存在的两个主要问题 (A)现有分子特征提取方法的感受野(B)预测注意力权重权重和实际结合位点差异的两个实例
为了缓解上述问题★✿◈,本文提出了一种多功能稳健的药物-靶标结合亲和力预测模型MFR-DTA★✿◈,该模型有三个主要创新★✿◈:(1)BioMLP/CNN块用于丰富的蛋白质和药物特征提取★✿◈,为了同时提取序列中单个元素的个体特征和关联特征★✿◈,率先提取了生物序列元素的个体特征★✿◈。(2)元素特征融合块用于有效的特征挖掘★✿◈,蛋白质和药物的特征由两种形式表述★✿◈,通过特征融合有效地维护两方面的核心信息铃木亚美★✿◈。(3)混合解码块有效提取DTI特征并同时预测其BR★✿◈。
(1)评估数据集和指标★✿◈:为了与DeepDTA保持一致铃木亚美★✿◈,在两个基准Davis和KIBA上评估了模型★✿◈,通过五倍交叉验证★✿◈,将训练样本进一步分为训练集和验证集★✿◈。此外★✿◈,将新的3D数据集sc-PDB的数据转换为序列格式★✿◈,以评估所提出的BR预测方法的性能★✿◈。使用一致性指数CI★✿◈、MSE★✿◈、r2m指数和准确率-召回率曲线AUPR下面积指标来评估所提出的模型★✿◈,其中★✿◈,为了合理地测量AUPR★✿◈,通过选择结合亲和阈值将定量数据集转换为二进制数据集★✿◈,对于Davis数据集使用阈值7★✿◈,对于KIBA数据集使用阈值12.1★✿◈。
(2)消融研究★✿◈:首先分析了MFR-DTA中每个创新模块的有效性★✿◈。然后研究了不同的蛋白质特征选择方法★✿◈。最后将所提出的Mix-Decoder模块与其他交互特征提取方法进行了比较★✿◈。
①不同创新要素分析★✿◈:将CPInformer作为基线方法★✿◈,它通过WE表示蛋白质一级结构序列并使用分子特征融合模块来融合和细化药物的FCFPs和GCN特征★✿◈,然后通过Informer模型进行DTI特征提取★✿◈。在本文中★✿◈,通过添加 BioMLP/CNN★✿◈、Elem-feature Fusion和Mix-Decoder 模块来改进基线方法★✿◈。可以看出Model-1提高了基线方法的性能★✿◈,因为所提出的BioMLP/CNN模块提取了更全面的特征(包括个体和全局特征)★✿◈;Model-2的结果说明所提出的Elem-feature Fusion模块可以更好地融合药物和蛋白质特征凯发K8国际★✿◈。★✿◈。此外★✿◈,在MSE方面★✿◈,Model-4实现了进一步的提升天生赢家 一触即发天生赢家 一触即发★✿◈,该结果初步证明了Mix-Decoder模块的效率★✿◈,将在后文中进一步讨论该模块的主要贡献★✿◈。
②不同蛋白质特征表示和融合方法分析★✿◈:CPInformer已经证明图特征和指纹特征的融合优于单一使用★✿◈。为了进一步阐明本文的设计凯发K8官方网站★✿◈,分析了不同蛋白质特征表示和融合方法的有效性天生赢家 一触即发★✿◈。使用两种蛋白质特征表示k8凯发(中国)天生赢家·一触即发★✿◈,包括AAE和WE癌症治疗★✿◈。★✿◈,AAE的生物学特性有助于所提出的模型预测亲和力趋势★✿◈,使其在CI指标方面表现更好★✿◈;相比之下★✿◈,WE特征提取方法提供了更多的语义信息★✿◈,鼓励模型在MSE收敛并表现更好★✿◈。为了验证模型在引入这两种表征时是否表现更好★✿◈,采用四种不同的融合方法将上述两种特征结合起来★✿◈,并细化蛋白质和药物特征★✿◈,可以看出两个融合特征的性能优于单个融合特征天生赢家 一触即发★✿◈,进一步证明了两种蛋白质特征表示可以相互补充★✿◈。此外★✿◈,所提出的特征融合模块在两个基准测试中的两个指标上都证明了其优于其他三种方法★✿◈,证明了其良好的特征融合能力★✿◈。
③不同交互特征提取方法分析★✿◈:比较了串联★✿◈、CPInformer中基于注意力的Informer模块和本文提出的Mix-Decoder模块★✿◈,从散点图中可以看出三种方法的散射适度集中在对角线上★✿◈,而Mix-Decoder模块的散射则更集中★✿◈。进一步分析了Mix-Decoder中涉及的主要组件铃木亚美铃木亚美★✿◈,可以看出S-E和C-A模块的同时采用可以提高模型性能★✿◈,且药物邻接矩阵信息和BR信息二者的融合有助于模型性能提升★✿◈。
(3)与先进方法比较★✿◈:将所提出的MFR-DTA方法与现有的主流DTA预测模型进行了比较★✿◈,在两个数据集上获得的实验表明★✿◈,在所有评估指标方面几乎优于所有其他方法★✿◈。
(4)药物靶点BR预测的可视化★✿◈:将MFR-DTA与预测药物靶标BR的现有方法进行了比较★✿◈,以实际结合位点落入预测区域的概率作为衡量这些方法准确性的指标★✿◈。S为预测区域氨基酸长度★✿◈,其中点是药物-靶标响应向量中值最高的位置★✿◈。虽然方法整体的效果一般天生赢家 一触即发★✿◈,但仍可以看出MFR-DTA的性能最佳天生赢家 一触即发★✿◈。
再次对第1节中提出的测试样品进行了可视化★✿◈,以进一步证明所提出方法的有效性★✿◈。在这部分中天生赢家 一触即发★✿◈,蓝紫色区域是非相互作用区域★✿◈。浅蓝色★✿◈、蓝色和深蓝色区域分别是 S=15★✿◈、10 和 5 的预测区域★✿◈。黄色位置是实际的结合位点★✿◈。虽然蛋白质“AAK1”的预测相对偏差★✿◈,但其结合位点也落在有鳞片的区域★✿◈,而蛋白质“O43781”的结合位点准确地落入了具有尺度的预测区域★✿◈,这直观地展示了本文提出的预测BR方法的优异性能★✿◈。同时★✿◈,根据SE模块的特征公式fa参数可视化药物分子★✿◈,其中粉红色区域代表较高的注意力权重★✿◈。不幸的是★✿◈,与其他方法类似★✿◈,这种可视化只反映了计算机的注意力凯发国际娱乐★✿◈!★✿◈,没有任何生物医学意义★✿◈。
提出了一种新颖的MFR-DTA方法★✿◈,可以同时预测DTA和BR区域★✿◈。首先通过BioMLP/CNN模块提取生物序列特征标把药物★✿◈,凯发网站★✿◈,★✿◈,整合单个元素特征和全局位置特征★✿◈;然后通过Elem-feature融合块对提取的特征进行融合和细化★✿◈;之后开发了 Mix-Decoder来提取用于BR预测的DTI特征★✿◈;最后通过将全连接层应用于交互特征来预测 DTA★✿◈。在三个数据集上获得的实验结果验证了MFR-DTA方法优于其他最先进的方法★✿◈。然而★✿◈,作者认为该方法仍存在其问题★✿◈,它对药物分子的可视化仍然基于注意力权重★✿◈。因此★✿◈,在未来的DTA预测研究中★✿◈,应进一步探索药物分子作用于蛋白质的结构因素★✿◈,以继续提高DTA模型的生物学可解释性★✿◈。