欢迎访问广东工业大学数据挖掘与信息检索实验室!
BIB 2025 | 解码基因协同致死:基于多样性图信息瓶颈的可解释图神经网络
2025-03-19 09:40 陈学信 

导语: 

    近日,广东工业大学计算机学院数据挖掘与信息检索(DMIR)实验室与A*STAR、上科大、MBZUAI合作的论文Interpretable High-order Knowledge Graph Neural Network for Predicting Synthetic Lethality in Human Cancers 被SCI二区期刊 Briefings in Bioinformatics (BIB)接收。BIB是生物信息领域的顶级期刊之一,也是CCF推荐B类期刊。下面带来该论文的详细解读。

15BD7

1 研究背景
      合成致死性(Synthetic Lethality, SL)作为一种特殊的基因交互作用,在癌症治疗领域展现出巨大潜力:当两个基因同时发生突变时会导致细胞死亡,而任何单一基因的突变则往往并不致死。近年来,SL关系预测逐渐成为癌症治疗的研究前沿。然而,传统的实验方法不仅成本高昂,且结果存在较大不确定性,因此,基于机器学习的预测方法日益受到关注。
      现有的图神经网络(Graph Neural Networks, GNNs)模型虽然在提升SL预测准确性方面表现突出,但对预测结果背后的生物学机制却缺乏深入解释。尽管已有一些基于知识图谱(Knowledge Graph, KG)与注意力机制的模型尝试提供可解释性,但近期研究表明,对于给定的基因对,往往可能同时存在多个可行的解释子图,上述模型却难以稳定地发现并利用这些多样化解释。同时,它们在对高阶结构信息的捕获方面也存在不足,从而限制了对合成致死性机制更全面的理解。
      为此,本文提出了一种基于多样性图信息瓶颈(Diverse Graph Information Bottleneck,DGIB)的基因协同致死预测算法DGIB4SL,该算法是一种新型的可解释高阶图神经网络模型。DGIB4SL能够针对同一基因对生成多个可信的知识图谱子图,并有效捕捉基因间高阶结构信息,从而在提升合成致死(SL)预测准确性的同时,揭示潜在的多样生物机制。具体而言,DGIB4SL在传统图神经网络基础上,改进了训练目标函数及针对图数据的编码器。首先,模型基于图信息瓶颈(Graph Information Bottleneck, GIB)原则构建核心子图,克服了传统注意力机制易出现的稳定性差及偏好高频边的问题。其次,通过将行列式点过程(Determinant Point Process, DPP)与GIB目标函数相结合,提出了新颖的DGIB目标函数,使模型能够捕获多个多样化的核心子图。最后,DGIB4SL在图神经网络中融合了13种不同motif类型诱导的邻接矩阵以及单射的motif信息融合函数,从而同时保留并刻画高阶与低阶交互信息,确保了模型在解释性与预测准确性方面的稳健表现。

2 多样性图信息瓶颈模型DGIB4SL
      DGIB4SL模型的核心思想在于结合多样性图信息瓶颈目标函数DGIB与基于网络模体(motif)的图神经网络编码器,从而捕获并提取与合成致死性相关的高阶结构信息。
      具体而言,在给定一个基因对   及其围绕该基因对在知识图谱上构建的封闭图   的情形下,DGIB4SL首先依据图信息瓶颈原理(Graph Information Bottleneck, GIB)定义核心子图   ,即:

1D2DA

  其中,     表示预测标签与子图之间的互信息(预测项),     表示输入图与所选子图之间的互信息(压缩项), 为权衡二者的拉格朗日乘子。
为确保核心子图的多样性,DGIB4SL在上述目标的基础上引入行列式点过程(Determinantal Point Process, DPP)约束,将单一的图信息瓶颈目标扩展为多样性图信息瓶颈目标函数DGIB,即:

1BC3

其中,     为表示子图嵌入相似度的正定矩阵, 为调控稀疏性与多样性的超参数,K为事先设定的、DIGB4SL为基因对     生成的核心子图个数。
      此外,为进一步捕获合成致死性预测中的高阶结构信息,DGIB4SL采用基于网络模体的图神经网络编码器,通过13个不同模体邻接矩阵对节点进行高阶表示学习。具体而言,给定基因对对应的封闭图     及其节点表征矩阵     ,模型分别对由第     个模体类型诱导得到的邻接矩阵     执行图卷积操作,最终将各通道输出拼接得到整体表征矩阵     ,形式如下

2C26

 其中       为拼接操作,       为第       个图卷积通道。

16E4

图1 DGIB4SL模型框架

3 实验结果
      我们在公开的合成致死性基准数据集(SynLethDB 2.0)上开展了实验,该数据集包含了知识图谱 SynLethKG。对比方法包括矩阵分解,以及图神经网络等主流模型。实验结果表明,在NDCG、Recall、Precision和MAP等评价指标上,DGIB4SL均显著优于其他对比方法,充分展示了其有效性。

18445

表1 DGIB4SL在SynLethDB 2.0数据上的NDCG 和 Recall上的结果

18EDF

表2 DGIB4SL在SynLethDB 2.0数据上的Precision 和 MAP上的结果

关闭窗口