蛋白复合物超网络特性分析及应用

2018-03-26 09:18枫,刘猛,赵静,雷
复杂系统与复杂性科学 2018年4期
关键词:超度子图复合物

胡 枫,刘 猛,赵 静,雷 蕾

(1.青海师范大学,西宁 810008;2.青海省藏文信息处理与机器翻译重点实验室,西宁 810008;3.藏文信息处理教育部重点实验室,西宁 810008;4.陆军勤务学院,重庆 401331)

0 引言

随着超网络理论的发展与完善,研究者们构建了许多基于超图结构的超网络模型,并从中取得了一些有价值的成果。王建伟等[6]构建了一种超网络动态演化模型,该模型每次增加若干个新节点,并与原网络中已存在的一个旧节点优先连接生成新的超边;胡枫等给出了另一种超网络演化模型,该模型的增长机理与王建伟等模型相对偶,并将BA网络视为该模型的特例[7],此外,她还研究分析了基于超图结构的科研合作网络[8];索琪等研究了超网络中信息动态传播问题[9],并且根据超网络演化模型分析供应链网络的演化机制[10],此外,她研究了基于超网络结构的电视节目竞争关系[11]、舆情传播模型[12]和超网络演化的内在驱动力[13]等问题;郭进利等研究了非均匀超网络中标度率涌现问题[14],并且构建了非均匀超网络和加权超网络模型,以此来研究这两类超网络的超度分布问题[15];张子柯等[16]给出了一种基于用户背景知识和对象、标签双重优先连接机制的超图增长模型。

1 超网络概念及拓扑指标

1.1 超网络相关概念

1.2 超网络的拓扑指标

1.2.1 度

在超网络H中,为了与复杂网络的普通图表示一致,超边内部节点之间采用全连接的方式。等同于复杂网络中度的定义,节点i的度Ki被定义为与i直接相邻的节点的个数。设H的邻接矩阵A=(aij)N×N,则节点i的度Ki为:

(1)

1.2.2 超度

在超网络H中,节点j的超度Dj是指包含该节点的超边数量。设超网络H的关联矩阵C=(cij)M×N,则节点j的超度Dj为:

(2)

其中,cij为关联矩阵C的元素,若节点j包含在超边i中,则cij=1;否则,cij=0。

1.2.3 聚类系数

平均聚类系数是指与同一节点相连的任意两个邻居节点之间存在超边的平均概率。Estrada等[23]给出了超网络的聚类系数C2(H)的计算公式。该公式为

(3)

在超网络H中,超三角形被定义为由三个不同的节点和三条不同的超边构成的闭合序列,该序列表示为vi,Ep,vj,Eq,vk,Er,vi,其中三个节点彼此相邻。长度为2的路指的是形如vi,Ep,vj,Eq,vk的序列,在路中所有节点和超边都不能相同。

1.2.4 子图中心度

中心性反映了网络中各节点的相对重要性。子图中心度定义为网络中的节点在不同子图中的参与情况。超网络中节点i的子图中心度是指超网络H中起止于该节点的不同长度的闭合路径之和。在文献[23]中给出了节点的子图中心度CSH(i)的计算公式。该公式为

(4)

其中,λj是超网络H的邻接矩阵A的特征值,U=(uij)N×N是一个正交矩阵,且满足每一列都是特征值λj对应的特征向量,这些向量构成了N维欧几里得空间的一个正交基。在已知各节点的子图中心度的情况下,超网络H的子图中心度的计算公式为:

(5)

由式(5)可知,超网络的子图中心度与网络规模N和邻接矩阵A的特征值λj有关。

2 蛋白复合物超网络模型

2.1 超网络构建算法

蛋白复合物数据来自数据库CORUM(Comprehensive Resource of Mammalian protein complexes)[25]。该数据库包含了2 314个人类蛋白质以及它们之间相互作用形成的1 342个复合物。基于该数据集,本文构建了基于超图结构的超网络模型。在该超网络模型中,节点表示蛋白质,超边表示多个蛋白质构成的复合物。该超网络的构造算法如下:

1)初始化。

超网络中的节点为vi和超边ek,其中i=1,2,3,…,n,k=1,2,3,…,m。

2)递归如下操作:

检查超网络中的所有节点,若节点vi和节点vj在同一个复合物中,则将节点vi和vj添加到该复合物对应的超边ek中;

3)直至所有节点全部检查完毕,算法结束。

2.2 超网络图

根据蛋白质复合物数据集和2.1节的构造算法,本文构建了蛋白复合物超网络。由于该超网络规模较大且复杂度较高,故本文仅给出了该超网络的局部结构示意图。如图1所示。图1描述了86号蛋白质构成复合物的情况,用超边的不同颜色区分它加入的不同复合物。86节点的超度值等于24,说明在该超网络中有24个复合物包含86号蛋白质。由于图中每条超边中的节点数并不一致,故该超网络是一个非均匀超网络。从构建出的超网络发现该蛋白复合物超网络是不连通的,它有120个连通分支,其中主连通分支的节点为1 824,约占总节点的79%。在蛋白质超网络中,蛋白质复合物有大有小,图2表示3690号蛋白质的示意图,同样,采用不同的超边颜色区分加入的不同复合物,3690号蛋白质的超度值等于27,说明在该超网络中包含该蛋白质的复合物有27种。比较图1和图2,可以看出86号蛋白构成的复合物包含蛋白质的数量较大,而3690号构成复合物较小,这些复合物一般由3~4个蛋白质组成。此外,由蛋白质数据集可知,最大的复合物包含了143个蛋白质,而最小的复合物仅有一个蛋白质。

图1 蛋白质复合超网络的局部结构示意图

图2 节点3690的示意图

表1 蛋白质超网络的超度分布

图3 蛋白质复合超网络的超度分布

3 超网络拓扑特性分析

3.1 超度分布与度分布

在蛋白复合物超网络中,节点的超度表示的是包含该蛋白质的复合物的个数,该参数是反映节点重要程度的指标,也是判断是否为关键蛋白质的重要依据。节点的超度分布P(DH)是指超度为DH的节点在网络中所占的比例。表1给出了蛋白质超网络的超度分布情况。

从表1中不难发现,在蛋白复合物超网络中,绝大多数节点的超度值很小,其中超度小于5的节点几乎占总节点的85%,说明在该超网络中绝大多数蛋白质构成的复合物的数量很少。在生物学上通过对S.cerevisiae和E.Coil的移除分析已经证实,关键蛋白通常比其他蛋白具有更多的交互数量[19]。由此可知,关键节点(即关键蛋白质)的度通常高于非关键节点的度。在超网络中,若仅根据节点的超度识别关键节点,则蛋白质超网络仅有少量节点具有很高的超度,超度大的节点表明参与的复合物多,但并不代表与其他蛋白质交互多,所以这些节点有可能是超网络的关键节点。分析实际数据集可知,节点360、361、437以及节点790可能是关键节点,它们的超度值分别为53、38、49和33。

基于表1的数据,图3给出了蛋白复合物超网络中节点的超度分布情况。由图3可知,节点的超度分布服从于幂律分布,采用双对数线性回归方法拟合数据后发现Slope=-2.18,相关系数R2为0.914。由此可知,蛋白质复合物超网络具有明显的无标度特性。此外,该分布曲线与绝大多数无标度网络的度分布相似,具有明显的胖尾现象,表明蛋白质参与的复合物数量是非均匀的。由无标度超网络的形成机制[26]推断,蛋白质复合物超网络的演化机制是完全择优连接,当新的节点加入到该超网络时,一般会选择与超度大的节点形成复合物,以提高自身的关键性,并且使得这些蛋白质的超度越来越大,从而造成“富者越富”现象,最终使得节点的超度分布服从于幂律分布。

表2 蛋白质复合物超网络的度分布

在蛋白复合物网络中,节点的度表示蛋白质之间的联系程度,关键蛋白通常比其他蛋白具有更多的交互数量,也就是说关键蛋白倾向于具有更高的节点度。针对蛋白复合物数据库CORUM中的蛋白质的度分布较为发散,使得无法给出完整的度分布情况。表2仅给出了该蛋白质超网络中排在前面的部分蛋白质的度分布情况。

由表2可知,在蛋白复合物超网络中,节点的度分布较为发散,各度值的比例都非常的小,其中度值为2的节点数最多,但其比例仅占10%。其次,绝大多数节点的度较小,只有少数节点具有很高的度值,例如度值小于4的节点数为731,几乎占总节点数的三分之一。度值最高的节点是939号蛋白质,度为400,其次是节点360、361、790、1054和941,他们的度值为别为393、318、303、370和369。故将上述节点移除后,许多蛋白质复合物将无法形成,从而使细胞的生物学功能受到影响,甚至使得生物体无法生存。

综上所述可知,在蛋白质超网络中,若依据节点的超度判断,则节点360、361、437以及790为关键节点;而若根据节点的度值判断,则节点939、360、361、790、1054和941为关键节点。出现上述2种不同判断结果的原因在于节点超度的大小仅与超边的数量(即参与的复合物)有关,而节点度的大小与超边的数量以及每条超边内部的节点数有关(因超边内节点是全连接)。以节点939为例,该节点的超度值为15,但其度值却为400,说明该节点参与构成的复合物包含蛋白质的数量较大。基于这一原因,使得该节点在超度值远小于节点360的情况下,仍然能够成为该超网络中度值最大的节点。在超网络结构中,由于节点具有度和超度两个指标,故若根据节点的超度和度两个指标判断,则节点360、361以及790为关键节点。

基于完整度分布数据,图4给出了蛋白质超网络的度分布图。由图4可知,当度值处在(0,70]之间时,尽管分布曲线存在一定的波动,但其整体趋势是下降的;当度值大于70时,该分布曲线的整体趋势呈现出先升高后下降的趋势,原因在于极个别度值的节点数较大,特别是度值为124的节点有50个,曲线在此处出现了第二个峰值。

为了能够对比分析蛋白质复合物超网络中的度和超度的值,图5给出了部分节点相对度的对比情况,其中RDi表示相对度,i表示节点序号,方框表示度,圆圈表示超度。相对度是指节点的超度(度)值除以超网络的最大超度(度)值。从图5不难发现,首先,度值在节点939处达到最大值,而超度却在360处达到最大值。在蛋白复合物超网络中,超度值排在前十的大部分节点,其度值却未出现在前十中。这种情况与Estrada等在文献[23]中关于“生成图”合作网络的描述相一致。出现这种情况的原因在于节点超度的大小仅与超边的数量(即参与的复合物)有关,而节点度的大小不仅与超边的数量有关,还取决于超边内部的节点数。

图4 蛋白复合物超网络的度分布

图5 蛋白质复合超网络超度和度的对比图

图6 子超图和子图中心性对比图

3.2 子图中心度

从节点的超度与度是无法全面准确地判断出超网络中的关键节点,因此仅分析节点的超度和度是远远不够的,而子图中心度也是判断关键蛋白的重要指标。文献[20]中指出,从结构上看,子图中心度比度更能够提供关键蛋白的重要信息。图6描述了蛋白复合物超网络中部分节点的相对子图中心度情况,其中RCi表示相对子图中心度,i为节点序号,方框表示超网络,圆圈表示复杂网络。由图6可知,超网络的子图中心度在节点941处达到最大值,而节点1054是其对应复杂网络中相对子图中心度最大的节点,且节点941也具有很大的相对值。此外,两条曲线的整体趋势完全不同,说明在超网络和其对应复杂网络中大部分节点的相对子图中心度的差值较大。在蛋白质超网络中子图中心度排在前十的大多数节点,其在复杂网络中对应的数值却没有排在前十中。依据超网络中节点的子图中心度判断关键蛋白,则节点939、941和节点1054为该超网络的关键蛋白。由此可得,超网络中各个节点的子图中心度区别比复杂网络更明显,在识别关键节点的时候更加有效、合理。根据式(5)计算可知,蛋白复合物超网络的平均子图中心性为6.556×1082,其对应的复杂网络的结果为2.443 1×1060。

3.3 关键蛋白

蛋白质的关键性与其在超网络中对应节点的拓扑特性密切相关,而节点的超度、度和子图中心度是反映节点的拓扑特性的重要参数。在蛋白质网络中,单个参数只能从某个方面反映节点的部分信息,而寻找一个能够全面反映节点的拓扑特性的独立参数非常困难。因此,文献[21]中提出了一种基于复合参数识别关键蛋白的思想,复合参数是依据两种或两种以上参数评判下都位于关键蛋白位置的节点才识别为网络中的关键蛋白。基于该思想,若根据节点的超度与度的复合参数判断,则节点360、361、790和939是该超网络的关键蛋白;若根据节点的度和子图中心性的复合参数判断,则节点939、941和1054为超网络的关键蛋白;若根据节点的超度和子图中心性的复合参数判断,则节点939是超网络的关键蛋白。但如果基于节点的超度、度和子图中心性的复合参数判断,则节点939为超网络的关键节点。

必需基因是生物体正常存活所必不可少的基因,这些基因的突变会引起生物体的死亡。有些基因的必需性是条件依赖性的。例如,编码淀粉分解酶的基因只有在淀粉是唯一的能量来源时,是必需基因。必需基因所编码的蛋白是生物体正常存活的关键蛋白。为了验证我们所找到的超网络中的关键蛋白是否对应生物体的关键蛋白,我们查询了在线基因必需性数据库[27]。表3列出了我们用不同方法从超网络中识别出的关键蛋白。从该表可以看出,我们识别的关键蛋白都是必需基因或条件依赖性的必需基因。尤其是用复合方法识别到的939号蛋白就是必需基因编码的蛋白。

续表3Tab.3(Cont.)

评判方法节点序号蛋白ID蛋白名称基因必需性度值939SNRPD1Small nuclear ribonucleoprotein Sm D1essential360HDAC1Histoconditionaldeacetylase 1conditional361HDAC2Histoconditionaldeacetylase 2conditional790RBBP4Histoconditional-binding protein RBBP4essential941SNRPD3Small nuclear ribonucleoprotein Sm D3conditional1054U2AF1Splicing factor U2AF 35 kDa subunitconditional子图中心性939SNRPD1Small nuclear ribonucleoprotein Sm D1essential941SNRPD3Small nuclear ribonucleoprotein Sm D3conditional1054U2AF1Splicing factor U2AF 35 kDa subunitconditional936SNRPBSmall nuclear ribonucleoprotein-associated proteins B and B′essential超度和度的复合参数360HDAC1Histoconditionaldeacetylase 1conditional361HDAC2Histoconditionaldeacetylase 2conditional790RBBP4Histoconditional-binding protein RBBP4essential939SNRPD1Small nuclear ribonucleoprotein Sm D1essential度和子图中心性的复合参数939SNRPD1Small nuclear ribonucleoprotein Sm D1essential941SNRPD3Small nuclear ribonucleoprotein Sm D3conditional1054U2AF1Splicing factor U2AF 35 kDa subunitconditional超度和子图中心性的复合参数939SNRPD1Small nuclear ribonucleoprotein Sm D1essential超度、度和子图中心性的复合参数939SNRPD1Small nuclear ribonucleoprotein Sm D1essential

4 结语

本文基于蛋白复合物数据库CORUM的数据,构建了一个以蛋白质为节点,以复合物为超边的超网络模型,并研究分析蛋白质复合物超网络的结构特征。利用矩阵理论和超网络思想,计算并分析了超网络中节点的度和超度、子图中心度拓扑参数的结果。结果表明节点的超度分布服从于幂律分布,而度分布却不满足任何形式的分布特征。此外,本文采用复合参数思想识别超网络的关键蛋白质。通过分析节点的超度、度以及子图中性可知,节点939(即6632号蛋白质)为该蛋白质复合物超网络的关键蛋白。当该节点被移除后,其构成的复合物的功能可能会丧失,并且网络的连通性也会下降。以上分析表明,采用超网络方法研究蛋白质网络的拓扑特性时切实可行。本文为今后将超网络结构应用于其他网络的研究提供了思路和参考。

猜你喜欢
超度子图复合物
悲悯
临界完全图Ramsey数
墙壁
柚皮素磷脂复合物的制备和表征
黄芩苷-小檗碱复合物的形成规律
根雕
白杨素磷脂复合物的制备及其药动学行为
基于频繁子图挖掘的数据服务Mashup推荐
不含2K1+K2和C4作为导出子图的图的色数
铁氧化物-胡敏酸复合物对磷的吸附