方差参数和信噪比参数特定于父节点的全局耦合模型

2023-11-06 11:04孙家祥胡春玲
电脑知识与技术 2023年27期
关键词:贝叶斯全局方差

孙家祥,胡春玲

(1.安徽建筑大学电子与信息工程学院,安徽 合肥 230601;2.合肥学院人工智能与大数据学院,安徽 合肥 230601)

0 引言

许多学者对动态贝叶斯网络(Dynamic Bayesian Networks,DBN)的结构学习非常感兴趣,它在系统生物学领域中有着广泛的应用。然而,经典的动态贝叶斯网络是基于齐次马尔可夫假设的,不能处理非齐次的过程,齐次性的假设在很多情况下过于苛刻,可能导致错误的结论[1]。因此,很多研究学者将齐次动态贝叶斯网络与多变点过程相结合来放宽齐次性假设[2-4],其中变化点的数量和位置通过可逆跳跃马尔可夫链蒙特卡罗(RJMCMC)抽样方法从后验分布中采样[5]。

许多研究学者将DBN与多变点过程相结合,以获得时变动态贝叶斯网络(TV-DBN)。然而,TV-DBN也存在一定的问题:基因表达时间序列通常较短,使得模型过于灵活,导致过拟合问题。Marco Grzegorczyk 等人[6]通过引入贝叶斯正则化方案来解决这一问题。该方案是基于在生物体的生命周期中或对外部环境变化的反应,基因调控过程的变化是渐变的,并将这一概念整合到TV-DBN参数的先验分布中。

在2012 年,Marco Grzegorczyk 等人[6]提出的顺序耦合模型和全局耦合模型,都不允许网络中节点之间的信息共享。在2013 年,Marco Grzegorczyk 等人[7]扩展了之前的模型,在原来模型的层次结构基础上,通过引入额外的一层,将特定节点的噪声方差和特定段的交互参数之间的节点特定耦合强度分层耦合,得到全局耦合模型。

在2013 年,Marco Grzegorczyk 等人[7]提出的全局耦合模型中,特定节点的噪声方差的第二个超参数是基于所有节点进行耦合的,这种耦合方式存在一定的问题,因为在基因调控网络中,每个基因节点受范式的影响。例如:在酿酒酵母数据集中,其父节点不会超过3个,其中必然存在一些节点不是该节点的父节点,因此基于所有节点进行耦合是不合理的。基于这一原理,本文提出了方差参数和信噪比参数特定于父节点的全局耦合(Non-homogeneous dynamic Bayesian networks with noise variance and signal-to-noise parameters specific to the parent node,PS Global coupling NH-DBN)模型。新的模型在MCMC 迭代的过程中筛选出当前节点的父节点,当前节点的方差第二个超参数是基于其父节点进行全局耦合的。在真实酵母基因表达数据上的实验结果表明,PS Global coupling NH-DBN 模型比其他同类型模型具有更好的网络重构精度。

1 贝叶斯回归模型

在分段线性回归模型中,随机变量Y是因变量,随机变量X1,…,Xk是自变量。假设数据集是一个有序的时间序列,可以划分成互不相交的H段h∈{1,…,H} ,其中:每个段h都有特定的回归系数wh=(wh,0,…,wh,k)T。设yh是目标向量,Xh是观测矩阵,则对于每个段h,回归模型满足如下高斯分布:

式中,I 表示单位矩阵,σ2噪声方差参数,每段拥有相同的噪声方差参数。

1.1 具有节点特定方差参数和信噪比参数的全局耦合模型

在2013 年,Marco Grzegorczyk 等人[7]提出的全局耦合分段线性回归模型中,假设每个节点的回归参数wg,h具有以下高斯分布:

为了更新噪声方差超参数和信噪比超参数δg,假设噪声方差超参数和信噪比超参数δg服从以下逆伽马分布:

式中,Kg为节点g的段数,kg为节点g的父节点的个数。

对方差超参数进行边缘化,得到边际似然:

1.2 方差参数和信噪比参数特定于父节点的全局耦合模型

在学习基因调控网络的过程中,在迭代过程中,当前节点的父节点集是变化的,又由于基因节点受范式的影响。本文针对方差参数和信噪比参数的求解做出了改进,提出了更符合学习基因调控网络的模型。模型结构图如图1所示,其中蓝色表示主要改进的地方。

图1 PS Global coupling NH-DBN模型层次结构

对噪声方差参数和信噪比参数是节点特定的全局耦合模型来说,噪声方差参数和信噪比参数的第二个超参数服从以下伽马分布:

新的模型噪声方差参数和信噪比参数是特定于父节点的,该模型在MCMC迭代的过程中筛选出当前节点的父节点,当前节点的方差参数和信噪比参数的第二个超参数是基于其父节点进行全局耦合的。噪声方差参数和信噪比参数的第二个超参数服从以下新的伽马分布:

其中π1,…,πN为当前节点g的父节点。

2 PS Global coupling NH-DBN 模型的采样算法

2.1 更新父节点集

Metropolis–Hastings(M-H)移动更新父节点集π:假设变更点集τ固定,给定信噪比参数δ以及二级超参数Bσ和Bδ,M-H 移动可以对父节点集π进行更新。表1描述了模型更新父节点集的伪代码。

表1 PS Global coupling NH-DBN模型更新父节点集的伪代码

更新父节点集的三种方案:

① 删除父节点(R):随机选择一个父节点Xi∈π,并删除。

② 添加父节点(A):随机选择一个父节点Xi∉π,并将其添加到π中。

③ 替换父节点(E):随机选择一个协变量Xi∈π,然后随机选择一个新的父节点Xi∉π来替换它。

2.2 更新变更点集

Metropolis–Hastings(M-H)移动更新变更点集τ:假设父节点集π固定,给定信噪比参数δ以及二级超参数Bσ和Bδ,M-H 移动可以对变更点集τ进行更新。表2描述了模型更新变更点集的伪代码。

表2 PS Global coupling NH-DBN模型更新参数的伪代码

更新父变更点集的三种方案:

① 出生移动(B):在所有有效的新变化点位置的集合B(τ)中,随机选取一个,并建议在该位置设置一个新的变化点。新的变更点集τ*包含变更点的个数为:H*=H+ 1。

② 死亡移动(D):随机选择一个变化点τ∈τ,并删除它。新的变更点集τ*包含变更点的个数为:H*=H- 1。

③ 重新分配移动(R):随机选择一个变化点τj∈τ,并将其重新分配到周围两个变化点之间随机选择的位置。有效的位置是:τj-1+ 2,…,τj-1- 2。新的变更点集τ*包含变更点的个数为:H*=H。

2.3 更新超参数

以更新后的父节点集π和变更点集τ,以及全局向量mg为条件,并且保持不变,对于每个节点,更新方差参数,回归参数,信噪比超参数以及通过公式(7)和(8)更新2级超参数Bσ和Bδ,而非公式(5)和(6)。表3描述了更新模型参数的伪代码。

表3 PS Global coupling NH-DBN模型更新变更点集的伪代码

3 实验与结果分析

3.1 评价标准

如果已知真实的网络结构,可以用精度-召回曲线来评估网络重建的准确性。如果M(i,j) = 1,表示存在一条边从i指向j,即i→j;否则,M(i,j) = 0表示没有边从i指向j。设置阈值ψ∈[0,1],对于每个基因节点,提取其分数∈(0,1)超过ψ的边n(ψ),计算其中的真正例的个数T(ψ)。绘制精度P(ψ)≔T(ψ)n(ψ)与召回R(ψ)≔T(ψ)M曲线,其中M为真实网络中的边数。这样可以得到精度-召回曲线,曲线下的面积被称为AUC[8]。

3.2 在酵母数据集上的实验结果

酵母菌(Saccharomyces Cerevisiae)的数据是由Cantone 等人[9]设计的包含5 个基因节点的网络结构。作者使用了实时定量聚合酶链反应(RT-PCR),测量了体内的基因表达数据,对于每个基因,首先是在半乳糖代谢下进行了16次测量,然后是在葡萄糖代谢下进行了21次测量。由于改变糖原时有可能出现误差,所以去掉了两个第一次测量值,得到了5×35 的数据集。网络结构如图2所示。

图2 酵母基因调控网络

在真实的酵母数据集实验中,本文对超参数的设置和Kamalabad 等人[8]一样。将MCMC 迭代次数设置为50 000次,进行了100次独立实验,得到了100个独立的RJMCMC 样本,分析这100 个独立的样本,得到100 个网络重构精度的结果。即每个独立实验的AUC,并计算AUC 的平均值,并将平均AUC 值作为最终的网络重构精度。并在不同的模型上进行实验,得到每个模型结果,如图3所示。

图3 不同模型在真实酵母数据上的网络重建精度比较

图3 显示了不同模型在真实酵母数据上的网络重建精度比较。相较于其他同类型的模型,本文提出的PS Global coupling NH-DBN 模型取得的网络重建精度最高,其中HOM-DBN[10]是传统的动态贝叶斯网络模型,它没有与多变点过程结合,但由于基因表达数据是非平稳的时间序列,所以导致实验结果不理想。可以看出,结合多变化点过程的动态贝叶斯网络模型(MIX-DBN、CPS-DBN、HMM-DBN、Global coupling NH-DBN 和PS Global coupling NH-DBN)的网络重建精度明显优于传统的HOM-DBN。因为这些模型针对每个段采用动态贝叶斯网络来建模,考虑了时间序列的非平稳性。相较于其他模型(HOM-DBN, MIXDBN, CPS-DBN, HMM-DBN, Global coupling NHDBN), 本文提出的PS Global coupling NH-DBN 的网络重建精度分别提高了约20%、18%、10%、4%和2%。

4 结论

在原来的全局耦合模型中,方差参数和信噪比参数是特定于节点的。在基因调控网络模型中,由于范式的限制。例如:在酿酒酵母数据集中,其父节点不会超过3个,所以必然存在一些节点不是该节点的父节点。因此方差参数和信噪比参数是特定于每个节点是不合适的,本文提出了新的全局耦合模型是对原来模型的改进,新模型的方差参数和信噪比参数是特定于父节点的。并在真实酵母数据集上进行了验证,相较于原来的模型,PS Global coupling NH-DBN 模型的网络重构进度得到了提升。

在目前常用的非齐次动态贝叶斯网络模型中,噪声方差参数都是共享的,这是不合理的,每个节点拥有自己的噪声方差参数是比较合适的,因此下一步的研究计划是将该思想应用在其他非齐次动态贝叶斯网络模型中,以提升网络重构精度。

猜你喜欢
贝叶斯全局方差
方差怎么算
Cahn-Hilliard-Brinkman系统的全局吸引子
量子Navier-Stokes方程弱解的全局存在性
概率与统计(2)——离散型随机变量的期望与方差
计算方差用哪个公式
落子山东,意在全局
方差生活秀
贝叶斯公式及其应用
基于贝叶斯估计的轨道占用识别方法
一种基于贝叶斯压缩感知的说话人识别方法