基于改进混合密度网络的毁伤效应预测方法

2024-02-17 10:39张人中孔德锋
郑州大学学报(理学版) 2024年1期
关键词:高斯分布分量区间

佘 维, 张人中, 田 钊, 刘 炜, 孔德锋

(1.郑州大学 网络空间安全学院 河南 郑州 450002; 2.郑州市区块链与数据智能重点实验室 河南 郑州 450002; 3.军事科学院国防工程研究院工程防护研究所 河南 洛阳 471023)

0 引言

武器毁伤效应是现代军事和作战研究的基础性问题。常用的毁伤效应预测方法包括理论计算法、计算机仿真法、试验法[1-3]。

近年来,支持向量机[4]、神经网络[5]等机器学习方法由于计算效率较高、环境适应性较强,已经在毁伤效应预测领域中得到初步应用[6-9]。袁辉等提出了基于最小二乘支持向量机的坑道工程动荷段的毁伤仿真实验训练样本约简模型,其利用粒子群算法选取较优的参数,模型具有较好的可行性和分类精度[10]。李建光等针对弹体对混凝土材料侵彻深度问题,通过径向基函数神经网络建立了弹体侵彻深度与网络输入量之间的非线性映射关系[11]。张磊等针对毁伤实验数据少、不均匀、不连续、范围窄等带来的计算精度不高的问题,运用K-近邻算法、BP神经网络建立基于数据融合的“三阶段”毁伤效应计算模型进行毁伤效应计算[12]。

上述基于机器学习与数据挖掘的毁伤效应预测方法存在以下两个问题。

1) 缺乏不确定性量化能力,不能描述预测值可能的上下限以应对使用过程中存在的决策风险。

2) 使用单值目标函数难以适应毁伤效应预测结果存在的多峰分布情况。

针对上述两个问题,本文提出一种基于改进混合密度网络的毁伤效应预测方法。本文的主要贡献如下。

1) 通过改进混合密度网络生成的基于混合分布的概率密度函数可以反映毁伤效应预测结果,并能很好地适应毁伤效应预测中存在的多峰分布情况。

2) 改进的混合密度网络可以通过所得概率密度函数量化预测结果的不确定性。经过处理后,既可以得到点预测结果,也可以根据给定置信水平得到相应置信区间。

3) 本文提出的改进混合密度网络采用鲁棒性更好的t分布作为混合分量,降低了离群点和异常点对模型性能的影响。

1 相关知识

1.1 混合分布

混合分布是多个不同统计特性的分布函数(混合分量)的凸组合,从而达到拟合复杂分布的效果[13-14]。混合分布概率密度函数表示为

(1)

1.2 混合密度神经网络

混合密度神经网络是混合分布模型与前馈神经网络的结合,其中前馈神经网络的输出被用来确定混合模型的参数。对于给定输入样本x,输出目标值为y的条件概率密度函数表示y分布上的不确定性,记为f(y|x)[15-16]。

在混合密度网络(mixture density network,MDN)中,通常采用高斯分布作为混合分量,输出的混合高斯分布表示为

(2)

然而对于厚尾分布或存在噪声的数据集,基于高斯混合分布的混合密度网络存在鲁棒性较差的情况。

原始混合密度网络输入是高维的向量,包含两个隐含层,输出是具有多个分量的混合高斯分布。对于输出层的不同类型参数须采用不同的处理方式,即

(3)

(4)

(5)

混合密度神经网络使用最大似然法构造损失函数,MDN的损失函数定义为

(6)

1.3 T Location-Scale分布

T Location-Scale分布是含有尺度参数和位置参数的t分布,t Location-Scale分布概率密度函数表示为

(7)

其中:μ、σ2分别为位置参数和尺度参数所对应一般高斯分布的均值和方差;v为t分布的自由度;Γ为gamma函数。

如图 1所示,给出了方差为1,均值为0,不同自由度下t Location-Scale分布的不同形状。可以看到t分布与高斯分布相似,随着自由度v的增大,分布形态逐渐接近高斯分布,其极限分布为高斯分布,当v>120时,可近似为高斯分布处理。

图1 不同自由度下t分布形态Figure 1 The shape of t distribution under different degree of freedom

鉴于混合高斯分布和混合t分布在处理异常值时表现出的鲁棒性差异,混合t分布常常作为混合高斯分布的替代选型而被使用[17]。

2 基于TDMDN的毁伤效应预测方法

本节提出一种改进的t分布混合密度网络(t distribution mixture density network, TDMDN),并基于TDMDN提出一种毁伤效应预测方法,首先对效应数据库中的数据进行预处理,再将处理后的数据输入TDMDN得到混合分布参数,最后根据混合分布参数生成概率分布函数,得到点预测和区间预测结果。其框架如图 2所示。

图2 毁伤效应预测方法框架Figure 2 Damage effects prediction framework

2.1 TDMDN网络

TDMDN在混合分量类型和网络结构两个方面对MDN进行了改进,并采用极大似然法构造损失函数。在混合分量类型的选择上,TDMDN使用t Location-Scale分布作为混合分量来解决高斯混合密度网络中存在的鲁棒性问题。对于有n个输出混合分量的TDMDN,有4n个输出节点,可以分为π、μ、σ2、v四个部分,每个部分有n个节点,其中π为各个混合分量的权重,μ、σ2、v分别对应各个t Location-Scale分布的分布参数。对于π、μ、σ2的处理方式与原始MDN相同,t Location-Scale分布中的自由度v采用

(8)

在网络结构方面,TDMDN是由隐含层块组成的深度结构,每个隐含层块由多个全连接层、批归一化层、激活层组成。其中:全连接层是神经网络中最常见的层;批处理归一化层是用来减少初始化的影响,加速网络训练;激活层是为模型提供非线性计算,提高网络非线性拟合能力。TDMDN的结构细节如图 3所示。

图3 TDMDN网络结构Figure 3 TDMDN network structure

TDMDN使用最大似然法构造损失函数,损失函数定义为

(9)

2.2 基于TDMDN的毁伤效应预测

基于TDMDN的毁伤效应预测由以下几个步骤组成。

1) 数据预处理。首先对效应数据库中的数据进行异常数据处理和归一化处理,得到标准数据。

2) TDMDN训练。将处理得到的标准数据输入TDMDN进行训练,采用正向传播和反向传播得到训练好的TDMDN网络。

3) 毁伤效应预测。将处理得到的标准数据输入训练好的TDMDN,得到毁伤效应分布所对应混合分布参数。根据混合分布参数生成毁伤效应分布函数,经过处理得到点预测和区间预测结果。

2.2.1数据预处理 数据预处理首先是对异常数据处理,接着进行数据归一化处理。

训练数据集中如果存在异常数据,不仅会降低预测成功率,甚至会导致预测结果与真实值的偏差较大。为了保证在输入模型前数据的规范性和正确性,采用拉伊达准则(3σ准则)来对效应数据库中的样本集进行异常值检验和剔除。

对训练数据进行异常值检验后,在构建毁伤预测模型之前,对数据集进行归一化处理,以加快模型的收敛,本文采用线性函数归一化方法对数据进行归一化处理。所用公式为

(10)

其中:x为原始数据;xmin和xmax分别为原始数据中的最小值和最大值;y为归一化后的数值。

2.2.2TDMDN模型训练 TDMDN模型的训练过程由正向传播与反向传播两部分组成:正向传播时,样本以向量形式从输入层传入,经过隐含层、批归一化层、激活层的计算,从输出层输出;在反向传播时,通过公式(9)计算误差梯度,然后沿着梯度下降的方向逐层返回,修改每一层神经元的权值和偏置值。当误差减少到可以接受的程度或训练达到指定的次数时,训练停止。

由于在模型训练过程中,常常出现梯度爆炸问题,本文针对梯度爆炸对损失函数做了一定改进。在文献[18]中,总结了MDN出现梯度爆炸问题的常见原因,并指出梯度爆炸问题主要来自两个方面。

1) 最大似然估计值接近0时,损失计算在取对数时会出现非常接近于零的值,导致梯度爆炸问题。

2) 自由度过大时,损失计算会有一个较大的指数,导致梯度爆炸问题。

当梯度爆炸损失出现时,整个训练过程就会失败。针对上述原因,在TDMDN的训练过程中,提出以下解决方案:① 采用一个大于0的小浮点数与对数相加解决情况1);② 采用截断法解决情况2),当自由度大于120时,将自由度截断,令其等于120,避免损失计算中出现极大指数导致梯度爆炸问题。改进后的损失函数为

(11)

其中:ε为大于0的小浮点数;fk(x)为混合分量的似然,其定义为

(12)

2.2.3毁伤效应预测 在TDMDN模型训练完成后,采用训练好的TDMDN模型进行毁伤效应预测。给定弹药参数、目标参数以及弹目交汇参数,使用TDMDN模型得到毁伤效应结果的概率分布情况。根据概率分布情况得到点预测结果和区间预测结果。

点预测结果可由混合分量期望值给出,

(13)

由于混合密度网络所得概率分布是一种不规则分布,很难直接根据不同置信水平得到区间预测结果。为了获得更加可靠有效的区间,我们按如下方式构造预测区间。

1) 考虑到混合权重过小的混合分量的生成区间不具参考性,故在生成置信区间时选取混合权重πk(x)>(1/n)的混合分量,n为混合分量个数。

2) 对每个混合分量按照置信水平取双侧置信区间。

3) 将由2)得到的置信区间取并集得到预测区间。

3 仿真实验及分析

3.1 实验设置

本文利用文献[19-20]提出的工程毁伤算法,仿真实验模拟“某型号动能穿甲弹”,采用五点瞄准法对机枪堡目标的破坏过程获得仿真数据集,数据如表1所示。本文只展示部分实验数据,剩余数据用省略号表示。该数据集包含工程长度、工程宽度、工程高度、钢板厚度、墙体厚度、覆土厚度、顶盖厚度、弹药数量和入射速度9个输入特征,1个输出特征为震塌比例。

表1 毁伤仿真实验训练样本Table 1 Damage simulation experiment training samples

如图4所示,为一组确定参数,利用仿真模型进行多次仿真,得到目标震塌的概率分布直方图。可以看到由于目标各部位材质、厚度等物理性质的不同,对于多瞄准点的打击,其结果呈现多峰分布的情况。

TDMDN由1个输入层、3个隐含层、4个批处理归一化层和1个输出层组成,输入层节点数为9,隐藏层节点数为84,使用了自适应学习率优化算法AdamW,初始学习率为0.001。

3.2 评价指标

对于点预测结果,我们采用平均绝对百分比误差(MAPE)、均方根误差(RMSE)、平均绝对误差(MAE)进行评价。定义为

对于概率预测结果,需要评估获得的预测区间。首先对区间可靠性进行评估,预测区间覆盖概率(PICP)被广泛应用于评价区间可靠性,定义为

其中:当真实值落入预测区间,即yi∈[Li,Ui]时,ci=1,否则ci=0;Li、Ui分别为预测区间的上界和下界。

狭窄的预测区间往往比宽大的预测区间更有价值,我们采用归一化平均宽度指标(PINAW)评价区间质量,PINAW越小,表示预测区间越窄,预测性能越好。定义为

其中:D是基础目标范围上、下界之间的差值,在本文中为震塌比例的上、下界之间的差值。

为了综合考虑预测区间的覆盖率和区间宽度,采用平均区间锐度(average interval sharpness,AIS)来评价区间整体质量,区间锐度越大,生成的区间质量越好。第i个预测区间的区间锐度S(xi)定义为

其中:a是置信度;AIS的定义为

3.3 点预测实验结果分析

该部分实验选择决策树、随机森林、支持向量回归、BP神经网络模型及MDN模型与本文TDMDN模型进行点预测对比实验。实验分别对各模型进行了MAPE、RMSE、MAE评估,结果如表2所示,黑体数据为最优结果。由表2可知TDMDN采用鲁棒性更好的t分布作为混合分量,降低了离群点和异常点对模型性能的影响,故性能优于MDN模型。相较于点预测模型中表现最好BP神经网络模型,TDMDN的MAPE降低了0.67%,RMSE降低了0.02,MAE降低了0.01,这是由于TDMDN使用多个隐含层块组成的深度结构,具有比BP神经网络、决策树、随机森林更好的函数逼近和密度估计能力。

表2 点预测结果Table 2 Point prediction result

3.4 区间预测结果分析

该部分实验选择基于随机森林的分位数回归模型(QRF)、均值方差估计模型(MVE)、MDN模型与所提TDMDN模型在统一置信度下进行对比实验,置信度设置为95%。实验结果如表3所示,黑体数据为最优结果。QRF采用分位数得到区间预测结果,而不是根据具体的分布情况,故其效果不如基于混合密度网络的方法。而MVE由于仅采用单个高斯模型,不符合真实分布情况,在训练过程中会试图通过增大方差来拟合多峰分布,故MVE的PICP仅比TDMDN提高了0.003,但其PINAW和AIS远不如其他方法。由于异常值干扰,TDMDN在各个指标上都好于采用高斯核的MDN网络。

表3 区间预测结果Table 3 Interval prediction result

3.5 蒙特卡洛模拟结果对比

我们设定一组固定参数,利用仿真模型进行蒙特卡洛模拟,得到目标震塌的概率分布直方图,即输出震塌比例的真实分布情况。对比TDMDN、MDN、MVE三个概率模型的输出概率分布对仿真模型真实分布的拟合情况。如图5所示,直方图为仿真模型进行500次模拟得到的结果,MVE由于仅采用单个高斯模型,模型很难拟合真实分布情况,效果最差,由于异常值干扰,与TDMDN相比采用高斯核的MDN网络效果较差。TDMDN对于异常值有很好的鲁棒性,由于采用混合分布模型,所以能较好拟合真实分布情况,效果最好。

图5 分布拟合情况Figure 5 Distribution fitting results

4 结论

本文针对传统毁伤效应预测模型缺乏量化不确定性及高斯混合模型存在的鲁棒性较差问题,提出了基于改进混合密度神经网络的毁伤效应预测方法,实验表明相对于传统数据挖掘方法,所提出方法更符合毁伤评估的实际需要,其生成概率密度曲线基本拟合仿真模型多次蒙特卡洛模拟结果。与传统点模型的单值输出相比,概率预测的结果具有一定的容错率,可以更好地指导作战筹划。因此,未来有可能将概率预测有效地应用于决策问题,将各种决策活动转化为概率决策。

猜你喜欢
高斯分布分量区间
解两类含参数的复合不等式有解与恒成立问题
你学会“区间测速”了吗
帽子的分量
利用Box-Cox变换对移动通信中小区级业务流量分布的研究
2种非对称广义高斯分布模型的构造
论《哈姆雷特》中良心的分量
分量
一种基于改进混合高斯模型的前景检测
区间对象族的可镇定性分析
基于瞬时对称分量法的三相四线制D-STATCOM控制研究