深度学习模型在医院财务预测中的应用

2021-04-29 06:56姜玉婵蔡岩
微型电脑应用 2021年4期
关键词:信念向量深度

姜玉婵, 蔡岩

(1.衡水市人民医院 医保科(城乡结算处), 河北 衡水 053000;2.河北师范大学 软件学院, 河北 石家庄 050024)

0 引言

随着我国医疗卫生体制改革的不断深入,医疗资源的有效整合已经成为当今时代的趋势。在此背景下,发展较快、较好的医院开始出现机构规模过大、财务管理复杂等问题,导致医院的财务监管效率低下[1],无法满足可持续性发展的需求。

机器学习技术作为计算机领域的热门方向,一直和金融财务领域有着紧密结合和应用。使用合理的机器学习技术可以解决金融财务行业的高效自动化数据分析问题,为管理人员提供有价值的预测信息,从而为健康的机构运营提供可靠性的预警[2-4]。例如,杨蕴毅等[5]提出来利用Z-Score指标决策树来构建财务风险预警模型,提前3年预测财务危机的准确率达75.37%。陈妮[6]提出通过C4.5决策树挖掘算法来对企业运营资金流向预测分析研究,相比传统的ID3决策树算法获得了更高的准确性。蔡欢等[7]基于遗传算法和最小二乘支持向量机的财务危机预测模型,有效验证了机器学习技术在财务预测中的有效性。然而,使用上述传统机器学习技术对财务状况进行预测时仍旧存在准确度不够理想,特别是对于复杂数据样本的长期预测问题。

因此,为了对医疗机构提供更加准确、有效的财务预测,本文提出构建基于深度信念网络的先进度学习方法构建预测模型。在20家大中型医疗机构的近10年财务数据上进行了实验分析。结果验证了深度信念网络模型在各项评价标准上均取得了较好的预测结果,验证了其可行性。

1 数据预处理与样本生成

为了继续有效地预测分析,需要先对医疗结构财务系统中给的各种表格和报表数据进行解析与提取,主要采用的是数据清洗,从而生成后续所需的逗号分隔值(Comma-Separated Values,CSV)格式数据。

1.1 数据清洗

针对医疗机构中支出经费完整度不高且重叠较多的问题,本文采用的数据清洗分成4个步骤。

(1) 缺失值清洗:设置缺失判断阀值为80%,并以此为标准先对原始数据进行挑选,剔除掉超过该阀值的特征列,并用“0”值填充区缺失值。

(2) 格式内容清洗:对导入数据的存储格式进行统一,例如时间统一为“2019-02-21”。

(3) 重复内容清洗:接着再次对数据进行筛选,将内容重复度较高的多个特征列进行删除,仅保留其中一个,从而有利于降维。

(4) 非需求数据清洗:将数据中不在预测时间跨度中的无关数据进行删除,并仅保留最小时间跨度为1个月的样本数据。

经过上述4个步骤后,将处理后的数据全部另存为所需的CSV格式。

1.2 特征选择

对数据样本中每列的特征需要合理选择,以便在体现所需预测关系映射的同时尽量避免出现过拟合,从而加强模型的多样本泛化能力。

本文采用了L1范数正则化方法进行特征选择,这是可以有效适用于非线性场景的算法。对所有统计特征的L1范数得分进行计算,本文设置0.6作为选择阀值,删除得分小于0.6的特征,从而完成特征选择过程。最终选出的有效特征如“0.644,分保费用”“0.685,针剂费及手术收入”等。

1.3 归一化处理

在对财务数据清洗后,还需要对实际的样本数值进行统一数值范围,以便统一样本特征的尺度。本文采用了均值方差归一化将全部数据样本进行处理,统一表示为[0,1]之间的数,如式(1)。

(1)

式中,min表示最小特征值;max表示最大特征值。

1.4 滑动样本生成

由于财务预测是时间周期性的工作,需要设置时间跨度,类似于图形图像处理机制中的窗口框架。本文设置2年为时间跨度对数据样本进行滑动挑选。太短或者太长的时间跨度均对预测的性能有一定的影响,2年是多次实验的经验选取值。具体操作过程,如图1所示。

图1 滑动样本生成

2 基于深度信念网络的预测建模

2.1 深度信念网络模型

作为一种高效的深度学习算法,深度信念网络逐渐发展成为主流的技术方向[8-10]。基于统计学原理产生了随机神经网络玻尔兹曼机模型,包含一个隐含层和一个可见层,如图2所示。

图2 玻尔兹曼机模型

在此基础上,提出了限制玻尔兹曼机原理架构,如图3所示。

图3 限制玻尔兹曼机模型

其中,a=(a1,a2,…,anv)T∈Rnv表示可见层的偏置向量;b=(b1,b2,…,bnh)T∈Rnh表示隐含层的偏置向量;W=(wi,j)∈Rnh×nv表示隐含层和可见层之间的权值矩阵。通过生成式堆叠技术,由多个限制玻尔兹曼机最终生产深度信念网络。

限制玻尔兹曼机通过能量函数引入一系列相关的概率分布函数。对于一组给定的神经元的状态向量(v,h),其能量函数表示,如式(2)。

(2)

式中,v表示可见层中神经元的状态向量;h表示隐含层中神经元的状态向量;nv表示可见层中所有神经元的总数;nh表示隐含层中所有神经元的总数;θ={ai,bj,wi,j}表示限制玻尔兹曼机架构的调节因子。

通过上述式(2)定义的能量函数,可以得到状态(v,h)的联合概率分布,如式(3)。

(3)

式中,Z(θ)表达式,如式(4)。

(4)

式中,Z(θ)表示归一化参数。设p(v|θ)为可见层向量v的概率分布,则可以通过P(v,h|θ)的边缘分布对p(v|θ)进行计算[11],如式(5)。

(5)

同样的方法,我们可以得到隐含层向量h的概率分布p(h|θ),如式(6)。

(6)

通过分析式(5)和(6),可以看出,为了得到p(v|θ)和p(h|θ),关键步骤是计算归一化参数Z(θ) 。但是式(4)可知,其计算复杂度较高。但是,由于限制玻尔兹曼机模型的特殊原理(可见层和隐含层是条件独立的),当可见层中所有神经元的状态是已知的时候,隐含层中某个神经单元被激活的概率可以通过式(7)进行计算[12]。

(7)

式中,σ(·)表示Sigmoid激活函数。

因为相同层内所有神经节点之间是无连接的,所以相同层内的所有神经节点的取值和单个节点取值之间的关系,如式(8)、式(9)。

(8)

(9)

图4 深度生成模型

2.2 深度信念网络训练过程

深度信念网络训练过程一般分为2个步骤[13]:预训练阶段和微调阶段,如图4所示。

微调阶段中岁所需的损失函数,如式(10)。

(10)

3 实验结果与分析

3.1 实验环境

为了对本文提出的视频分类方法进行分析和验证,进行具体实验。实验硬件环境:处理器为Intel Core i7 2.2 GHz;图形图像处理设备为GTX970@2 G显存;内存为8 G。实验软件环境:Windows 7操作系统;Matlab7.0仿真软件。实验随机选取了20家大中型医疗机构的近10年财务数据,共2万多个样本。其中60%作为训练集,40%作为测试集。以最直观的年净利润作为财务预测指标,并选取2年为预测时间跨度。

3.2 评估指标

为了对财务预测的性能进行量化评估,本文选取均方根误差(Root Mean Square Error,RMSE)和拟合优度(R Square,R2)作为评估指标[14-15]。

RMSE的计算方式,如式(11)。

(11)

R2的计算方式,如式(12)。

(12)

3.3 模型的最佳层数分析

当深度网络中每个隐含层内所有神经节点的总数均是 300 时,深度信念网络模型在不同网络层数下的预测实验结果,如表1所示。

表1 在不同网络层数下的预测性能比较

从表1可以看出,随着网络层数的增加,识别的精确度也随之提高。但是,网络层数不是越多越好。当网络层数为3时识别的性能最好,这说明深度信念网络中隐含层的层数需要结合具体应用和适用的数据集进行具体分析,以便获得最佳的网络层数。

3.4 模型预测性能对比

本文除了深度信念网络模型之外,还搭建了机器学习方法中的C4.5决策树[6]、BP神经网络[3]和最小二乘支持向量机LS-SVM[7]模型以便进行实验对比。深度信念网络模型中隐含层层数设定为3层,为不同模型的预测净利润实验结果对比,如表2所示。

表2 预测净利润实验结果对比

从表2可以看出,相比其他模型,深度信念网络模型具有最大的R2和最小的RMSE结果,说明其取得了最佳的预测结果,完全吻合医院的经营发展趋势。

4 总结

本文通过构建深度信念网络模型实现为医疗机构提供更加准确、有效的财务预测。在20家大中型医疗机构的近10年财务数据上进行了实验分析。结果验证了深度信念网络模型在各项评价标准上均取得了较好的预测结果,验证了其可行性。但是训练和测试样本集中特征的数量(维度)仍较多,后续将考虑使用主成分分析进行更高效的降维,来进一步提升预测模型的性能。

猜你喜欢
信念向量深度
向量的分解
为了信念
聚焦“向量与三角”创新题
深度理解一元一次方程
发光的信念
深度观察
深度观察
信念
深度观察
向量垂直在解析几何中的应用