于美亚
(浙江医药高等专科学校 信息中心,浙江 宁波 315100)
心理障碍将出现抑郁、自伤、他伤等不良事件,目前,对社会各个领域人员的心理障碍预测十分关键[1]。如孕妇心理障碍、重大疾病患者的心理障碍、学生心理障碍等情况都是相关领域研究人士关注的核心问题[2]。文献[3]、文献[4]分别构建基于文本情感特征的心理评估模型、基于速度与准确率权衡的心理测量学模型,2个模型虽然对心理状态预测这一问题存在可利用性,但受到预测样本数量约束,仅对小样本存在应用价值。
历史数据驱动是通过某种数据处理方法获取历史数据中有价值数据,合理应用历史数据后实施融合与提炼,建立合理的决策模型。本文应用历史数据驱动技术,构建基于历史数据驱动的心理障碍预测模型,并引入隐马尔科夫模型,从有价值数据提取、心理障碍预测两方面双管齐下,实现心理障碍预测。
1.1.1 整体框架
将被预测者的心理量表设成n×m的矩阵H,心理预测数据样本j的属性所构建向量是Hj。心理障碍预测时,医生会通过各式各样的心理测试量表协助预测。本文使用FOAD(Fuzzy-Option based Attribute Discriminant method,基于模糊选择的属性判别方法)方法,在大量心理测试的历史数据协助下,对心理状态属性实施排列,获取具有核心属性的有价值数据,用于后续预测[5]。FOAD方法的操作流程如下。
(1)在心理预测数据里获取心理测试数据集并实施清洗,数据集里各个参与者样本存在大量身体症状属性。
(2)约简多余测试选项,留下核心选项,获取具有核心属性的有价值数据。
1.1.2 选择保留选项
量表里某信息属性的程度通过量表选项决定。选择某些预测选项,不可以全部按照选项的样本数目来决定,需要分析选项里某属性程度的意义。所以需要分别留下一个程度显著、程度不显著的选项,剩下需保留的选项按照选项间距来决定[6-7]。选项间距是两种选项具备的程度值之差的绝对值。选项的详细选择过程如下。
(3)把maxyL、maxyR导入选项集合P′里。
(4)在剩下选项里检索剩下r-2个需要保留的选项。
(5)处理不在选项集合P′中选项。
(6)运算此选项和P′里全部选项的最小距离e(i)。
(7)得到e(i)里最大元素导进选项集合P′中,让选项集合P′中预测元素间距为最大。
在选择保留选项时,需要分析选项的意义与选项在整个数据集里的实际分布情况,所以留下的选项集必须具备主观性与客观性。
综上所述,选择保留选项的示意图如图1所示。
图1 选择保留选项的示意图
1.1.3 模糊选项约简
(1)
约简步骤如下。
(1)设置P″为P′的补集,P″中具有需要删除的选项。
(2)将某心理预测数据样本里必须删除的选项一一标记,标记内容是此选项相应的属性值是否修改成保留选项。
(3)判断各个保留的选项对此删除选项的影响力。
(4)把影响力最大的选项设成pmax。
(5)运算全部保留选项的影响度之和。
(6)标记删除项相应属性修改成pmax之外的选项。
(7)为了实现全部属性值均被处理,把删除选项相应的属性设成pmax。
(8)修改全部标记的需删除选项,实现核心属性提取。
1.2基于隐马尔科夫模型的心理障碍预测模型
1.2.1 初始模型建立
基于隐马尔科夫模型的心理障碍预测模型建立时,需要设置隐马尔科夫模型的核心预测属性。详情如下。
(1)心理专家预测人们心理障碍时,预测结果分别是心理健康B1、心理亚健康B2、心理障碍BM。把此类预测结果设为隐马尔科夫模型的隐状态,隐状态集合描述为B={B1,B2,…,BM},心理状态类型数量是M。
(2)将1.1小节获取的心理预测数据中有价值数据设成心理障碍预测的核心要素,心理障碍预测的核心要素集描述成C={C1,C2,…,Cm},要素数量是m。以核心要素为基础建立核心要素组合S为式(2)。
S=C1,C2,…,Cm
(2)
其中:
(3)
式中,i=1,2,…,m。S可看作隐马尔科夫模型的可观察状态。设定可观察序列集合是Q={S1,S2,…,Sm}。
(3)心理障碍初始中状态转移概率矩阵为式(4)。
(4)
(4)分析心理健康、心理亚健康、心理障碍三类状态中每个评测因素的组合S,得到心理障碍状态的概率O。
(5)设置心理障碍初始状态概率分布是δ,构建隐马尔科夫初始模型θ=(δ,D,O)。
1.2.2 模型训练
隐马尔科夫初始模型θ=(δ,D,O)使用Baum-Welch算法优化后为θ′=(δ′,D′,O′)。模型参数的训练优化流程如下。
(1)变量导入与融合为式(5)。
μt(i,j)=W(wt=Bi,wt+1=Bj|G,δ)=
(5)
式中,μt(i,j)表示在t时间段心理状态Bi变成Bj的概率;φt(i)、φt(j)分别是心理状态的前向变量与后向变量;t+1时间段中,心理状态预测序列是Gt+1;wt、wt+1是t时刻、t+1时刻的心理状态;ξij、ζj是心理健康状态的观察概率矩阵、状态转移概率矩阵。如式(6)。
(6)
式中,ρt(i,j)是隐马尔科夫模型θ和心理障碍观察序列W里,t时间段心理状态是Bi的概率。
融合成式(7)。
(7)
式中,T代表时间。
(2)心理健康观察值概率分布的优化如式(8)。
(8)
式中,Gt是t时间段心理状态观察序列。
(3)心理状态概率分布的优化方法如式(9)。
(9)
1.2.3 心理障碍预测
心理障碍预测步骤如下。
(1)t=1时,心理状态局部概率o1(j)为式(10)。
(10)
(2)t>1时,心理状态局部概率为式(11)。
oi+1(j)=maxi{oj(k)ot-1(i)ξij}
(11)
根据心理状态局部概率o1(j)便可实现心理障碍预测。
在Eclipse平台中,使用Java语言构建本文模型。在测试本文模型应用效果时,测试数据是某大学的大学生心理健康教育和咨询部门两年内学生的心理状态历史记录,随机提取5 000条。按照本文模型的设置,使用隐状态集合与可观察序列集合对心理状态历史数据实施预测,获取预测符号相应隐状态的记录。将预处理后心理状态历史数据细分为训练数据与测试数据,依次用在模型训练与预测环节中。
使用本文模型预测该校大学生心理障碍时,所提取有价值数据主要分为父母教养模式、重大变故、竞争就业难、教工素质和人际关系5种。此5种数据可作为心理障碍预测的核心要素。精确率能够判断模型对心理状态预测时,核心要素提取结果的精确度τ1的计算方法为式(12)。
(12)
召回率属于样本集里被成功提取的信息比率,召回率τ2计算方法为式(13)。
(13)
其中,hq、gq分别是真阳值、假阳值;gm是真阴值。
在使用本文模型预测该校大学生心理障碍时,对心理障碍预测所用核心要素提取的精确率、召回率如图2所示。由图2可知,使用本文模型预测该校大学生心理障碍时,对父母教养模式、重大变故、竞争就业难、教工素质和人际关系5种核心要素提取效果较好。分析图2(a)可知,对5种核心要素的提取精确率高达0.98,由图2(b)可知,召回率的最大值为0.98,均接近于1,表示本文模型对该校大学生心理状态预测时,核心要素提取结果的精确度、召回率均满足应用需求。
(a)精确率测试结果
提取核心预测要素后,该校大学生心理障碍的实际情况如图3所示。
测试本文模型在预测该校大学生心理障碍时,对该校大学生心理障碍的预测结果同图3实际结果间的偏差情况,测试本文方法的预测性能,MSE、MAE的测试结果如图4所示。由图4可知,本文模型对该校大学生心理健康、心理亚健康和心理障碍三类人群的预测性能显著。分析图4(a)可知,对三类人群预测的均方误差最高为0.019,由图4(b)可知,平均绝对误差小于0.02。由此验证,本文模型可准确预测该校大学生心理障碍。
图3 实际情况
(a)均方误差
选择以文献[3]和文献[4]的模型作为对比模型,测试3种模型在不同样本数量下,大学生心理障碍预测的预测精度如表1所示。由表1可知,3种模型对比之下,本文模型预测结果和实际心理障碍人数具有1人之差,基于文本情感特征的心理评估模型、基于速度与准确率权衡的心理测量学模型预测结果和实际心理障碍人数存在多个偏差,预测偏差高于本文模型。对比之下,本文模型应用价值最高。
表1 3种模型预测性能对比结果
为了处理心理障碍预测问题,通过参与者心理状态预测的历史数据,构建基于历史驱动数据的心理障碍预测模型。相对于其他模型,该模型能够在参与者心理状态预测的历史数据中提取有价值数据,去除冗余信息数据,这对本文模型的预测性能存在积极作用。研究结果表明,本文模型预测某校大学生心理障碍时,对父母教养模式、重大变故、竞争就业难、教工素质和人际关系5种核心要素提取效果较好;对心理健康、心理亚健康和心理障碍三类人群的预测性能显著;与基于文本情感特征的心理评估模型、基于速度与准确率权衡的心理测量学模型相比,本文模型预测精度最高。