基于多模态数据融合的大学生心理健康自动评估模型设计与应用研究

2021-08-19 12:58周炫余刘林陈圆圆洪嘉玲卢笑

电化教育研究 2021年8期

周炫余刘林陈圆圆洪嘉玲卢笑

[摘要] 快速准确地评估大学生心理健康状况是高校心理健康教育的重要任务，也是高校心理工作实现精准干预和提供个性化教育服务的基础。传统评估方法存在评估实时性不高、单一模态数据评估效果差、社会称许性反应偏误等问题。研究基于生态瞬时评估理论，以深度学习算法为手段，提出了一种基于多模态数据融合计算的大学生心理健康自动评估方法。该方法在自构建的多模态心理评估数据集（JA-IPAD）上测试表明：该模型能够精准评估大学生的心理健康状态，在智慧学习环境中具有良好的应用前景，能为完善学生心理档案、精准干预学生心理、优化心理健康服务提供决策依据和技术支撑，也能为促进高校智慧化心理健康教育作出贡献。

[关键词] 心理健康教育; 自动评估; 多模态融合计算; 深度学习; 生态瞬时评估

[中图分类号] G434 [文献标志码] A

[作者简介] 周炫余（1987—），男，湖南邵阳人。讲师，博士，主要从事基于人工智能视角下教育过程自动评价、智慧学习环境构建研究。E-mail：zhouxuanyu@whu.edu.cn。

一、引言

心理状态对人的行为起支配作用，在学习活动中能影响学习者的学习意志和效率。健康的心理状态是学习者形成严谨逻辑思维和开展创造性活动的前提和保障。大学生是一个较为特殊的群体，处在认知尚不成熟阶段，易出现焦虑、抑郁等心理问题[1]。尤其是新冠肺炎疫情暴发后，许多大学生因社交活動减少、家庭关系紧张、学习就业压力大等多重因素影响，心理健康问题逐渐凸显[2]。大学生由心理问题引发的极端恶性事件逐渐增多，如何准确评估心理健康状态，既是保障学生顺利开展学习活动的重要任务，亦是高校开展智慧化心理健康教育的重要依据。

随着“互联网+”时代的到来，以人工智能为代表的新技术力量正在撬动传统教育封闭的大门，并逐步重构教育服务体系[3-4]。网络与教育之间的交互趋向频繁，为高校心理健康教育的智慧化发展带来新机遇。据《2018中国大学生日常生活及网络习惯调研报告》调查显示，以00后为代表的大学生习惯在新浪微博、腾讯说说、微信朋友圈等社交网络平台上使用文本、图像或者表情等多种模态数据发表自己的观点或宣泄情绪[5]。若能从多种模态的网络内容数据中挖掘学生的意念观点、情绪倾向，将有助于更加精准地获知学生的心理健康状况。技术赋能教育，相关理论的成熟和智能技术手段的迅猛发展使自动评估学生心理健康成为可能。目前，传统的心理健康评估主要是基于自评问卷和结构化访谈[6]，通过面对面的人际互动模式从被评估者处获取数据信息，并以此来评估被评估者的心理健康状况。这类传统的心理健康评估方法从量表[7]的角度主观获取被试的心理健康状态，但在实施过程和评估工作中存在社会称许性反应偏误[8-9]、评估实时性不高[10]、评估工作被动等问题[11]。针对传统心理健康评估方式存在的问题，以及大学生所发布在社交网络平台数据的特点，有研究者开始尝试将生态瞬时评估理论[12]和社交网络数据应用于心理健康评估工作中。该方法通过专家分析或自评量表的方式标注数据标签以构成数据集，提取数据特征并训练模型，从而实现心理健康自动评估[13-17]。虽然上述方法已取得不错的效果，但是仍存在网络行为数据难以采集[18]、单一模态数据语义表述不全面[19]等问题，难以精准捕获被评估者的心理健康状态。因此，针对上述问题，提出一种基于多模态数据融合计算的大学生心理健康评估模型。

二、核心概念界定与理论基础

（一）心理健康评估

心理健康是个体各项心理功能处于平衡运转情况的一种和谐状态，心理健康异常状态最常见的是焦虑和抑郁[1]。大学生处在校园和社会的交接阶段，面临着来自各方的压力，易产生各种心理问题，其中，抑郁问题尤为突出[20]。抑郁问题按程度的不同分为抑郁情绪、抑郁倾向、抑郁障碍（抑郁症）三种，而大学生群体的抑郁问题一般为抑郁情绪和抑郁倾向。当受到外界负面刺激源影响时，个体就可能产生抑郁情绪，其持续时间较短;而抑郁倾向是指受负面情绪或行为引起的个体抑郁，表现为个体处于相对持久的愉悦感缺失状态。论文主要针对大学生的抑郁倾向进行评估，即通过处理分析学生一段时间内的多模态网络内容数据，判断其情绪是否处于抑郁状态。

（二）多模态数据

多模态数据是指包含两种及以上不同形式或不同来源的数据[21-22]。文字和图像是人类头脑与心理作用结果的外在表现形式，可以反映出个体的心理状态。在互联网高度发达的现代社会，大学生倾向于在社交平台上同时发布文本、图像或表情等多种模态数据以表达个人意念、抒发情感。不同模态数据存在互补作用，能提供更多解释信息，通过融合多模态数据并对其进行理解，可实现对学生心理健康状况更为全面、系统的剖析评估。

（三）自动评估模型构建理论基础

本研究以生态瞬时评估（Ecological Momentary Assessment， EMA）和深度学习为基础构建自动评估模型，实现自然环境下实时评估学生心理。生态瞬时评估是由心理学家Shiffman提出的一种对自然环境下被试者的相关行为和经验进行实时采样并测量评估的生态方法[12]，它具有较高的真实性和动态性，更能准确反映被评估者的心理特征。深度学习是目前人工智能领域研究的热点和重点，它通过建构多层神经网络提取特征，然后组合低层特征形成更加抽象的高层特征，以学习各类数据的内在规律和表示层次，获取其隐含的深层次语义知识。

三、基于多模态融合计算的心理健康评估模型构建

模型设计依据系统方法理念[22]，分析确定评估等级，设计自动评估框架，选择评估策略，实施模型评估，评价模型评估效果，修正模型参数并加以应用。为实现多种模态数据信息的融合，模型从以下四个部分进行设计：数据清洗及预处理、基于文本的情感计算、基于图像的情感计算、心理健康评估模型生成。

多模态融合计算的心理健康评估模型是通过挖掘学生的文本、图像和表情等模态数据背后隐含的真实情绪，综合考虑学生一段时间内的心理变化，实现快速、准确地识别学生的心理健康等级的过程。基于此，构建了基于多模态数据融合的大学生心理健康自动评估模型，模型框架如图1所示。

（一）数据清洗及预处理

收集的学生网络内容数据无法直接用于心理特征的处理分析，需对这些原始数据进行清洗以及预处理。首先对抑郁自评问卷获得的数据进行清洗，即去除问卷分数为零或满分、填写时间少于3分钟的被试;其次，对网络爬虫手段获取的数据进行清理，即去除网络内容数据数量低于阈值的被试;最后在计算机处理前将多模态数据进行预处理并转换成模型可识别符号。例如：删除文本数据中的无关符号、对字体进行转换等操作;对图像数据进行格式转换、尺寸调整、标准化及归一化处理等。

（二）基于文本的情感计算

文字信息是人类传达情感、表达思想的基础信息，是个体心理状态的重要外在表现形式。因此，挖掘个体发布内容时的心理状态和情感态度[23]，对准确识别心理健康状况起重要作用。文本是典型的序列数据，若能捕捉句子上下文信息，基于语义理解便能很好地挖掘文本的情感倾向，因此，本研究建立了词嵌入层—双向长短时记忆（Bi-LSTM）层—密集连接层的三层神经网络框架，跨越上下文间隔学习到句子隐含的情感信息，基于文本的情感计算流程如图2所示。

文本向量化处理有one-hot编码表示和分布式表示两种，分布式的代表“词嵌入”能将词映射成密集低维的向量并保證语义相近的词在向量空间距离更近，比one-hot编码表示更适于处理情感分析任务。由于微博文本与说说文本在表达上均有口语化、短小精悍等特点，使用基于微博语料库训练出的Skip-gram预训练词嵌入模型[24]作为模型的词嵌入层，使说说文本向量表示更为精准贴切。

LSTM因其独特的门控结构和记忆单元能避免长期依赖和梯度消失问题而闻名，但在学习文本序列特征时信息只能单向传播。为深入理解说说语义并习得有效的情感特征表示，论文设计双向长短时记忆网络层以充分掌握说说文本的上下文信息。t时刻的说说特征表示ot需要获取t时刻前向隐状态ht和后向隐状态h't，其中，⊕表示以拼接方式整合二者; t时刻的前向隐状态ht是由t时刻的输入xt、t-1时刻的隐状态信息计算得出;t时刻的后向隐状态h't是由t时刻的输入xt、t+1时刻的隐状态信息计算得出，其中，f函数为LSTM非线性函数，W，U，W'，U'表示函数的权重，b，b'表示函数的偏置。具体如公式1、公式2和公式3所示：

（三）基于图像的情感计算

图像信息是对文本信息的重要补充，大学生发表言论时往往附带图像以分享生活状态、增强情感表达，甚至利用图像表达语言无法描绘形容的心理状态，因此，准确识别图像模态中的隐含情感有利于在文本的基础上更加精准地评估个体的心理健康状况。VGG16网络是牛津大学视觉组提出的具有16层结构的卷积神经网络，在图像特征表示和泛化能力上有不俗效果，本研究以VGG16为基准模型，通过微调策略构建CNN模型，以捕捉图像背后隐藏的情感倾向，基于图像的情感计算如图3所示。

基于图像的情感计算是个复杂视觉问题，CNN唯有学习到大量参数和有效特征，才能准确地计算学生在发布图像时的心理情感。利用迁移学习技术解决带标签数据的规模困境，将基于ImageNet大规模数据集训练的VGG16卷积基作为图像情感计算的预训练模型以学习图像的通用特征表示，更改原有密集连接层设置以适应图像情感计算任务，修改后的模型结构包括13层卷积层、5个池化层以及2层全连接层。

卷积基中较底部卷积层学习的是图像的局部通用特征，而较顶层学习的是较为抽象、专业的特征表示。本研究训练CNN时释放VGG第五个卷积块的权重以学习图像情感表示，既能使网络结构更适于计算图像情感，也避免过拟合风险。卷积基学习到说说图像的情感表示后，经由密集连接层整合和softmax分类即可获得图像的情感倾向值，具体计算如公式4所示：

（四）心理健康评估模型生成

依据生态瞬时评估的生态性原则，获取自然状态下学生的网络内容数据，试图对这些数据进行处理分析以提取心理特征，从而评估其心理健康状况。为达成这一目标，需完成两个任务：一是融合多模态数据在情感表达上的互补信息;二是考虑学生在一段时间内的情绪、情感变化。采用最大值规则融合计算多模态数据，利用隐条件随机场算法（HCRF）考虑学生特定时间段内的心理变化，以准确评估出个体的心理健康等级，心理健康评估模型流程如图4所示。

有效融合多模态信息是多模态情感计算的一个核心问题，采用最大值规则计算文本、图像情感倾向值，充分考虑两种模态的情感成分以准确决策学生发表说说时的心理状态，具体计算过程如公式5和6所示：

其中，i和j为分类器数和类别数，Pj（n）为该说说第j类情感类别的概率值。

心理健康是一种随着时间推移变化程度较大的状态型心理特征[25]，实现准确评估需考虑学生在当前时间点前一段时间的网络内容数据。论文基于HCRF算法提出时序分析模型，意图挖掘一段时间内不同心理健康等级的内在发展规律，发现情感变化与心理健康间的关系。x={x1，x2，……，xn}对应学生时间段内每条说说数据的情感分数，为时序模型的一组观测序列;h={h1，h2，……，hn}对应观测序列中习得的规律特征，为时序模型的一组隐随机变量;y表示学生一组观测序列对应的心理健康等级随机变量。当给出学生时间段内的一组网络内容数据观测序列x，心理健康等级变量y的条件概率计算如公式7所示：

其中，由θ参数化的势函数ψ（y，h，x;θ）用于度量一个等级类别、一组隐状态序列和观测序列之间的兼容性。

四、实验与结果分析

（一）实验数据集的构建

本研究以湖南某大学学生为实验对象，发放根据CES-D量表设计的抑郁自评问卷，并与其签署数据保密协议，收集对象的网络内容数据。在数据清洗的基础上依据抑郁自评问卷的分数等级标注对象的抑郁程度类别，邀请领域专家根据情感倾向性标注多模态数据的正负情绪类别，从而构成用于隐式心理评估的联合标注数据集（JA-IPAD）。其中，多模态数据的情感倾向标注示例见表1。

为训练并验证模型性能，处理并划分多模态数据，具体数据分布如下：文本情感计算模型的情感类别包括正面、负面两类，其训练集、验证集和测试集分别为4000条、500条和500条的文本内容数据;图像情感计算模型的情感类别包括正面、负面两类，其训练集、验证集和测试集分别为4000条、500条和500条的图像内容数据;经多名领域专家交叉核查后，评估模型的心理健康等级包括健康、可能抑郁、存在抑郁三种情况，三类人群分布状况分别为128人（61.0%）、57人（27.1%）、25人（11.9%），从中随机抽取180人所发表的多模态数据为训练集、30人所发表的多模态数据为测试集。

（二）评价指标

文本情感计算模型和图像情感计算模型的数据分布较为平均，选用通用评价指标对模型效果进行评价以分析精准率P、召回率R和F值。心理健康评估模型的学生数量较少且不同心理等级的数据分布不均，为确保结果的可信度，采用分层交叉验证策略，保持各个等级类别的原始比例以进行 5 折分层交叉验证，并选用准确率指标对模型效果进行评估。

（三）实验结果与分析

为验证所提出的多模态数据融合计算模型的有效性，设计以下对比实验：（1）Bi-LSTM（T），即使用双向长短时记忆网络针对文本模态进行情感计算的模型;（2）微调CNN（V），即采用微调策略迁移学习的卷积神经网络对图像模态进行情感计算的模型;（3）Bi-LSTM+微调CNN+AVER（T+V），即采用均值规则对图文模态数据进行融合计算的模型;（4）Bi-LSTM+微调CNN+MAX（T+V），即采用最大值规则对图文模态数据进行融合计算的模型。上述几类算法在JA-IPAD数据集上的结果见表2。

从表2可知，图文多模态融合的情感计算结果均优于单一模态，均值规则和最大值规则的融合计算方式在精准率上超单一文本模态约2.2%。结果表明，在文本模态基础上引入图像模态，能有效补充单一模态情感信息不足的问题，且多模态数据很好地解决了表达上的多义性问题，能成功捕捉到学生发表这些自述内容时的真实情感倾向。除此之外，最大值规则比均值规则的融合计算方式在精准率上高出1.6%。这表明，在文本和图像情感计算结果存在差距的情况下，依靠情感计算得出更为准确一方的最大值规则比平等看待二者的均值规则在模态融合上更显优越。在基于最大值规则的融合计算模型中，文本模态因情感计算结果不俗，较图像模态占有更大的比重，但说说帖子的配图在情感表达上强烈、直接，有助于融合多模态的情感计算模型以精准识别学生的情感、情绪。

为验证心理健康评估模型的有效性，将量表分数与模型评估结果进行对比获得准确率，实验结果见表3。

健康类别的识别准确率较高，抑郁类别尚可，可能抑郁类别相对较低。健康类别和抑郁类别属于两向极端，在纵向时间发展上，健康类别的学生情绪大部分时候处于正面积极状态，而存在抑郁倾向类别的学生情绪持续低落，对外界刺激持消极态度，因而模型能较好地捕获两种类别的心理特征，有效判断学生是否存在抑郁倾向。但可能抑郁类别处在健康与抑郁间的模糊地带，特征并不鲜明，模型在进行评估时容易因学生近几次的说说情感倾向而发生误判，导致准确率相对较低。心理健康评估模型在验证集上有84.85%的平均准确率，说明模型在判断学生是否存在抑郁倾向上具有较强的区分力，能准确发现心理问题的个体，具有实际应用价值。与已有研究相比，本研究采用深度学习算法处理网络内容数据，能获取文本、图像等多种模态数据的深层次语义知识和真实的情感极性，且在评估耗时上比传统机器学习算法更具优势，通过实时分析学生发表的网络内容，可以实现对学生心理健康状态的快速定位和持续跟踪，做到及时给高校工作者反馈学生状况，为智慧教育时代下完善学生心理档案、精准干预学生心理、优化心理健康服务[26]提供了技术支撑。

五、结语

本研究针对学生社交网络平台数据的特点，构建了一种多模态融合计算的大学生心理健康自动评估模型。该模型在JA-IPAD数据集上实验结果显示，融合了多模态数据的模型相比于单一模态数据在准确率上有显著提高。这说明除文本信息以外，图像信息也是大学生心理健康评估的重要依据。融合模型的平均精确度达到了84.85%，说明该模型能精准地把握学生的心理健康水平，有效揭示学生心理特征的连续变化趋势。同时，这也符合“人工智能+教育”的发展方向，为高校心理健康教育的智慧化发展带来新机遇。

[参考文献]

[1] 祁双翼，西英俊，马辛.中国人心理健康研究综述[J].中国健康心理学杂志，2019，27（6）：947-953.

[2] 昌敬惠，袁愈新，王冬.新型冠状病毒肺炎疫情下大学生心理健康状况及影响因素分析[J].南方医科大学学报，2020，40（2）：171-176.

[3] 陈丽.“互联网+教育”的创新本质与变革趋势[J].远程教育雜志，2016，34（4）：3-8.

[4] 黄荣怀，陈丽，田阳，等.互联网教育智能技术的发展方向与研发路径[J].电化教育研究，2020，41（1）：10-18.

[5] 微博校园.《2018中国大学生日常生活及网络习惯调研报告》全面摸底大学生新媒体使用习惯[EB/OL].（2019-02-25）[2021-05-01].http：//ln.qq.com/a/20190225/004681.htm.

[6] 孟健男，司维，邵杰.大学新生SCL-90心理测评研究——以某中医药大学药学院2017级新生为例[J].中国社会医学杂志，2019， 36（4）：388-391.

[7] 方晓义，袁晓娇，胡伟，等.中国大学生心理健康筛查量表的编制[J].心理与行为研究，2018，16（1）：111-118.

[8] 奚晓岚，程灶火.基于神经网络的大学生心理健康评估模型[J].中国临床心理学杂志，2011，19（6）：746-747，733.

[9] 郭菲，赵琳，连志鑫.大学生自我报告的学习投入可靠吗——大学生群体的社会称许性反应及对自陈式问卷调查的影响[J].华东师范大学学报（教育科学版），2018，36（4）：53-61，163.

[10] 夏徐书.湖南省某师范大学新生抑郁和自杀意念的流行病学调查[D].长沙：湖南师范大学，2019.

[11] 朱廷劭.大数据时代的心理学研究及应用[M].北京：科学出版社，2016.

[12] SAUL S， ARTHUR A S， MICHAEL R H. Ecological momentary assessment[J]. Annual review of clinical psychology，2008（4）：1-32.

[13] 李昂，郝碧波，白朔天，等.基于网络数据分析的心理计算：针对心理健康状态与主观幸福感[J].科学通报，2015，60（11）：994-1001.

[14] RINALDI A， FOX T J， CHATURVED S. Predicting depression in screening interviews from latent categorization of interview prompts[C]// Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. Stroudsburg， PA： ACL Press，2020：7-18.

[15] 刘德喜，邱家洪，万常选，等.利用准私密社交网络文本数据检测抑郁用户的可行性分析[J].中文信息学报，2018，32（9）：93-102.

[16] 刘德喜，夏先益，万常选，等.基于多特征融合的在线论坛用户心理健康自动评估[J].计算机学报，2019，42（7）：1553-1569.

[17] CHENG Q J， LI T M.H， KWORK C-L， et al. Assessing suicide risk and emotional distress in Chinese social media： a text mining and machine learning study[J]. Journal of medical internet research，2017，19（7）：243-250.

[18] 于亚新，刘梦，张宏宇.Twitter社交网络用户行为理解及个性化服务推荐算法研究[J].计算机研究与发展，2020，57（7）：1369-1380.

[19] 张国标，李洁.融合多模态内容语义一致性的社交媒体虚假新闻检测[J].数据分析与知识发现，2021，5（5）：21-29.

[20] 张芮，杨晨韵，张耀东.中国大学生抑郁影响因素的Meta分析[J].中国全科医学，2020，23（35）：4497-4502.

[21] 汪维富，毛美娟.多模态学习分析：理解与评价真实学习的新路向[J].电化教育研究，2021，42（2）：25-32.

[22] 麻益通.基于多模态的在线学习情感分析模型设计与实现[D].南京：南京师范大学，2019.

[23] 刘三女牙，彭晛，刘智，等.基于文本挖掘的学习分析应用研究[J].电化教育研究，2016，37（2）：23-30.

[24] LI S， ZHAO Z， HU R， et al. Analogical reasoning on Chinese morphological and semantic relations[C]// Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics. Melbourne： ACL Press， 2018： 138-143.

[25] HAMBURGER Y. A， BEN-ARTZI E. The relationship between extraversion and neuroticism and the different uses of the Internet [J]. Computers in human behavior. 2000，16（4）： 441-449.

[26] 俞國良，侯瑞鹤.论学校心理健康服务及其体系建设[J].教育研究，2015，36（8）：125-132.