基于嵌入式数据挖掘的大学生心理管控分析系统

2022-01-06 12:33韦芬
电子设计工程 2021年24期
关键词:项集事务数据挖掘

韦芬

(西安航空职业技术学院,陕西西安 710089)

大学生在个性、学习方式、情商、社会责任感、生活方式等方面有着不同的特征,这些特征可以塑造学生在教育过程中的行为[1-2]。在情绪层面用风险指标识别学生是较为重要的,因为这些因素会影响学生的幸福感和学业成绩。因此,预测大学生消极情绪和心理问题已成为当前的一个重要研究课题[3-6]。

数据挖掘是一种数据处理技术[7-8],能将原始数据及时转换为有用的信息。这些信息代表频繁的行为,可以预测可能发生的事件,可用于制定具有重大影响的决策。

文献[9-10]从一个普遍的角度概述了教育中的数据挖掘技术。文献中提到教育数据挖掘是一个新兴的跨学科研究领域,被称为教育数据挖掘(Education Data Mining,EDM)。其涉及到开发分析任何支持学习或教育的信息系统生成的数据方法,主要寻找满足数据集的最小支持和最小置信度的关联规则。其中,Apriori 算法是在关联规则挖掘技术中使用频率最高的方法之一,实际利用价值高。但传统Apriori 算法[11-13]需要在数据集中对事物进行多次搜索,能耗较大,且可能会得出数量较多的候选集,使得运行过程中能耗负担不断加重。

该文以心理管理系统中的嵌入式数据挖掘技术为研究对象,阐述了Apriori 挖掘技术在心理数据挖掘系统中的设计与实现过程,讨论了影响学生心理健康的因素。基于CM_Apriori 和PM_Apriori 算法[14-16],改进了压缩矩阵的Apriori 算法,并将改进后的Apriori 作为一个数据挖掘技术嵌入到现有的心理健康管理控制系统中,对包含学生学习心理发展特征的数据进行数据挖掘和特征提取。通过实验可以证明,利用改进的Apriori 算法能够方便、迅速地从海量数据库中挖掘各种信息之间的关系,提供更具价值的结果。

1 系统设计原理

1.1 过程和需求分析

目前,有几种方法可以分析、转换和利用结构良好的数据。这些方法被分组在一个称为KDD(Knowledge Discovery in Databases)的数据库中,这一过程旨在将低级数据转换成其他更紧凑、抽象或便于使用的形式。根据数据的性质和应用步骤的不同,过程可能会较为复杂。该过程从获取数据开始,逐步验证所获得的结果(模式),这些步骤和阶段将作为该系统设计的指导思想。

1)数据库建设:在这一过程中最主要的任务之一就是创建数据库,将尽可能多的有用信息源包含在数据库中。在这一项目中,其是通过在线调查或仪器测量来获取学生心理特征。

2)数据预处理:一旦设计了数据库,就必须选择用于构建结构的属性,这些属性将允许查找可以动态挖掘信息之间的关联。在这一步,需要了解学生心理特点的专家介入,确定其最具区别性的属性,以便识别所处理数据特征之间的相关性。

3)数据挖掘:对前一阶段选择的属性进行转换,这涉及到众多数据挖掘技术,如探索性分析技术、聚类技术和模式挖掘技术。这一步涉及到数据挖掘过程的结果,数据挖掘是一个重复迭代的关键步骤。发现的信息取决于输入数据的类型和质量,故必须事先选择合适的算法。

4)恢复、可视化和验证:在数据挖掘步骤之后,必须将新的信息呈现给最终用户或专家进行评估。通常情况下经过算法筛选出来的信息量较大,无法手动分析。因此系统要根据用户的需要,向专家提供最相关的信息。另一方面,为了理解信息的语义,有必要提供一些工具。让专家从研究结果中学习、了解学生的心理状况,以便做出决策。因此,数据挖掘方法与可视化方法相结合,是该文心理管理系统设计中较为重要的一环。

1.2 结构设计

根据已有的资料和文献,基于数据挖掘的心理管理系统结构如图1 所示。该文通过数据挖掘模型层来挖掘目标数据集,用户界面层可以查看数据挖掘分类结果,评价和分析知识挖掘的条件与规则。

图1 基于数据挖掘的心理管理系统结构

2 改进Apriori算法

Apriori 算法采用的搜索方式主要思想如下:利用频繁项集1-{L1} 查找频繁项集2-{L2} 。相似地,利用{L2} 查找{L3},循环查找频繁项集。为了使算法可以更加精准地挖掘信息,在心理专家提取数据属性后,在算法搜索空间的压缩矩阵中加入了Apriori属性。该算法的基本思想是,首先确定所有的第一组频率集,且这些频率被设定为大于或等于预定义的最小支持度。然后,由频率集生成可以满足最小系统支持度和最小置信度的强关联交易规则。一旦这些规则生成完毕,剩余的即为大于用户给定的最小置信用户规则。该文使用递归分析方法生成了所有的频率集。

在实际应用中,由于Apriori 算法可能会产生大量的候选项集,且在算法执行时,Apriori 算法对数据库进行重复操作。当数据量过大时,读写操作过多会大幅降低计算效率。CM_Apriori 算法针对多次反复扫描矩阵的缺点作出了改进,而基于布尔矩阵的PM_Apriori 算法通过压缩和减少候选项集的产生,有效提高了算法的综合性能。

该文设计了一种基于CM_Apriori 算法和PM_Apriori 算法的Apriori 改进算法。首先,将关联规则的来源数据库D划分为D1,D2,D3,…,Di(i=1,2,3,…,n),这些子数据库相互独立。利用Apriori 算法在数据库中找到强度集Di和Li,缩短了扫描数据库所需的时间,然后将所有强度集转化为数据库D中的潜在强度集。

利用改进的Apriori 算法多线程扫描事务数据库分割的数据块,构建1-a 事务集位串和频繁项集位串。对1-a 逻辑位串进行“与”运算,通过统计结果和给定的支持阈值相比较生成频繁项集;位串频繁项集的逻辑“或”运算,统计结果即为事务库中重复出现候选项集的次数。改进的Apriori 算法具体可以分为以下几个步骤:

1)定义挖掘规则所需的支持度和置信度阈值。

2)扫描事务库,依次对库中的事务项出现在每个事务中的次数进行统计,生成相应的“位串”,事务项出现在事务中被记录为“1”,不出现则记录为“0”。统计每个项目的位串可得每个候选项1-项集的支持度计数,根据给定的支持度阈值选取大于或等于支持度阈值的候选项1-项集作为L1 项集的频繁项集。

3)根据支持度递增的顺序对L1排序,得到序列S。

4)从L1的所有项中生成候选项集合C2。

5)将Ck位串中的所有项进行逻辑“与”运算,生成新位串中的个数为“1”的统计量。统计结果是新生成的支持数满足候选项集的最小支持阈的项集,同时生成Lk的频繁项集。根据序列S的二进制码,Lk中的每一项生成一个位串,形成一个包含 ||Lk个位串的位集。使用两个逻辑“或”操作执行一个集合中的位字符串,并计算操作结果。运算结果中“1”的个数为k+1,重复次数为C,生成候选项(k+1)项集,按序列S生成候选项(k+1)。

6)循环执行,直到满足结束条件,最终结束算法。

3 基于数据挖掘的心理数据管理系统

3.1 设计流程

基于众多科研成果与相关文献,设计了心理数据挖掘系统的基本框架和功能模块,并完善评价系统与数据库。心理数据挖掘是一个迭代的过程,需要有效的工具和高效率的算法,系统数据挖掘的流程设计如图2 所示。

图2 心理问题数据挖掘系统的流程

3.2 数据处理

通过采用SCL-90 症状自评量表(SCL-90)计算得到抑郁(yy)、焦虑(jl)、敌对(dd)、恐怖(kb)、偏执(pz)和精神病(js)等9 个心理因素症状。个人心理问题数据表的定义如表1 所示。根据离散化数据的分类规则,将心理症状因子和个体基本信息因子分为结合编码属性和心理分析等几个项目。将预处理后的3 000 个原始数据输出到Excel 中,基于改进的Apriori 算法、布尔矩阵以及建立的大学生心理相关分析模型,进行关联规则挖掘。

表1 预处理后的部分数据

3.3 关联规则的挖掘过程

在关联规则挖掘过程中,可以方便地根据Excel数据的需要在某些列中进行选择,其是一种有效的数据挖掘方法,避免了使用JExcelAPI 来达到数据选择的目的。通过使用改进的Apriori 关联规则挖掘算法来发现9 个心理症状之间的隐藏关系,其部分结果如表2 所示。

表2 9个心理症状因子之间的部分关联规则

4 实验结果

根据价值关联规则和设置不同的参数交易数量,对比测试案例不同数量的事务数据库。实验研究所需的原始信息数据由IBM 数据生成器产生,算法的性能通过系统运行工作时间来衡量。不同算法的性能测试结果如表3 和图3 所示。

图3 不同算法下的实验性能对比

表3 运行时间结果统计

改进Apriori 方法来进一步压缩矩阵,缩小算法的时间和空间消耗。其使用了多线程进行从事务集到布尔矩阵的转化过程,并行操作与排序带来的优势能够帮助多事务数的处理。相比于PM_Apriori 算法,改进Apriori 算法的运行时间明显缩短,运行效率提高了约8.9%~18.7%。

5 结束语

数据挖掘技术在学生心理管理系统中的应用,是现代大学生心理健康教育发展的成果。该文在嵌入式模块开发期间,结合实际情况进行了相应的验证。采用SCL-90 心理测量表和UPI 人格测验项目成绩表对大学生进行心理调查,以学生的基本情况,作为训练集输入。以高校学生的相关信息作为训练数据,构建相应的属性决策树。根据对常用数据挖掘技术Apriori 的性能分析,提出了改进的Apriori 算法并通过实验进行改进效果的检验。最终,将改进Apriori 数据挖掘技术嵌入到学生心理管理系统中。结果表明,改进Apriori 算法作为数据挖掘技术能够减少系统运行时间,提高数据挖掘效率。

猜你喜欢
项集事务数据挖掘
基于分布式事务的门架数据处理系统设计与实现
探讨人工智能与数据挖掘发展趋势
河湖事务
不确定数据的约束频繁闭项集挖掘算法
基于并行计算的大数据挖掘在电网中的应用
一种基于Hadoop的大数据挖掘云服务及应用
基于GPGPU的离散数据挖掘研究
SQLServer自治事务实现方案探析
移动实时环境下的数据一致性研究
一种新的改进Apriori算法*