基于统计分析及关联挖掘技术的大学生心理健康状况研究

2014-09-26 01:15黄书城钟家栋亓文娟
安阳工学院学报 2014年4期
关键词:强迫症独生子女数据挖掘

黄书城,钟家栋,亓文娟

(武夷学院数学与计算机学院,福建武夷山354300)

0 引言

清华朱令被舍友投毒致傻、云南大学马加爵用铁锤敲死舍友、南京航空航天大学因口角捅死舍友、清华大学刘海洋硫酸泼熊、复旦大学张明明虐猫……大学生心理问题以及如何对大学生的心理进行危机干预,已经越来越受到各高校及社会的关注。加强大学生心理健康教育工作是新形势下全面实施素质教育的重要举措,是高等学校德育工作的重要组成部分。近年来,运用数据挖掘技术探索大学生心理健康状况及心理危机干预模式已经成为国内外学者研究的热点。本研究的主要内容就是采用统计分析和数据挖掘技术两个层面从调查数据中分析挖掘导致大学生心理问题的各因素之间的关联关系,影响学生心理问题的主要因素等,为高校心理辅导方面提供一个更为科学的决策基础,为有心理健康问题的学生提供治疗方案,为大学生的心理健康提供早期预防、干预的新方法,使学校的心理健康教育工作更具合理性。

1 相关理论知识

1.1 数据挖掘技术

数据挖掘[1](Data Mining)是指从大量的、不完全的、有噪声的、模糊的、随机的数据中发现隐含在数据中的关系,建立模型,提取具有潜在价值、可信、新颖、有效并能被人所理解的信息和知识的过程。数据挖掘是一门新兴的、正在不断发展中的学科,它融合了数据库技术、人工智能、机器学习、统计学、知识工程、信息检索等最新技术的研究成果,其应用非常广泛。国外对数据挖掘技术的研究已经取得了丰硕的成果,在零售业、金融保险及医疗服务业等行业中都有比较成功的应用案例。在实际应用中,往往根据模式的实际作用及数据挖掘的任务分为关联分析、分类、聚类分析、序列分析、孤立点分析等类。

1.2 关联规则挖掘

关联规则挖掘(Association Rule Mining)是数据挖掘领域成果颇丰而且比较活跃的研究分支,是用于发现隐藏在大型数据集中令人感兴趣的联系[2]。

1)设I=[i1,i2,i3,…,in]项的集合,数据集D是事务的集合,其中每个事务T是项的集合,使得T⊆I。每一个事务有一个表示符,称作TID。事务T包含一个项目集A当且仅当A⊆T,一个关联规则就是形如A→B的逻辑蕴涵式[2],其中A⊂I,B⊂I,并且A∩B=ϕ。

2)支持度Support(A→B)=P(A∪B)=Support(A∪B)=S即项集A和项集B的并集A∪B在所有事务D中出现的概率。支持度的度量反映了关联规则是否具有普遍性。

3)置信度Confidence(A→B)=P(B|A)=Support(A∪B)/Support(A)=C即在出现了项集A的事务D中,项集B也同时出现的概率。置信度的度量反映了关联规则的可靠性。

4)提升度Lift(A→B)=P(B|A)/P(B)即置信度与期望置信度的比值,其值大于1才是有用的关联规则。

强规则即置信度和支持度均大于给定阈值(最小置信度阈值和最小支持度阈值)的关联规则,否则称为弱规则。给定一个事务集D,挖掘关联规则问题就是产生强规则的问题[3]。

2 基于统计分析分析大学生心理健康状况

2.1 数据准备

采用教育部《中国大学生心理健康测评系统》课题组编写的症状自评量表SCL_90对某高校2011级共4320名学生进行测试,被测试学生来自于数学与计算机系、机械工程系、土木工程系等多个系部。针对调查获取的大学生心理健康数据,在进行挖掘之前,需要对这些数据进行预处理。主要工作有以下几方面:

2.1.1 空值处理

独生子女、学生干部、来源地、家庭结构等属性是与挖掘相关的主要属性,均不允许出现空值。《中国大学生心理健康测评系统》并未对以上属性的缺失值做处理,由于空缺值较少,本文采用人工填充的方法,利用多数属性值填充该空缺。

2.1.2 数据抽取

由于姓名、学号、测试日期、各题答案等属性与挖掘无关,同时测试的学生97.2%是汉族,对挖掘结果不产生影响,在进行挖掘之前,将这些属性删除,以提高挖掘效率。

2.1.3 数据规范

本文将各心理症状值分为无、轻、中、重4级;将连续数据“家庭月收入”进行离散化,按2000元以下,2000-5000元之间,5000元以上划分为低、中、高三个区间;将离散数据“来源地”进行转化,例如将边远农村概化为高层概念农村,经过概化后来源地分为大中城市、小城镇、农村。

2.2 对大学生心理健康数据的统计分析

被测试的4320名学生中,有躯体化症占17.85%,有强迫症占61.02%,有人际关系敏感症占42.43%,有抑郁症占29.26%,有焦虑症占31.57%,有敌对症占32.75%,有恐怖症占23.94%,有偏执症占39.47%,有精神病占31.64%。本文以比例高的强迫症和人际关系敏感症两种心理疾病为例,从性别、独生子女、来源地、学生干部、家庭结构、家庭月收入进行统计分析,如图1至图6所示。

图1 性别与心理症状的关系图

图2 学生干部与心理症状的关系图

图3 独生子女与心理症状的关系图

图4 来源地与心理症状的关系图

图5 是否单亲与心理症状的关系图

图6 家庭收入与心理症状的关系图

分析及建议:在调查的学生中,患有轻度强迫症和中度人际关系敏感症的学生居多,女生患有重度强迫症的比例高于男生,患有人际关系敏感中等症状的学生居多,女生的比例略高于男生,患有重度人际关系敏感的男生比例高于女生;学生干部无强迫症的比例高于非学生干部,非学生干部患有轻度、中度及重度强迫的比例均高于学生干部,非学生干部患有重度人际关系敏感症的比例是学生干部的2倍;独生子女患有中重度强迫及中重度人际关系敏感症的比例均高于非独生子女;小城镇的学生患有轻度强迫和人际关系敏感症的比例均高于大中城市和农村的学生,大中城市的学生无人际关系敏感的学生比例较高,农村的学生患有重度强迫和人际关系敏感症的比例均低于大中城市和小城镇的学生;非单亲家庭的学生无强迫症的比例高于单亲家庭的学生,而单亲家庭有重度强迫症的比例高于非单亲家庭;高收入家庭学生无人际关系敏感的比例高于中低收入家庭的学生,低收入家庭学生有重度人际关系敏感症的比例高于高中收入家庭学生,高收入家庭学生有重度强迫症的比例高于中低收入家庭学生。作为学生干部的学生,在日常生活的各种琐事中了提高了协调性和与师生的沟通能力,有人际关系敏感的比例自然比非学生干部有人际关系敏感的比例低;独生子女由于缺少同兄弟姐妹交往,从小独来独往,不懂得如何处理同学间的关系,自然患有中、重度强迫和人际关系敏感症的比例高于非独生子女;大中城市的孩子受生活环境的影响,父母给予孩子太多来自各方面的压力,患有重度心理症状的学生比例高于来自农村的学生;单亲家庭的孩子由于家庭的不完整,无法同时享受父母的爱,对待问题的看法上会有些偏激,心理健康状况不容忽视;高收入家庭的孩子不用为经济而烦恼,心理健康状况比低、中等收入的学生要好。女生、非学生干部、非独生子女、小城镇、单亲、低收入家庭的学生更应该引起相关部门的重视及心理疏导。

3 基于关联规则挖掘分析大学生心理健康状况

3.1 大学生心理多维关联规则挖掘模型的建立

当前比较有代表性的数据挖掘软件有DBMin⁃er、Mineset、IntelligentMiner、IBM Quest等,本文采用SPSS Clementine12.0作为挖掘模型建立和分析的平台。Clementine中关联挖掘有“GRI模型”、“Carma模型”、“Apriori模型”三种,算法可处理Transactional和Tabular两种数据格式[4]。选择经典的“Apriori”算法建立模型,在类型节点中选择方向为“两者”,在过滤节点中过滤掉与分析无关的属性,构建关联挖掘数据流[5],如图7所示。

图7 多维关联挖掘数据流

3.2 大学生心理症状挖掘结果评估分析

根据统计的不同属性和不同心理症状情况比例的结果,作为支持度和置信度阈值的参考依据,在挖掘时不断调整支持度和置信度阈值,分别获得性别、学生干部、独生子女、来源地、家庭结构、家庭月收入六个属性和大学生心理症状间的关联关系。本文以比例高的强迫症和人际关系敏感症两种心理疾病为例进行挖掘分析,挖掘结果如表1、表2所示。

表1 属性—强迫维间的关联规则(部分)

表2 属性—人际关系维间的关联规则(部分)

分析及建议:大学生强迫症的主要表现为迎考或考试期间出现过分的紧张、担心、恐惧,甚至伴有失眠、全身不适等症状,这在某种程度上反映了大学生学习的辛苦。表1列举了部分属性与强迫症之间的关联程度,例如规则3表示男性学生干部占所调查学生的比例为11.597%,而在所有男性学生干部中有轻度强迫症的比例为52.295%。挖掘结果可以看出女生、非学生干部、非独生子女、小城镇、高收入、单亲家庭子女有轻度强迫症均的可靠性较高,而男、低收入家庭无强迫症普遍性较高。表2列举了部分属性与人际关系敏感症之间的关联程度,挖掘结果可以看出学生干部、独生子女、大中城市、低收入、非单亲家庭子女无人际关系的可靠性较高,男女无明显差别。由于社会大环境的影响,学校素质教育的缺乏,家长对独生子女也是倍加呵护,养成孩子自私的心理,在人际交往与沟通中存在着以自我为中心、自我封闭、社会功利、猜疑嫉妒、江湖义气等类型。而单亲家庭子女由于亲子关系的失调,监护者教养方式的失当,社会评价压力以及自身心理调适能力不强,产生不安全感、自卑感而自闭、孤僻甚至逆反。担任过学生干部或生活在大中城市的学生社会交际面广,社会阅历相对比较丰富,人际关系处理的较好,而农村孩子受生活环境,物质条件和见闻等的影响,心理压力过大。

针对大学生心理存在的各种问题,高校要充分做好大学生心理健康教育与咨询的各项工作,促进学生健康成长。比如可以通过开展形式多样的校园心理健康宣传教育活动,利用广播、校报、校园网、班级会议进行宣传,同时要充分发挥课堂教学在大学生心理健康教育中的主渠道作用,开设心理学和健康教育系列的校级选修课或邀请心理方面的专家开展心理健康教育专题讲座。在注重心理健康宣传工作的同时也要加强心理健康教育软硬件建设,进一步完善大学生心理健康教育的各项规章制度,加强心理健康教育工作队伍建设,组织开展心理教师业务研讨与培训,成立大学生心理健康协会等。心理健康教育工作始终要与辅导员、班主任及任课教师的工作相结合,通过心理测试平台与各位老师的沟通交流,及时发现易感人群,同时针对特殊群体给予适当的关怀,使学校心理健康教育工作更有效,使学生的心理健康水平得到提高。

4 结语

本文介绍了数据挖掘技术及关联规则理论基础,针对大学生心理健康测评数据,进行数据预处理后,采用统计分析和关联规则挖掘两种方法,分析了学生各属性和心理症状间的关联关系,根据挖掘结果可以更深入地了解学生心理问题,同时针对如何加强和改进大学生心理危机干预工作提出了建议。在数据挖掘中,由于有重度心理症状的学生比例太低,为了挖掘出这些症状的关联关系,支持度就必须设置很小,导致生成很多无用的规则,给分析带来了难度,有关关联规则挖掘有待进一步研究。

[1]Han J W,Kamber Mi.数据挖掘概念与技术[M].范明,孟小峰译.北京:机械工业出版社,2006.

[2]晏杰,亓文娟.基于Apriori&FP-growth算法的研究[J].计算机系统应用,2013(5):122-125.

[3]蒋盛益,李霞,郑琪.数据挖掘原理与实践[M],北京:电子工业出版社,2011.

[4]元昌安.数据挖掘原理与SPSS Clementine应用宝典[M].北京:电子工业出版社,2009.

[5]王家胜,牟肖光.读者借阅多维关联规则挖掘模型的建立与分析[J].计算机应用,2011(11):3084-3086.

猜你喜欢
强迫症独生子女数据挖掘
探讨人工智能与数据挖掘发展趋势
图说
独生子女可以直接继承房产吗?
基于并行计算的大数据挖掘在电网中的应用
为什么我们乐于逼死强迫症?
为什么我们乐于逼死强迫症?
独生子女不能完全继承父母遗产?
两种人
一种基于Hadoop的大数据挖掘云服务及应用
高级数据挖掘与应用国际学术会议