基于粗糙集理论的大学生成绩影响因素分析

2011-02-28 08:43马艳丽曹燕燕董蓓蓓
关键词:约简粗糙集学习成绩

马艳丽,曹燕燕,董蓓蓓,郑 伟

(1.河北北方学院信息科学与工程学院,河北张家口075000;2.河北北方学院理学院,河北张家口075000)

大学培养的人才,应是新知识的创造者、新技术的发明者、新学科的创建者.然而随着高等教育规模的快速扩大,大学生间的差异也越来越大,在学习方面的表现尤其明显.不少学生已形成了漠视学习、被动学习、机械学习等不良习惯,致使学习成绩每况愈下.因此,通过对学生的成绩进行分析及更近一步的数据挖掘[1],找出影响学生学习的因素,提出解决策略,才能更好地进行教学和培养出合格人才.目前,对影响学生成绩因素分析的方法基本上是基于抽样问卷调查与数据简单统计[2,3]、概率统计学分析法[4-6],前者方法比较简单,不能挖掘出数据之间的联系;后者方法需要一些数据附加信息或者先验知识,而这些知识又不容易得到,指标体系过于繁琐,很多数据难以收集,因此推广应用较困难.本文提出了一种基于粗糙集数据信息处理的影响学习因素分析方法.此项研究是粗糙集理论在学生成绩数据处理中的一种应用,目的是更快更好地做出选择与决策,对提高大学生学习质量具有很大的实际意义.

1 基于粗糙集属性约简的影响因数分析

粗糙集理论已经应用到了教学领域[7,8],基于粗糙集理论的优势,把这项技术应用到教学改革中,所做的工作的不同点在于 (1)采用的基于属性重要度的属性分析比较方式区别于规则提取;(2)决策表中的属性值为3值.采用问卷调查的方法,结合学生人数按百分比进行调研,分别对河北北方学院物理学专业4个年级的学生进行了问卷调查,学生的选取原则是取成绩排名居前和居后各5名,发放调查问卷40份,回收有效问卷40份,回收率为100%.根据收集到的众多相关信息,建立了学习质量与影响因素映射系统,利用粗糙集属性重要度约简找出影响学习效果的关键因素,具体步骤包括:

1.1 决策表的建立

对不同年级物理学专业的40个大学生进行问卷调查,将影响因素和学生类别看成属性时,即得到一个知识库,用赋权值来描述属性,对大学生学习成绩的影响较大的因素赋权值为2,对认为大学生学习成绩影响一般的因素赋权值为1,对大学生学习成绩没有影响的因素赋权值为0,这样就形成了原始数据的一种知识库表达.T1,T2,…,T10为知识库的条件属性,在条件属性的选取中我们借鉴了其他学者文章的一些经验、成果[3,9],同时根据教师在教学过程中收到的学生信息反馈,确定了 T1-T10,其分别代表学习兴趣、努力程度、学习方法、智力因素、性格兴趣因素、基础知识、教师水平及教学方法、学习氛围、所处学校软硬件条件、家庭经济因素.D为知识库的决策属性,即大学生学习成绩的高低,以学生综合成绩排名为标准,分别取前五名及后五名进行调研,成绩相对较好的用类别符号1表示,成绩相对较差的用类别符号2表示.将每一类中的所有实例的集合作为论域,每个实例作为论域中的对象,成绩影响因素集作为条件属性集,即各影响因素为条件属性,学生成绩作为决策属性,决策属性值受成绩好坏的决定.这样就得到如表1所示的决策表.

表1 决策表

1.2 基于属性重要度的条件属性约简

对属性重要性标定指的是在减去该属性后观察分类的变化,若变化大则说明该属性重要.反之则说明该属性的重要性低,具体的标定步骤如下[10]:

1)计算出二维决策表中决策属性D相对于条件属性C的正域Posc(D):

决策属性D相对于条件属性C的正域表示的是:根据分类信息U/C的信息可以准确地划分到决策属性D的等价类中的实例集合.如果划分完全的话,应该是整个实例集.

3)根据粗糙集中的依赖度函数:

card指求集合的基数.K=1,说明决策属性D完全依赖于条件属性C;K<1,说明决策属性D部分依赖于条件属性C;K=0.说明决策属性D完全不依赖于条件属性C.将这个公式运用到我们的条件属性计算中,可以知道决策属性D对条件属性C的依赖程度是U中所有根据分类C的信息可以准确地划分到决策属性D的等价类中的实例个数与整个实例集的个数之比,理想情况下应该是1.

4)对于二维决策表中每一个属性ti,我们可以计算出它对决策属性D的重要性 IMti(D):IMti(D)=rc(D)-rc-{ti}(D)

rc(D)表示决策属性D对条件属性C的依赖程度,rc-{ti}(D)指在条件属性C中去掉属性ti后,决策属性D对条件属性C的依赖程度.IMti(D)的值越大,说明属性ti对分类的重要性越大,如IMti(D)=0则说明属性ti对分类不起作用,应删除.

1.3 条件属性的最终筛选

在上面对属性重要性标定的基础上,生成一个属性及其重要性的二元组向量:

I=((t1,IMt1),(t2,IMt2),……….(tn,IMtn))

对属性的约简可以通过以下两步实现:[11]

1)将这个二元组按照IMti进行排序,删除IMti=0的属性.因为它对文本分类不起作用.

2)设定一个δ值,删除IMti<δ的所有属性.主要目的是删除一些对分类不大重要的属性.从而减少了样本训练阶段产生规则的时间.在本文实验中设δ=0.由于本文对数据处理无需离散化,于是属性约简的实现借助了基于Java语言的跨平台粗糙集平台分析工具M yRS[11],如下图:

图1 实验过程及结果部分截图

通过计算得到十个条件属性的属性重要度:

attribute5=0.149999999999,attribute9=0.149999999999,attribute2=0.0499999999999,attribute4=0.0499999999999,attribute7=0.0499999999999,attribute6=0.0,attribute8=0.0,attribute10=0.0,attribute1=0.0,attribute3=0.0,

经过排序得到:5=9>2=4=7>1=3=6=8=10

1.4 实验结果分析

由以上结果可知,性格兴趣因素以及学校的软硬件条件对被调查学生的学习有较大的影响,家庭经济因素、基础知识、教师水平等基本无影响或影响不大.由此分析,对于此年龄段的学生应该将学习的动机建立在个人兴趣的基础上,因此应当加强思想引导,继续并深入进行职业生涯规划,让学生明确自己兴趣、爱好的优劣势,在学习上做到有的放矢;在教育者方面,分析的结果说明学生的学习较大地受到了学校教学条件的促进或限制.所以,对教学条件的提高工作仍需加强,如加大专项资金投入和落实,加强校园文化建设.

2 结 论

粗糙集理论在数据挖掘和属性约简中起着重要作用,已经应用到了教学领域,下一步将扩大问卷调查学生的人数,实现多学院的数据统计,继续收集影响学生学习成绩的因素,利用该属性约简技术找到影响学生成绩的核心因素,更好地推进学校的教学改革工作,为社会培养更多的合格人才.

[1] 张文修,吴伟志,梁吉业,等.粗糙集理论与方法 [M].北京:科学出版社,2001:2-25

[2] 郭秋兰,许卫军.影响学生学习成绩自身因素的调查与分析 [J].卫生职业教育,2004,22(3):84-85

[3] 滕文芳.家庭因素对学生学习成绩的影响 [J].时代人物·理论探讨,2008,(5):157-159

[4] 王俊红,樊顺厚,邓一泉.影响学生学习成绩因素的探究与分析 [J].天津工业大学学报,2007,26(6):86-88

[5] 金秀岩.应用统计分析评价影响学生学习成绩的诸因素 [J].武汉科技学院学报,2007,26(6):86-88

[6] 申正一.影响学生学习成绩诸因素之统计分析 [J].延边教育学院学院,2005,19(3):7-10

[7] 薛军,施雨辰.大学生学习效果影响因素的粗糙集分析 [J].上海应用技术学院学报,2007,7(3):76-178

[8] 高丽红.基于粗糙集理论的大学生学习成绩影响因素分析 [J].科学技术与工程,2007,7(4):521-524

[9] 马永红,赵雪梅.大学生专业学习兴趣激发的探讨 [J].辽宁工业大学学报:社会科学版,2008,10(6):99-101

[10] 郑伟,马艳丽.一种基于粗糙集理论的特征选择方法 [J].河北北方学院学报:自然科学版,2009,25(1):56-59

[11] 王杰亮.粗糙集工具M yRS的设计与实现 [J].北京师范大学学报:自然科学版,2007,43(5):505-507

猜你喜欢
约简粗糙集学习成绩
基于Pawlak粗糙集模型的集合运算关系
基于二进制链表的粗糙集属性约简
名落孙山
实值多变量维数约简:综述
基于模糊贴近度的属性约简
多粒化粗糙集性质的几个充分条件
双论域粗糙集在故障诊断中的应用
大学生学习动机与学习成绩的相关研究
两个域上的覆盖变精度粗糙集模型
一种改进的分布约简与最大分布约简求法