改进的关联规则算法在学生CET4成绩中的应用

2013-07-17 01:54陈伟
赤峰学院学报·自然科学版 2013年18期
关键词:陈伟项集视图

陈伟

(淮南联合大学计算机系,安徽淮南232038)

改进的关联规则算法在学生CET4成绩中的应用

陈伟

(淮南联合大学计算机系,安徽淮南232038)

英语四级成绩(CET-4)是衡量大学英语教学水平和大学生英语水平的一把尺子,对大学英语四级成绩及其影响因素进行分析将有利于解决学生英语学习中存在的问题,提高英语教学质量及大学生的综合素质.文章利用关联规则挖掘算法——Apriori算法并进行改进对学生CET4成绩数据中的各个部分进行了分析,为指导教学和深层次的理论研究提供了客观、有效的决策依据.

关联规则;Apriori算法;频繁项集;CET4

1 关联规则的简单描述

关联规则的概念由Agrawal,Imielinski,Swami提出,是数据中很实用的规则,它是数据挖掘的主要技术之一.关联规则的挖掘一般分为以下两个过程:

(1)寻找所有的频繁项集,依据定义,每一个出现的项集的频繁性要与预定义的最小支持计数min_sup一样.

(2)由频繁项集产生强关联规则:根据定义,这些规则必须满足最小支持度和最小置信度.

在以上两个步骤中,由于第二步的开销远远低于第一步,所以挖掘关联规则的总体性能由第一步决定[1].

2 改进的Apriori算法

关联规则挖掘最著名、最有影响的算法是Apriori算法,它是使用候选项集产生发现频繁项集.算法中主要进行这样两个操作:为找LK,通过将LK-1与自身连接产生候选K项集的集合,即连接步;根据Apriori性质,任何非频繁的K-1项集都不是频繁K项集的子集.因此,如果候选K项集的K-1项子集不在LK-1中,则该候选项集也不可能是频繁的,即剪枝步.假定事务数据库中各记录的项目均已按字典排序.可以利用项集之间有序的特点,从减少算法中这两个操作的执行次数的角度来达到优化算法的目的.

2.1 减少连接步骤的执行次数的算法:

2.2 减少剪枝步骤的执行次数算法:

3 改进算法的应用

以下以某高校教务系统中的学生CET4成绩为研究数据.

3.1 首先将学生CET4.XLS文件导入到VFP中,建立相应的学生成绩数据库文件;

3.2 对现有数据的情况进行数据预处理.数据预处理包括数据清理、数据集成、数据变换、数据归约、数据离散化.这里主要进行以下处理:

3.2.1 数据清理:填写空缺的值,平滑有噪声的数据,识别、删除孤立点.数据预处理1后的图为成绩视图1.总计7646条记录.

图1 成绩视图1

3.2.2 数据变换:主要对数据进行规格化操作.对CET4的各个组成部分的分值进行处理,其分值分配为:总分710,听力分数249,阅读分数249,写作分数142,综合测试分70,首先把分数转换算为百分制,见成绩视图2.

图2 成绩视图2

3.2.3 数据归约:通过数据规约可以得到数据集的简化表示,它小得多,但能够产生同样的(或几乎同样的)分析结果.规定分值分布情况如下:60分以下为“1”,60-70之间为“2”,70-80之间的为“3”,80-85之间的为“4”,大于85的为“5”;为了分析方便,总分用“Z”代表,听力分数用“T”代表,阅读分数用“Y”代表,写作分数用“X”代表,综合测试分数用“ZH”代表.预处理后的图为成绩视图3.由于改进算法的需要,把成绩表进行重新排序,见成绩视图4.

3.3 设计算法

图3 成绩视图3

图4 成绩视图4

3.3.1 求解频繁项集

3.3.1.1 我们要研究的事务数据库是图4的成绩表3.DBF.

3.3.1.2 建立一个项目数据表ITEM.DBF,见图5.

3.3.1.3 建立六个空数据表,分别用来存放1、2、3、4、5频繁项集和它们的支持度计数.

3.3.1.4 产生一个辅助数据表,该表中只有一个字段,数据类型为字符型,记录数与成绩表3相同,数据为z+t+y+x+zh的值.

图5

在该程序中我们运用了改进后的Apriori算法,大大减少了循环次数,提高了效率[5,6].

如果希望研究的规则中能够有中等的同学,那么最小支持度就要设定得很小,这样产生的频繁项集很多,同样关联规则也很多.基于以上情况我们设定最小支持度为0.06,支持度计数为459,产生了81个频繁项集.下面为部分实验结果:

3.3.2 提取关联规则

假设最小置信度为70%,由程序得出242个关联规则.部分实验结果如下:

4 算法应用结果

4.1 CET4成绩四个部分中听力和阅读是影响总分最大的两个因素.综合测试与其他三项的关系相对较低.

4.2 在四个组成部分中,从与总分的关系来看,听力是最突出的.

4.3 还有一点通过索引排序观察就能得到的结论是女生与男生的成绩存在差异,从我们日常生活中很容易发现,男生与女生对英语的重视和喜爱程度是不一样的,普遍情况是女生优于男生.

5 总结

总之,影响英语四级考试成绩的因素是多方面的.通过实验得出的分析结果能够对该门课程的教学提供一定的理论依据.

〔1〕陈文伟,黄金才,等.数据仓库与数据挖掘[M].北京:人民邮电出版社,2004.

〔2〕陈伟.数据挖掘技术在学生成绩管理中的应用[D].安徽大学,2008.

〔3〕陈伟.Apriori算法的优化方法[J].计算机技术与发展,2009,19(6):82-83.

〔4〕R.Agrawal,T.Im ielinski.and A.Swam i.M ining association rules between sets of items in large databases.Proceedings of the ACM SIGMOD Conference on Management of data(ACM SIGMOD’93)[C].Washington.USA,1993:207一216.

〔5〕罗可.一种用Visual Foxpro求频繁项目集的方法[J].计算机工程,2001,27(5):36-37.

〔6〕朱玉全,孙志挥.一种有效的关联规则增量式更新算法[J].计算机工程与应用,2001(23):28-30.

TP311

A

1673-260X(2013)09-0031-03

2011年安徽省淮南联合大学校级科研项目(LYB1112)

猜你喜欢
陈伟项集视图
Interaction between energetic-ions and internal kink modes in a weak shear tokamak plasma
陈伟教授简介
不确定数据的约束频繁闭项集挖掘算法
5.3 视图与投影
视图
Y—20重型运输机多视图
SA2型76毫米车载高炮多视图
陈伟博士简介
Recent Progress in Heavy Fuel Aviation Piston Engine
一种新的改进Apriori算法*