基于决策树和规则关联分析的英语教学质量评估

2021-07-12 00:49陈晓红安烁羽
关键词:决策树关联规则

陈晓红,安烁羽,亓 慧

(1.广州南洋理工职业学院 人文与教育学院,广东 广州 510925;2.上海交通大学 马克思主义学院,上海 200240;3.太原师范学院 计算机系,山西 晋中 030619)

0 引言

随着数据挖掘技术的发展,高校教学管理摒弃了原有人工统计繁琐且有误差的弊端,借助计算机和智能算法来实现大规模教学数据的深度挖掘[1-2].相比于传统统计及平台数据分析灵活性差等缺点,通过有效挖掘,可以从不同角度对教学产生的数据进行多维度分析,提高教学分析的科学性,这为高校的教学管理决策提供了有力数据支持.大学英语作为高校专业覆盖面最广、跨越年级最长的课程之一,其教学质量评估需考虑的因素多,教学质量评估难度大,需要通过合适算法来完成教学质量的深度评估.

当前,关于教学质量评估的研究成果丰富.张雅清[3]采用SVM和主动学习完成了教学质量评估,张居设[4]采用神经网络和GA算法对英语教学质量评估,卫娜[5]详细分析了英语教学多维评估指标方法.这些研究均存在评估效率不高且缺乏一致性验证的问题.本文采用决策树算法对影响英语教学质量的关键因素进行分类,生成有效的分类规则,获得各指标因素的分析结果,并且采用规则关联对教学质量评估进行结果一致性验证.

1 决策树和规则关联

1.1 决策树的分类规则生成

决策树主要由根节点、分支节点和叶子节点构成[6],其核心结构如图1所示.

图1 决策树结构

设样本集合S中的样本被分为了m类,其类别为Ci(i=1,2,…,m).si为属于Ci的样本数.

S期望熵计算方法[7]为

(1)

设样本的某个属性A,用A对S进行子集划分,期望[8]为

(2)

根据式(1),对于子集Sj,有

(3)

A对S的期望熵增益[9]为

Gain(A)=I(s1,s2,…,sm)-E(A)

(4)

若用增益率来表示,则

(5)

其中

(6)

1.2 规则关联分析

设集合D中的项目个数为|D|,X为D中的某个项集,D中项集X的个数为count(X⊆D),那么X的支持度[10]为,

(7)

设D中任意两个项集X和Y,满足条件X⊂D,Y⊂D,且两者相互独立,两者在D中同时出现的概率也可以用支持度[11]表示

(8)

其中count(X∩Y)为D中同时包含X和Y的项集个数.

除支持度之外,还可以用可信度来衡量X和Y的关联关系[12]

(9)

也可以用提升度来衡量[13]来表示,

(10)

在进行规则关联分析时,根据式(8)和式(9)求解待评测项集的support(X⟹Y)和confidence(X⟹Y),然后和两者的最小值min-support和min-confidence进行对比,判断项集X和Y的关联程度[14],在实际操作过程中,提升度一般不常用于关联程度衡量.由此可见,min-support和min-confidence的合理设置对X和Y的关联性准确判断起着重要作用,因此在设置时务必合理.

2 决策树和规则关联分析的教学质量评估模型

2.1 评估指标

教学质量评估指标从两个方面选取,一方面是教师的相关数据,另一方面是教学排课及教学环节相关因素,具体指标见表1[15].

2.2 评估流程

首先对教学质量评数据样本根据表1中的指标进行数据整理,然后根据第一节中的式(5)和式(6)分别计算出E(A)和Gain(A).选择Gain(A)值中最高的指标作为根节点,Gain(A)的次高值为分支节点,以此方法构建完整决策树,接着根据树结构获得IF-THEN形式的分类规则,最后采用关联规则对教学质量评估进行一致性验证,具体流程为,

1)从教务平台获取英语教学评估数据包;

2)按照表1指标对数据进行初始化,生成待评估样本;

表1 评估指标

3)计算所有指标熵增量值生成决策树;

4)采用关联规则方法验证决策树生成的英语教学质量评估分类规则.

其中,决策树生成过程和关联规则验证具体步骤如图2所示.

图2 教学质量评估流程

3 实例仿真

为了验证决策树和规则关联分类在英语教学质量评估中的性能,进行实例仿真.本文数据集源自某高职院校教务处提供的该校2020年秋季学期大学英语课程的相关数据,包括课程、教师及评教数据,按照表1的相关指标属性提取值构建教学质量评估样本.首先对评估样本进行决策树分类获得教学质量分类规则,然后采用规则关联求解频繁集,验证决策树算法的有效性.

3.1 决策树的分类

将待评估的教学质量数据按照表1的9项指标逐条生成数据记录,然后按照前述方法计算9项指标的熵增益,其统计结果如表2所示.

表2 评估指标熵增益

根据表2的Gain(A)值,职称属性有最大值0.071,因此职称属性为决策树根节点,根据职称的4个属性值产生4个不同的分支,然后选择教学态度为分支节点继续构建决策树,继续根据Gain(A)值来选择分支节点不断扩展决策树,直到所有Gain(A)值节点都已经计算完毕,最后根据树结构获得的IF-THEN分类规则.其中评分为优秀的分类规则预详见表3.

表3 分类与评分优秀规则

3.2 关联规则挖掘

采用关联规则方法寻找各指标之前的潜在关系.教学评价得分为90分以上的记录共30条,记为D1,对得分在90分以上的记录.统计结果见表4.

表4 评分为90分以上的数据统计

计算表4各指标的置信度与支持度,去掉低值指标,根据降序排序,选择值高的生成频繁集.设置min-support=5%,min-confidence=20%,筛选出符合该条件的频繁集,统计结构如表5所示.

表5 单个属性的频繁项目集

进一步关联分析,设置条件min-support=5%,min-confidence=30%,得到两个属性的频繁集.从表6得,学历、职称、教学态度和课程类别对英语教学质量影响明显,而教龄及多媒体熟练程度对英语教学质量影响小.根据表6生成的项目集继续强化条件,min-support=5%,min-confidence=45%,可获得的满足条件的集合.

表6 两个属性的频繁项目集

从表7可得,满足confidence>45的指标属性共有5组,分别是{X2,Z3,T1}、{X3,Z3,T1}、{X2,Z4,T1}、{X2,Z2,T1}和{Z3,T1}.结果表明:具有好的教学态度的副高职称以上的硕博教师更能获得更高的评价分数,这与3.1节的IF-THEN结果一致性高.这说明职称和学历对英语教学质量影响大,在英语教学师资配备上要多配学历高且教学经验丰富的教师,此外,教学态度好也是影响教学质量关键的因素.关于confidence阈值的选择,在实际应用情况中,选择应当合理,选择的值过高,虽然选择出了关联性非常强的属性,但是也容易忽视中等关联性指标属性,可能因为计算累计误差会漏掉部分影响教学质量评估的关键指标,不利于教学质量的全面评估;但是若选择的值过低,会造成关联指标过多,指标评估失去实际意义.

表7 项目集(min-confidence=45%)

4 结语

采用决策树和规则关联分析方法用于英语教学质量评估研究,通过决策树生成教学评估关联规则,然后通过规则关联计算置信度得到频繁集,通过两种方法的教学质量评估分析,得到了相似的教学质量评估结果,表明本文方法对英语教学质量评估的有效性好,有较强的适用价值.下一步研究可进一步增加指标属性及属性类别,提高英语教学评估指标全面性,再者优化决策树算法,提高其根据熵增益构建树的效率,提高大规模英语教学评估样本的质量预测及评估适用性.

猜你喜欢
决策树关联规则
撑竿跳规则的制定
基于决策树和神经网络的高血压病危险因素研究
不惧于新,不困于形——一道函数“关联”题的剖析与拓展
数独的规则和演变
“一带一路”递进,关联民生更紧
决策树和随机森林方法在管理决策中的应用
奇趣搭配
让规则不规则
智趣
决策树多元分类模型预测森林植被覆盖