基于数据挖掘技术的高职信息资源获取研究

2016-05-18 08:34邓连瑾
天津职业院校联合学报 2016年4期
关键词:剪枝决策树增益

邓连瑾

(天津渤海职业技术学院,天津 300221)



基于数据挖掘技术的高职信息资源获取研究

邓连瑾

(天津渤海职业技术学院,天津300221)

摘要:高校信息系统经过多年运行,积累了海量综合反映学生各方面学习特征的数据,充分利用这些信息将极大改进教学工作。但从这些海量数据中提取出规律性的信息并指导教学工作,却是信息系统使用的瓶颈。文本提出了采用C4.5决策树这一数据挖掘领域的重要算法,为海量数据提取提供了一条行之有效的途径。

关键词:数据挖掘;高校;C4.5

一、 引言

近年来,随着教育信息化水平的进一步提高,高校信息管理系统经过多年运营,存储了海量历史数据,从这些不断积淀的历史数据中挖掘出有用信息将会对提高高职院校教学工作起到很大作用。作者经过多年探讨和研究,最终选择以数据挖掘技术来解决从这些海量历史数据中抽取有用信息的难题,进一步推动了高职院校教育信息化工作。

数据挖掘(Data Mining)就是从海量数据中抽取出潜在的、有价值的知识(模型或规则)的过程。它融合了数据库、人工智能等等多个领域的前沿理论,能提取海量历史数据中隐藏的、并且具有应用价值的深层信息。目前在我国教育领域,该技术的应用研究还处于初级阶段。本文结合自身多年高职教育实际工作经验,对该技术在高职教育信息化中的应用展开深入研究。

二、 数据挖掘技术简介

数据挖掘(Data Mining)就是从海量数据中,抽取出潜在的、有价值的知识(模型或规则)的过程,属于一种深层次的数据分析方法。它是一门交叉学科,包括统计学、数据库技术、模糊数学、模式识别等多种相关前沿技术。该技术主要由挖掘算法、海量历史数据、数学建模能力这三个部分组成。

作为一种有效利用海量数据资源的技术手段,数据挖掘在教育领域具有广阔的应用前景。只有正确理解数据挖掘的技术特点,才能减少应用的盲目性,充分发挥其技术优势。下面简要介绍数据挖掘的几种技术方法。

(一)关联规则

关联规则,是指挖掘用来发现数据集中数据之间的关联关系,是将数据挖掘技术应用在有效提取海量教育历史数据中有用信息这一教育领域,将有非常高的利用价值和发展前景。但是在实际研究过程中,只有正确理解该技术的特点才能避免盲目性,降低研发过程中的损失,使研究更有方向性,更能充分发挥该技术的优势。

(二)分类与预测

对海量原始数据进行分类和预测是数据挖掘的另一种重要方法。它针对已有数据集,构建出一个分类函数或模型,从而将数据集中数据分别映射到已识别出的类别中。预测是从已有数据中自动推导出推广的模型,即对未知数据进行预测。

(三)聚类规则

聚类是一种比较常见的处理过程,其依托已有数据,将海量原始数据按照某种潜在的相似性进行归类,最终得到若干种类别。归类的目标是类别内部个体关系尽量近,类别之间个体关系尽量远,从而达到一种“抱团”效应。和上文所述的分类方法不同,最终得到的不同类别不是事先预定的,而是在数据处理过程中逐步产生的。

(四)孤立点分析

孤立点是指数据集中与多数数据的特征或行为完全不一致的数据。早期数据挖掘算法中,习惯将孤立点从数据集合中删除,以保证数据的纯洁性。经深入研究发现孤立点可能代表了某些具有较大应用价值的特殊规则,因而需对其作特殊处理。

(五)演变分析

演变分析是指根据已有数据的特征对数据的发展变化作出预测与分析。该方法主要应用于对时间序列数据的分析。

数据挖掘整个过程一般包括以下七个步骤:问题的理解和提出、数据收集、数据处理、数据变换、数据挖掘、模式评估、知识表示,上述各过程不是一次完成,某些步骤或全过程均可能出现重复进行。

1.问题的理解和提出:在开始数据挖掘之前,最基础的工作就是理解数据集和相关业务问题,在此基础上提出问题,并明确数据挖掘的目标;

2.数据收集:广泛收集源数据,并以数据库等形式进行存储,为下一步数据挖掘准备;

3.数据处理:对收集的源数据进行预处理,例如去除噪声数据等等,去除各干扰因素的影响,使数据能够真实反映挖掘对象;

4.数据变换:针对后面数据挖掘的要求,将经过去除噪声数据处理后的数据进行转换,使其更加适合数据挖掘操作;

5.数据挖掘:可以利用单一或复合的数据挖掘方法对数据进行分析,挖掘已确定的目标所需要的各种规则、趋势、类别、模型等;

6.模式评估:对挖掘后发现的各种规则、趋势、类别、模型等等进行评估,从而保证挖掘结果的正确性;

7.知识表示:将挖掘结果以可视化的形式提供给用户,以便使用。

为初始数据建立模型是数据挖掘技术的关键步骤。同一数据源,采用不同的建模方法,其建模结果也不相同,因此建模技术才是数据挖掘技术的核心。通过对该技术的深入研究,目前已经发展出诸如神经网络方法、遗传算法和决策树法等多种建模方法。其中决策树法应用最为广泛。

决策树法的核心思想是将原始数据作为训练数据集,先对其进行分类,在分类过程中逐渐形成树结构。如果仅根据已有的原始数据不能形成正确的分类树,则补充一些例外数据进行分类,重复上述过程直到形成正确的决策树分类。在数据挖掘过程中可以根据决策树分类结果进行预测。决策树由分支、决策节点和叶子组成。其中最上面的节点是根节点,向下每一个分支是决策节点或叶子节点。决策节点代表对当前的一个问题进行决策,决策的依据就是该节点对应于待分类对象的各项属性。树中每个叶子节点都代表一种分类结果。利用决策树进行分类的过程即沿已有决策树自上而下进行不断决策的过程,在每个决策节点都会依据当前对象属性进行一次决策,走向下一个分支,重复进行该决策过程,最终到达叶子节点,获得判断结果。数据挖掘领域很多建模方法均需要事先熟知决策所属领域的相关知识,设定相关决策参数。根据上述算法流程可知,决策树算法的优势在于不需要这些领域知识,并根据这些知识设定决策参数。因此该算法适用于探索性领域的数据挖掘。

由J.Ross Quinlan提出的C4.5算法是国际上公认的最具影响的基于信息熵的决策树算法,它根据属性集的取值进行分类。该算法源于ID3算法,但在以下几方面进行了优化。

(1)对源数据要求较低,能够对不完整的数据进行处理;

(2)可以在决策树的构造过程中剪枝;

(3)不仅能够处理离散数据,还能够完成对连续属性进行离散化处理;

(4)原ID3算法使用信息增益选择属性,改进后的算法使用信息增益率来选择属性,解决了选择属性时偏向选择取值多的属性的问题。

经过对大量原始数据的分类测试对比,证明改进后的C4.5算法较原始的ID3算法生成的决策树更小,生成规则更简便,而且其分类效率更高,性能更优越。

三、 数据挖掘算法研究

C4.5算法实现过程中,有两个最核心的技术点,分别是属性选择度量和树剪枝,下面将分别介绍它们。

(一)属性选择度量

鉴于通过原始数据集的数据挖掘处理,可以获得一个完整的决策树,在对一个新数据记录进行判别时,只需沿这个决策树走下来即可得到判别结果。但是一个数据元组本身有很多属性,该如何对各项属性进行排序是个重要的研究点,其实解决该问题的关键点在于属性选择度量。

属性选择度量决定了给定节点上元组如何分裂,因此又被称为分裂规则。属性选择度量给源数据每个属性提供了秩评定,将具有最高得分的属性作为分裂属性。目前属性选择度量中最为流行的是信息增益和增益率。

假设D是类标记元组训练集,类标记属性具有Ci(i=1,2,...,m)这m个不同值,CiD是D中Ci类的元组的集合,|D|和|CiD|则为D和CiD中元组的数量。

1.信息增益

ID3算法中使用信息增益来进行属性选择度量。该算法在处理决策树中某一节点时,选择信息增益最大的属性作为该节点的分裂属性。采用该属性将使结果划分过程中所需信息量最小。在对D中的元组进行分类时所需要的期望信息为:

(1)

按属性A将D中的元组划分成v个不同的类。此时为得到准确的分类所需要的期望信息为:

(2)

信息增益即为两者之差:

Gain(A)=Info(D)-InfoA(D)

(3)

2.信息增益率

信息增益率使用“分裂信息”值将前述信息增益进行规范化,分裂信息的定义为:

(4)

该值表示将数据集D划分成对应于属性A的v个输出而产生的信息。信息增益率则定义为:

(5)

最终选择具有最大增益率的属性作为分裂属性。

(二)树剪枝

构建决策树过程中,原始数据中的噪声数据会导致所构建的树中某些节点反映的正是这些异常数据。对于这种现象,决策树算法中采用剪枝方法来解决该问题。剪枝方法通常进行统计学度量,剪去最不可靠的分支节点。根据剪枝时间的不同,一般分为两种剪枝方法:先剪枝、后剪枝。

1.先剪枝

先剪枝方法是指在构建决策树过程中,遇到某个节点时根据某一原则停止继续构造基于该节点的子树而达到剪枝的目的。该截止的节点即变为叶子节点,该叶子节点取该节点下原始数据的训练集中最频繁的类作为自己对应的类。该剪枝方法的剪枝原则有如下几种:

(1)根据决策树的高度限制进行剪枝,当超出高度阈值就停止决策树生长;

(2)放宽节点对数据的限制只需其具有相同特征向量,不一定属于同类也可停止继续构造子树;

(3)设置某个该节点最小实例数据数的阈值,当该节点对应实例数据数量小于此阈值时即可停止构造子树。此方法不会遗漏数据量较小的那些特殊情况,而有时这些特殊情况会反映问题的实质;

(4)在每次构造新节点时计算对整个决策树性能的增益,如果该增益小于某个设定的阈值则停止构造新节点。

先剪枝方法存在视野方面的缺陷,即当基于上述某一原则应该进行剪枝、停止构造时,如果依然构造则发现下一步又符合前述原则可以继续构造,因此会导致过分剪枝的情况,造成决策树的缺陷。

2.后剪枝

基于前述先剪枝方法存在固有缺陷,因此中实际构造决策树时更多使用后剪枝方法,即先构造完全生长的决策树,再在此基础上剪去部分多余分支,而改为叶子节点。该叶子节点一般用子树中最频繁的子类来作为自己对应的类。

C4.5算法采用悲观剪枝法,该方法不需要独立的剪枝数据集,而采用原始数据集来构造决策树,并使用它来进行剪枝。具体算法如下所述。

首先定义如下变量:

T:训练集生成的决策树

S:T的子树

L(s):S的叶节点数

K:到达某个叶节点的元组数

J:K中分类错误的元组数

∑K:到达此子树的叶节点的元组个数总和

∑J:此子树中被错误分类的元组个数总和

因此在分类新元组时错误分类个数为∑J+L(S)/2。当采用此决策树分类数据时,假设E为分类错误个数,如下式成立则删掉子树S,并用叶节点代替。

关键算法代码如下:

function tree = make_tree(patterns, targets, inc_node, discrete_dim, maxNbin, base) ;//遍历构建树

[Ni, L]= size(patterns);

Uc = unique(targets);

tree.dim = 0;

tree.split_loc = inf;

if isempty(patterns), return end [m, largest] = max(H);

tree.Nf = [];

tree.split_loc = [];

tree.child = Uc(largest);

return end

Pnode(i) = length(find(targets == Uc(i))) / L;

end

Inode = -sum(Pnode.*log(Pnode)/log(2));

split_loc = ones(1, Ni)*inf;

for i = 1:Ni,

data = patterns(i,:);

Ud = unique(data);

Nbins = length(Ud);

if (discrete_dim(i)),

for j = 1:length(Uc), for k = 1:Nbins,

indices = find((targets == Uc(j)) & (patterns(i,:) == Ud(k)))。

四、 技术应用

由于招生工作是高校重点工作之一,因此对高考毕业生的专业选择进行分析,对招生工作,以及后面的课程建设工作至关重要。初始数据集如下表1所示,它表示的是高校专业相关信息与高考毕业生专业选择之间的关系。

序号专业就业机会起薪课程难易度兴趣是否诜择1金融学2565388454068TRUETRUE2土木工程2215432535672TRUETRUE3国际经济与贸易2144896420257FALSEFALSE4机械设计制造及其自动化1884855315854FALSEFALSE5会计学1713520375062TRUEFALSE6电气工程及其自动化1656524334056FALSEFALSE7经济学1587732480066TRUETRUE8临床医学1377034465075TRUEFALSE9英语1258043363059FALSEFALSE10法学1254556326052TRUEFALSE

表1高考毕业生专业选择初始数据集

五、 总结与展望

随着教育信息化的不断发展,各信息系统中存储的教学信息量不断增长,数据挖掘技术为充分利用这些数据提供了技术基础。本文在分析数据挖掘相关技术的基础上,通过利用C4.5决策树这一数据挖掘领域最常用的方法,对积淀的教学相关数据进行处理,并根据处理结果寻找其隐含的内在联系,最后依据这些内在联系采用有针对性的教学方法,提高教育水平。实践证明,数据挖掘技术具有广阔的应用空间,因此将其应用于高等教育,必将取得良好的应用效果。

图1 在数据集上通过C4.5生成的决策树

参考文献:

[1]美Mehmed Kantardzic著.数据挖掘概念、模型、方法和算法[M].闪四清等,译.北京:清华大学出版社,2003.

[2]Dunham M.Data Mining : Introductory and Advanced Topics [M].Upper Saddle River, N J : Pears on Education, 2003.

[3]Han J, Kamber M.Data Mining : Concepts and Techniques [M].San Francisco : Morgan Kaufmann Publishers , 2001.

[4]Margaret H.Dunham著.数据挖掘教程 [M].郭崇慧,田凤占等,译.北京: 清华大学出版社,2003.

[5]夏火松.数据仓库与数据挖掘技术 [M].北京: 科学出版社,2004.

[6]David Hand Heikki Padhraic Smyth著.数据挖掘原理 [M].廖丽, 宋俊等,译.北京:机械工业出版社,2003.

[7]Lim TS, Loh WY, Shih YS.A comparis on of prediction accuracy, complexity, and training time of thirty three old and new classification algorithms [J].Machine Learning ,2000, 40 : 203-229.

Research on Obtaining of Higher Vocational Information Resources based on Data Mining Technology

DENG Lian-jin

(TianjinBohaiVocationalTechnicalCollege,Tianjin, 300221)

Abstract:through many years’ running, the college information system has accumulated masses of data reflecting various learning characteristics of the students and the full utilization of such information will improve teaching greatly.However, it is a bottleneck for the use of information system to abstract regular information from these masses of data and guide teaching.In this paper, it is proposed o apply C4.5 decision-making tree, an important algorithm in data mining field to provide an effective approach for the extraction of masses of data.

Key words:data mining; college; C4.5

中图分类号:TP751.1

文献标识码:A

文章编号:1673-582X(2016)04-0099-07

作者简介:邓连瑾(1981-),女,天津市人,天津渤海职业技术学院信息工程系讲师,主要研究方向:人工智能与图形图像。

收稿日期:2016-01-22

猜你喜欢
剪枝决策树增益
人到晚年宜“剪枝”
基于增益调度与光滑切换的倾转旋翼机最优控制
基于YOLOv4-Tiny模型剪枝算法
基于激活-熵的分层迭代剪枝策略的CNN模型压缩
基于单片机的程控增益放大器设计
基于Multisim10和AD603的程控增益放大器仿真研究
决策树和随机森林方法在管理决策中的应用
剪枝
程控增益射频宽带放大器
基于决策树的出租车乘客出行目的识别