基于数据挖掘技术的相关模型与算法研究综述

2023-06-24 17:24张君秋赵建光孟凡明陈丽敏
中国新通信 2023年2期
关键词:决策树权值增益

张君秋?赵建光(通讯作者)?孟凡明?陈丽敏

一、引言

在大数据时代的背景下,早期的一些传统的技术算法已得到了新的改进,同时也衍生出一些新的算法模型,推动着工业生产和互联网行业的发展。新技术的不断发展也伴随着新问题的出现,如今现有的技术难以满足海量数据的处理需要,因此进一步改进模型算法是攻克当前问题的关键。

二、数据挖掘技术

(一)数据挖掘的概念

数据挖掘[1]是一种处理海量数据的技术,是适用于信息社会从大量数据中提取有用信息的需要而产生的新科学,是传统统计学、人工智能、模式识别、数据库等领域的交叉,其结合了传统的分析方法和复杂的统计学算法,应用越来越广泛。

(二)数据挖掘的功能

数据挖掘可以完成数据的总结、分类、关联、聚类[2]等任务。它通过对大量的数据信息进行获取分析,提炼出隐藏的规律,这便体现了描述和预测[3]的性能。表1详细介绍数据挖掘功能。

三、决策树算法

决策树[4]是数据挖掘技术中常用的算法之一,主要解决实际生活中的分类回归问题。任何一棵决策树都由三个部件组成,分别是有指明方向的有向边、内部的分节点和没有后端的叶子节点。每一个内部节点分别表示该数据集的某一个特征指标用于测试;每一个叶子节点代表一个编号,用于区分编号。本文将介绍ID3算法、C4.5算法和CART算法。

(一)ID3算法

从统计学理论知识看,信息熵值[5]和样本的纯度成反比。ID3算法的思想是根据信息增益来对特征指标进行选择,从中选取信息增益值最大的特征指標进行分类,算法采用自顶向下的搜索过程,将可能经过的决策树空间全部遍历完成。

ID3算法使用的分类指标是信息增益,它表示已知特征A的信息情况下使得样本集合不确定性降低的程度。

数据集的信息熵:

(1)

其中Ck这个符号代表D这个集合中的样本子集,该子集属于第k类样本。如果要求某个特征A相对于数据集D的条件熵H(D|A),可以根据下面的公式来计算:

H(D|A)(2)

在上面的公式中,Di表示样本子集,特指集合D中特征属性A的第i个值的子集,Dik表示Di中属于第k的样本子集。

信息增益=信息熵-条件熵。公式如下Gain(D,A)= H(D)-H(D|A),如果所得到的信息增益值[5]越大,则表示使用特征属性A来划分后,得到的结果值的提升纯度就越高。

(二)C4.5算法

C4.5算法是ID3的改进算法,该算法不会对特征值的选取有自己的偏好,该算法进行分类时所采用的标准引入了新的概念:信息增益率。

C4.5算法将训练样本数据集进行综合排序,每两个相邻的样本求平均数,同时分别计算出每个样本的信息增益值,将信息增益值最大的点挑选出来。另一方面,在缺失值这个问题上,我们在研究过程中提出以下两点:一是怎样准确的得出特征属性值的信息增益率;二是怎样划分样本节点最恰当。针对这两个问题,C4.5给出了答案,有的属性特征有缺失值,导致属性不全,该样本会用它自身部分没有缺失值的样本子集进行训练,然后按所占整体比例进行换算。

C4.5有自己的划分标准,它会自己利用得出的信息增益率来克服信息增益的缺点,计算表达式为:

(3)

(4)

HA(D)被称为特征A的特定属性固定值。可以清楚地看出,信息的增益率在选取特征值的过程中也不是随机的,它所选取的特征属性能够被选取的数值范围比较少,也就是说当特征值分母越小时,所得的结果就越大,因此C4.5算法在对特征属性进行分类时并不是直接靠增益率来进行衡量,而是在其中加入一种方法:先把所有的特征属性都为信息增益值的统计计算得出,分别进行对比,找出信息增益值高于平均值的特征属性,然后进一步从较高的信息增益值中选择增最高的特征指标。

(三)CART算法

ID3和C4.5这两种算法在科学理论研究和生产实际中较为常用,但是其生成的决策树组织结构和数据规模都比较大,CART算法有效地避免了这一问题,该算法可以简化已生成的决策树大小,利用二分法大大提高了一棵决策树的工作效率。

CART算法在实施过程中包括三个环节,分别为剪枝、分裂和树的选择。分裂过程是类似一棵二叉树递归的过程,利用该算法工作时输入和测出的数值既可以是连续型也可以是离散型的,对数据集的类型没有很严格的要求,CART算法会一直生长下去,没有停止生长的节点或准则。剪枝过程从最大的子树开始,每次选择下一个剪枝对象都遵循一个原则,便是找出那个对训练数据熵作用发挥最弱的那个节点,一直到遍历到只剩下根节点,则过程完成。

一般情况下,对数运算对我们的研究过程不算友好,计算量大且复杂,为了将更多的时间用于模型评估上,我们很少使用熵模型。该模型导致在训练过程中很费力,基尼指数很好地避免了复杂的数学运算,同时还简单化了模型的整体结构。基尼指数用来判断模型的纯洁度,基尼系数比较低,则表示纯度越好,其模型的特征值越好,该指标和信息增益的判别是相反的。

(5)

(6)

其中k代表类别属性。

基尼指数[5]本质是一个概率,基尼指数越大,则表明数据集纯度越低。和信息增益类似,基尼系数可以用来衡量所有不均匀的数值分布,基尼指数是一个介于零和一之间的常数,0代表完全相等,1代表完全不相等,当CART为二分类,其表达式为:

(7)

介于零和一之间的数则由上述公式计算得出。如果是在二分类和平方运算中,它的运算过程会更加简单,而且性能也会越来越好。即使基尼指数和熵模型性能很接近,但毕竟二者还是存在差距的,由高等数学理论知识我们知道,ln(x)=-1+x+o(x),则可以将基尼系数[5]理解为熵模型的一阶泰勒展开式,即

(8)

四、BP神经网络算法

(一)隐含层的选取

在构建一个BP神经网络[6]时,需要我们做好隐含层的选取工作。神经网络中各个输出层的节点和输出层的各个节点之间的位置都是已知而且不能随时增减,基本上不会发生改变;而隐含层中各节点的个体由研究者根据自己喜好和训练集的实际情况选择。隐含层中节点的个数要重点把握,不可过多也不可过少,如果设置不当会影响神经网络的训练能力,一般通过这个经验公式可以算出该网络中隐含层节点的數目。如下:,经验公式不是唯一的,我们需要根据自己的需要自行挑选,在这个公式中,h表示此神经网络中隐含层有多少个节点,m代表该网格的输入层中有多少个节点,n代表该网络的输出层中有多少个节点,a是一个常数,作为调节常数,它有一个范围是人为规定的,通常选取十以内的常数。

(二)正向传递

在这种传递方式的训练过程中,输出值的大小受到很多因素的影响。例如上一层当中所有节点的最终输出值之和的大小就会直接影响到最终的输出值结果;在我们训练这个数据集时也许我们会特别注意到,网络中当前的节点和上一层所有节点之间的权值和每一个节点的阈值也是一个直接影响其输出的阈值,还涉及激活函数的选取,都会对最后的输出结果造成影响。下面的公式可以得出结果:

(9)

xj=f(Sj)                                 (10)

这里的f为人为挑选的激活函数,激活函数一般挑选S型的函数,也有研究学者选择线性函数,不管激活函数怎样选取,正向传递的过程不算很难,按照上述公式计算即可得出结果。下面我们将详细介绍一下反向传递的复杂推导过程。

(三)反向传递

在神经网络算法当中,误差信号的反向传递子过程相对正向传递来说比较复杂,此过程是基于Widrow-Hoff学习算法规则的。假设该神经网络的输出层所有分层结果之和为dj,其中n代表学习率,选取的误差函数如下公式:

(11)

BP神经网络在做数据训练时最关键的便是反复的修改连接权值和神经元的阈值,使训练结果达到最优,误差降到最低。Widrow-Hoff法则所选择的训练方式主要是依据相对误差梯度下降,连续反复地调整网络当中的阈值和神经元之间的权平方,在进行这一调整的过程中,注意应该沿着相对误差平方上的偏移方向和相对误差下降速度最快的方向进行调节。在修改一个权值时,要特别注意的是修改向量,不要忽略方向上的修改,需要和当前所在位置上的一个梯度E(w,b)大小成正比,例如,对于第j个神经元的一个输出节点来说。

(12)

假设选择的激活函数是(由人为决定的激活函数选择):

(13)

接下来需要对所选取的激活函数求导,具体计算过程如下:

(14)

那么针对有如下计算过程:

(15)

其中有

(16)

同样对于dj可以得出如下结果,此推导过程同上,不再进行具体的公式推导。

(17)

以上过程也就是δ学习规则的研究和推导过程,通过改变两个神经元之间的权值关系来减少和降低误差,该权值的主要目标是统计系统中实际输出的结果与预期估计时的输出结果之间的误差,这个法则也叫做Widrow-Hoff学习规则。以上内容就是其中针对输出隐含输入层和对于输出第一层之间的输入权值价格调整合理计算操作过程和对于输出第一层的输入阈值价格调整合理计算过程工作原理过程的详细操作说明,而其中针对隐含输入输出层和对于隐含输出层之间的输入阈值合理调整和对于输出输入层以及隐含层等地区的输出阈值[7]合理调整则与数据分析相比,这两种计算方法的阈值计算量和工作过程相对来说较为繁杂,本文不再进行细致研究。

五、算法比较

决策树算法操作简单,分类调度时工作速度快,可用于大量数据的处理。决策树算法是以实际样本作为基础进行归纳学习,从一堆毫无规律、毫无顺序的数据中推测出以决策树展现出来的模型规则,然后使用得出的决策对新的样例进行分析预警,其算法本质是利用一系列的规则对数据信息进行分类预判。

而在神经网络算法中,其机器学习的过程中就是训练过程,就是将数据信息集合手动输入到神经网络中,并且按照一定的算法去调节神经元之间的权值数据,使得在网络中接收时可以得出合适的输出值。

BP神经网络实现了一个从输入到输出的映射过程,数学理论证明了三层的神经网络就可以以任意精度逼近任何非线性连续函数,体现了其具有较强的非线性映射能力。同时,该算法能够通过学习自适应性地将学到的内容记忆于网络的权值中,具有较高的自学习能力和自适应能力。BP神经网络在它的局部或者部分的神经元受到破损后不会对整个训练结果造成很大影响,具有一定的容错能力。

基于以上优点,人们在逐渐对BP神经网络的研究中也逐渐发现该算法的局限性。如果从统计学的角度分析,BP神经网络的改进只改善了局部,如果使用此网络解决线性算法之外的问题,网络中神经元之间的权值和阈值会根据局部数据的改变自行变化并调整,导致造成局部极值的现象,从而造成此模型的训练失败;BP神经网络的结构目前还没有统一的选择标准,一般都根据实验者的经验来选取定义,如果结构建立过大,会造成训练的时间过长,导致效率不高;若选择过小,则有可能导致网络结构不够收敛。

六、结束语

本文通过介绍数据挖掘算法可以从大量的数据中找到有价值的信息从而解决相关问题外,还对决策树和BP神经网络算法的结构和优缺点进行阐述,希望本文能够为相关探究基于数据挖掘技术的算法模型提供参考。

作者单位:张君秋 赵建光 孟凡明 陈丽敏 河北建筑工程学院 信息工程学院

参  考  文  献

[1] 刘彦戎,杨云. 一种矩阵和排序索引关联规则数据挖掘算法[J]. 计算机技术与发展,2021,31(02):54-59.

[2] 潘巍. 对数据挖掘算法的优化及应用探析[J]. 电子元器件与信息技术,2020,4(07):91-93.

[3] 盛夏. 数据挖掘算法研究[J]. 决策与信息(下旬刊),2010(06):163.

[4] 鱼先锋,耿生玲. 模糊智能决策树模型与应用研究[J]. 计算机科学与探索,2022,16(03):703-712.

[5] 谢鑫,张贤勇,杨霁琳. 融合信息增益与基尼指数的决策树算法[J]. 计算机工程与应用,2022,58(10):139-144.

[6] 张敏,彭红伟,颜晓玲. 基于神经网络的模糊决策树改进算法[J]. 计算机工程与应用,2021,57(21):174-179.

[7] 王忠,万冬冬,单闯,等. 基于反向传播神经网络的拉曼光谱去噪方法[J]. 光谱学与光谱分析,2022,42(05):1553-1560.

基金项目:河北建筑工程学院硕士研究生创新基金项目“基于YOLO改进算法的城市交通标识检测”(项目编号:XY202237)。

张君秋(1999-),女,汉族,河北唐山,硕士研究生,研究方向:计算机视觉;

通信作者:赵建光(1978-),男,汉族,河北大名,博士,教授,研究方向:感知互联与智能计算。

猜你喜欢
决策树权值增益
一种融合时间权值和用户行为序列的电影推荐模型
基于增益调度与光滑切换的倾转旋翼机最优控制
CONTENTS
基于单片机的程控增益放大器设计
一种针对不均衡数据集的SVM决策树算法
基于Multisim10和AD603的程控增益放大器仿真研究
决策树和随机森林方法在管理决策中的应用
基于权值动量的RBM加速学习算法研究
基于多维度特征权值动态更新的用户推荐模型研究
基于决策树的出租车乘客出行目的识别