大数据挖掘中的数据分类算法技术研究

2016-11-09 23:24郭龙
数字技术与应用 2016年9期
关键词:技术研究

郭龙

摘要:近年来,随着我国经济的持续稳定增长以及国内国际环境的稳定,在为科学技术创造良好的发展空间的同时,也有效的推动了科学技术尤其是计算机技术的发展和创新。在这样的背景之下,如何利用数据的分类算法,对相关的电子数据进行处理,成为了有关部门以及人员亟待解决的问题。本文基于此,分析了几种处理数据分类算法,并讨论如何在大数挖掘的背景下,利用数据分类算法技术对有关的数据进行分类处理。

关键词:大数据挖掘 数据分类算法 技术研究

中图分类号:TP311.13 文献标识码:A 文章编号:1007-9416(2016)09-0127-01

当前,在经济发展以及数字化办公的背景之下,越来越多的行业都在实际的管理环节中引入了大数据挖掘的概念。事实上,这种情况的出现为计算机产业的发展带来了机遇,也为其制造了挑战。为了更好的面对时代发展的趋势,对相关的数据进行有效的分类处理,相关的领域内逐渐加强了对于数据分类算法技术的学习和运用。目前,常用的数据分类类型包括:包括决策树类、Bayes 类等,对此笔者进行相关具有的阐释。

1 数据挖掘以及分类算法的含义

所谓的数据挖掘指的是在浩渺如烟的数据中之攫取有用的、价值比高的知识数据的过程,事实上,数据挖掘是数据库技术发展的必然结果。由于数据挖掘顺应了科技发展的需求,因为其在运用的过程中,涉及到诸如是零售、金融、医疗、通讯等诸多领域之中。

而分类算法指的则是通过对已知类别的数据进行分析,并对其中的分类规律进行总结,并以此为基础,对新的数据类别进行预测。事实上,分类算法是一个将未知样本分到几个已存在类的过程,而这个过程的实现主要包含两个方面:一是以已知的训练数据集为依托,构建用于描述预定的数据类集或概念集的新模型,二是在新构建的模型的基础上,对未知的数据进行分类,继而推动了数据的合理处理。

2 数据挖掘的主要分类算法

由于在数据挖掘背景下,需要针对数据的具体情况,采取不同的分类算法进行相关的分类处理,基于此,就使得现存的数据分类算法存在多种,它们的出现能够有效的推动数据的分类处理,继而推动了计算机技术的发展。关于数据分类算法的种类,笔者做了相关的总结,具体内容如下。

2.1 决策树分类算法

所谓的决策树分类法,又被称之为贪心算法。该种算法采取的是由上而下的分治方式,其最大的优点在于其能够在杂乱无章的事例、数据中推导出以决策树为表现形式的分类规律。事实上,这种分类算法是在实例的基础上进行相关的数据归类以及处理。由于其在实际的运用过程中对噪声数据的处理具有良好的健壮性,因而其逐渐成为各领域在对数据分类处理的过程中,所采取的最为普遍的算法。

在决策树算法的构建过程中,其每一个节点所表示的则是某一个属性的测试,而分制代表的就是数据测试输出。而在对未知的数据样本进行分析的过程中,采取的往往是将样本的属性值与决策树相比较的方法。为了更加直观的了解到决策树算法的形成、操作过程,笔者进行了相关的算法流程图的绘制,具体的内容见图1。

事实上,决策树算法的传统模式为C4.5算法,该种算法具有规则简单,方便操作的优点,但是随着近年来计算机技术的不断普及和运用,使得需要处理的数据逐渐增多,而C4.5算法只能处理内存量较小的数据,在对大批量数据进行分类处理的过程中时常会出现对算法运行受阻而无法继续运行的状况。而这种情况也就导致了C4.5算法无法适应现阶段的数据分类处理的需要,逐渐退出了的数据分类处理工作环节中。

但随着相关人员结合时代发展的需要,使得C4.5算法在原有的基础之上获得了改良和突破,并推动了以C4.5算法为母本的SLIQ算法以及SPRINT算法的诞生。改良后的决策树算法适应了大数据挖掘的需要,推动了数据的分类与处理工作的有序进行。

2.2 Bayes分类算法

Bayes分类算法是以概率统计学的相关理论知识为基础而诞生的,虽然这种算法在实际的数据分类处理的过程中获得了较为广泛的运用,但是其也存在着诸多的缺点。

2.3 CBA分类数据算法

CBA分类数据算法是以关联规则为基础的数据算法。这种算法的实行往往需要依托于数据构造分类器。目前,CBA算法在运行的过程中主要依赖于Apriori算法技术的使用,这种技术的优点就在于能够将潜在的数据关联规则表面化,从而为方便了对于数据的归纳整理。

事实上,CBA分类数据算法也存在着诸多的缺点,比如因为数据分类是容易出现漏洞,继而导致了相关的优化作用难以发挥出来,并最终降低了该种算法的运行效率。

3 结语

近年来,随着计算机技术的发展,使得大数据挖掘逐渐成为时代发展的潮流,在这样的背景之下,如何推动数据分类算法的运用成为了亟待解决的问题。本文笔者从大数据挖掘以及数据分类算法的定义入手,对数据分类算法的种类、发展以及相关的优缺点进行了相应的分析,笔者认为,在实际工作中对于数据分类算法的选择,往往需要依据数据分析速度、可扩展性和结果的准确性等参数,继而选择出相应的数据分类算法。

参考文献

[1]李玲俐.数据挖掘中分类算法综述[J].重庆师范大学学报(自然科学版),2011(4):44-47.

[2]饶琛.大数据挖掘中的数据分类算法技术研究[J].电子技术与软件工程,2015(14):204.

猜你喜欢
技术研究
装配式住宅结构自动拆分与组装技术研究
浅谈机械动态与渐变可靠性理论与技术
工业建筑工程中大体积混凝土的施工技术分析
园林水景饰面工程施工技术探讨