人工神经网络在数据挖掘中的应用

2015-03-26 23:22
电子测试 2015年21期
关键词:人工神经网络信息处理数据挖掘

杨 斌

(广州科技贸易职业学院,511442)

人工神经网络在数据挖掘中的应用

杨 斌

(广州科技贸易职业学院,511442)

在数据挖掘中,因为人工神经网络的结构较为复杂,训练时间长,而且理解起来具有一定的难度,在应用过程中经常会出现一些不能理解的模型。本文首先简单介绍了人工神经网络的基本原理和数据挖掘技术,对传统信息处理方法与人工神经网络进行了对比,最后总结了人工神经网络在数据挖掘中的应用。

人工神经网络;数据挖掘

数据挖掘是将隐藏的预测性信息从大型数据库中提取出来,是一项强大的新技术,有着广阔的发展空间。传统决策支持系统只能对已经发生的事件进行分析,而数据挖掘具有前瞻性和自动化特征,能够对企业的未来进行预测,从而为经营管理者提供有价值的信息,这一技术的出现解决了传统决策支持体系业务分析耗时长的问题。数据挖掘工具在数据库中将一些隐藏的模式挖掘出来,找出专家可能遗漏的一些重要信息。由于数据挖掘交互性差、训练时间长、结构复杂,因此在发展之初并没有得到广泛使用。但是人工神经网络功能强大,能够解决许多现实问题,它不仅能够从经验中不断总结和学习以提高自身性能,同时还有极强的环境适应能力,对于噪声数据和缺失信息也能够做到有效处理,在不能定义解决问题的步骤或规则下同样适用。

1 人工神经网络基本原理

人工神经网络是在生物神经系统的基础上发展而来的,主要用于信息处理。它模拟生物神经系统结构,由大量处理单元组成非线性自适应动态系统,具有高度非线性的超大规模实践非线性动力特性,网络的全局作用、大规模并行分布处理及高度的鲁棒性和容错性,有联想记忆、抽象概括和自适应能力,被称之为自学能力,这也是神经元最重要的特征,通过学习能够分析数据中的模式来构造模型,对大量数据样本的学习,发现新知识。神经网络能够通过学习,按照一定的规则自动调节神经元之间的输入/输出,改变其内部状态,使输入/输出呈现出某种规律性。人工神经网络方法很少需要人为进入,因此克服了传统信息处理方法的诸多不足。

2 数据挖掘技术概述

数据挖掘主要分为三个阶段。第一阶段:数据预处理;第二阶段:数据挖掘技术应用;第三阶段:结果解释。在这里我们对常用的几种数挖掘技术进行介绍:(1)人工神经网络:非线性预测模型,实现的方式是在结构上对生物神经网络进行模拟或者训练;(2)决策树:决策组用树状结构表示,对数据集能够实现自动生成分类规则,主要方法有X平方分布自动交互检测和分类与回归树;(3)遗传算法:是比较常用的一种方法。是在进化论的基础上发展而来的。在进行设计时通常选择自然选择、基因结合以及突变等优化方法;(4)最近邻算法:是对数据集中包含的每条记录进行分类,分类组合记录为K个,将最接近的加入到历史数据集中,也可以将此项技术称之为的K-最近邻技术;(5)规则归纳:在统计基础上发展而来的,将有价值的if-then从数据中提取出来。

3 传统信息处理方法与人工神经网络的比较分析

3.1 逻辑与大脑

传统方法模拟的是人脑,将人脑的逻辑和推理过程形式化,把人脑视为黑盒,传统方法的重点在于对元素之间的关注,能够还包括使机器拥有此种能力。而神经网络是对人脑智能功能的模拟,侧重于结构建模,也就是说,神经网络试图创建一个与人脑相似的系统。

3.2 静态外部与动态内部

传统方法的学习是在系统外部发生的,也就是说,需要人为帮助实现学习,在系统外部对知识实现获取,经过编码之后进入到系统中从而实现学习。而神经网络自身具备学习功能,将知识存储成连接神经元的强度,在提交数据集中完成对权重的学习,学习是神经网络的主要工作。

3.3 显性与隐性

传统的方法表示知识采用的是隐性形式,对规则和关系进行改变和检查。而神经网络用神经元之间的互联强度形式实现知识的存储,系统不存在任何一个地方,能够将数值和代码作为显性知识。

4 人工神经网络在数据挖掘中的应用

在数据挖掘中,比较常见的人工神经网络模型有两种:一种是受监督神经网络,另一种是无监督神经网络。受监督神经网络的模型建立是通过数据测试和训练实现的,数据包括输入变量或者数据字段历史数据集,每一个输入量都和输出相互对应。神经网络通过对数据进行训练从而进行预测已知输出和测试数据作为验证的“学习”。其目的在于预测仅的给出输入变量的记录输出。

其中,最简单的是前馈神经网络,一共包括输入层、隐藏层以及输出层三层。每一个层都拥有至少一个处理单元,是对大脑神经元进行的模拟,每一个处理单元的输入来自于它的上一层或者是外界,在进行训练时对权重进行调整。置于网络中的信息不能反馈循环,只能一直向前传输。将人工神经网络应用到数据挖掘中的好处有以下几点:一是精度高,对于信息处理来说,高精度是信息处理的前提,也是开展后续工作的保障。对于一些比较复杂的非线性映射,人工神经网络同样可以做到高度逼近;二是噪声容限,对丢失数据、不完整数据和噪声数据有良好的处理效果。三是与实现假设并无关联,人工神经网络能够通过最新数据更新,对于动态环境来说十分有用。在受监督神经网络中,隐藏节点可以作为潜在变量,在并行硬件上实现神经网络。

5 基于神经网络的数据挖掘

5.1 SOM

SOM的全称是自组织映射,最早是由Teuvo Kohonen提出的。SOM最大的特点在于精密化,对于复杂的、多维度的、多属性的数据能够做到有效观察。SOM的输出在于强调数据特点,然后生成相似性数据项的聚类自动组合。由于SOM具有上述特点,因此,在数据挖掘中最先考虑的就是SOM。

5.2 模糊神经

模糊神经是在神经网络的基础上发展而来的,主要是对本地信息进行操作和学习,并且只能对本地数据进行修改。一个模糊神经系统由三层前馈神经网络组成,第一层为输入变量,中间层为模糊规则,第三层是输出变量,模糊集编码代表连接权。从应用学算法角度来说,这一系统并不是必须的。但它却是最方便的,这主要是因为它具备对数据流的学习以及处理输入功能,在一些特定情况下,可能会采取五层架构,其中第二层及第四层用来表示模糊集。简单来说,神经模糊系统就是拥有模糊规则的系统,在创建系统时对于数据的训练可以从零开始。该系统在进行学习时,需要充分考虑系统的语法属性,这样一来就很有可能对需要修改的数据产生制约。

神经网络在预测、数据分类以及其它方面的精度比较高,但是如果神经网络接受过训练之后将其嵌入到模糊神经系统中是不能解释的,这也是该系统比较大的一个缺点。

5.3 ART2

在数据挖掘领域,聚类分析一直是热点研究话题,同时主要任务就是聚类分析。ART的全称是自适应谐振神经网络,可以有效实现聚类。但是传统ART2在进行数据聚类时缺点比较多。传统ART2在网络接受训练前,必须指定警报参数,而参数配置对聚类结果将会产生直接影响。对传统ART2改进,需要对挖掘数据振幅信息进行充分考虑,能够在一定程度上降低警戒参数要求,而且所获取的聚类结果拥有行政级别的结构。

5.4 反向传播

大部分数据都是可用的,但是对如何将它和输出关联到一起并不能确定。虽然问题看起来十分复杂,但是仍然有解决方法。对拥有正确行为的例子很容易创建成功,输出不仅可以是非数字,而且也可以是模糊的。

6 结语

综上所述,本文对人工神经网络在数据挖掘中的应用进行了详细分析。采用神经网络解决数据挖掘问题是非常有效的一种方式。人工神经网络适应能力强、鲁棒性强、同时还能够实现并行处理,正是由于人工神经网络具有上述种种优势,因此在数据挖掘领域的应用前景非常广泛。

[1]邵有为.人工神经网络在数据挖掘中的潜在应用[J].煤炭技术,2011(30).

[2]常凯.基于神经网络的数据挖掘分类算法比较和分析研究[D].安徽大学,2014.

杨斌、男、出生于:1973-5-2、籍贯:广东龙川 、民族:汉、学位:

硕士、职称:副教授、研究方向:数据挖掘、人工智能算法。

Application of artificial neural network in data mining

Yang Bin
(Guangzhou Vocational College of Technology & Business,511442)

In data mining,because the structure of artificial neural network is more complex,training time is long,and it has a certain degree of difficulty,in the course of application,some can not understand the model.In this paper,the basic principle of artificial neural network and data mining technology are briefly introduced,and the traditional information processing method and artificial neural network are compared. Finally,the application of artificial neural network in data mining is summarized.

artificial neural network;data mining

猜你喜欢
人工神经网络信息处理数据挖掘
东营市智能信息处理实验室
基于Revit和Dynamo的施工BIM信息处理
探讨人工智能与数据挖掘发展趋势
利用人工神经网络快速计算木星系磁坐标
人工神经网络实现简单字母的识别
地震烈度信息处理平台研究
滑动电接触摩擦力的BP与RBF人工神经网络建模
CTCS-3级列控系统RBC与ATP结合部异常信息处理
基于并行计算的大数据挖掘在电网中的应用
一种基于Hadoop的大数据挖掘云服务及应用