浅谈数据挖掘技术在燃气行业的应用

2012-09-06 00:54张翀

城市建设理论研究 2012年22期

关键词：数据挖掘应用

张翀

摘要: 本文从数据挖掘技术入手，结合目前燃气集团的业务现状，提出分析和数据挖掘在燃气集团业务中应用的设想和建议。

关键词：数据挖掘，燃气行业，应用

中图分类号：TH138.23文献标识码：A 文章编号：

1. 引言

城市燃气是城市的重要基础设施，直接关系到城市居民的生活和安全，关系到城市经济的可持续发展和社会的稳定。以优质的服务赢得用户，以一丝不苟的态度回报社会一直是我们燃气人孜孜以求的目标。如何在达到较高社会效益的同时提高企业自身的经济效益呢？我认为在通过进一步优化企业管理模式，树立新思想，建立新突破的同时，必须要有全新的企业信息化管理作为保证，要有强大的数据分析能力左右坚实的后盾。

数据挖掘技术是一项日趋成熟的数据统计和整理的方法论，应用多种软件和方法可以对现有纷繁复杂的数据进行归纳，梳理，从中挖掘出可供决策依据的有效数据。

本文从数据挖掘技术入手，针对燃气集团目前的系统现状和数据现状，提出数据整理和挖掘的必要性，并就数据挖掘技术在燃气集团中的应用的设想做下简单的阐述。

2. 数据挖掘技术简介：

数据挖掘(data mining) 是一种透过数理模式来分析企业内储存的大量资料，以找出不同的客户或市场划分，分析出消费者喜好和行为的方法。也有人把数据挖掘视为数据库中知识发现过程的一个基本步骤。知识发现过程以下三个阶段组成：（1）数据准备，（2）数据挖掘，（3）结果表达和解释。数据挖掘可以与用户或知识库交互。

数据挖掘是一个以数据库、人工智能、数理统计、可视化四大支柱技术为基础，我们知道，描述或说明一个算法设计分为三个部分：输入、输出和处理过程。数据挖掘算法的输入是数据库，算法的输出是要发现的知识或模式，算法的处理过程则设计具体的搜索方法。从算法的输入、输出和处理过程三个角度分，可以确定数据挖掘主要涉及三个方面：挖掘对象、挖掘任务、挖掘方法。挖掘对象包括若干种数据库或数据源，例如关系数据库、面向对象数据库、空间数据库、时态数据库、文本数据库、多媒体数据库、历史数据库，以及万维网（WEB）等。挖掘方法可以粗分为：统计方法、机器学习方法、神经网络方法和数据库方法。统计方法可细分为：回归分析、判别分析等。机器学习可细分为：遗传算法等。神经网络方法可细分为：前向神经网络、自组织神经网络等。数据库方法主要是多维数据分析方法等。

数据挖掘常用技术有以下几种：

（1）关联分析法

从关系数据库中提取关联规则是几种主要的数据挖掘方法之一。挖掘关联是通过搜索系统中的所有事物，并从中找到出现条件概率较高的模式。关联实际上就是数据对象之间相关性的确定，用关联找出所有能将一组数据项和另一组数据项相联系的规则，这种规则的建立并不是确定的关系，而是一个具有一定置信度的可能值，即事件发生的概率。关联分析法直观、易理解，但对于关联度不高或相关性复杂的情况不太有效。

（2）人工神经元网络（ANN）

人工神经元网络（ANN）是数据挖掘中应用最广泛的技术。神经网络的数据挖掘方法是通过模仿人的神经系统来反复训练学习数据集，从待分析的数据集中发现用于预测和分类的模式。神经元网络对于复杂情况仍能得到精确的预测结果，而且可以处理类别和连续变量，但神经元网络不适合处理高维变量，其最大的缺点是不透明性，因为其无法解释结果是如何产生的，及其在推理过程中所用的规则。神经元网络适合于结果比可理解性更重要的分类和预测的复杂情况，可用于聚类、分类和序列模式。

（3）决策树（DT）

决策树（DT）是一种树型结构的预测模型，其中树的非终端节点表示属性，叶节点表示所属的不同类别。根据训练数据集中数据的不同取值建立树的分支，形成决策树。与神经元网络最大的不同在于其决策制定的过程是可见的，可以解释结果是如何产生的。决策树一般产生直观、易理解的规则，而且分类不需太多计算时间，适于对记录分类或结果的预测，尤其适用于当目标是生成易理解、可翻译成SQL或自然语言的规则时。决策树也可用于聚类、分类及序列模式，其应用的典型例子是CART（回归决策树）方法。

（4）遗传算法（GA）

遗传算法（GA）是一种基于生物进化理论的优化技术。其基本观点是“适者生存”原理，用于数据挖掘中则常把任务表示为一种搜索问题，利用遗传算法强大的搜索能力找到最优解。实际上遗传算法是模仿生物进化的过程，反复进行选择、交叉和突变等遗传操作，直至满足最优解。遗传算法可处理许多数据类型，同时可并行处理各种数据，常用于优化神经元网络，解决其他技术难以解决的问题，但需要的参数太多，对许多问题编码困难，一般计算量大。

（5）聚集发现

聚集是把整个数据库分成不同的群组。它的目的是要群与群之间差别很明显，而同一个群之间的数据尽量相似。此外聚类分析可以作为其它算法（如特征和分类等）的预处理步骤，这些算法再在生成的簇上进行处理。与分类不同，在开始聚集之前你不知道要把数据分成几组，也不知道怎么分（依照哪几个变量）。因此在聚集之后要有一个对业务很熟悉的人来解释这样分群的意义。很多情况下一次聚集你得到的分群对你的业务来说可能并不好，这时你需要删除或增加变量以影响分群的方式，经过几次反复之后才能最终得到一个理想的结果。聚类方法主要有两类，包括统计方法和神经网络方法。自组织神经网络方法和K-均值是比较常用的聚集算法。

（6）关联分析和序列模式分析

关联分析，即利用关联规则进行数据挖掘，关联分析的目的是挖掘隐藏在数据间的相互关系。序列模式分析和关联分析相似，但侧重点在于分析数据间的前后序列关系。序列模式分析描述的问题是：在给定交易序列数据库中，每个序列是按照交易时间排列的一组交易集，挖掘序列函数作用在这个交易序列数据库上，返回该数据库中出现的高频序列。在进行序列模式分析时，同样也需要由用户输入最小置信度C和最小支持度S。

3. 燃气集团目前数据的现状

目前我们燃气集团正处在大发展的阶段，各个应用系统纷纷上马，已有的各种数据收集手段也多种多样，收集上来的数据格式也不尽相同。企业的决策往往还是来自于经验，没有准确的数据依据。

现在正是建立数据库，明确数据挖掘工作，建设数据分析乃至经营分析系统的大好时机。

4. 数据挖掘技术在燃气集团中的应用设想

针对燃气行业数据的特点和日常操作情况，燃气行业中的数据挖掘建立在对海量数据处理的基础上。城镇燃气输配产品相对稳定，工艺流程基本不变。针对现有生产设备，从企业大量保存的历史数据中提取有用的知识，可以提高过程的控制和操作水平。优化生产及设备因素均已确定的条件下，改变操作条件。随着各种传感器，智能化仪表及数据库的广泛引用，燃气集团在日常生产中积累了大量的过程历史数据，这些数据蕴含了燃气行业的客观规律和操作人员的丰富经验。数据挖掘技术的出现使得从海量数据中提取操作优化信息变得可能，他不仅能对过去的数据进行查询和遍历，并且能够找出数据之间的潜在联系和规律，从中提取辅助决策的重要信息。

有了数据挖掘，还可以更深层次地了解客户，与客户深交，更有效地进行营销，从而为企业扩大原有商机。

有了数据挖掘，可揭露隐含在数据与模式中的闪光点，从原始数据获取崭新知识，从而为企业创造新的商机。

有了数据挖掘，可以更准确地预知未来客户、潜在客户，预知未来的需求和未来的经济状况，大幅提高目标市场营销的准确度，减少无目标的营销策略，从而较其他竞争者优先获得商机。

总之，数据挖掘，使企业从大量数据中获得了深层的、隐含的、潜在的、未来的客户知识，为企业扩大原有商机、创造新的商机、优先获得商机提供非常有利的条件，进而为企业经营提供更有效的营销、销售和服务的决策支持，使数据挖掘成为客户关系管理中最重要的也是最关键的一个组成部分。

有很多成功使用数据挖掘的案例，沃尔玛(Wal-Mart)使用数据挖掘技术，其数据库拥有7000兆字节的数据，主要是关于其销售、存货、运输中的商品、市场统计、顾客统计、财务、商品退货及供应商业绩等。挖掘这些数据主要用于开发沃尔玛3000多分销商店的“个性”，以便管理人员决定每个商店的商品结构，为沃尔玛创造了可观的商业价值。

通过对天津燃气集团的各个信息系统中汇总海量客户信息和业务信息，进行分析和挖掘，决策人员从这些分析和统计中得到战略性的决策信息。可以用于制定目前的工作重点和营销方式，和中长期的发展策略，从而提高客户满意度，吸引潜在客户，进而不断的提高利润，增大业务量，减能增效。

注：文章内所有公式及图表请用PDF形式查看。