基于粗糙集的数据挖掘算法研究

2018-12-24 15:06许晓燕三门峡职业技术学院

数码世界 2018年7期

许晓燕三门峡职业技术学院

引言：粗糙集理论是由波兰著名数学家Pawlak Z所提出的，该理论在分析与表达不完整与不准确数据中非常适用，粗糙集理论是通过对一个或一组机构中所产生的信息数据进行测量与观察，以实现对信息数据的分类，并从中找出数据所具备的某些特点、对象及过程等，以为认知科学与信息科学提供可靠的研究方法与全新的科学逻辑，其也是实现信息智能化处理的重要处理技术。通常来说，数据挖掘作为知识发现中的关键环节，其是在某种约束的基础上，通过数据发现与数据分析算法的应用，以从中找出特定模式。对数学挖掘进行研究的主要方法有回归、分类、归纳及聚类等，正是由于数据挖掘中存在诸多不准确与不完整的数据，这也使粗糙集理论成为数据挖掘中的重要方法之一。不过，由于大量数据的产生，使数据集也变得越来越复杂，仅仅采用粗糙集理论来对数据集进行分类，其结果的稳定性与精度也往往较差，而且在交互验证方面的能力较为欠缺，因此需要将其与其他方法进行结合应用才能取得更好的应用效果。为此，本文便针对上述不足，对基于粗糙集的数据挖掘算法进行了研究，并将决策树与粗糙集结合起来，以提高数据挖掘算法的各方面性能。

1 粗糙集理论分析

粗糙集理论是以现有知识来划分特定问题中的论域，并根据划分后论域中各个组成对概念的支持程度来进行分类，这种支持程度包括肯定支持、不支持与可能支持。其通过上下限定域与边界这三个近似集合来对上述三种支持程度进行表示。

1.1 粗糙集定义

在粗糙集理论中共包含三大定义，在第一定义中，论域由U进行表示，该论域属于一个对象集合，在论域U上存在一个划分R，由此可称＜U，R＞是近似空间，当并且时，则任何满足该条件的，其均为论域中的等价关系，由此可判定为和P之间具备不可分辨关系，可利用来对这种关系进行表示。当时，则的下近似集与上近似集分别可表示为与，而X的边界域则可表示成。在第二定义中，在某一知识系统中，可将其表示为，并且在该知识系统中，其对象集合、属性集合以及属性值集合分别由U、Ω与进行表示，各个满足的均存在一个映射函数，可由对其进行表示，对于来说，可将其表示为，其代表对象中第个属性所具备的值。在第三定义中，可将论域U的分辨矩阵进行定义，使其表述为，而在该知识表述中的，可表示为，通过该分辨矩阵的定义，能够对粗糙集Ind(Ω)进行转换，使其成为M(Ω)。

1.2 粗糙集在数据挖掘中的知识表达

精糙集在数据挖掘的知识表达中，主要是通过决策系统来表达知识的，其也是数据挖掘中对知识进行表达的重要方式，可以说，决策系统自身便是一个包含有决定域的系统。设定，由来表示决策知识系统，即在中包含有一个特定子集，该子集代表条件属性集合，而在中还包括一个特定子集，该子集可用来对决策属性集合进行表示。在该决策系统中，可将其分辨矩阵进行定义，即其中可表示为决策系统中，当Ind(C,D)表示为时，其在该决策系统中具备不可分辨关系。在决策系统所包含的条件属性C中，与其相对应的约减集则属于非空子集，则相等，其约减可表示成，而全部约减集之间的交集则可表示为之间相等。

2 基于粗糙集的数据挖掘算法研究

在基于粗糙集的数据挖掘算法中，其挖掘数据库中存在的规则需要通过以下步骤来实现，第一步为预处理步骤，预处理能够实现数据库中所包含的初始数据与粗糙集之间的形式转换，同时对决策与条件属性进行确定；第二步为数据约减，通过对不可分辨矩阵的生成以得到相应的约减属性集；第三步是挖掘规则，首先要根据约减属性集来建立约减信息表，然后通过可信度阈值来对规则进行挖掘。基于粗糙集的数据挖掘算法共分为两种，第一种为分辨矩阵生成算法，该算法将输入到数据库当中，以使初始数据和粗糙集进行形式转换，进而输出相应的分辨矩阵，即。该算法共分为六步，第一步是将进行转换，从而得到一个维度为的空属性集矩阵；第二步是根据得出的空属性集矩阵来生成分辨矩阵，并由分辨矩阵得到；第三步是对分辨矩阵进行求核，如果，在中添加；第四步是把包含的矩阵进行元素置空；第五步是得出矩阵中次数出现最多的属性，用来表示该属性，然后将其添加到当中，并将矩阵中包含的属性进行元素置空；第六步是假如不等于，则需要返回到第五步中进行求核，如果相等，则算法结束。第二种为规则挖掘算法，该算法的输入内容包括可信度的阈值，由来对该阈值进行表示，此外输入内容还包括条件属性。规则挖掘算法的最终输出为规则集。规则挖掘算法在应用过程中共分为三个步骤，第一步是将条件属性作为输入条件；第二步是在中获得和C1属性相一致的元素，并对元素的数量进行统计，由N代表元素数量，然后找到和属性D与C1均一致的元素，并对元素数量进行统计，由M代表元素数量；第三步是如果划分大小与N之间的商比可信度阈值高，并且挖掘出的规则不处于规则表中，则对该规则进行输出。

决策系统通过计算能够生成该系统的分辨矩阵，通过该分辨矩阵能够得出与相等，并以约减作为出发点，以此衍生出相应的节点，并通过决策系统将各个节点中满足的节点规则进行记录，然后将其存储到规则集当中。粗糙理论是根据等价关系来生成近似空间的，在该近似空间中所包含的上近似集与下近似集能够为人们在找出确定与不确定区域中带来帮助，从而使该理论能够适用于数据挖掘工作中。

3 基于粗糙集的数据挖掘算法的优劣势及解决策略

通过上述分析可知，基于粗糙集的数据挖掘算法是利用等价关系来对集合中的对象实施分类的，通过对集合进行某种形式的划分，以使其能够和等价关系相对应，并根据等价类粒度来进行信息处理，从而使信息得到简化。基于粗糙集的数据挖掘算法在应用方面具备以下优势，其一，其可通过固定算法来对问题进行表达与解决，并且能够通过软计算的方式来对不确定、不完整与不精确的数据进行处理，从而使算法具备成本低与鲁棒性强的优势；其二，基于粗糙集的数据挖掘算法不需预先提供某种属性或特征来进行数学描述，其能够对问题所具备的潜在规律进行直接挖掘，同时其在不确定性问题的描述方面较为客观；其三，基于粗糙集的数据挖掘算法能够适用于各种确定与不确定的数据分析，并且能够对不完整与不精确的多变量数据进行分析，使数据得到简化的同时，找出数据中存在的知识与推理决策规则，其数学意义非常清晰；其四，基于粗糙集的数据挖掘算法是对不确定性与模糊性问题进行处理的重要工具，其能够通过上下近似集差来对问题的不确定性进行描述，并且能够计算含糊元素的数量，有效降低了算法的随意性。虽然粗糙集的数据挖掘算法具备非常明显的应用优势，但其自身也存在一定的不足，随着数据量的不断增长，决策表规模也不断扩大，仅仅通过粗糙集的应用是难以满足各种类型数据集处理的，而且采用粗糙集理论来对数据进行挖掘后分类，其分类结果常常是确定的，这也使算法的交互验证能力较差，造成数据挖掘的结果稳定性较差，精度较低。因此，需要在基于粗糙集的数据挖掘算法中引入其他方法来对该问题进行解决。

4 基于粗糙集与决策树结合的数据挖掘算法

为了解决基于粗糙集的数据挖掘算法交互验证能力差、结果稳定性不足、精度较低的问题，需要将决策树引入到该算法当中，以使粗糙集理论能够和决策树进行结合应用，决策树作为一种归纳推理算法，其在各个领域中的应用十分广泛，决策树的分类精度较高，并且其构造也较为简单，非常适用于噪声数据的处理，同时考虑到单变量决策树往往具备较大的规模，处理全部的数据集是无法实现的，因此需要通过多变量决策树来降低决策树的规模，以使分类精度得到相应的提高。具体实施如下：首先是对决策表进行预处理，采用基于粗糙集的数据挖掘算法来对数据集进行属性约减，以使冗余属性得以清除，进而使决策表的维度降低，然后通过聚类技术的应用来划分等价类对象，以使同组对象的相似性更大，并从各个组中提取一个对象当作处理样本，以使数据量减少，然后将属性作为权重，并引入到相似度求解公式中，这样能够使数据对象具备更高的相似度，此外，还需要将属性集的重要程度当作决策树中节点的衡量标准，并将两等价类之间的相对泛化当作决策树中节点检验的标准，同时确保各个节点的属性个数不能超过两个。

5 结束语

综上所述，本文通过对粗糙集理论进行分析，明确了粗糙集的定义及其知识表达，并对基于粗糙集的数据挖掘算法进行了深入的研究，阐述了粗糙集理论在数据挖掘算法中的具体应用，分析了其应用的可行性，在此基础上分析了基于粗糙集的数据挖掘算法的优势与不足，并针对其不足之处提出了相应的解决策略，通过粗糙集与决策树两种方法的结合来进行数据挖掘，不仅能够改善数据挖掘算法的交互验证能力，还能提高数据挖掘结果的精度与稳定性，从而使基于粗糙集的数据挖掘算法更能满足人们的数据挖掘需求。