基于优势粗糙集的属性选择与集成分类方法设计

2019-11-12 08:10富雨晴

价值工程 2019年28期

富雨晴

摘要：粗糙集理论是一种处理不确定信息的有效工具，利用其可在无任何先验信息下获取属性约简子集。本文采用优势粗糙集理论中的排列互信息和最大相关最小冗余相融合技术进行属性子集选取，在每个属性子集上对五种决策树进行训练并作为基础分类器，并按照投票机制融合个体分类器的输出得到最终决策结果。在实际数据集上的实验表明，基于排列互信息和最大相关最小冗余方法得到属性子集能够反映数据本质信息，使得分类算法有较好的准确率。同时，与单个决策树的分类结果相比，融合决策树具有较好的分类效果。

Abstract： Rough set theory offers a new effective tool for dealing with uncertain information. Its typical feature is to obtain a subset of attribute reductions without any prior information. In this study， a fusion technique by combining the attributes' mutual information and the maximum relevance minimum redundancy in the dominant rough set theory are used to select the attribute subsets. Five decision trees are learned on each attribute reduction subset as some basic classifiers， and then the output of the individual classifier is fused according to the voting mechanism to obtain the final decision result. The numerical experiments on the actual dataset illustrate that the attribute subsets can capture the essential information of the data based on the arrangement mutual information and the maximum relevance minimum redundancy method， so the classification algorithm has better accuracy than the classification result of the single decision tree.

關键词：优势粗糙集;决策树;最大相关最小冗余;属性约简

Key words： dominant rough sets;decision tree;maximum relevance minimum redundancy;attribute reduct

中图分类号：TP18;O225 文献标识码：A 文章编号：1006-4311（2019）28-0226-04

0 引言

粗糙集理论是Pawlak于1982年首次提出的[1]，它具有处理不完全和不精确数据的能力，因而引起了许多学者的关注。利用粗糙集理论中上下近似逼近来挖掘一些有用的信息，并用于指导实践活动。该理论已被广泛用于特征选择[2-3]，规则提取[4]，分类[5-6]等相关问题求解中。在Pawlak粗糙集中，利用等价关系生成的等价类来近似目标集，其操作过程简单，但会受到信息系统数值类型的限制。因此，基于等价关系定义的经典粗糙集只能处理离散的信息表，对于连续型信息表则要通过离散化方法对数据集进行预处理。然而，离散化过程未考虑结果的语义描述，缺少可解释性。连续型数据往往具有序关系特性，而离散化后的结果是完全无序的，容易导致信息损失。此外，面对包含名义型、区间型等多种数据类型且带有不完备和多尺度特征的数据集，许多研究者引入了不同的二元关系来提升粗糙集问题求解的能力，相应地，Pawlak粗糙集的多个扩展模型已被提出。

通常减少有序结构信息损失的粗糙集方法有两种：模糊粗糙集和考虑序关系的粗糙集。基于优势关系的粗糙集方法（DRSA）考虑了属性值的有序性[6-9]，其将不可分辨关系扩充到了优势关系，不同对象在条件属性上与类标签单调的比较可用单调关系来表示。优势粗糙集以优势类实现集合上下近似逼近，在此基础上处理多准则决策和多准则排序问题[10-13]。DRSA自被提出以来，已被扩展为多种形式来处理各类序信息系统中的知识获取问题，包含特征优势关系[14]、相似优势关系[15]和优势等价关系[16]的优势粗糙集。

优势粗糙集的一个关键应用是可对信息系统和决策系统进行属性约简和规则提取。Hu等人[17]提出了一种基于排列熵的单调分类决策树。排列熵可以作为一种新的有序信息测度，它比Shannon信息熵[18]对单调分类具有更好的鲁棒性。Qian等学者通过在学习基分类器中引入一种保留序关系的属性约简方法，来建立集成单调决策树[19-20]。受以上工作的启发，本文采用优势粗糙集理论中的排列互信息和最大相关最小冗余相融合进行属性子集选取，并在每个属性约简子集上对不同决策树进行训练来作为基础分类器，进而按照投票机制融合这些个体分类器的输出得到最终分类结果。