区间集决策表不确定性度量的修正δ-区间决策条件熵方法

2021-07-07 14:18
内江师范学院学报 2021年6期
关键词:粗糙度度量不确定性

唐 鹏 飞

(四川师范大学 数学科学学院, 四川 成都 610066)

0 引言

粗糙集理论是不确定性分析与智能计算的有效数学工具[1],已被广泛应用于属性约简[2-3]、知识发现[4-5]、规则推导[6]等领域.其对于数据表的不确定性度量是一个重要的研究主题.针对经典决策表,近似粗糙度[1]、知识粒度[7-8]、条件信息熵[9]是刻画其不确定性的基本测度与有效手段.然而,除了经典决策表,实际中还存在区间集决策表[10].区间集决策表是经典决策表的一种扩展,其属性值为两个精确集(即用上下边界集来描述一个不确定概念),从而具有更好的不确定性刻画能力,当前具有相关研究及成果.例如,文献[11]根据区间分析中的区间数,将区间集概念引入到粗糙集中来表示不确定信息;文献[12]基于优势关系,给出四种基于粒度度量的区间集信息表的不确定性度量;文献[13]将区间集引入到概率粗糙近似中,研究了区间集概率粗糙集的单调性;文献[14]基于区间δ-相似关系,研究区间集信息表的不确定性度量.特别地,文献[15]将经典决策表的近似粗糙度与条件信息熵方法拓展到区间集决策表,提出δ-区间近似粗糙度与δ-区间决策条件熵方法.但这两种方法存在以下两方面的不足:一是δ-区间近似粗糙度缺乏对负域信息的刻画,导致计算出的不确定性偏大;二是采用δ-区间决策条件熵计算得到的不确定性度量值反而比考虑一种因素的不确定性度量值小,不符合常理.

本文对文献[15]的两个不足进行改进.首先提出一种同时刻画正域、负域信息变化的δ-区间改进近似粗糙度;然后将δ-区间改进近似粗糙度变形与δ-条件信息熵进行求和,提出一种修正δ-区间决策条件熵方法,并得到粒化单调性等性质;最后通过一个实例对本文所提方法进行有效验证.相关工作将深化文献[15]的结果.

1 基础知识

本节通过文献[15]复习区间集决策表的相关知识和分析其现有不确定性度量方法的不足.

1.1 区间集决策表

表1 区间集决策表[15]

在区间集决策表中,条件属性子集B⊆C及阈值δ∈[0,1]诱导相似关系:

1.2 区间集决策表现有的不确定性度量方法

定义2[15]决策类Dh关于B的下、上近似集别为

决策分类πD关于B的δ-区间近似精度与δ-区间近似粗糙度分别为

(1)

定义2采用双近似构建了δ-区间近似精度与δ-区间近似粗糙度,其中δ-区间近似粗糙度直接描述近似分类的不确切性,其本质是计算下近似集基数与上近似集基数之比,不仅缺乏对负域信息变化的刻画能力,导致计算出的不确定性度量值偏大,而且对粒化结构的变化也不敏感.文献[15]接着对此进行了改进,即将其与δ-条件信息熵进行信息融合,提出了δ-区间决策条件熵方法.

定义3[15]基于B⊆C的δ-条件信息熵为

δ-区间决策条件熵为

(2)

这样,当集成两种影响因素所得到的不确定性度量值,反而小于单个影响因素产生的不确定度量值,显然不符合常理.

命题2[15]1)A⊆B⟹IDHδ(D|B)≤IDHδ(D|A);

2)0≤δ1≤δ2≤1⟹IDHδ2(D|B)≤IDHδ1(D|B);

基于以上分析可以看出,文献[15]提出的不确定性度量存在以下两个问题:一是δ-区间近似粗糙度缺乏对负域信息的刻画,导致计算出的不确定性度量值偏大;二是δ-区间粗糙度与δ-区间条件信息熵融合后所得到的不确定性度量值反而比单个影响因素产生的不确定度量值小,不符合常理.因此,本文主要对以上两个不足进行改进.

2 区间集决策表的不确定性度量

针对上一节提出的两个不足,本节首先对δ-区间近似粗糙度进行改进,然后提出一种新型度量方法,即修正δ-区间决策条件熵方法.

2.1 区间改进近似粗糙度和区间改进近似精度

由于δ-区间近似粗糙度只刻画了粗糙集正域信息变化,忽略了粗糙集负域信息的影响.因此,下面将同时考虑正域信息与负域信息的影响来改进δ-区间近似粗糙度.基于上、下近似集,先给出区间集决策表的边界域定义如下.

定义4决策类Dh关于条件属性子集B的δ-区间边界域为

定义5决策分类πD关于条件属性子集B的δ-区间改进近似精度与δ-区间改进近似粗糙度分别为

(3)

证明

因此,

命题3提供了δ-区间改进近似粗糙度的等价形式,进一步揭示其度量本质(即刻画边界域的大小).

命题4设A,B⊆C,δ∈[0,1],则以下结论成立:

1)如果A⊆B,则

2) 如果0≤δ1≤δ2≤1,则

2)同1)的证明类似.

命题4表明,δ-区间改进近似粗糙度具有关于属性与阈值的双重粒化单调性,能够度量上、下近似产生的不确定性.

命题5设A,B⊆C,δ∈[0,1],则以下结论成立:

证明

2)同1)的证明类似.

命题5表明,Iρ同时考虑决策类的正域信息与负域信息影响后,所得到的近似粗糙度更小,近似精度更大,说明改进后的粗糙度在度量区间集决策表不确定度时要更优一些,下面通过一个例子来进一步说明.

说明Iρ对粒化结构的变化不够敏感,由命题3可知,Iρ的本质在于计算各个决策类Dh关于条件属性集边界域的基数之和与一个定值的比,当粒化结构发生变化时,边界域的基可能是不变的.虽然文献[15]中的δ-区间决策条件熵能够有效地表征粒化结构变化带来的不确定性变化,但该度量采用的是乘积融合形式,使得集成两种因素后的度量值反而小于单个因素的度量值,不符合常理.为了克服该缺陷,下面提出修正δ-区间决策条件熵来改进δ-区间决策条件熵.

2.2 修正δ-区间决策条件熵

定义6决策分类πD关于条件属性子集B的δ-区间近似粗糙熵为

δ-区间近似粗糙熵通过信息函数log2(|πD||U|)与δ-区间改进近似粗糙度作积得到,是一种熵形式度量,而δ-区间改进近似粗糙度不是一种熵形式度量,不能与δ-条件信息熵进行求和融合.其本质上仍是刻画上、下近似产生的不确定性,只是刻画形式进行了转换.

定义7修正δ-区间决策条件熵为

式中:

命题6设A,B⊆C,δ∈[0,1],则以下结论成立:

1)A⊆B⟹AIDHδ(D|B)≤AIDHδ(D|A);

2)0≤δ1≤δ2≤1⟹AIDHδ2(D|B)≤AIDHδ1(D|B);

基于定义7的求和融合定义,命题6所述的粒化单调性自然成立.修正δ-区间决策条件熵融合了δ-区间近似粗糙熵和δ-条件信息熵的优点,既能度量上、下近似产生的不确定性,又能表征粒化结构变化时不确定性的变化.该度量与单一度量方式相比更加全面,可以弥补两种度量之间的不足.最后,下述命题7给出修正δ-区间决策条件熵的非负性,命题8则说明修正δ-区间决策条件熵集成的度量值确实大于单个影响因素产生的不确定性度量值.由此可见,修正δ-区间决策条件熵满足不确定度量的基本性质,并且克服了δ-区间决策条件熵的不足,是一种有效、合理的度量方式.

命题7AIDHδ(D|B)≥0且

证明由于

又因为

命题8设B⊆C,δ∈[0,1].则

证明由于

又因为

3 不确定性度量比较分析

例3这里依旧使用表1给出的区间集决策表.假设

C={a1,a2,a3}⊃B={a1,a2}⊃A={a1},δ1=0.4<δ2=0.5<δ3=0.6.

由此可以计算关于属性集C,B,A及参数δ1,δ2,δ3的相关粒化结构:

通过相关公式,采用以上粒化结构可以计算得到五种不确定性度量,数值如表2所示.

表2 五种不确定性度量比较结果

观测表2,不同粒化结构下的不确定性度量值大小不一,但具有如下的比较结论.

2)在非最细划分情况下,采用δ-区间改进粗糙度计算得到的不确定性度量值都要小于δ-区间近似粗糙度的值,这是因为δ-区间改进粗糙度同时考虑了正域信息、负域信息的影响,优于只考虑正域信息的δ-区间近似粗糙度.与命题5一致.

4 结语

区间集决策表的不确定性是由上、下近似集和粒化结构变化引起的,δ-区间决策条件熵可以用来度量区间集决策表的不确定性.本文对文献[15]所提出的δ-区间决策条件熵进行修正,提出一种修正δ-区间决策条件熵方法,并得到粒化单调性等性质.通过分析和实例可以看出,与δ-区间决策条件熵相比,修正δ-区间决策条件熵具有更为强健的不确定性刻画能力,后续的属性约简及规则提取等还值得深入探讨.

猜你喜欢
粗糙度度量不确定性
青藏高原高寒草甸的空气动力学粗糙度特征
法律的两种不确定性
鲍文慧《度量空间之一》
框架材料表面粗糙度控制工艺研究
全球不确定性的经济后果
代数群上由模糊(拟)伪度量诱导的拓扑
英镑或继续面临不确定性风险
冷冲模磨削表面粗糙度的加工试验与应用
英国“脱欧”不确定性增加 玩具店囤货防涨价
突出知识本质 关注知识结构提升思维能力