模糊邻域粗糙集的决策熵不确定性度量

2021-05-20 07:01樊雲瑞张贤勇杨霁琳
计算机工程与设计 2021年5期
关键词:粒化粗糙集邻域

樊雲瑞,张贤勇+,杨霁琳

(1.四川师范大学 数学科学学院,四川 成都 610066;2.四川师范大学 智能信息与量子信息研究所,四川 成都 610066)

0 引 言

模糊粗糙集采用模糊相似关系及矩阵表示,能够系统分析模糊性与粗糙性[1-4];邻域粗糙集采用邻域关系及距离函数,能够深入探寻粒度层次结构信息[5-7]。结合模糊粗糙集与邻域粗糙集,Wang等[8]构建模糊邻域粗糙集,该新模型能够有效与广泛实施不确定性度量、半径粒化、特征选择等。例如,徐风等[9]融合近似粗糙度与模糊邻域粒度,建立混合不确定性度量;任晓霞和薛凡[10]定义模糊邻域依赖度,开发启发式属性约简算法;Shreevastava等[11]采用直觉思想延伸模糊邻域粗糙集,进行特征选择。

不确定性度量及其粒化单调性是信息系统智能分析的基础[12,13],其通常具有代数表示与信息表示[14],相关融合蕴含着更强的刻画能力。立足经典粗糙集,Jiang等与Zhou等[15,16]将对数信息函数作用于粗糙度提出相对决策熵,再融合依赖度改进到依赖决策熵,最终实施特征选择。模糊邻域粗糙集的代数与信息融合度量还未见相关报道。

综上,模糊邻域粗糙集的不确定性度量值得深入探讨。本文借鉴文献[15,16]的决策熵建立模糊邻域决策熵,进行信息表示与代数表示的融合与扩张,揭示关于属性与半径的双重粒化单调性。所建模糊邻域决策熵将改进文献[9]的混合不确定性度量并推广文献[15,16]的决策熵,有利于模糊邻域粗糙集环境下的不确定性鲁棒处理。

1 模糊邻域粗糙集

(1)

模糊邻域近似精度、近似粗糙度分别为

(2)

(3)

基于模糊关系RB的模糊邻域依赖度为

(4)

2 模糊邻域决策熵

2.1 模糊邻域相对决策熵与模糊邻域依赖决策熵

模糊邻域粗糙集具有不确定性机制与半径粒化机制,能够有效进行决策信息系统的信息处理与知识发现,而不确定性度量成为基础。文献[9]提出模糊邻域粒结构粒度

(5)

(6)

NMMδ(B)考虑了粒度结构与粗糙度的融合,相关的粒化单调性表明了其有效性[9]。但是,NMMδ(B) 还停留在度量的代数表示,信息表示值得加入[14]。鉴于经典粗糙集中已经具有融合代数表示与信息表示的决策熵[15,16],下面在模糊邻域粗糙集中借鉴与推广决策熵,构建模糊邻域决策熵并揭示粒化单调性。

定义2[16]基于经典粗糙集,B⊆C相对于D的相对决策熵为

(7)

(8)

(9)

定义4[15]基于经典粗糙集,B⊆C相对于D的依赖决策熵为

(10)

定义5 基于模糊邻域粗糙集,B⊆C相对于D的模糊邻域依赖决策熵为

(11)

2.2 实例说明

这里提供一个实例来说明模糊邻域决策熵。

例1:给定决策信息系统DIS=(U,C,D,V,f), 属性子集B⊆C导出模糊相似关系RB的矩阵设为

其中,元素γij表示第i个与j个对象之间的模糊相似度RB(xi,xj)。 设模糊邻域半径δ1=0.2, 可得对象的模糊邻域,相关的相似关系矩阵为

首先计算模糊决策类的近似及相关度量。基于定义1

基于定义3与定义5,关于决策类有

关于决策分类有

下面说明属性粒化单调性。设P⊆B⊆C, 由P导出的模糊(邻域)相似关系矩阵为

类似可计算得出

以及模糊邻域决策熵

由此可见度量单调性

最后说明半径粒化单调性。给定新半径δ2=0.4, 模糊邻域相似关系矩阵为

类似计算可得

以及

由此可见度量单调性

3 不确定性度量实验分析

下面从UCI机器学习数据库(http://archive.ics.uci.edu/ml)选取5类数据集(见表1)进行实验分析,从而验证模糊邻域决策熵进行不确定性度量的合理性与优越性。

表1 UCI数据集描述

归一化预处理采用公式

对象xi与xj在属性a下的模糊相似度定义为

其中,λ∈(0,1] 为给定参数,实验中统一使用λ=0.3。 下面,γ、RDE、DRDE分别表示模糊邻域依赖度、模糊邻域相对决策熵、模糊邻域依赖决策熵。为聚焦粒化单调性,首先选取自然属性增链

{c1}⊂{c1,c2}⊂{c1,c2,c3}⊂…⊂C

(12)

(第g个链元为 {c1,…cg}=Ag), 再聚集半径减列

δ1>δ2>δ3>…>0

(13)

(第h个列点记为δh), 最后综合考虑 (Ag,δh) 二维集成粒化变化。

3.1 属性粒化的单调性与有效性

采用式(12)的基本属性增链,计算γ、RDE、DRDE这3种度量的序列值,以揭示相关粒化单调性。5种数据集采用的半径参数分别为:0.1、0.2、0.2、0.1、0.2。基于实验,图1提供全部数据集的度量值折线。

图1 5类UCI数据集关于属性增链的3种度量折线

观测图1,随着属性数目的增加,γ在增加即系统不确定性在减小,此时RDE和DRDE都在减小,该结果验证了相关的属性粒化单调性并说明了决策熵不确定性度量的合理性。聚焦glass与wine数据集的前端链元可见,当属性数目变化时,γ不变或者变化很小,而对应的RDE与DRDE要变或者变化明显,这体现出RDE与DRDE的优越性,即它们可以比γ具有更好的分类识别能力。事实上,对比于γ,RDE和DRDE在5类数据集上都表现出更大的单调性跨度(即具有更大的变化率ΔRDE/Δg与ΔDRDE/Δg), 因此它们对知识结构具有更强的描述功能与区分能力。类似地,就决策熵而言,DRDE在不确定性度量上比RDE更加强大与更优化。因为DRDE在RDE上融合了γ信息,而RDE与γ具有相反的属性粒化单调性,因此DRDE对RDE进行了修正与改进,两者具有相似的单调性曲线,但DRDE具有更加明显的单调性与变化率,即其不确定性度量效果更佳。总之,DRDE具有与γ、RDE的一致和谐性,并且系统集成了两者的优点。

下面深入验证DRDE的合理性。针对属性增链及链元子集,采用支持向量机(SVM)训练来求得分类精度,并通过分类精度的变化来评估DRDE的合理性。基于属性增链,图2描绘了5类数据集的分类精度变化与DRDE变化。

图2 5类UCI数据集关于属性增链的分类精度与DRDE折线

观测图2,DRDE与分类精度总体上成负相关关系。在属性增链上,DRDE度量的系统不确定性在减小而分类精度总体上在增加;当DRDE表现最低的不确定性程度时,对应的分类精度达到最高。这说明DRDE具有合理且优异的不确定性度量效果。

3.2 半径粒化的单调性与显著性

下面针对最终的模糊邻域依赖决策熵DRDE,考虑半径关联的粒化单调性与显著性,并给出半径的适宜取值范围。为此,半径减列(式(13))针对区间[0.05,0.6]及步长0.05,再结合属性增链(式(12))计算二维粒化系统的DRDE度量值,即计算相关三维值 (Ag,δh,DRDE)。 图3 提供所有数据集的图像表现。

图3 5类UCI数据集关于属性增链的半径减列的DRDE变化曲面

基于图3,DRDE针对确定属性子集(即Ag) 与半径减小仍然呈现减小趋势,故表现了半径粒化单调性。换言之,随着半径减少,系统不确定性也随之减少,这从阈值角度说明了DRDE不确定性度量的合理性。再考虑相关的变化率ΔDRDE/Δg或ΔDRDE/Δ(δh)。 观测结果可见,当半径较大时,DRDE较大但单调变化不显著;这是由于大半径放宽了对象模糊相似度,较粗的知识结构会影响不确定性评估。对比地,当半径较小时,DRDE较小但单调变化比较显著,这个结果可由数据图的上凸性趋势深刻说明。当然,半径不能太小,例如小得靠近0.05会导致知识过于精细,相应的图结果不能充分表明粒化单调性(特别针对属性数目较大的细化粒化)。

总之,基于半径减列的实验与分析呈现了相关的粒化单调性,而且在适当半径时单调性更加显著,即DRDE的不确定性度量效果更好。基于相关实验,模糊邻域半径选取0.1-0.2比较适宜,此时DRDE更加有效地发挥着不确定性度量功能,也就更加有利于后续的智能处理与知识发现。

4 结束语

针对模糊邻域粗糙集,文献[9]的混合不确定性度量还没有考虑到信息表示。本文自然推广文献[15,16]的决策熵到模糊邻域粗糙集,建立模糊邻域决策熵,获得关于属性与半径的双重粒化单调性。模糊邻域决策熵深入融合代数表示与信息表示获得了强健性、改进性,相关实验验证了基于粒化单调的不确定性度量有效性以及基于参数显著性分析的适用性与鲁棒性。模糊决策熵具有先进的不确定性分析性能,相关的特征选择还需要深入探讨。

猜你喜欢
粒化粗糙集邻域
水稻丸粒化种子直播方法研究
基于Pawlak粗糙集模型的集合运算关系
稀疏图平方图的染色数上界
琯溪蜜柚汁胞粒化影响因素及防控技术综述
基于二进制链表的粗糙集属性约简
基于邻域竞赛的多目标优化算法
多粒化粗糙集性质的几个充分条件
关于-型邻域空间
双论域粗糙集在故障诊断中的应用
粗粒化DNA穿孔行为的分子动力学模拟