一种基于粗糙集理论的多指标综合评价方法

2010-05-22 08:06郑学敏
统计与决策 2010年5期
关键词:信息量约简粗糙集

郑学敏

(河海大学 商学院,南京 210098)

0 引言

粗糙集理论由波兰学者Z.Pawlak在1982年提出,这是一种新的处理模糊和不确定知识的数学工具,其主要特点在于无需提供问题所需处理的数据集合之外的任何先验信息,所以对问题的描述或处理是比较客观的,根据观测数据删除冗余信息,分析知识的粗糙度、属性间的依赖性与重要性,生成分类或决策规则等[1]。针对无决策属性的综合评价问题,本文拟提出一种基于粗糙集理论的客观评价方法:首先将介绍粗糙集信息系统和属性约简的概念,并在引入信息论中“信息量”的基础上,提出信息系统属性重要性的计算方法,进而实现综合评价系统的指标约简和权重设置。希望该方法能克服传统评价方法中主观性和片面性的问题,并且能够有效地减少综合评价问题的计算量。

1 信息系统与属性约简

1.1 信息系统

定义1 四元组S=(U,A,V,f)是一个信息系统,其中U表示对象的非空有限集合,称为论域;V=,其中 Va是属性a的值域;f表示U×A→V是一个信息函数,它为每个对象的每个属性赋予一个信息值,即 a∈A,x∈U,f(x,a)∈Va。

1.2 等价关系

每一个属性子集P⊆A决定了一个二元不可区分关系IND(P),信息系统S=(U,A,V,f)也称为知识表达系统U/IND(A)或知识A。

定义2 如果(x,y)∈IND(P)是等价的,则称 x和y是等价的。等价关系IND(P)构成了U上的一个等价划分,用U/IND(P)={X1,X2,…,Xn}表示。

1.3 属性的核与约简

定义3 设S=(U,A,V,f)是一个信息系统,a∈A,如果IND(A-{a})=IND(A),则称属性a在A中是不必要的(多余的);否则,称a在A中是必要的。

不必要的属性在信息系统中是多余的,如果将它从信息系统中去掉,不会改变该信息系统的分类能力;相反,若从信息系统中去掉一个必要的属性,则一定改变该信息系统的分类能力。

定义4 设S=(U,A,V,f)是一个信息系统,A中所有必要的属性组成的集合称为属性集A的核,记作Core(A)。

定义5 设S=(U,A,V,f)是一个信息系统,如果P⊆A:

(1)IND(P)=IND(A);

(2)P 是独立的;

则称P是A的一个约简。

可以证明核是所有约简的交集[1]。

2 信息量与重要度度量

2.1 知识的信息量

定义6 设S=(U,A,V,f)是一个信息系统,P⊆A,U/IND(P)={X1,X2,…,Xn}。 知识 P 的信息量定义为:

其中|X|表示集合X的基数,|Xi|/|U|表示等价类Xi在U中的概率。

本文在信息系统中,引入信息论中信息量的概念,有如下定理:

定理1 设S=(U,A,V,f)是一个信息系统,P⊆A。若U/IND(A)⊂U/IND(P),则 I(P)<I(A)。

由定理1可以得出如下结论:

定理2 设S=(U,A,V,f)是一个信息系统,P⊆A,则U/IND(A)=U/IND(P)的充要条件是I(P)=I(A)。

2.2 属性重要度

定义7 设S=(U,A,V,f)是一个信息系统,属性a∈A在A中的重要性定义为:

性质1 属性a∈A在A中是必要的当且仅当sigA-{a}>0。

性质 2 Core(A)={a∈A|sigA-{a}(a)>0}。

定义8 设S=(U,A,V,f)是一个信息系统,C⊆A,任意属性a∈A-C关于属性集C的重要性定义为:

sigC(a)=sigC∪{a}-{a}(a)=I(C∪{a})-I(C)

上述定义表明属性a∈A-C关于属性集C的重要性由C中添加a后所引起的信息量的变化大小来度量。sigC(a)的值越大,说明属性a∈A-C关于属性集C就越重要。

3 基于粗糙集综合评价的指标体系建立

给予粗糙集的多指标综合评价的基本步骤如图1所示。

图1 基于粗糙集的多指标综合评价的步骤

3.1 评价指标约简

在进行指标体系的选择时,为更全面地反映评价问题的整体状况,在指标构建原则的前提下,往往会选择尽可能多的指标和数据,但这些信息中可能会有冗余信息,这些冗余信息不仅会增加问题的复杂性,还会影响评价的准确性。评价问题中的指标对应于信息系统中的属性,信息系统属性约简的过程其实质就是指标集合优化的过程,由此方法得到的指标集合是决定评价问题的关键因素。

本文利用属性的重要度作为启发式信息,根据性质2计算指标集A的核,再根据定义7选择属性重要度大的指标依次加入到核中,直到约简后的指标集信息量与原指标集A的信息量相同为止。

算法主要步骤如下:

输入:信息系统S=(U,A,V,f),其中U为论域,A为指标集。

输出:该信息系统的核Core与最小约简C。

STEP1根据(1)式计算评级指标信息系统的信息量I(A);

STEP2令Core(A)=Ф。对于每一个ai∈A,根据(2)式计算在信息系统中的重要度sigA-{ai}(ai),若sigA-{ai}(ai)不为0,则使Core=Core∪{ai},得到的Core为指标集A的核,计算I(Core),若I(Core)=I(A),算法终止(此时Core为A的最小近似约简).否则,执行STEP3;

STEP3令C=Core,对指标集A-C重复执行:

(1)对于每个指标 ai∈A-C,根据定义 8,计算其重要度sigC(ai);

(2) 取 max sigC(ai),C:=C∪{ai};

(3)若I(C)=I(A),算法终止(此时C为A的一个最小近似约简);否则,转(1)。

3.2 基于属性重要度设置权重

传统的主观评价方法(如层次分析法),在权重的确定上过分依赖专家的意见,而忽略了评价指标原始数据自身的信息。本文利用信息系统属性重要度的定义,依靠属性自身的信息量计算权重,很好地避免了确定权重时受主观因素的影响。

指标体系经过指标约简后,可以得出约简后的指标C={r1,r2,…rm},由约简的定义,C是独立的,C中的属性也是独立的。根据知识的信息量的概念,本文提出了一种数据驱动的指标权重确定的算法。算法步骤如下:

输入:约简后信息系统S=(U,C,V,f)。

输出:指标集C中各指标的权重wi。

STEP1由等价关系C对论域U的划分为:U/IND(C)={X1,X2,…,Xn};根据(1)式计算约简后指标集C的信息量I(C);

STEP2令 i=1,计算其属性重要度为 sigc-{ri}(ri)=I(C)-I(C-{ri}),i:=i+1;若 i=m,进入 STEP3;

STEP3令i=1,归一化ri的重要度,得出每个指标的权重:,i:=i+1;如果 i=m,算法结束。

3.3 建立评价模型

4 对某市各银行服务客户满意度分析

4.1 数据收集和数据信度分析

本研究的样本选自某城市主要商业银行营业网点流水客户,通过对工、招、农、建、中、交五大银行各选取10家营业网点对他们的零售业务流水客户进行随机的问卷调查。本调查共发放问卷500份,回收436份,回收率87.2%,通过审核筛选获得有效问卷418份,有效率83.8%,所有调查信息均采用SPSS15.0统计软件进行统计分析。

在广泛查阅国内外员工满意度问卷基础上,结合银行行业特点设计的“商业银行客户满意度调查问卷”,问卷分两部分组成:(1)个人资料,包括年龄、性别、学历程度、工作职位等;(2)员工满意度测试,由36个项目组成,除去调查表中调查员工对银行业目前主要优势、存在的困难等7个项目的认知和预测调查外,顾客选择商业银行服务满意度的主要指标为:a1产品服务种类,a2服务收费透明度,a3可信度,a4服务效率,a5咨询投诉处理,a6服务便利。拟选定6项主要指标{U1,U2,U3,U4,U5,U6},建立评价信息表。

数据信度主要考察问卷的内部一致性,内部一致性系数通常采用可靠性分析中的Cronbachα计算值,一般认为该值应在0.7以上。对于该问卷的信度,通过采用SPSS15.0统计软件直接测算,结果表明问卷的内部一致性系数为0.729,说明该满意度调查问卷具有较高的信度。

根据所采集的数据对评价信息表进行离散化,1表示达标,0表示未达标。构建综合评价系统如表1所示。

表1 顾客满意评价度

表2 约简后的信息系统

表3 指标权重表

表4 顾客评价结果

4.2 评价指标集约简

依照约简算法,约简步骤如下:

STEP1根据评价信息系统,有等价关系 U/IND(A)={{U1,U6},U2,U3,U4,U5}计算 I(A)=30/36;

STEP2对于指标集A-{a1},有等价关系 U/IND(A-{a1})={{U1,U6},U2,U3,U4,U5}以及公式(2)计算指标a1的重要度sigA-{a1}(a1)=I(A)-I(A-{a1})=0,同理,计算得 sigA-{a2}(a2)=0,sigA-{a3}(a3)=0,sigA-{a4}(a4)=2/36,sigA-{a5}(a5)=0,sigA-{a6}(a6)=0,因此,Core(A)={a4};计算得 I(Core)=12/36<I(A),进入 STEP3;

STEP3 令 C=Core={a4},A-C={a1,a2,a3,a5,a6,}:

(1)计算指标集A-C中的指标重要度。经第一次计算得:sigC(a1)=I(C∪{a1})-I(C)=18/36,同理得:sigC(a2)=16/36,sigC(a3)=10/36,sigC(a5)=10/36,sigC(a6)=18/36,;

(2)取 max sigC(ai),C:=C∪{ai}。 第一次计算 C={a1,a4};

(3)第一次计算 I(C)=30/36<I(A),重复步骤(1);…

算法得出:核Core={a4},最小约简指标集为C={a1,a2,a4,a6}。

评价指标约简为{a1,a2,a4,a6},因而得出a1产品服务种类,a2服务收费透明度,a4服务效率,a6服务便利是该评价问题的主要因素。通过该算法,指标个数减少了37%,因而减少了评价计算量。约简后的信息系统如表2示。

4.3 指标权重计算

STEP1对于最小约简指标集,其等价关系为:U/IND(C)={{U1,U5},U2,U3,U4,U5,U6},根据(1)式计算其信息量I(C)=30/36;

STEP2由(2)式计算指标重要度水平sigC-{a1}(a1)=I(C)-I(C-{a1})=2/36,sigC-{a2}(a2)=2/36,sigC-{a4}(a4)=2/36,sigC-{a6}(a6)=6/36;

STEP3归一化处理指标的重要度得出权重信息,a1为同理计算得出其他几个指标权重如表3。

利用线性加权模型计算得出评价对象的评价值如表4。

以上排序结果说明,顾客在选择商业银行满意度时最期望的指标排序为U4为首选,其次为U6和U3。由实例看出,使用粗糙集综合评价方法可以有效地约简评价指标,减少评级问题的计算量,评价过程不需要人为干预,故评价结果更真实可靠。

5 总结

在顾客满意度评价中影响其价值的因素很多,各因素的重要性也会有很大的差别。本文基于粗糙集理论,融入信息论中信息量的概念,提出了一种完全数据驱动(依赖指标原始数据)的多指标综合评价方法,并用商业银行顾客满意度实例证明了该方法的客观性和实用性,克服了传统方法存在的主观性和片面性的问题。粗糙集综合评价法通过指标的属性重要度信息,计算指标体系的约简,并将权系数确定问题转化为指标的重要性评价问题。该方法综合分析了各种影响因素,既体现了评价的全面性,又进行了指标的筛选,从而简化了运算的复杂度;在确定各因素的权重中,既强调了评价的客观性,又充分利用了专家的主观经验。

[1]张文修,吴伟志,梁吉业等.粗糙集理论与方法[M].北京:科学出版社,2000.

[2]Li Wan-qing,MA Li-Hua,LIU Tao.Evaluation Method of Product Development Effect Based on Rough Sets and Unascertained Number[C].International Conference on Management Science,2007.

[3]Yitan Xu.Laisheng Wang.Fuzzy Comprehensive Evaluation Model Based on Rough Set Theory[C].IEEE Int.Conf.on Congitive Informatics(ICCI’06),2006.

[4]阿伦·杜卡.美国市场营销学会顾客满意度手册[M].北京:中国宇航出版社,1998.

[5]张喜成,汪江洪.粗糙集综合评价法在公交服务水平评价中的应用[J].统计与决策,2006,(4).

[6]唐晓芬.顾客满意度测评[M].上海:上海科学技术出版社,2001.

猜你喜欢
信息量约简粗糙集
基于粗糙集不确定度的特定类属性约简
基于Pawlak粗糙集模型的集合运算关系
基于二进制链表的粗糙集属性约简
基于GIS和信息量法的四川峨眉山市地质灾害易发性定量评价
基于信息理论的交通信息量度量
实值多变量维数约简:综述
广义分布保持属性约简研究
多粒化粗糙集性质的几个充分条件
如何增加地方电视台时政新闻的信息量
双论域粗糙集在故障诊断中的应用