一种区间距离的冲突证据组合方法

2020-07-21 10:06吴斌衣晓李双明
兵工学报 2020年6期
关键词:信息熵信度修正

吴斌,衣晓,李双明

(海军航空大学,山东 烟台 264001)

0 引言

在现代信息化战场中,战场环境的复杂性主要体现在电磁环境的复杂,我方信源即装备的传感器接收到的信息存在很强的不确定性,这种不确定性主要来源于硬件本身不确定性、自然环境干扰、敌方人为干扰等。当面临敌方的人为干扰时,我方接收的信息存在强干扰,甚至产生悖论。因此对存在冲突性的多信源信息进行融合很有必要,也是亟待解决的问题。目前信息融合领域中应用较广泛的证据理论,因其能表征不确定信息且取得很好的效果而得到广泛关注和长足发展。但证据理论在证据存在冲突的情况下不能准确融合,例如Zadeh悖论[1]。针对这一问题,众多学者对该领域进行了深入研究,解决的方法可以分为两类。

一类是针对现有的证据组合公式进行修正[2-8],在此基础上提出新的证据组合公式,具体方法有:

1)在原有的Dempster-Shafer(D-S)证据理论中,研究分配冲突系数k,例如Smets[4]、比例冲突再分配(PCR)的第1~第6种方法(PCR1~PCR6)[5]以及Jiang[6],其中Jiang针对现有相关系数对于量化置信度不稳定或不敏感等问题提出了一种既考虑焦点元素间非相交性、又考虑焦点元素间差异性的新的相关系数;

2)某些学者认为D-S证据理论的乘性法则存在问题,提出了加性组合规则,如Murphy[7]组合规则;

3)随着研究的深入,发现一些违背直觉的现象,如Zadeh悖论,不确定、不精确和高冲突的信息源应用到D-S证据理论中会产生反直觉的现象,由此发展出理论Dezert-Smarandache (DSmT)[8],改变了原有的识别框架,将其拓展到广义幂集下。

另一类是Dempster组合公式本身不存在问题,证据之间存在冲突是因为数据源本身存在冲突,这种冲突可能来自信源本身硬件损害或人为干扰,因此需要对原始数据进行修正[9-12],尽可能弱化冲突证据对决策正确性的影响。

目前,越来越多的文献都立足于对数据源进行修正,从而改善冲突证据组合问题。对数据源进行修正的方法可以分为两类,一类是通过距离来刻画证据的不确定性,另一类是基于信息熵来描述证据的不确定性。

通过距离来衡量证据不确定性的方法又可以分为两种:第1种方法是点到点间的距离。文献[13]提出基于概率支持的距离,通过计算证据的被支持程度来确定不同证据的权重;文献[14]在分析Jousselme等[15]距离的基础上提出一种广义的证据距离,该距离中通过模范数来衡量不确定信息;文献[16]提出一种相似性度量,在现有证据距离的基础上结合证据的冲突特征,提出基于该方法的加权系数平均法。第2种方法是区间距离。Jousselme等[15]提出基于证据间的Jousselme距离,该距离函数考虑了元素的势的大小,是目前使用最广泛的证据距离函数;文献[13]通过Tran与Duckstein区间数距离(TD-IND)来刻画证据的不确定性;文献[17]在分析文献[13]的基础上,通过定积分给出了新的区间距离度量方法。

也有学者基于信息熵,在证据本身携带信息的基础上,通过熵来刻画证据的不确定性。Deng[18]提出一种新的度量,即基于基本概率分配不确定性的熵—邓熵,邓熵是香农熵的推广,当基本概率指派(BPA)定义概率度量时,邓熵的值与香农熵的值相同。Jiang等[19]根据证据距离将证据分为可信证据和难以置信证据两部分,应用一种新的信念熵度量证据的信息量。Pan等[20]基于邓熵和概率区间提出一种新的信息熵,在一定条件下它可以转化为香农熵。Yager[21]提出区间熵的Shannon型和Gini型表达式,并利用Hoehle[22]提出的经典D-S证据理论熵标量公式,给出这个区间值公式的界。Jirousek等[23]提出基本概率分配熵的新定义,该定义为BPA中总不确定性的度量,新定义有两个组成部分:一是利用似然变换得到的等价概率密度函数的香农熵,构成熵的置信度;二是D-S证据理论中基本概率分配熵的Dubois CPrade定义,构成熵的非特异性测度;新定义是这两个分量的和。Abellan[24]在研究邓熵的基础上提出一种替代方法,该方法量化了在证据理论中发现的两种类型不确定度,然后将其视为总不确定度测量(TU),不过该测度不能证明D-S证据理论中TU的单调性、可加性和次可加性等基本性质。Cui等[25]通过考虑识别框架的尺度和不确定性语句交集的影响,提出一种修正函数以解决当命题处于交集状态时邓熵存在一定局限性的问题。Zhou等[26]在D-S证据理论框架下提出一种改进的信息熵,考虑了证据体中更多的可用信息,包括由质量函数模拟的不确定信息、命题的基数和证据体的规模。Pan等[27]定义了一个新的信念熵,该信息熵有两个分量:第1个分量基于每个BPA中包含的单个事件概率密度函数(PMF)的总和,第2个分量与加权Hartley熵相同,这两个分量可以分别有效地测量 D-S证据理论框架中发现的不确定度和非特异性不确定度。

上述文献在一定程度上实现了对冲突证据的处理,但各种方法都或多或少存在局限性,例如:文献[13]是基于Pignistic概率计算距离,在Pignistic概率转换过程中,信息被均分到各类焦元,并未考虑权重的影响;文献[15]所提出的距离在证据完全冲突时,计算结果容易出现悖论。基于熵的度量很好地考虑了证据所包含的信息,但通过公式可以看出熵函数大多为非线性函数,无法确定其单调性。就命题而言,由信度Bel和似真度Pl定义的不确定区间[Bel(·),Pl(·)],考虑到0≤Bel(·)≤Pl(·)≤1,则[Bel(·),Pl(·)]∈[0 1],从而可以将问题转化为不确定区间的问题。

本文首先概述了D-S证据理论,进一步分析了冲突证据的度量方法。在此基础上提出基于焦元区间距离的冲突证据组合方法,将区间距离细化到证据焦元上,通过求解不同证据相同焦元间的区间距离,完成整条证据的区间距离求解,避免了现有区间距离计算需要对比[0,1]区间相似度的问题。同时充分注意到Pignistic概率距离中均分权重的影响,通过区间距离构成的距离矩阵完成权重的分配,最后用修正后的证据重新进行组合。通过与经典冲突证据分析算法比较验证了区间距离的合理性,与经典的组合方法比较验证了本文组合方法的有效性。

1 理论概述

证据理论是一种不确定推理方法,面向识别框架中的基本假设集合幂集,适用于不同层次的传感器测量。设Θ为识别框架,基本信任分配函数m(·)是一个从集合2Θ到[0,1]的映射,A表示识别框架Θ的任意一个子集,记作A⊆Θ,且满足

(1)

式中:m(∅)表示空集的基本信任函数;m(A)为子集A的基本信任函数,表示证据对A的信任程度。

Bel和Pl函数的定义为

(2)

式中:B为A的子集;m(B)为B的基本信任函数。由信度及似真度函数构成的置信区间[Bel(A)Pl(A)]表示A的不确定度。

D-S证据理论的证据组合规则表述如下:

(3)

1.1 Pignistic概率距离

Smets[4]定义了Pignistic概率函数,提出了经典的可传递信度模型(TBM)。识别框架Θ上证据对幂集空间的命题Mass函数为m(·),BetPm(A)为Pignistic概率函数,满足

(4)

式中:|·|表示证据焦元的势。BetPm(A)将证据中焦元的信度平均分配给其包含的类中。由于均分法并不能很好地表征焦元间权重的大小,文献[28-30]提出了PrPl、PrBl以及PrScP法,文献[31]在分析现有概率转换公式的基础上,给出了统一的概率转换公式:

(5)

(6)

1.2 Jousselme距离

Jousselme距离是目前文献中应用较广泛的一种距离。设m1、m2为识别框架Θ上证据对幂集空间的命题Mass函数,dJ(m1,m2)为Jousselme距离,满足

(7)

式中:m1、m2为幂集空间下的序列向量;D为2|Θ|×2|Θ|阶正定矩阵,

D=[dij]2|Θ|×2|Θ|,

(8)

(9)

上述两种距离都是从证据的焦元入手,综合考量证据间的距离,忽略了证据本身所携带的信息。如何考量证据本身所携带的信息,逐渐成为研究的热点,信息熵的应用给问题解决带来了契机。

1.3 信息熵度量

目前使用较广泛的信息熵度量公式有:

1)Discord信息熵度量的计算公式

(10)

2)模糊度(AM)信息熵的计算公式

(11)

3)总不确定性(AU)信息熵的计算公式

(12)

式中:pθ为由Mass函数构成的信度,

4)Deng信息熵的计算公式

(13)

需要注意的是,(13)式中的2|A|-1,用以区别单焦元的势与焦元并之间势的不同。

2 冲突证据组合方法

冲突证据表示为同一框架下相同命题信度的差异,如何衡量这种差异是本文关注的重点。本文首先基于区间距离研究冲突证据的度量问题,其次基于距离解决权重分配,最后通过修正源数据进行组合。

2.1 证据内不确定区间距离表示

(14)

下面证明该公式是否满足距离定义的正定、对称和三角不等式3个性质。

证明为方便表示,将证据不确定区间记作:

(14)式显然满足正定性和对称性,其三角不等式可表示为

d(X,Y)≤d(Y,Z)+d(X,Z),

(15)

式中:X、Y、Z为同一识别框架下的3条证据。

(15)式的含义即

由于不等式两边均非负,可得

则有

考虑不等式右边,根据Cauchy-Schwarz不等式,有

不等式左边

2.2 证据间不确定区间距离表示

结合2.1节中给出的不确定区间距离表示,本节中主要研究证据间的不确定区间距离表示及组合方法。

定义2基于不确定区间的证据间距离dj,k为

(16)

下面证明该公式是否满足距离定义的正定、对称和三角不等式3个性质。

证明(16)式显然满足正定性和对称性,其三角不等式可表示为

(17)

式中:Xi表示多条证据同为第i个焦元的不确定区间距离。则有

(18)

依此计算,可以得到n×n个证据间的距离矩阵Dn×n,

(19)

通过距离矩阵可以计算出证据间权重,则每条证据的权重ωj为

(20)

假设证据的BPA为m,进行修正后的证据[1]为

(21)

具体算法步骤如下:

1)通过BPA计算证据中每个焦元Ai的信度Bel(Ai)和似真度Pl(Ai),构成焦元Ai的不确定区间[Bel(Ai)Pl(Ai)]。

3)对同一条证据中不同焦元的不确定区间距离进行求和,得到j、k两条证据间的距离dj,k,依此方法求出每条证据间的距离dj,j+1(j=1,2,3,…,n-1),生成不同证据间基于区间距离的距离矩阵Dn×n.

4)通过距离矩阵Dn×n计算出每条证据的权重ωj.

5)依据(21)式,对每条证据进行修正,得到修正后的新证据。

6)通过D-S证据理论及PCR6对新证据进行融合,得到冲突证据的融合结果。其中D-S证据理论的融合规则见(3)式,PCR6[5]融合规则如下:

CRPCR6(A)

[mi1(A)+mi2(A)+…+mik(A)]·

3 算例分析

3.1 不确定区间距离有效性分析

虽然范数在物理含义上表征两个常量之间的距离,但并不是所有范数都能表征证据之间的可信度差异。证据距离要求当证据冲突较小时,证据距离相应变小,但是Dempster在组合公式中提出的冲突系数k并不能很好地满足上述性质,后续出现的很多改进型距离公式虽然能满足性质要求,但或多或少存在一定局限性。下面给出算例分析,以分析本文所提不确定区间距离的有效性。

假设在辨识框架Θ={θ1,θ2,θ3,…,θ20}中存在两条独立的证据,证据对命题A的Mass函数分别为m1(θ1,θ2,θ3)=0.05,m1(θ7)=0.05,m1(Θ)=0.1,m1(A)=0.8,m2(θ1,θ2,θ3,θ4,θ5)=1.

假设A从θ1开始依次增加1个元素直至Θ={θ1,θ2,θ3,…,θ20},分别通过冲突系数k、Jousselem距离、Pignistic概率距离、证据关联系数、夹角余弦、基于系数k和Jousselem距离的算术均值以及相关系数[33],与本文基于焦元区间距离构成的证据间距离进行比较(距离即代表冲突度),结果如图1所示。

图1 冲突度对比Fig.1 Comparison of conflict degrees

图2 平均误差对比Fig.2 Comparison of average errors

从图1中可以看出:当A按规律变化时只有冲突系数维持不变,表明当证据冲突时,冲突系数并不能很好地表征证据的冲突度;而其余方法均能很好地表征证据的冲突度,而且变化规律一致,当A变化到m1(θ1,θ2,θ3,θ4,θ5)时,证据间冲突最小,因为第2条证据m2(θ1,θ2,θ3,θ4,θ5)=1也是对{θ1,θ2,θ3,θ4,θ5}具有较高的信度,所以两条证据的冲突度最小;当A再进行变化时,冲突度又随之增加,也与实际情况相符。同时,从图1中可看出,基于焦元区间距离计算的证据间距离(冲突度)也与大多算法的变化规律一样,表明本文算法在计算冲突度方面是合理且有效的。从图2的平均误差对比来看,本文算法的最大误差接近于0.15,而且在{θ1,θ2,θ3,θ4,θ5}之后,相对于冲突系数k、Jousselem距离、Pignistic概率距离、夹角余弦、基于系数k与Jousselem距离的算术均值以及相关系数,本文算法变化幅度更小,更加稳定。

3.2 冲突证据组合的有效性分析

本算例分析当证据存在冲突时,对基于本文的证据距离公式进行证据组合的有效性。通过3.1节给出的算法具体步骤,对不同的证据进行组合。

假设辨识框架Θ={A,B,AB,C,AC,BC,ABC},A、B、C为3个独立的事件,AB、AC、BC、ABC为不同事件的组合。7条证据的BPA如下(其中第3条与第7条证据为冲突证据):

E1:m1(A)=0.55,m1(B)=0.1,m1(AB)=0.1,m1(C)=0.1,m1(AC)=0.1,m1(BC)=0.05,m1(ABC)=0;

E2:m2(A)=0.6,m2(B)=0.1,m2(AB)=0.05,m2(C)=0.1,m2(AC)=0.1,m2(BC)=0.05,m2(ABC)=0;

E3:m3(A)=0,m3(B)=0.65,m3(AB)=0,m3(C)=0.15,m3(AC)=0,m3(BC)=0.2,m3(ABC)=0;

E4:m4(A)=0.5,m4(B)=0.1,m4(AB)=0.2,m4(C)=0.1,m4(AC)=0.05,m4(BC)=0.05,m4(ABC)=0;

E5:m5(A)=0.65,m5(B)=0,m5(AB)=0.1,m5(C)=0.1,m5(AC)=0.1,m5(BC)=0.05,m5(ABC)=0;

E6:m6(A)=0.7,m6(B)=0.05,m6(AB)=0.05,m6(C)=0.1,m6(AC)=0.1,m6(BC)=0,m6(ABC)=0;

E7:m7(A)=0,m7(B)=0.55,m7(AB)=0,m7(C)=0.25,m7(AC)=0.2,m7(BC)=0,m7(ABC)=0.

3.2.1 多条证据中仅有1条冲突证据的情况

如表1所示,当不存在冲突证据时,经典组合方法结果就能够较好地反映现实情况,而基于本文算法的组合结果却不理想。这是因为本文结合了不确定区间[Bel,Pl],在计算过程中扩大了非支持证据及其并集的数据,从而导致支持证据的数值变小。另外,基于D-S证据理论的组合规则融合结果最好,这是因为进行融合的多条证据并未出现异常,D-S证据理论的组合规则中k系数值较小,从而得到的融合结果较高、效果较好。

表1 2条正常证据(E1,E2)下组合结果比较Tab.1 Comparison results of two normal evidences (E1, E2) combinations

从表2中可以明显看出,当存在异常证据时,D-S证据理论的融合结果就会出现悖论,而基于本文算法修正过后的数据在通过D-S证据理论的组合规则进行融合时,融合效果比较理想,这是因为本文算法通过信度区间进行了二次修正,增加了异常证据中支持事件的信度值,从而避免了出现悖论的情况。

表2 2条正常证据(E1,E2)、1条异常证据(E3)下组合结果比较Tab.2 Comparison results of combinations of two normal evidences (E1, E2) and one abnormal evidence (E3)

表2、表3的数据显示,当有另外1条正常证据加入融合规则时,相应的结果比表2提高得更加显著,这是因为随着正常证据的加入,使原来异常证据中的支持证据进一步扩大,相应的融合结果也会比表2中的好。

如表4、表5所示,特别是在表5中,PCR4出现了分母为0的情况,导致融合结果出现非数NaN. 随着越来越多的正常证据参与进融合,本文方法融合效果明显,当有5条正常证据时融合值达到了0.969 9,接近于1,比其他经典方法高出近一倍的值。这是因为越多的正常证据加入,使得支持事件的区间值增大,从而修正了异常证据中的支持事件的信度值。运用基于区间距离修正的BPA,通过PCR6进行融合时,其融合结果也比经典PCR6的融合结果高。同时从表2~表5中可以看出,存在冲突证据时,基于区间距离的修正方法通过PCR及D-S证据理论进行融合时,融合值最高。算例结果表明存在单条冲突证据时,基于区间距离的冲突组合效果显著。但是表1也显示出不存在异常证据时,本文算法不如经典算法有效。

表3 3条正常证据(E1、E2、E4)、1条异常证据(E3)下组合结果比较Tab.3 Comparison results of combinations of three normal evidences (E1,E2,E3) and one abnormal evidence (E3)

表4 4条正常证据(E1、E2、E4、E5)、1条异常证据(E3)下组合结果比较Tab.4 Comparison results of combinations of four normal evidences (E1,E2,E4,E5) and one abnormal evidence (E3)

表5 5条正常证据(E1,E2,E4,E5,E6)、1条异常证据(E3)下组合结果比较Tab.5 Comparison results of combinations of five normal evidences (E1,E2,E4,E5,E6) and one abnormal evidence (E3)

3.2.2 多条证据中有多条冲突证据的情况

从表6中可以看出,当正常证据与异常证据数量相当时,无法准确判定哪个效果更好,因为对于系统,在没有任何先验知识的基础上,无法判定结果的好坏。

表6 2条正常证据(E1,E2)、2条异常证据(E3,E7)下组合结果比较Tab.6 Comparison results of combinations of two normal evidences (E1,E2) and two abnormal evidences (E3,E7)

相比于表6,当再有1条证据加入时融合结果出现了明显变化,从数值变化趋势来看,大部分方法对于事件A的信任度提升到0.4附近,对于事件B的信任度相应下降。与此同时,通过本文算法修正后的数据进行融合时,其融合值最大提高了0.16. 如表7所示,证据理论融合结果出现了明显差异,基于不确定区间距离修正的BPA通过PCR6进行融合时,A、B两焦元的差异达到了0.18,高于不进行修正的PCR6的0.14.

对比表6与表8可以看出,当有另外2条证据支持时,基于不确定区间距离修正的D-S证据理论融合结果从0.169 5跃升到0.635 2,基于不确定区间距离修正的PCR6融合结果也从0.313 2到达了0.520 0.当再有1条正常证据参与融合时,如表9所示,基于不确定区间距离修正的D-S证据理论融合结果为0.880 8,冲突焦元的信任度退化为0.073 6,表明基于区间距离的冲突组合效果显著。因为本文算法中首先通过信度及似真度函数对原有Mass函数进行了扩充,考虑所有包含焦元信息的因素构建了信度区间距离,通过焦元间的区间距离构建了证据间的距离,避免了存在异常证据的融合过程中非支持事件的证据距离过小,从而导致融合结果不理想的情况。

表7 3条正常证据(E1,E2,E5)、2条异常证据(E3,E7)下组合结果比较Tab.7 Comparison results of combinations of three normal evidences (E1, E2, E5) and two abnormal evidences (E3,E7)

表8 4条正常证据(E1,E2,E4,E5)、2条异常证据(E3,E7)下组合结果比较Tab.8 Comparison results of combinations of four normal evidences (E1,E2,E4,E5) and two abnormal evidences (E3,E7)

表9 5条正常证据(E1,E2,E4,E5,E6)、2条异常证据(E3,E7)下组合结果比较Tab.9 Comparison results of combinations of five normal evidences (E1,E2,E4,E5,E6) and two abnormal evidences (E3,E7)

4 结论

1) 本文提出了基于证据不确定区间距离的证据组合方法,实验结果表明本文所提方法是合理有效的,多证据多冲突的情况也符合工程应用中所出现的情况。

2) 定义不确定区间的距离是基于焦元信度及似真度函数,充分考虑了焦元的信度最大化。当证据不存在冲突时,经典D-S证据理论及PCR就可以取得理想的融合结果;当存在冲突证据时,经典理论融合结果就会出现偏差,通过本文算法可以得到理想的融合结果。后期,将基于范数概念,对证据组合公式进行深入分析以及进一步修正数据源。

猜你喜欢
信息熵信度修正
基于信息熵可信度的测试点选择方法研究
平衡损失函数下具有两水平共同效应的信度模型
修正这一天
问卷是否可信
——基于体育核心期刊论文(2010—2018年)的系统分析
对微扰论波函数的非正交修正
近似边界精度信息熵的属性约简
基于信息熵的承运船舶短重风险度量与检验监管策略研究
信息熵及其在中医“证症”关联中的应用研究
修正2015生态主题摄影月赛
计算机辅助英语测试研究