基于改进Apriori 算法与极大不相关法的武器装备系统效能评估指标精简方法研究

2022-11-15 07:54程绍驰游光荣
军事运筹与系统工程 2022年2期
关键词:项集置信度效能

程绍驰 游光荣

(1.军事科学院 战略评估咨询中心,北京100091;2.军事科学院 战争研究院,北京100091)

1 引言

武器装备系统效能评估是指评估武器装备系统在特定的环境和规定的时间内,完成指定作战任务的综合能力[1]。随着信息化技术的迅猛发展,武器装备系统内部各要素之间的关联关系越来越错综复杂,而且可能瞬息万变,这使得武器装备系统效能评估指标的关联关系越来越复杂,评估指标的冗余问题越来越突出,由此可能增加评估数据的收集难度和评估计算的复杂度。因此,挖掘武器装备系统效能评估指标的关联关系,找出冗余指标并进行精简具有重要的现实意义。

当前国内外相关研究中,精简武器装备系统效能评估指标通常基于专家知识和经验,采用定量方法的并不多见。司光亚等对效能评估指标之间存在的相互依赖与影响关系进行了深度挖掘[2],但是没有提出剔除冗余指标的方法;薛世钦等针对复杂作战体系效能评估指标可能存在的关联和冗余问题,提出了一种基于Apriori 算法剔除冗余指标的方法[3];韩驰等面向航天侦察体系的体系效能和体系贡献率评估,基于FP-Tree 算法挖掘评估指标的关联关系[4]。然而,文献[3]采用的Apriori 算法和文献[4]采用的FP-Tree 算法,主要基于支持度和置信度来衡量评估指标关联关系的强弱,易引入冗余关联关系[5]。本文探索一种基于改进Apriori 算法挖掘武器装备系统效能评估指标之间关联关系的方法,再利用极大不相关法减少冗余关联关系的引入。

2 基于改进Apriori 算法挖掘关联评估指标

2.1 传统Apriori 算法简介

2.1.1 关联规则

关联规则是形如X→Y的表达式,其中X,Y均为项集,且X∩Y =∅,X被称为规则前件,Y被称为规则后件。关联关系分析算法就是要从数据集中找到一些频繁出现的关联规则。

2.1.2 支持度与置信度

关联规则是否频繁出现,通常用支持度s与置信度c来度量,公式如下:

式(1)(2)中,σ(X∪Y)和σ(X)分别表示项集X∪Y和X在数据集中的计数,M表示事务总数。

2.1.3 频繁项集、候选项集与强规则

关联关系分析算法通常包括两个步骤:一是确定频繁项集,即提取满足最小支持度阈值的所有项集,而需要计算支持度的项集被称为候选项集;二是确定强规则,即从上一步确定的频繁项集中,提取满足最小置信度阈值的所有规则。

2.2 Apriori 算法的不足

Apriori 算法采用的支持度-置信度框架由于存在忽视规则后件支持度的固有缺陷[6~9],容易得到一些规则前件与规则后件互斥的虚假关联规则,即规则前件的出现会降低规则后件的出现概率,下面举例说明,见表1。

表1 虚假关联关系说明表

假设表1 为1 000 次评估实践中指标1 和指标2取值的分布情况。由表1 中的数据计算可知,关联规则“指标2(高)→指标1(高)”的支持度s(指标2(高)→指标1(高))=60%,“指标2(高)→指标1(高)” 的置信度c(指标2(高)→指标1(高))=70.6%,按照Apriori 算法进行关联规则分析,“指标2(高)→指标1(高)”易被确定为强关联规则。然而,如果仅看指标1(高)的支持度,s(指标1(高))=71%,即s(指标1(高))>c(指标2(高)→指标1(高)),这说明“指标2 高” 的出现反而降低了“指标1 高” 出现的概率,因此“指标2(高)→指标1(高)” 是一个虚假关联规则。

2.3 引入提升度的改进Apriori 算法

为改进上一节提到的Apriori 算法的不足,引入提升度的概念:

当Lift(X→Y)=1 时,表示X与Y相互独立;当0<Lift(X→Y)<1 时,表示X出现会降低Y出现的概率;当Lift(X→Y)>1 时,表示X与Y同时出现的概率高。对于表1 的数据,c(指标2(高)→指标1(高))=70.6%,s(指标1(高))=71%,Lift(指标2(高)→指标1(高))=<1,这表明“指标2(高)” 出现会降低“指标1(高)” 出现的概率,“指标2(高)→指标1(高)” 是一个虚假关联规则,应剔除掉。

3 基于极大不相关法剔除冗余评估指标

极大不相关法的具体计算步骤如下[10,11]:

假设有m个评估样本,每个评估样本都包含n个评估指标,则所有评估数据组成m × n的评估数据矩阵:

计算各评估指标的均值:

计算各评估指标的方差以及各评估指标之间的协方差:

式(8)(9)中,sii表示各评估指标的方差,sij表示各评估指标之间的协方差。

计算各评估指标之间的相关系数:

所有相关系数组成n × n的相关矩阵:

令R-i为相关矩阵R去除第i行和第i列后形成的矩阵,为矩阵R-i的逆矩阵,ri =(r1i,r2i,…,ri-1,i,ri+1,i,…,rni),为ri的转置,则:

式(12)中,ρi被称为复相关系数,能够度量评估指标xi与其余n -1 个指标的相关性,且ρi的值越大,表示评估指标xi与其余n -1 个指标的相关性越高,即越容易被其余n -1 个指标替代,是冗余指标的可能性越大。

4 实例验证

4.1 数据来源

实验数据来源于文献[1],其针对地空导弹武器系统效能评估,构建了包括5 个一级指标、18 个二级指标、20 个三级指标,共3 层43 个指标的评估指标体系,各个指标的权重基于层次分析法计算得到,具体数值见表2。

表2 地空导弹武器系统效能评估指标体系权重分布表

为模拟指标之间的强关联关系,将“道路机动能力” 和“越野机动能力” 两个二级指标的数据由其下属的三级指标加权求和得到,且保证“道路机动能力” 下属三级指标同时为“高” 的支持度大于60%,“越野机动能力” 下属三级指标同时为“高”的支持度也大于60%;为模拟指标之间的普通关联关系,“目标指示精度”“目标分辨力”“目标容量”和“可射击能力” 等4 个二级指标的数据由其下属的三级指标加权求和得到,其中的三级指标采用随机模拟数据;为模拟指标之间的虚假关联关系,借鉴表1 中的数据分布,模拟构建“作用距离” 与“灭火防爆能力”,“毁伤目标概率” 与“探测目标阶段抗干扰能力”,“反应时间” 与“三防能力” 三对指标之间的虚假关联关系。除此之外,其余的二级指标和三级指标都采用随机模拟数据。

4.2 数据离散化

在挖掘关联评估指标之前,需要对评估数据进行离散化,原因是不同评估指标的评估内容和计算方式不同,得到的评估数据的分布情况差异很大,且对评估数值高低的判断标准有较大差异,在不进行离散化的情况下,难以对评估指标之间的高低关联关系进行挖掘。

本文将所有评估指标都离散化为“高” 和“低”两种取值,假设评估指标i的所有评估数值中最大值为max(i),最小值为min(i),则评估指标值v(i)为“高” 的标准是:

评估指标值v(i)为“低” 的标准是:

4.3 对比实验及分析

基于4.1 节的地空导弹武器系统效能评估,根据4.2 节设计的标准完成评估数据离散化,然后分别利用传统Apriori 算法与改进的Apriori 算法进行关联评估指标挖掘,支持度阈值设为0.6,置信度阈值设为0.6,改进的Apriori 算法由于有提升度要求,将提升度阈值设为1.6。基于传统和改进的Apriori 算法进行关联规则挖掘的结果统计情况见表3。

表3 基于Apriori 算法进行关联规则挖掘的结果统计表

通过比较上述两种算法的挖掘结果可以发现,传统Apriori 算法挖掘出的评估指标之间的强关联规则为552 条,改进Apriori 算法可以有效筛选掉传统Apriori 算法挖掘出的规则前件与规则后件互斥的虚假关联规则,以及规则前件和规则后件独立的关联规则,当提升度阈值为1.6 时,可将强关联规则精简至36 条,精简比例约为94%。由于篇幅所限,本文仅列出其中5 条强关联规则进行分析,见表4。

表4 基于改进Apriori 算法挖掘的部分强关联规则

通过分析改进Apriori 算法挖掘出的强关联规则可知,二级指标26 与三级指标8,9,10,11 构成强关联指标集,二级指标31 与三级指标12,13,14,15 构成强关联指标集。

实际上,在构建模拟数据时,二级指标26 由三级指标8,9,10,11 线性求和得到,二级指标31 由三级指标12,13,14,15 线性求和得到,为排除这种人为引入的相关性,将两个强关联指标集内的二级指标去掉,利用极大不相关法计算剩余指标之间的复相关系数,有关三级指标8,9,10,11 的计算结果见表5。

表5 三级指标8,9,10,11 的复相关系数表

由复相关系数值排序可知,指标10 为冗余指标,同理可知指标15 为冗余指标。

5 结束语

本文提出“两步走”的精简评估指标体系方法,第一步基于改进Apriori 算法挖掘评估指标之间的强关联规则,构建强关联指标集;第二步基于极大不相关法剔除强关联指标集中的冗余指标。通过地空导弹武器系统效能评估数据集实例验证,本文提出的方法可以比传统Apriori 算法更准确地挖掘出冗余指标。后续将在现有研究的基础上,基于真实评估数据开展进一步研究,完善精简评估指标的流程和方法。

猜你喜欢
项集置信度效能
基于数据置信度衰减的多传感器区间估计融合方法
基于哈希表与十字链表存储的Apriori算法优化
一种基于定位置信度预测的二阶段目标检测方法
立足优化设计提高作业效能
红外空空导弹抗干扰效能评估建模
Sp-IEclat:一种大数据并行关联规则挖掘算法
含负项top-k高效用项集挖掘算法
提升水域救援装备应用效能的思考
地方机构改革“+”与“-”——减的是机构,加的是效能
校核、验证与确认在红外辐射特性测量中的应用