数据质量量化评价研究与实现

2019-09-12 10:41庄计龙陈敏刚
智能计算机与应用 2019年4期
关键词:评价模型数据质量层次分析法

庄计龙 陈敏刚

摘 要:近年来,随着科学技术的飞速发展,信息化、数字化社会正在形成。伴随而来的是数据质量问题越来越凸显。本文在分析了当前数据质量评价标准的基础上,确定以GB/T 25000.24为基础构建数据质量评价模型,并对指标权重进行研究。相比使用单个权重计算方法,本文综合Delphi法、层次分析法和基于信息熵的熵权系数法计算综合权重,使得权重进一步客观。针对当层次分析法的判断矩阵经计算不满足一致性时,重新构造判断矩阵成本高的问题,文章引入了诱导矩阵修正法来修正判断矩阵以尽可能避免重新构造判断矩阵。最后本文开发了相应的数据质量评价系统,有效地提高了数据质量评价工作的质量和效率。

关键词:数据质量;评价模型;层次分析法;熵权系数法

文章编号:2095-2163(2019)04-0071-05 中图分类号:TP311.13 文献标志码:A

0 引 言

近年来,随着科学技术的飞速发展,信息化、数字化社会正在形成。计算机系统软件已经渗透到生活的各个方面,这些软件不断地产生新的海量数据。此外,不仅仅是IT行业,越来越多的行业涉及到了数据的处理,如银行、保险、零售业、等等,数据已经成为新时代最重要的资产之一[1]。

但这些数据可能由于人为录入的错误、人为篡改、机械故障等原因,往往會存在数据属性缺失、数据相似重复、数据属性值异常等问题。这些错误可能会造成数据冗余,浪费存储的空间,甚至可能导致数据分析挖掘时产生严重的偏差[2]。在对数据进行分析挖掘之前,数据质量的好坏对于人们能否准确利用数据获得决策信息非常重要,甚至决定着数据应用的成败[3]。虽然目前关于数据质量的研究已经蓬勃兴起,但工作主要集中在数据的存储、管理、挖掘分析等方面,数据质量问题没有得到足够的重视[4]。这些缺失数据或错误数据等原因导致了数据不能很好地利用,甚至造成很大的决策失误。因此已有越来越多的专家、学者意识到数据质量对数据分析挖掘的重要性并投身于相应的数据质量研究中。

1 构建数据质量评价模型

1.1 GB/T数据质量模型

数据质量研究的诞生和发展主要是在国外,因此早期国内相关研究中的主要理论依据都是根据ISO/IEC发布的一系列标准。随着国内对数据质量的关注度逐渐提高,中国对数据质量测量的标准化也有了实质性的进展。在GB/T 25000.12-2017和GB/T 25000.24-2017(2018年5月1日开始实施)这2个国家标准中,为计算机系统中以某种结构化形式保存的数据定义了一种通用的数据质量模型,从固有的以及依赖系统的角度划分了质量特性以及对应的属性。其中包括15个特性,63个属性。

1.2 裁剪构建数据质量评价模型

裁剪指标的依据来源主要有:

(1)根据最新的国家相关数据质量标准;

(2)咨询相关领域的专业人士的意见;

(3)上海软件中心实习期间的见闻;

(4)统计相关信息系统的指标要素构成。

通过裁剪所得到的数据质量评价模型完备性、一致性、依从性、准确性、唯一性、现时性和保密性等7个一级指标构成。

2 改进数据质量评价指标权重分配方法

2.1 改进的层次分析法

处理数据质量评价过程中的权重分配需要使用层次分析法[5]。这里使用的层次分析法与传统意义上的层次分析法有区别,因而要做相应的改变。重新定义层次分析法的层次结构为目标层、指标维度层。因此新的层次分析法使用步骤如下:

(1)构建层次结构模型。层次分析法是确定权重的基础。首先需要通过对数据的理解和分析去设定顶层也即目标层,其次需要确定指标维度层;

(2)判断矩阵的建立与计算。通过所有指标维度的两两比较,然后按照某一尺度建立。这里通过邀请专家根据Santy提出的1-9标度方法作为评价尺度来建立判断矩阵;

其中,R.I.为随机一致性指标(Random Consistency Index)。对于一致性比例,当 C.R.<0.1时,认为该判断矩阵通过一致性校验,说明该判断矩阵的不一致性程度在容许范围内,则由其导出的特征向量即可作为子特性的权重向量。当C.R.>0.1时,称D不具有一致性。一般需要再次构造判断矩阵重复上述过程。为解决重新构造判断矩阵成本高的问题,文章引入了诱导矩阵修正法来修正判断矩阵以尽可能避免重新构造判断矩阵。具体说来:当阀值0.1

诱导矩阵修正法的计算步骤如下:

2.2 面向权重的熵权系数法

这里引入基于信息熵[7]的熵权系数法[8]。如果某评价指标的熵越小,说明该指标提供的信息量就越大,在综合评价中所起的作用就越大,权重就越高。反之,若评价指标的熵越大,说明该指标提供的信息量就越小,在综合评价中所起的作用就越小,权重就越低[9]。应用熵权系数法可以尽可能消除人为因素对计算各指标权重的影响,使评价结果更为准确。

在本文实际的数据质量评价中,使用熵权系数法进行权重值求取的步骤如下。

2.2.1 评语集和指标集的确立

原始的熵权系数法所考虑的评估问题,一般是设有n个评价对象(方案),m个评估指标,这样的设定方法并不适合本文数据质量评价的需求。因而本文对其所表述的含义进行如下修改,并将其记为WEWCM(Weight-Oriented Entropy Weight Coefficient Method)。

2.2.2 评价矩阵的建立

2.2.3 指标权重的求解

上文通过专家打分和统计已经构建了初始评价矩阵。在上述步骤的基础上,就可结合信息熵的知识进行指标权重的求解。其具体计算步骤如下:

3 数据质量量化评价设计与实现

3.1 功能性设计

功能性设计如图1所示。

3.2 技术架构设计

结合最新的前后端分离技术,以及对各类技术应用研究和分析,设计系统的技术采用B/S架构[10],如图2所示。

在前后端分離总体架构的基础上,逻辑上将技术架构分为4个层次,分别是视图层、业务逻辑层、数据访问层和数据层。前后端分离后,难以避免跨域问题。解决跨域问题核心代码如下:

public void addCorsMappings(CorsRegistry registry) {

registry.addMapping("/**")

.allowedOrigins("*")

.allowCredentials(true)

.allowedMethods("GET","POST", "DELETE", "PUT")

.maxAge(3600);

}

3.3 系统功能模块实现

首先明确系统的开发环境和开发工具,前端基于Node框架,所使用的开发工具为WebStorm,后端基于JDK1.8,所使用的开发工具为IntelliJ IDEA。这里仅给出数据质量评价配置模块的实现说明。

数据质量评价配置模块是本文所开发系统的核心功能模块,具体实现流程是:在前端系统的数据质量综合量化指标维度编辑界面,设置好相应规则约束等字段,然后把数据以JSON的形式发送给后端进行相应指标计算,并将结果保存到数据库和Redis缓存中,供后面计算总得分、可视化以及评价报告使用。这部分为了提高运算的速度,充分发挥CPU的性能,系统使用线程池技术。模块时序如图3所示。

4 实 验

文章使用真实电商领域的数据集进行数据质量评价实验。

(1)利用AHPIM计算权重。 通过一系列步骤算出权重为:

W={0.094,0.054,0.104,0.037,0.134,0.292,0.285},

(2)利用WEWCM计算权重。通过一系列步骤算出权重为:

w={0.149,0.184,0.149,0.230,0.184,0.070,0.035},

(3)综合AHPIM与WEWCM计算综合权重。

根据公式(10)求得质量维度的综合权重为:

w^=0.136,0.097,0.151,0.083,0.239,0.198,0.096.

在确定了指标的综合权重后,权重也作为电商领域数据的默认权重保存到系统中。接下来在所设计并实现的数据质量评价平台上评价数据的数据质量。最后得到评价分数如图4所示。

5 结束语

本文研究了数据质量现状和方向,分析了目前数据质量研究存在的不足。针对存在的问题,首先利用GB/T来替代ISO标准,其次综合多种方法计算权重,最后设计并开发了系统。详细展示了数据质量评价流程和评价方法的使用,对评价结果进行了可视化图表展示,对系统存在的问题也进行了进一步的优化,验证了方案和系统的可用性及高效性。

参考文献

[1]Jaime Campos,Pankaj Sharma,Unai Gorostegui Gabiria,Erkki Jantunen,David Baglee. A Big Data Analytical Architecture for the Asset Management[J]. Procedia CIRP,2017,64.

[2] 张元新. 网络开源数据可用性评价系统[D]. 哈尔滨工业大学,2017.

[3] 杨忠胜. 数据质量中精确性的研究[D]. 哈尔滨工业大学,2013.

[4] 延婉梅. 动车组大数据清洗关键技术研究与实现[D]. 北京交通大学,2015.

[5] Suvendu Chandan Nayak,Chitaranjan Tripathy. Deadline sensitive lease scheduling in cloud computing environment using AHP[J]. Journal of King Saud University-Computer and Information Sciences,2018,30(2).

[6] 张炳江.层次分析法及其应用案例[M].北京:电子工业出版社,2014.

[7] Michael W. Grenn,Shahram Sarkani,Thomas Mazzuchi. The requirements entropy framework in systems engineering[J]. Systems Engineering,2014,17(4).

[8] 汤永利,徐国爱,钮心忻,等. 基于信息熵的信息安全风险分析模型[J]. 北京邮电大学学报,2008(2):50-53.

[9] 文军. 基于熵权法的航空公司绩效评价研究[J]. 科学技术与工程,2009,9(22):6939-6941.

[10]李大为. 基于B/S架构的绩效考核管理系统设计与实现[D]. 吉林大学,2018.

猜你喜欢
评价模型数据质量层次分析法
基于学业质量的增值性评价系统的分析与构建
基于产业集群的技术创新风险评价模型构建
浅析统计数据质量
金融统计数据质量管理的国际借鉴与中国实践
浅谈统计数据质量控制
基于熵权法的西安市外向型经济发展综合评价研究
基于模糊综合评价模型对道路拥堵的研究