公安大数据治理中数据冲突解决方法探索

2020-03-28 02:16王欣汪宁郝久月
警察技术 2020年2期
关键词:正确度质量指标数据源

王欣 汪宁 郝久月

1. 北京中盾安全技术开发公司 2. 公安部第一研究所

引言

当前,如何在公安大数据建设过程中将数据资源转化为现实战斗力已成为公安信息化建设的重大基础性课题。相对公安信息资源的数量,数据质量对大数据智能化应用更为关键。建立在质量无法保证的数据资源之上的分析,其结果是毫无价值的,甚至是有害的。因此,必须把数据治理放在一个十分重要的位置。在公安大数据治理过程中由于各业务系统提供的数据源是独立的,可能会在数据融合过程中产生数据冲突问题,即不同数据源描述同一对象同一属性的数据之间存在冲突。例如同一个人的年龄,不同系统提供的数据可能存在差异。数据冲突问题增加了数据治理的难度,并影响了上层应用对数据进行分析研判的准确性。

当前,公安大数据治理领域相关研究较少。在数据融合方面从高效数据分析查询开展相关研究[1]。从视频大数据为基础的数据融合方面开展相关研究[2]。但当前用于解决数据融合中数据冲突的研究较少,多采用人工方式对冲突数据进行处理,增加了问题解决的难度及工作量。

因此本文提出一种自动解决数据冲突问题的方法,即基于数据源属性的数据冲突解决方法。该方法基于质量好的数据源提供的数据正确度会比较高的假设,能够根据数据源质量选出冲突数据中的最佳数据。本文通过实验证实了该方法的有效性。

一、数据冲突解决策略

本文基于数据源质量高则提供的数据质量也较高的假设,通过考量数据源质量的方式来进行冲突数据中正确数据的选择。

(1)数据一致性检查:在数据治理过程中,检查对于从不同数据源获取的同一对象的数据集合中是否存在对该对象的同一属性值描述不同的情况,即是否存在数据冲突。如存在则记录下来,为下一步冲突解决做准备。

(2)获取数据源数据质量指标:获取不同数据源的质量指标,如数据源的可靠性、可用性、查询反馈时间等。

(3)采用基于多属性融合的方法解决冲突数据问题:对每一个存在冲突的数据集合,基于多属性融合的方法选择质量指标最佳数据源的方式,解决数据冲突。

二、冲突数据处理

(一)处理过程

对于冲突数据,使用多属性融合方法进行解决,具体如下:

1. 构造矩阵Qnxm

用qi1到qim表 示数据源i 提供的产生数据冲突的m个数据源的Qos指标值,其中i≤n。

2. 归一化

首先,统一单位。如果不同数据源所采用的指标单位不同,则将它们统一到相同的单位得到矩阵Qnxm。

其次,将矩阵Qnxm中每个元素值的取值范围处理为0~1。对Qnxm中反向属性和正向属性的值采用不同的公式进行计算。反向属性即对结果有反向作用的因素,正向属性即对结果有正向影响的因素。对反向属性的值根据式(1)进行计算,对正向属性的值根据式(2)进行计算,得到矩阵Qnxm。

其中 m1≤ai≤xnqi’j是第j列向量的最大值, m1≤ii≤nnqi’j是第j列向量的最小值。

3. 计算每个候选值与positive ideal solution的欧几里德加权距离,并计算每个候选值与negative ideal solution的欧几里德加权距离

用g表示Qnxm中的positive ideal solution向量定义为:

用b表示Qnxm中的negative ideal solution向量定义为:

候选数据源si与positive ideal solution之间的加权欧几里德距离dig定义为:

候选数据源si与negative ideal solution之间的加权欧几里德距离 dib定义为:

4. 计算每个候选数据源属于positive ideal solution的程度

定义隶属函数μ (vi) , 它表示vi属 于 g的 程度:

根据μ (vi) 计 算的结果,设置向量u = (μ(v1) , μ(v2),…, μ(vn))

5. 选 取最大μ (vi)对 应数据源的数据u

6. 算法修正

为了更好地体现数据源质量与数据正确度之间的关系,算法中设定每个数据源的历史正确度指标,该指标用于表示数据源数据的整体正确程度,如被选中数据源的数据经专家评测后为正确数据,则该指标增加,反之则减少。该指标作为数据源的质量指标之一参与计算。

(二)实验

本文提出的数据不一致性问题的解决方法基于数据源质量指标,所以在我们的实验中,基于一组模拟数据源进行测试,并为每个数据源提供了正向数据质量指标及反向数据质量指标。实验中设计了3000组不一致数据,多源数据源中的不一致数据可以被检测出来,每组不一致数据都被提前赋予(0~1)区间的正确度。图1曲线所示的实验结果表示解决若干组数据冲突的正确度的平均值。

基于质量好的数据源提供的数据的正确度会比较高这一假设,质量好的数据源的数据正确度在初始情况下赋值较高。所有数据源的不一致数据的正确度在初始赋值后,再基于随机数进行随机加减。基于算法每次所选数据的正确度来计算算法的平均正确度。

实验中我们设定了平均正确度阈值区间,当超过阈值最高值时,增加该数据源的历史正确度指标,当低于阈值最低值时,减少该数据源的历史正确度指标,并把每个数据源的历史正确度作为数据源的质量指标之一参与计算。

图中,三角曲线表示本文方法,圆点曲线表示随机法,正方曲线表示轮询法。图中所提供方法的平均正确度几乎可以达到85%。在测试实验中,表示该方法解决数据不一致性问题的准确度和有效性较高。该方法的测试曲线前期因为高质量数据源的数据被选择的增加,正确率有较快提升,最终趋于平缓,可能的原因是高质量数据源中所有的数据并非都是正确的数据。该测试结果较符合现实情况。

三、应用展望及下一步研究计划

本研究提出的数据冲突处理算法可应用于公安大数据数据处理流程中,作为数据清洗的一个步骤,处理各数据源间产生的冲突数据。

下一步,计划在公安大数据平台环境下部署数据冲突处理算法开展初步应用,实现数据冲突自动化处理应用。该算法能够提升冲突数据的处理效率,具体如下:(1)实现自动从冲突数据中快速选择最优数据,把业务人员从大量的数据处理工作中解放出来;(2)提升多源数据整合的数据质量,构建以数据为核心的流程体系。

同时,本研究将在数据源质量指标选择方面开展研究,对算法进行调优,提高算法的准确度,进一步深化算法与公安大数据实战平台的融合,以算法为基础研发底层数据冲突处理基础组件,高效支撑实战应用。

四、结语

本文基于当前公安大数据治理过程中对不同数据源提供的冲突数据进行融合的迫切需求,对基于数据源质量的数据冲突解决方法进行了探索。该方法基于质量好的数据源提供的数据的正确度会比较高的假设,能够根据数据源质量选出冲突数据中的最佳数据。经实验验证,该方法具有较高的准确性。

猜你喜欢
正确度质量指标数据源
基于移动护理下全院护理质量指标监控系统的探索研究
国产总蛋白试剂盒在贝克曼AU680的性能验证
ARCHETECT高敏肌钙蛋白Ⅰ试剂盒性能评价
茶叶籽油精炼工艺条件对其质量指标的影响
Web 大数据系统数据源选择*
基于不同网络数据源的期刊评价研究
临床检验检验前质量指标的一致化
临床检验正确度控制品-评估偏倚
对葡萄糖常规检验系统正确度的评价
基于真值发现的冲突数据源质量评价算法