数据资产管理视域下电子商务数据质量评价指标体系研究

2019-10-30 13:04孙俐丽袁勤俭
现代情报 2019年11期
关键词:数据质量评价指标电子商务

孙俐丽 袁勤俭

摘 要:[目的/意义]数据质量是阻碍电子商务数据价值实现的关键因素,构建电子商务数据质量评价指标体系,有助于明确电子商务数据质量优化方向。[方法/过程]基于数据资产管理的视角提出电子商务数据质量评价指标,并采用德尔菲法对评价指标进行修正,然后运用层次分析法确定各指标权重。[结果/结论]通过定性与定量相结合的方法构建了包含内在维度、情境维度、应用维度、资产维度4层次结构的数据质量评价指标体系,为指导电子商务数据质量管理、提升数据资产价值提供有益参考。

关键词:电子商务;数据质量;评价指标;数据资产管理

DOI:10.3969/j.issn.1008-0821.2019.11.010

〔中图分类号〕F724.6 〔文献标识码〕A 〔文章编号〕1008-0821(2019)11-0090-08

Abstract:[Purpose/Significance]Data quality is the key factor that hinders the realization of data value in e-commerce.Constructing an evaluation index system of e-commerce data quality is helpful to clarify the direction of data quality optimization in e-commerce.[Method/Process]Based on the perspective of data asset management,this paper put forward the evaluation index of e-commerce data quality,and used Delphi method to revise the evaluation index,and then used AHP to determine the weight of each index.[Result/Conclusion]Through the combination of qualitative and quantitative methods,a data quality evaluation index system was constructed,which included four layers of internal dimension,situational dimension,application dimension and asset dimension.It provided a useful reference for guiding the data quality management of e-commerce and improving the value of data assets.

Key words:e-commerce;data quality;evaluation index;data asset management

大数据背景下,数据已成为电子商务企业的核心资产。然而大数据环境下,庞大的数据量和复杂的数据结构,加剧了低质量数据产生的风险,给电子商务数据质量管理带来挑战,对企业数据资产价值实现以及企业核心竞争力产生重大影响。面向数据资产管理,以数据资产价值实现为准绳,建立电子商务数据质量评价标准已成为实践迫切需求。

关于数据质量评价一直是学界关注的热点问题之一,学者们针对不同领域、从不同视角已提出了一些有代表性的评价模型及指标体系,包括用户需求视角[1]、产品视角[2]、Web环境下基于用户体验的视角[3-4]、基于数据生命周期视角[5]、基于应用逻辑视角[6]、数据长期保存的视角[7],以及大数据环境下的数据利用质量的3A评价模型[8]、5要素模型[9]、基于上下文感知的评估模型[10]、大数据质量框架[11-12]。现有评价模型各具特色和优势,但尚未形成广泛认可的评价模型体系。当前对数据质量的描述维度不尽相同,涉及生产、开发、运营、管理、成本等诸多功能因素,现有成果为本研究奠定了坚实的基础。基于国内外数据质量评价研究现状,并出于我國电子商务数据质量管理的现实需求考虑,本研究以电子商务企业拥有的结构化或半结构化的用户行为数据、商品数据、交易数据、系统产生的其他业务数据等核心数据为主要研究对象,就以下3个方面问题展开研究:1)数据资产管理视域下数据质量评价出发点是什么?2)如何基于数据资产管理视角构建电子商务数据质量评价指标体系?3)各指标的测量准则和测量项是什么?

1 评价维度及其指标的理论分析

为了减少德尔菲法操作过程中专家咨询轮次,本研究首先通过对当前研究的理论分析,提出初步的评价维度及其指标,为专家提供背景资料。

关于数据质量是一个复杂的、多维度的概念范畴。现有研究已有不少关于“数据质量”内涵的研究成果,尽管对数据质量的涵义有不同的看法,但一般认为数据质量是可以由若干数据质量维度来衡量,即通常用维度一词来确定数据的哪些方面是可以测量的,并通过它们来描述和量化数据质量。当前数据质量的研究已经取得一定成果,其中以Wang R等提出的质量描述框架为典型代表:包括固有质量、获取质量、表达质量、与环境相关的质量4个维度,该框架适用于传统数据环境下,数据主要来源于企业系统内部,数据量有限、数据结构较为单一的情况,但大数据环境下,数据本身、数据组织及应用与传统数据环境相比产生诸多差异,对数据质量的评价也相应发生变化。对于大数据环境下的数据质量,Merino J等提出了在大数据环境下的数据利用质量模型,包括环境适用性、时效性、操作适用性3个维度[8]。Loshin D等认为数据质量的维度有不同划分标准,实践者应该从便于实际使用出发倾向于那些便于测量、适合在企业内推广的维度,提出了内在维度、上下文维度、定性维度[6]。

以上成果是基于不同的研究背景和出发点所产生的结论,但是对于数据资产管理视域下电子商务数据质量不能简单地套用传统数据质量标准或者大数据质量标准来衡量,原因在于:1)从数据构成及数据规模来看,电子商务的数据既包括来源于企业自身业务系统的结构化的、可控的数据,也包括相对而言不可控的、半结构化数据、外部合作获得的数据,就数据来源和数据格式的复杂程度而言,电子商务的数据介于传统数据和常规意义上的大数据之间。2)从数据利用需求和目的来看,电子商务数据利用需求有其独特的行业特性。有别于公共领域数据、科学数据,商务数据利用需求集中体现在对客户需求的挖掘、对市场机会的发现等商业需求,场景化、预测性是其主要特征。3)从数据资产管理角度来看,就是要通过对数据进行资产化管理使得数据能够成为企业核心资产,充分体现数据资产价值,从而提升企业管理水平和经营效益,最终提高企业市场竞争力[13]。从数据的资本属性角度考虑,必然对数据质量产生相应的要求。所以,本研究在数据资产管理视角下,将衡量电子商务数据质量的出发点归纳为:一是体现电子商务行业的数据利用需求特征,以及企业业务发展对数据质量的要求,能够为企业运营决策提供准确、真实、可信、及时、细致、全面的客户数据以及相关运营数据,满足数据驱动、场景驱动的电子商务经营需求。二是体现数据作为企业资产属性所要满足的质量要求,即需要具备数据资本变现价值,以及为企业商业目标服务等质量要求。

本研究在当前研究成果基础上,基于数据资产管理视域下电子商务数据质量的评价出发点,并咨询了两位电子商务数据专家(分别为数据中心负责人和数据分析师)意见,参考国际数据管理协会(DAMA International)对数据质量维度及其指标应具备可度量性、可控性、可跟踪性[14]的原则,按照由低至高的层级思路,初步梳理出如下评价维度及其可能的指标:

1.1 数据值层次的质量维度

数据值层次的质量维度关注的是数据值本身所具有的质量属性,主要描述数据值的结构、格式、含义、值域,但不关注数据值的背景信息等其他质量属性。数据值质量维度其实质就是元数据的质量,是衡量数据质量最基本的维度,是数据利用的基础。数据值质量维度下的二级指标有:

1)准确性:是指数据与数据所表示的实体的实际值之间的一致程度,包括数据内容和形式上的准确,即数据的类型、格式、精度及值域范围的准确[15]。

2)可追溯性:数据的可追溯性是指可以追溯数据的来龙去脉,是对数据生命周期的全面追踪,可追溯性指标是用来描述对数据生成和处理过程信息的掌握程度,数据是否可追溯是影响数据资产可信度的重要因素。

3)语义唯一性:语义唯一性要求数据集中相似数据对象的名称和含义一致。语义一致是保障数据在企业内部进行交换和共享的前提条件。

1.2 数据集层次的质量维度

数据资产是一个有机联系的整体,在数据值的基础上,还需要考量数据元、数据记录、数据集等不同数据层次之间数据的完整性、一致性、有效性。数据值维度与情境质量维度共同构成数据应用质量的基础。本研究将数据情境维度的二级指标归纳为以下几个方面:

1)完整性:是描述数据信息的完整程度,包括数据记录完整性和数据库完整性两个方面。数据记录完整性是指数据元本身的完善程度,包括两个层面:一是记录层面的完整,即数据库内没有记录丢失;二是每一条数据记录的属性值是完整的,没有缺失值。

2)一致性:是指数据的数值、标识、约束条件等的一致程度。不同数据库/表之间代表相同实体的数值是相同的、同一个数据对象在不同用户同一时间访问时的值是相同的。

3)可识别性:是指对核心概念对象的唯一命名和表示,也就是说同一条记录在系统中只出现1次,以及对具有内在逻辑联系的数据之间建立关联匹配,能够将具有业务相关性的分散在多各库表中的属性值关联起来。数据可识别性是用户画像、用户建模的提前条件。

1.3 数据应用层次的质量维度

数据应用质量是指对数据利用需求的满足程度,是建立在数据内在质量和情境质量的基础之上,在数据应用过程中体现出来的质量。数据应用质量是衡量数据质量的核心维度,是决定数据资产价值的关键因素。包含以下二级指标:

1)易用性:是指数据被利用的容易程度,包括两个层面的含义,一是用来描述数据的表达质量,包括數据的标识符号、定义的清晰程度和简洁程度,数据的业务规则是否明确易懂没有歧义。另一个层面是描述数据易于操作处理的程度。

2)有效性:这里的数据有效性是相对于无效数据而言的,可以用虚假数据、数据冗余、脏数据、违规违法数据等无效数据所占的比例程度来衡量,无效数据比重越高数据有效性越差。例如,商户违反平台规则通过虚假交易进行“刷单”产生的订单数据就是虚假数据。

3)及时性:是数据满足利用者时效性要求的程度。一方面指数据本身更新的及时性;另一方面是指数据中心提供数据报告等数据产品的及时性。数据的及时性是相对的。

4)合理性:是指数据值尤其是关键业务指标值的波动幅度在合理范围内。数据是业务变化的体现,常规情况下,业务数据都会在一个相对稳定的区间内波动,如果出现异常变化可能就预示了数据处理程序、规则等出现问题导致数据质量问题。

1.4 数据资产层次的质量维度

在电子商务领域,数据的资产价值主要体现为数据的效用价值、变现价值。根据调研情况,并结合专家咨询结果,数据资产维度的二级指标主要有:

1)数据容量:一是数据总量大小,即数据的规模,包括企业各业务系统当中生成的业务数据、存储在服务器中的日志数据,以及通过合作或公司兼并等途径获得的外来数据。二是数据粒度是否可用,这是数据驱动决策的前提,通常做法是将数据存储为最原子级。

2)价值密度:电子商务领域高价值密度的数据资产主要体现为通过数据能够实现对消费者社会属性、生活习惯、消费行为、信用情况等进行全面描绘,为企业提供了足够的信息,能够帮助企业快速、精准地定位目标用户群体以及获得详细用户需求等更广泛的反馈信息。

2 评价维度及其指标修正

本研究运用德尔菲法对评价指标进行修正,共有11位专家参与了咨询,包括电子商务公司的数据中心负责人1名、数据挖掘专家2名、高级产品经理2名、资深数据分析师1名、副总经理1名,以及学界图情领域专家2名、博士研究生2名(出于保密承诺,此处隐去专家的姓名及单位名称)。由于事前曾与这些专家有过合作或联系,所以有较高的响应率。

根据上文基于数据资产管理视角对数据质量评价维度及指标的分析结果,于2018年12月通过电子邮件或微信共计发放3轮问卷,历时约1个半月。第一轮问卷返回率为100%,有效率为92%;在第一轮专家意见的基础上对指标进行了修改后再次发出问卷,第二轮问卷返回率为92%,有效率为100%;在第二轮专家意见的基础上对问卷进行第二轮修改。第三轮咨询返回率为83%,有效率为100%,经过两轮修改专家基本对指标体系达成一致意见。

根据咨询结果,专家基本上对4层次结构的评价维度表示认同,但具体表述上可以更精炼;专家意见主要集中在数据质量评价指标及测量项上面,主要包括:数据值维度增加了“结构一致性”指标,并将原“语义唯一性”改为“语义一致性”;情境维度下将原“及时性”改为“新鲜度”,并对其测量项进行完善,突出数据资产管理对数据新颖性的要求;资产维度下,增加数据安全性指标,多位专家提出数据安全性问题,认为保证数据安全是数据资产管理的重要职责,应当纳入数据质量评价范畴。还有专家提出增加“关联性”指标,用以描述数据之间关联关系的揭示以及用户检索结果的相关度,本研究认为“关联性”指标中的数据关联关系的揭示与“可识别性”指标内涵相似,可将这部分测量项纳入“可识别性”指标,但本研究认为用户检索结果的相关度属于系统匹配机制的质量范畴,所以对于这部分内容未予采纳。此外有一位专家认为需要增加可信度指标,经与专家沟通理解其出发点后,认为该指标可以通过“可追溯性”、“有效性”等指标来表达。专家对指标测量项也提出了补充和完善建议,修正后的评价指标及其测量准则与测量项参见表1。需要说明的是表1中的测量项仅是列举常见项目,实践中需要根据具体数据对象进一步取舍或优化。

3 评价指标体系构建

层次分析法是一种将定性分析与定量分析相结合的多因素决策方法。层次分析法首先将复杂问题层次化,将问题拆分成若干形成因素,根据因素间的相互关系,将因素按不同层次聚合,形成层次结构模型;其次,对每一层次各个元素的相对重要性进行两两比较,将主观判断表量化,最终把系统分析归结为最低层相对于最高层的相对重要性权值确定问题[16]。数据质量指标的重要性是难以精确定量的问题,运用层次分析法定性与定量相结合的特点,能够降低指标权重评估中主观因素的不确定性影响,对于质量指标权重研究不失为一种行之有效的方法。本研究邀请2名信息资源管理领域学者以及5名电子商务领域资深业务专家(包括总经理1名、资深产品经理1名、数据中心负责人1名、高级数据分析师1名、系统架构师1名),参与对数据质量评价指标的相对重要性评分。

首先,将问题拆解,建立层次结构。如图1所示,将数据质量评估包含的因素分为3个层面:由上到下分别是目标层A(数据资产管理视角下电子商务数据质量评价结果)、准则层B(B1内在维度、B2情境维度、B3应用维度、B4资产维度)、指标层C(准确性、可追溯性等14项质量评估指标,图中从左至右分别记为C1、C2、C3……C14)。需要说明的是,每个指标下还包括若干质量规则,但因为规则内容较为具体,需要根据各企业具体业务规则来确定,前文中的规则也只是舉例说明,所以,本指标体系只涉及质量指标层,没有包括规则层。

其次,构造判断矩阵。依据层次分析法的步骤,对于从属于上一层每个因素的同一层各个因素,进行两两比较,请专家采用“1~9标度法”打分,数据统计结果显示每一层指标的重要性均值都大于5,变异系数小于0.25,说明指标具有可靠性。将每一指标评分结果取均值后,运用AHP软件计算出各矩阵的最大特征根λmax和相应的特征向量W(即单一层次权重),并进行一致性检验。

对于目标层A与准则层指标B的判断矩阵,如表2所示,两两比较准则层指标之间的重要程度,通过AHP软件计算获得指标权重。

表7中各级指标权重值大小代表了各指标在数据质量评价体系中的重要程度,不仅给数据质量评估提供了衡量标准,同时也是为数据质量建设提供了参考依据。从表7的指标体系权重分布情况开看,内在维度、情境维度、应用维度、资产维度4个一级指标的权重依次递减,表明在数据资产的内在质量、情境质量是衡量数据质量的基础,数据应用维度和资产维度质量的优劣一定程度上取决于数据基础质量水平,因此,电子商务数据质量监管应始终重视数据最基础的质量属性,没有扎实的质量基础数据应用和数据资产也将无从谈起。二级指标中权重较高的有准确性、可识别性、情境维度下的一致性、结构一致性、语义一致性、有效性、合理性、完整性、安全性、可追溯性等,这些数据质量属性是衡量数据质量的关键因素,也为相关资源调配、设定质量问题处理优先级等数据工作提供了依据。

4 总 结

本研究构建的电子商务数据质量评价指标体系是从数据资产管理视角出发,充分考虑电子商务数据需求特征,采用德尔菲法,融合专家智慧与经验,构建评价框架,并通过定性与定量相结合的层次分析法确定各质量维度及其指标的权重。评价体系包含数据内在维度、情境维度、应用维度、资产维度4个维度,各维度重要程度从上至下依次增强。

数据内在维度主要描述数据自身质量,包含准确性、可追溯性、结构一致性、语义一致性4个二级指标,其中准确性重要程度最高,要求数据与数据所表示的实体的实际值之间保持一致。数据内在维度质量是数据应用的前提。情境维度描述不同数据层次之间的质量表现,包括数据在上下文情境中的完整性、一致性、可识别性。应用维度描述数据应用方面的质量表现,包括数据的易用性、有效性、新鲜度、合理性,其中有效性和新鲜度指标权重相对较高,体现了电子商务数据应用特点。资产维度,主要通过数据容量、数据价值密度和安全性3个指标体现数据资产的价值效用。各数据质量维度及指标之间并不是相互孤立的,而是相互影响和制约的关系。例如:对数据标识和规则等的一致性约束提升了数据的准确性;数据完整性中对参照完整性的约束也是数据一致性的一个方面;数据完整性的约束规则实际上也是对数据准确性的一种验证和保障;数据准确性和完整性的约束也是对数据有效性的维护。

与现有数据质量评价模型相比,本研究构建的四层次评价指标体系体现了数据质量评价维度之间的内在继承关系,同时,融入了数据资产管理的核心价值述求,拓展了数据质量评价的理论内涵。本研究为有效管理和评价电子商务数据质量提供了理论依据。

参考文献

[1]Cappiello C,Francalanci C,Pernici B.Data Quality Assessment from the Users Perspective[C]//International Workshop on Information Quality in Information Systems.ACM,2004:68-73.

[2]Yang W L,Strong D M,Kahn B K,et al.AIMQ:A Methodology for Information Quality Assessment[J].Information & management,2002,40(2):133-146.

[3]金燕,杨康.基于用户体验的信息质量评价指标体系研究——从用户认知需求与情感需求角度分析[J].情报理论与实践,2017,40(2):97-101.

[4]Azeroual O,Saake G,Abuosba M,et al.Text Data Mining and Data Quality Management for Research Information Systems in the Context of Open Data and Open Science[J].arXiv Preprint arXiv:1812.04298,2018.

[5]胡晓程.企业实施ERP系统数据质量管理研究[D].西安:西安科技大学,2011:2.

[6]Loshin D.数据质量改进实践指南[M].曹建军,江春,等译.北京:国防工业出版.2016:124.

[7]张美芳.长期存储的数字信息质量控制的研究[J].档案学通讯,2011,(1):80-84.

[8]Merino J,Caballero I,Rivas B,et al.A Data Quality in Use Model for Big Data[J].Future Generation Computer Systems,2016,63:123-130.

[9]Heinrich B,Hristova D,Klier M,et al.Requirements for Data Quality Metrics[J].Journal of Data and Information Quality,2018,9(2):1-32.

[10]Ardagna D,Cappiello C,Sama W,et al.Context-aware Data Quality Assessment for Big Data[J].Future Generation Computer Systems,2018,89:548-562.

[11]Khushali Y D.Big Data Quality Modeling and Validation[D].CA:San Jose State University,2018.

[12]莫祖英.地市級政府公开信息质量评价实证研究[J].情报科学,2018,36(8):112-117.

[13]Meng X,Ci X.Big Data Management:Concepts,Techniques and Challenges[J].Journal of Computer Research & Development,2013:34.

[14]DAMA International.DAMA数据管理知识体系指南[M].马欢,刘晨,译.北京:清华大学出版社,2012:218-219.

[15]Lee Y W,Pipino L L,Funk J D,et al.Journey to Data Quality[M].Massachusetts Institute of Technology,2006:27-66.

[16]张涛.基于层次分析法的物流中心选址研究[D].武汉:武汉科技大学,2008:20.

(责任编辑:孙国雷)

猜你喜欢
数据质量评价指标电子商务
《电子商务法》如何助力直销
电子商务
浅谈统计数据质量控制
基于UML的高校思想政治教育工作评价系统的分析与研究
关于加快制定电子商务法的议案