一种标准数据元与数据项匹配算法

2016-03-22 13:29李敏
电脑知识与技术 2016年1期
关键词:匹配数据项特征词

李敏

摘要:目前的数据元与数据项的匹配算法主要思想是基于字面相似程度实现匹配,这种算法对数据项命名结构规范有较强依赖,且大多业务数据库的数据项没有加入中文名,故无法实现匹配。该文提出一种数据元与数据项匹配算法,从数据项的归属实体名称、数据项名称、类型、长度、数据特征等多个角度设计算法,有较强的通用性,能够在数据项名称不规范或无中文名的情况下实现有效匹配。

关键词: 数据元;数据项;匹配;特征词

中图分类号:TP312 文献标识码:A 文章编号:1009-3044(2016)01-0005-02

An Algorithm of Matching Data Elements and Data Items

LI Min

(Public Safety Information Technology Department, China Electronics Technology Company, Beijing 100083, China)

Abstract: The main idea of the current data element matching algorithm and data entry is literal similarity-based matching, this algorithm to the data item specification naming structure has a strong dependence, and the data items are mostly business database did not join Chinese name, so the match can not be achieved . This paper presents a data element and data item matching algorithms from multiple angles ownership entity name data entry, data entry name, type, length, data characteristics, such as design algorithm, there is a strong universal, can not in the name of the data item specification or without Chinese name of the case to achieve effective match.

Key words: data element; data items; matching; feature words

随着数据元标准的建立,数据元在各行各业的数据集成过程中担任着重要角色,用于规范数据库、报表中的数据项。目前数据元标准多以文档形式出现,主要依靠研发人员自觉遵守数据元标准进行系统设计。在数据大集中体系下,业务系统彼此之间的数据依赖关系日益提高,数据质量关系到业务系统能否正常运行。依据标准数据元对数据质量进行有效核查,能进一步保障数据质量。标准数据元与数据项建立匹配映射关系是数据核查的前提。手工匹配费时费力,采用自动匹配算法可有效提高工作效率。目前的数据元与数据项的匹配算法主要利用字面相似程度实现匹配,这种算法对数据项命名结构规范有较强依赖,且大多业务数据库的数据项没有加入中文名,故无法实现匹配。

现有的数据元与数据项的匹配算法主要思想是基于字面相似程度实现匹配,这种算法对数据项命名结构的规范化有较强依赖,另外大多业务数据库中数据项没有加入中文名,故采用现有算法无法实现匹配。

现提出一种三级匹配算法,从数据项的归属实体名称、数据项名称、类型、长度、数据值特征等多个角度进行比对,对数据项命名是否规范性没有严格要求,在数据项无中文名称的情况下,根据数据特征也可实现有效匹配,通用性较强。

1 类型匹配

从数据类型转换表中读取数据元和数据项类型映射信息,在数据项信息上打上数据元类型标识,数据类型匹配运算主要为了缩小运算范围,提高运算效率,在进行第二级、第三级匹配运算时,只针对某种类型的数据项进行运算处理。数据类型转换表主要存放了标准数据元与数据项的类型映射关系。数据元一般表示为字符、数字、日期等,数据项表达的是数据库系统的数据类型,包括varchar、char、int、float等多种类型。

2 语义匹配

语义匹配运算主要从数据元和数据项的语义层进行匹配处理。数据元语义层包括名称(N)、同义词(Si)、对象(O)、特征词(P)、表示词(E);数据项语义层包括数据项名称(M)、归属实体名称(T)。在这些信息完整的情况下,本级运算可实现较高比率的匹配效果。未实现匹配的数据项将放入第三级运算中。

公式中,TO表示T是否包含O,则为1,否则为0;ME表示M包含E,则为1,否则为0;MP表示M包含P,则为1,否则为0;MNS表示M包含N或包含Si,则为1,否则为0;本级运算中,如果匹配值Probability大于0.5,可达到很高的有效匹配率。

3 数据特征匹配

第三级运算是针对第二级运算中匹配值小于0.5的数据项。本级运算的主要思想是实现以标准数据元为中心的聚类分析,能够适用算法的数据元其数值必定是有一定特征的,特征包括:

1) 是否具有特征词,特征词是什么。例如姓名,在第一个字符处,必然会出现一些常见姓氏。

2) 是否枚举值,获取具体枚举项。一般引用数据字典的数据项其 值必定是枚举值。

3) 长度是否有固定范围,最短值、最长值是什么。例如身份证号有15位和18位两种。

4) 是否定长值、定长值是什么。

5) 数值是否有取值范围,最大值、最小值分别是什么。

6) 数据是有有一定格式,例如日期的特殊格式是XXXX-XX-XX。

参见表2,数据元信息表。本步骤对数据元的信息完整性有较高要求,但考虑到如果使用数据元作为标准检测数据质量,对其约束信息的全面性完整性原本就会提出较高要求。

参见表3,数据项信息处理后如表所示。需要按照以上特征属性对于已有数据进行预处理,得到数据项信息,标识出其具有的特征和特征值。待处理的数据质量应尽量准确,可以采取异常点检测和平滑处理方法对数据进行清洗,目前已有很多此类算法,本专利不再赘述。数据项的特征词不在数据预处理阶段检测,只在与标准数据元进行聚类分析时按照数据元的特征词进行检索。

计算方法主要是对特征属性进行比对,如果数据项特征属性值在数据元特征属性值的取值范围内,则为1,否则为0。公式如下:

[Probability=0.2L+j=160.4Pj]

在数据元信息完整的情况下,匹配值大于0.6的数据项可到达到较高的有效匹配率。

4 总结

本算法通过对数据元类型长度、语义说明、数据特征等信息的充分利用,实现了数据元与数据项的有效匹配;且三级运算架构中每级运算缩小数据范围,提高运算效率;算法有较强的适用性,对于命名不规范或无中文名的数据项也可实现与数据元的有效匹配。

参考文献:

[1] 冉婕,孙瑜. 语义检索中的词语相似度计算研究[J]. 计算机技术与发展,2011(4).

[2] 文必龙, 任秀英,李乃峰,等. 基于数据元的数据模型语义映射技术研究[J]. 计算机技术与发展,2014(11).

[3] 文必龙,付玥. 数据集成中数据项与数据元匹配算法[J]. 计算机系统应用,2012(3).

[4] 时贵英,文必龙,王志宝. 基于数据元的数据集成技术研究[J]. 科学技术与工程,2011(18).

[5] 文必龙,史春波,关翔瑞. 一种数据元语义描述方法[J]. 哈尔滨商业大学学报:自然科学版,2010(1).

[6] 秦善华,史春波,邵庆. 基于数据元的数据模型语义描述[J]. 大庆石油学院学报,2009(3).

[7] 刘敏超,刘卫东. 数据集成系统关键问题研究[J]. 计算机应用,2006(7).

[8] 陶金花,文必龙,张敬波,等. 一种基于元模型的关系数据库的查询方法[J]. 大庆石油学院学报,2004(2).

[9]尚云云. IT运维服务管理支撑系统的设计与实现[D].北京:北京交通大学,2009.

[10] 章成志. 一种基于语义体系的同义词识别研究[J]. 淮阴工学院学报,2004(1).

[11] 魏宏,章建方. 数据元在电子政务标准体系中的概念与实践[J]. 信息技术与标准化,2004(5).

[12] 王斌君,孙丕龙. 数据元标准在信息化中作用的再认识——标准在信息化中的作用之二[J]. 中国人民公安大学学报:自然科学版,2005(3).

[13] 刘羽飞,李健. 电子政务体系中数据元标准的概念与应用[J]. 微计算机信息,2008(15).

[14] 高贵锦,龙翔. 基于数据元的交换数据标准维护[J]. 吉林大学学报:信息科学版,2005(1).

[15] 刘庆河,郝文宁,韩宪勇,等. 基于数据元的数据交换规范研究[J]. 电脑知识与技术,2010(10).

[16] 赵作鹏,尹志民,王潜平,等. 一种改进的编辑距离算法及其在数据处理中的应用[J]. 计算机应用,2009(2).

[17] 姚远,李林,冯丹. 数据元管理及其网络化管理平台的设计[J]. 中国卫生信息管理杂志,2012(1).

[18] 袁满,陈永恒. 一种新型的面向信息化应用的数据元支撑元模型[J]. 计算机应用研究,2008(7).

猜你喜欢
匹配数据项特征词
一种多功能抽签选择器软件系统设计与实现
非完整数据库Skyline-join查询*
基于Python的Asterix Cat 021数据格式解析分析与实现
基于改进TFIDF算法的邮件分类技术
产品评论文本中特征词提取及其关联模型构建与应用
工程车辆柴油机与液力变矩器的功率匹配及优化分析
面向文本分类的特征词选取方法研究与改进
多数据项请求的多信道并行广播调度算法
关于“方言特征词”理论的回顾及思考