基于异构数据整合的吉林省区域创新数据库实现

2020-12-01 03:15全志薇陈晓玲
软件导刊 2020年10期
关键词:区域创新数据整合元数据

全志薇 陈晓玲

摘 要:异构数据异构性主要表现在不同的数据库类型和数据结构。为解决异构数据整合中的统一检索问题,以科技资讯库、政策库、统计库、项目库、机构库和人才库为例,建立不同类型文献资源元数据结构和规范,构建吉林省区域创新数据库系统,解决不同种类数据库之间的数据整合问题。实践证明,基于该方式构建的区域创新数据库可为后续学科个性化服务提供有效的检索支撑,在系统利用和服务方面具有一定实用价值。

关键词:异构数据;区域创新;数据整合;元数据;统一检索

DOI:10. 11907/rjdk. 201004

中图分类号:TP392文献标识码:A 文章编号:1672-7800(2020)010-0214-04

Abstract: This research mainly solves the problem of unified retrieval of heterogeneous data integration which is mainly manifested in different database types and data structures. Taking science and technology information database, policy database, statistics database, project database, institution database and talent database as examples, this paper designs the metadata structure of different types of literature resources and establishes the metadata of literature resources. According to the standard, the regional innovation database system of Jilin Province is constructed to solve the problem of data conversion between different kinds of databases. The practice proves that the unified retrieval platform of regional innovation database based on this method provides effective retrieval support for the personalized service of the follow-up disciplines and has a certain practical value for the utilization and service of the system.

Key Words: heterogeneous data; regional innovation; data integration; metadata; unified retrieval

0 引言

國家科技部2018年2月颁布了《国家科技资源共享服务平台管理办法》,科技资源共享有利于促进科技信息资源为社会、经济、科研等提供更有效的服务。目前国内有多个商业化数字资源提供商,如中国知网、维普、读秀等,但缺乏区域性特色科技资源共享平台。吉林省科学技术信息研究所经过多年科研项目积累,形成了众多分散式、区域性的科技资讯类、政策类、统计数据、项目、人才、机构等不同主体、不同种类、不同形态的资源,至今未对其进行有效的汇集、整合、存储与表述,急需建立资讯、政策、数据、成果、人才、机构等科技信息共享平台。本文充分利用模块化构造方法,重点研究资讯类、政策类、统计数据类、科研项目类、人才类、机构类等分散式异构数据集成技术,以数据类型为例,统一协调不同数据库管理软件,对数据进行整合,构建吉林省区域创新数据库。

1 文献回顾

众多学者对异构数据整合、创新数据库进行了研究。张宏伟等[1]建立了基于DC元数据仓储的一站式检索系统架构模型;徐爱萍等[2]构建了水文及水环境数据共享平台;顾玮[3]阐述了异构数据源特点和集成技术;邵桐等[4]实现了数据交换系统;张洋[5]设计了异构数据库实现方案;王宏起等[6]构建了各区域政府科技管理部门及区域共享平台,为发展管理提供科学依据和参考;周莹[7]对异构分布式数据库系统具体设计思路进行了研究;道仁·哈尼开[8]提出采用XML技术针对异构数据的转换模式。但是,针对区域创新数据库共享平台异构数据整合的研究鲜有涉及。因此本文针对不同类型数据库,建立相应元数据结构和规范,构建吉林省区域创新数据库系统,解决不同种类数据库之间的数据整合问题。本文研究对提升区域创新和共享集成服务能力、丰富平台管理方法具有重要的现实意义。

2 异构数据特点与整合

2.1 异构数据特点

数据库系统模型有层次、网状和关系,各种类型数据库用户群体、特征、数据结构均存在明显区别[9]。异构数据库系统是相关多个数据库系统的集成,以实现数据共享和透明访问。异构性主要体现在数据源异构、数据结构异构,因此对多个数据源集成非常重要,而异构数据库集成可屏蔽数据来源和结构异构性,将分散的、异构的多个数据源相关数据进行有效集成[10-11]。

2.2 异构数据整合

吉林省区域创新数据库整合了7类数据科技,如图1所示。

(1)科技资讯、科技政策和科技统计数据存储在SQL Server数据库,包括国内外科技资讯和科技政策、吉林省历年科技统计数据等。

(2)科技项目和软科学项目数据存储在Access数据库,包括项目类别、年限、地区、来源、经费、承担人、承担单位等基本信息,以及项目鉴定时间、摘要、关键词、研究成果等项目详细信息。

(3)科技人才和科技机构存储为Excel文件,没有形成数据库。科技人才信息包括姓名、性别、年龄、学历、工作单位、职称、职务、研究方向等信息;科技机构信息包括名称、简介、地址、联系人、类型等。

综上所述,现有7类数据采用不同的数据源和数据结构,将其分散的异构数据库集中存储到共享信息数据库中,用户可通过整合之后的吉林省区域创新数据库进行全面了解科技类信息,实现统一检索、聚类分析、分类导航等功能[12-13]。对不同数据源的数据进行封装,对外提供统一的数据访问方式,同时对各种类型的数据进行统一标识,实现信息统一和透明访问[14]。

3 吉林省区域创新数据库设计与实现

3.1 系统功能设计

首先采用元数据仓储技术对异构数据进行统一描述和创建,其次系统提供统一跨库检索,可整合多个类型的资源并提供一站式检索与服务,实现检索结果统一展现。向用户提供统一的检索接口,将用户检索要求转化为不同的数据源检索表达式,提供基于元数据仓储服务的集成功能,实现检索结果整合[6]。系统主要功能需求如表1所示。

系统后台功能模块设计如图2所示。

3.2 数据库结构设计

不同类型和结构的科技文献元数据描述各不相同,但在使用、传输、共享过程中,可形成相对全面且固定的描述信息[15]。本文主要采用将DC元数据与区域创新数据实际需求相结合的数据结构。系统主要DC元数据包括标题、创建者、主题、出版者、发布日期、类型、格式、标识符等,元数据规范如表2所示。

3.3 系统体系架构

系统采用B/S模式结构,具体系统架构如图3所示。

对不同类型的数据源数据进行采集、传输与交换,通过数据导入、自动入库、下载入库和整理入库等多种方式,将数据统一迁移和存储到区域创新数据库中,管理员在系统后台进行用户管理与权限认证。系统采用模块化构造,具有良好的开放性和扩展性,根据需求拓展需求不断进行调整组合,开拓新功能[16]。

3.4 系统功能实现

该系统以促进区域经济发展和科技创新的服务需求为目标,成为区域产业升级、战略性新兴产业发展、政府管理部门科技咨询和科技决策的载体[17]。以用户为核心,以门户网站为媒介,其服务功能如下:

(1)集成功能。根据自身优势将区域科技资讯、政策、项目、机构、人才等分布散乱的资源进行集成并优化重组,确定科技资源存储形式,以实现供需高效对接。

(2)整合功能。根据用户创新数据需求将资源进行有效整合、分割和重组,不同资源转变为实际服务,包括科技文献、专业技术、专家咨询等服务,增强中小企业创新实力,提高区域资源利用率[14]。

(3)共享功能。以用户科技需求为前提,汇集、整合、存储科技资源,通过共享为战略性新兴企业、中小企业、科研院所、高等院校等创新创业主体提供服务。如系统为需求方提供文献资源和专家技术等,加快企业创新进程,解决实质性科技问题,提高企业对当下科技资源的利用率,降低企业创新成本[18-19]。

3.4.1 统一跨库检索

系统首页为统一跨库检索入口,按标题、关键词、来源等字段在全部数据库中进行检索:①全部数据库按标题、作者、来源字段进行检索;②资讯和政策数据库按标题、作者、简介(正文)字段进行检索;③统计数据库按标题、年份字段进行检索;④项目数据库按项目名称、项目简介、项目负责人、承担单位、立项年字段进行检索;⑤机构数据库按机构名称、机构简介、机构类型字段进行检索;⑥人才数据库按姓名、個人简介字段进行检索。

在首页提供所有数据库图片和文字链接入口,点击图片进入相应单库界面,在单库中也可进行高级检索,选择主要字段(全文、年份、标题、作者、摘要等)进行多条件组合检索。

3.4.2 元数据管理

(1)元数据类型管理。其主要设置的系统元数据类型有多种,同时对每一种元数据类型进行配置。

(2)元数据字段管理。其主要设置系统对每一类元数据类型的字段配置,包括所有元数据类型的字段,如标题、主题、作者、来源、单位、年份、所属行业等,同时针对每一个字段的中文名称、要素、控件类型、数据类型、检索名称等进行详细配置。

3.4.3 索引创建

由于系统提供统一跨库检索功能,对于后台首次新创建的文献信息,需重新创建索引,便于前台统一跨库检索的数据集是最新全集。

4 结语

本文结合异构数据库特点,解决了7类异构资源库数据集成与共享问题。平台通过测试和实际使用,实现了数据共享功能,证明了该系统可靠性和稳定性。本文对数据资源检索特点及检索需求进行分析,采取构建不同文献资源类型的元数据整合方式,实现了整个平台统一检索,提供了可有效满足用户需求的检索服务方式和功能。

通过前期基础元数据仓储构建与检索平台建设,以海量文献资源元数据仓储为基础,通过信息资源不断积累,围绕吉林省区域创新科技资源建设,后续可按学科、服务对象对整合平台进行升级改造。下一步将引用知识库概念,在文本内容挖掘与价值发现方面,展现学科知识点关联关系,实现资源多维分类导航,围绕各种类型最终用户,打造更具个性化特色的科技资源服务平台;还可将基础文献资源统一检索服务功能嵌入至各应用系统,充分利用统一检索的作用,更好地为广大用户提供文献资源服务。

参考文献:

[1] 张宏伟,许慧. 基于DC元数据仓储的数字存储资源整合研究[J].图书馆学刊,2014,36(6):32-34.

[2] 徐爱萍,宋先明,徐武平. 分布式异构数据库集成系统研究与实现[J]. 计算机工程与科学,2015,37(10):1909-1916.

[3] 顾玮. 异构数据库集成技术研究[J]. 办公自动化,2016(19):44-45.

[4] 李秉键. 基于XML的高校异构数据交换平台设计[J]. 软件导刊,2014,13(2):100-102.

[5] 张洋. 云计算中异构数据库方案的研究与设计[J]. 电脑编程技巧与维护,2017(12):63-65.

[6] 王宏起,程淑娥,李玥. 大数据环境下区域科技资源共享平台云服务模式研究[J]. 情报理论与实践,2017,30(3):42-47.

[7] 周莹. 分布式异构数据集成系统的研究与分析[J]. 数字技术与应用,2018,36(7):220,222.

[8] 道仁·哈尼开. 基于XML的异构数据库数据的转换[J]. 电子世界,2018(11):64,66.

[9] 柳原. 多源异构数据整合系统在医疗大数据中的研究[J]. 电子制作,2019(14):64-65.

[10] 陈正思.  基于TRS信息检索技术的文献资源统一检索平台的构建[D]. 长沙:中南大学,2011.

[11] 黃镝. 异构数据库的跨库检索技术综述[J]. 图书情报工作,2003。47(6):94-97, 109.

[12] 邵桐,朱明东. 基于元数据的数据交换系统研究[J]. 软件导刊,2016,15(7):158-160.

[13] 王亮,苏云. 基于Lucene的异构数据库全文检索技术[J]. 指挥控制与仿真,2017,39(2):141-144,148.

[14] 陈凤岩,唐振宇,步兆军. 基于Java和XML的异构数据库集成研究[J]. 情报杂志,2006,25(7):16-17,21.

[15] 何卓桁,刘志勇,李璐,等. 异构文本数据转换中XML解析方法对比研究[J]. 计算机工程,2020,46(7):286-293,299.

[16] 赵瑜,李晓东,张新建. 基于元数据的分布式数据统一访问技术[J]. 指挥信息系统与技术,2019,10(4):33-37,60.

[17] 李璋琪.  基于异构数据库的历史数据中心建设[J]. 电子技术与软件工程,2019(18):154-158.

[18] 肖刚. 异构数据库更新同步研究与实现[J]. 软件导刊,2019,18(10):182-185.

[19] 刘顺利,李银生,吴峰,等. 我国科技报告建设面临的发展瓶颈及其对策建议[J]. 科技管理研究,2019,39(12):252-256.

(责任编辑:江 艳)

猜你喜欢
区域创新数据整合元数据
基于区域创新网络的产学研合作机制研究