基于非关系型数据库构建政府信息资源基础库的研究

2022-06-15 03:32顾鸣声
现代信息科技 2022年2期
关键词:大数据

摘  要:借鉴国内先进城市经验做法,建立完善涵盖数据资源梳理、数据采集清洗、数据库设计和存储、数据分类分级管理、数据使用等五个步骤全流程的数据标准规范体系,充分发挥标准化建设的“统一规范”作用,从根本上解决各部门各系统数据存在的不标准、不完整、不一致、重复、错误等数据质量问题。通过对政府数据的研究,建立数据结构模型,探讨数据资源平台建设方向,分析基础数据库和主题数据库建设,开展数据共享交换平台的应用研究。

关键词:政府数据;数据标准;大数据;非关系型数据库;数据要素

中图分类号:TP39      文献标识码:A文章编号:2096-4706(2022)02-0157-04

Abstract: Learn from the experience and practice of domestic advanced cities, establish and improve the data standard and specification system covering the whole process of five steps: data resource combing, data collection and cleaning, database design and storage, data classification and hierarchical management and data use, give full play to the “unified and standardized” role of standardization construction, and fundamentally solve the data quality problems of various departments and systems including non-standard, incomplete, inconsistent, duplicate, error and so on. Through the research of government data, establish the data structure model, explore the construction direction of data resource platform, analyze the construction of basic database and subject database, and carry out the application research of data sharing and exchange platform.

Keywords: government data; data standard; big data; non-SQL database; data element

0  引  言

党的十九届四中全会审议通过的《中共中央关于坚持和完善中國特色社会主义制度、推进国家治理体系和治理能力现代化若干重大问题的决定》(以下简称《决定》)明确指出:“建立健全运用互联网、大数据、人工智能等技术手段进行行政管理的制度规则[1]。

2020年4月9日,中央第一份关于要素市场化配置的文件指出了土地、劳动力、资本、技术、数据五个要素领域改革的方向,明确了完善要素市场化配置的具体措施。数据作为一种新型生产要素,成了《意见》中备受关注的内容[2]。

1  认识政府数据体系

随着大数据、物联网、云计算、人工智能、区块链等新一代信息技术应用的不断深入,政府的治理方式也随之发生变化,推进数字政府建设,加强数据有序共享,依法保护个人信息,提高行政效能,建设人民满意的服务型政府是重中之重[3,4]。政府数字化转型是大数据时代政府提升社会治理效能必须面对的一场深刻革命,需要从量变到质变、从理念到行为、从制度与工具到方法的系统性转变[5]。

1.1  政府数据

现阶段,政府数据是指各级人民政府及其职能部门以及依法行使行政职权的组织在其管理或提供公共服务过程中制作、获得或拥有的数据。是指政务部门在履行职责过程中制作或获取的,以一定形式记录、保存的文件、资料、图表和数据等各类信息资源,包括政务部门直接或通过第三方依法采集的、依法授权管理的和因履行职责需要依托政务信息系统形成的信息资源。政府数据库是存储政府数据的软件载体,基础数据的加工厂,是实现政府数据安全、可控管理的基础[6-8]。

海量的政府数据形成大数据,大数据具有“4V”的特征,即数据规模大(Volume),数据种类繁多(Variety),数据处理速度快(Velocity),数据价值密度低(Value)。近年来,人们将大数据应用于政府行政管理及其数据处理工作,这也使得更多政府业务过程被数字化并被纳入“政府数据”[9]。

1.2  数据库与数据仓库

在政府数字化时代,我们的日常生活和生产都在不断地产生数据,如何处理庞大的数据,对数据库系统是一个巨大的挑战。现今,国内政府部门和企事业单位,数据库99%以上都是使用国外的商业或开源数据库(MySQL),这是因为IT软(硬)件产品、操作系统、数据库、中间件等基础软件核心技术层面国外仍旧占有主导地位,而数据库又是其中核心技术[10]。

有了数据,就需要有存放数据的地方。数据库和数据仓库即存放数据库的两种形式。两者在本质上没有区别,都是为了存储数据,如图1所示。

数据库:面向业务设计,一般针对的是在线业务,存储的是在线业务数据。如:Oracle、DB2、MySQL、Sybase、MS SQL Server等。可以分为:关系型数据库和NoSQL数据库,其中后者又可分为KV数据库、文档型数据库、列数据库。

数据仓库:是数据库概念的升级,面向分析,存储的是历史数据。从数据量来说,数据仓库要比数据库更庞大得多。主要用于数据挖掘和数据分析,代表软件为Hadoop。

ETL: 数据仓库很多时候是需要从其他地方传输数据到数据仓库,这个过程就是ETL:extract-抽取、transform-转换、load-加载。

无论是历史数据还是线上数据,都是有生命周期的。比如,对于一个产品的用户活跃度统计业务,最近半年的数据是热点数据,访问较频繁;而随着时间的推移,慢慢地这些数据不再被频繁关注,变为了一般数据;再随着时间的推移,总有一天这些数据不再被关注就成了冷数据[3]。

2  建设政府信息资源库

近年来,如何认识、处理政府数据成为全球其他各国的政治、行政管理以及电子政务建设的重要问题,政府数据引起人们的广泛关注。同时,人们对其也有着各种不同的说法和理解。例如,就我国的情况来看,人们常常将政府数据与“开放”“共享”联系在一起,有时甚至是将政府数据与“开放共享”统一在一起[11]。这些不同的要求给人们带来很多困惑,也给电子政务建设带来一些困难。但实际上,政府数据本身是一个特定历史时期的概念,其历史并不长。在互联网出现之前,政府数据最初是以“政府信息公开”的面目出现的,主要是美国等西方经济发达国家在“知情权”“透明政府”“阳光政府”等诉求、要求下而提出的一项政策措施;在互联网逐步得到应用之后,政府信息公开得到进一步强化,并被赋予更多的功能要求。

2.1  信息资源库建设背景分析

通过大数据分析筛查,某副省级城市市直71家单位共建数据库183套。从数据库的类型上看,主要使用MySQL、oracle、SQL Server这三种类型的数据库,数量分别是31个、83个、50个,占比分别为16.9%、45.4%、27.3%;其他类型数据库(DB2,MongoDB、Sybase、博阳、Hadoop等)19套,占10.4%,如图2所示。

从数据库项目字段统计情况看,共51家单位上报数据库项目字段的电子文档为非结构化数据,占比71.8%。

2.2  業务系统整合实现数据接入

政府数据的大数据产业化发展,不仅面临传统的政府部门协调问题,也遇到了严峻的法律、政策与技术等多方面的障碍,例如隐私保护、网络安全、产权归属等,这也使得政府数据的大数据产业化举步维艰。方式可采用建设大数据仓库的数据源,通过共享交换平台,与数据接入功能区进行对接,完成原始数据物理集中汇聚至大数据基础平台中存储。按照统一的数据标准,进行数据的清洗转化,形成标准化数据。对标准化数据进行融合,分别构建统一的基础数据库库和行业部门主题库。基于标准统一的基础库和专题库,开发数据查询、数融合比对分析等各类服务,注册至公共数据融合平台,由其进行统一代理、发布,并对外提供共享服务,如图3所示。

3  建设政府信息资源基础库

基础数据库的数据架构设计,需满足全域归集、融合、开放、共享,数据流转过程清晰合理。能为政府部门提供便捷的分析、处理海量数据的手段,能够提供针对TB/PB级别数据的离线处理能力,如图4所示。

3.1  基础数据库的服务能力

3.1.1  SQL引擎

基于DAG(有向无环图)执行模式和内存迭代计算架构,减少落盘环节,执行效率更高;优化内存使用,减少内存回收,运行更加稳定;列式存储,数据压缩比高,更节省IO;兼容Hive,提供丰富的内置函数;服务预启动,更快速返回结果;根据集群规模动态申请适量资源;可适用JDBC接口访问,适用方便。

3.1.2  接口编程

支持Data Frame和Data Set编程接口,支持Java、Python和Scala等多种编程语言。提供Java版本的Map Reduce编程接口供用户编写Map和Reduce程序。

Map Reduce框架为用户屏蔽数据的物理位置和分片实现等底层细节,用户只需要关注Map和Reduce的计算过程本身,编写自己的Map和Reduce程序,在作业提交页面配置作业参数并执行作业。

3.1.3  Graph计算

图计算的特点是数据吞吐量本身相对不大,更看重迭代的效率。Graph计算提供类似Pregel的API,基于RDD数据模型进行迭代。采用内存网络替代磁盘IO,换来更快的性能。 面向图数据而设计,适合图算法开发。

3.2  全量数据采集

信息资源基础库基于关系型数据库的采集方式,与各业务系统的数据库对接,直接抽取相关数据。设计具备数据源类型为数据库的采集功能,支持主流数据库包括Oracle、MySQL、SQL Server、PostgreSQL、MongoDB、Sybase、Teradata和DM、GBase、GaussDB等,支持多种主流大数据平台,包括Hadoop、FusionInsight、MaxCompute等三种及以上主流大数据平台。

3.2.1  实时数据采集

信息资源基础库设计基于日志的数据库实时增量数据抽取功能,包括但不限于Oracle、MySQL等;具备基于日志的分布式数据库增量同步功能。库级同步提供了在一个任务配置内管理多个表数据的数据同步任务的能力,在对数据库中海量表进行数据迁移的场景下,能极大地缩短用户烦琐而重复的转换配置工作。

3.2.2  增量数据采集

设计通过定制计划任务的方式,实现按一定周期从源系统中抽取当前周期内产生的增量数据,提供基于触发器、日志、时间戳、全表对比的增量数据采集方式。日志增量同步可以避免重复的冗余的数据同步工作,特别是基础数据量巨大时,增量同步功能就显示出了特有的优势。配合作业周期调度功能,可以实现每次只同步本轮周期内变化的数据,可以节省大量的时间资源和带宽资源。实时灾备、周期灾备等对时间效率要求比较高的场景也是需要数据增量同步功能。

3.2.3  API接口和文件数据采集

支持基于Restful API接口进行数据采集。支持文件搬移与文件解析功能。具备文件夹(目录)增量同步功能,具备针对文件夹的子文件夹和文件增、删、改操作的实时增量同步功能。

3.3  基础库数据规范

数据库设计规范是对数据资源的各类数据库逻辑表的数据项应遵循的数据格式标准(数据库表结构、表说明、字段描述、数据类型和要求)进行规定。具体包括以下4项内容:

3.3.1  归集库数据项

来源于互联网、外部委办局等各部门的各类数据的数据项应遵循的数据格式标准。

3.3.2  资源库数据项

对接入的公共结构化数据应遵循的数据格式标准进行规范。

3.3.3  主题库数据项

对人口综合库、法人综合库、几大综合数据库中,与人口、法人、社会信用等业务相关的主题库的数据项应遵循的数据格式标准进行规范。

3.3.4  专题库数据项

对人口库、法人库等业务专题涉及的政务服务、营商服务等相关数据的数据项应遵循的数据格式标准进行规范。

4  结  论

综上所述及分析,虽然政府信息资源基础数据库在建设上、数据归集上仍存在许多问题和困难,但随着国家、省市的政策的逐步落实,国内大数据产业的蓬勃发展,利用政府数据进行数据资源信息开放共享,提供社会公共数据服务势在必行。

政府有必要建立大数据的支撑服务平台,将政府部门在数据共享交换的过程中,沉淀的大量政务数据资源,汇聚至数据中心节点。按照统一的数据标准进行分级分类,并对数据进行比对、清洗、脱敏、融合,形成人口、法人等基础数据库,以及工业、农业、经济、教育、交通、医疗的主题数据仓库,面向社会提供数据开放共享、数据集成、数据再利用、数据分析等服务,发挥政务数据的价值。持续推进数据归集共享工作,充分发挥已建设的基础数据库作用,进一步完善人口、法人、征信、电子证照数据归集,建立健全共享交换平台数据内容,完善政府信息资源平台的建设。

参考文献:

[1] 李海晏.我国智慧城市标准化现状及面临的挑战与对策 [J].中国标准化,2019(12):193-197.

[2] 陈柳钦.智慧城市:全球城市发展新热点 [J].青岛科技大学学报(社会科学版),2011,27(1):8-16.

[3] 艾希,宋雨桐.智慧城市建设下居民对公共服务的需求分析——以贵阳市智慧交通建设为例 [J].产业与科技论坛,2019,18(14):77-80.

[4] 姬溶婧.智慧城市研究现状分析 [J].合作经济与科技,2019(13):14-17.

[5] 于文轩,许成委.中国智慧城市建设的技术理性与政治理性——基于147个城市的实证分析 [J].公共管理学报,2016,13(4):127-138+160.

[6] 李德仁,邵振峰,楊小敏.从数字城市到智慧城市的理论与实践 [J].地理空间信息,2011,9(6):1-5+7.

[7] 史璐.智慧城市的原理及其在我国城市发展中的功能和意义 [J].中国科技论坛,2011(5):97-102.

[8] 陈铭,王乾晨,张晓海,等.“智慧城市”评价指标体系研究——以“智慧南京”建设为例 [J].城市发展研究,2011,18(5):84-89.

[9] 丁博,尹璐,张哲.大数据技术在助推智慧城市管理中的应用 [J].电子技术与软件工程,2019(19):159-160.

[10] 成书悦.全球城市化进程下智慧城市建设现状和几点思考 [C]//2019(第十四届)城市发展与规划大会.郑州:出版者不详,2019:568-572.

[11] 邱彩凤.智慧城市发展现状调研及解决方案研究 [J].通讯世界,2019,26(5):93-94.

作者简介:顾鸣声(1975—),男,汉族,黑龙江哈尔滨人,高级工程师,硕士研究生,研究方向:教育信息化,软件工程开发设计,网络安全管理以及大数据管理等。

猜你喜欢
大数据
基于在线教育的大数据研究
“互联网+”农产品物流业的大数据策略研究
大数据时代新闻的新变化探究
浅谈大数据在出版业的应用
“互联网+”对传统图书出版的影响和推动作用
大数据环境下基于移动客户端的传统媒体转型思路
基于大数据背景下的智慧城市建设研究
数据+舆情:南方报业创新转型提高服务能力的探索