数据处理与共享平台架构的研究与应用

2024-05-09 15:28刘建辉修姗姗
中国信息化 2024年4期
关键词:数据服务结构化数据处理

刘建辉 修姗姗

一、引言

当前,大数据、人工智能、区块链等新技术成为掀起数字化转型浪潮的关键变量,万物互联,数字时代的到来,对各行各业的诸多方面产生了深远影响。特别是“云大物移智链边”的结合对社会中任何实体的活动和行为数据化、模型化都成为可能,而从中抽取出的结构化信息,在市场预测、工业自动化等众多领域创造出了前所未有的价值。科技能力的极大丰富,数据价值日益凸显,全息画像、精准监测、风险预警、辅助决策等等,正在打破传统的业务模式,催生出更加共享的经济生态,通过与传统产业的融合实现价值增量,为各行各业赋能,推动高质量的发展。

尽管越来越多的信息能为业务工作提供更大的便利,但在业务发展过程中,涉及的数据量大、数据种类多,信息数据的搜集整理难度越来越大。要想全面整合信息,真正获取这些数据的价值,需建立数据思维,通过数据采集、数据建模、数据分析、数据呈现,总结数据深层次的规律,通过建立标准化数据平台进行数据处理,发现数据隐含的潜在价值。

二、数据处理与共享平台介绍

数据处理与共享平台主要由数据接入服务、数据存储服务、数据分析服务和数据共享服务组成,主要功能如下:

(一)数据接入服务

数据接入服务作为底层基础支撑性服务,是数据处理与共享平台的核心组成部分。数据接入服务通过提供多种数据接入工具,将基础数据进行统一的汇聚接入,为数据分析提供原始数据支撑。

(二)数据存储服务

数据存储服务作为数据采集的上层,作为数据分析共享的支撑服务,也是数据处理与共享平台的核心组成部分。数据存储服务需要满足对结构化数据、非结构化数据和半结构化数据的统一存储和查询的需求。查询的高效性和存储的安全性是数据存储服务的两项关键指标。

(三)数据分析服务

数据分析服务提供数据深度挖掘和分析,利用分布式存储和并行计算框架,结合多种分布式计算引擎,对各类结构化、半结构化及非结构化的信息资源进行快速的分布式计算、并提供基于关联、聚类、分类、预测等类算法库以及可视化组件、拖拽式的数据挖掘分析开发工具包。

(四)数据共享服务

数据共享服务通过数据共享交换手段,实现数据的汇聚、流通,构建以数据为核心,业务为牵引、预警决策为目标的信息枢纽,为业务提供数据服务和决策支持。同时通过数据共享交换,实现跨部门、跨地域、跨层级的数据共享交换应用。

三、数据处理与共享平台架构

数据处理与共享平台包括数据处理模块和数据共享模块,主要包括存储层、交互层、数据处理层、数据服务层。其中存储层、交互层、数据处理层主要进行原始数据存储以及数据处理,服务层主要提供数据共享服务,可以实现两种模式数据共享,原始数据以及治理后的数据共享。

数据处理与共享平台的在处理业务数据时,会将数据进行汇集、标准化处理以及融合,以便使用者查询数据、分析数据。例如在获取不同渠道的数据时,数据处理与共享平台会先进行源数据存储,接着进行数据标准化,将散乱的源数据进行有序的分类、存储,最后在按照不同的需求进行数据的初步归类,以便前端数据服务进行调用。

(一)数据处理模块

数据处理模块主要负责数据存储、数据管控及数据分析,模块采取扁平化设计,分布式部署,各节点之间完全对等,都可以对外提供服务。模块建设将本着由内至外的原则设计实现。

一是要整合当前运行数据,建立基于云技术的数据交互共享平台。明确大数据的采集、传输、存储、使用、开放等各环节,保障网络安全的范围边界、责任主体和具体要求,制定和实施大数据的采集开放、指标口径、分类目录、交换接口、访问接口等关键共性标准。

二是要打通上下游系统数据资源,初步形成体系化应用的业态和数据产业链条。收集与深度挖掘业务系统数据源进行数据采集,实现各数据源数据统一汇总、统一存储,解决“各自为政、条块分割、烟囱林立、信息孤岛”,初步实现数据整合。

三是要实现数据资源深度融合。基于个性化业务要求,结合大数据分析和智能决策,实现数据资源的深度融合,提高数据输出价值。

数据处理模块功能结构上分为数据采集、数据处理、数据路由、数据输出,数据采集对接大量外部接口,更加有效的保证数据采集高效、稳定;数据处理模块主要是对收集到的数据进行清洗及模型化等处理,保证数据能够被有效处理及存储;数据路由主要为针对数据进行输入输出路由配置,保证数据路由有迹可循,同时满足灵活多变的路由规则配置;数据输出主要面向外部对接系统提供相关输出数据,更加全面满足不同对接系统协议需求,同时对异常进行监控处理,保证系统持续可用性。

数据处理模块采用数据即服务(DaaS)技术理念,革新数据采集模式,深化数据应用服务, 探索设立数据开放共享关键共性标准,推进解决数据孤岛问题,建立完整的共享平台。

(二)数据共享

数据共享模块包括常规数据收集、数据共享,共享数据种类除了能进行源数据的共享外,还可以将平台中标准化的数据进行共享,从而使得共享的数据内容更加丰富,在此基础上,该模块还能提供一定程度的数据服务,即将收集来的数据以特定的条件进行分析并输出一个结果或者趋势,使该模块的功能更加丰富。同时,数据共享模块加入安全管理,其中包括数据授权、数据审计、数据加密、数据脱敏、安全治理功能。在实现源数据收集共享、数据服务共享、第三方数据交换的基础上进一步强化数据安全、数据隐私的管控。数据共享模块通过web Service的服务请求和调用,实现数据的交换和共享,数据使用者通过Rest API接口获取相应的数据,具备支持多种协议、数据格式的共享,确保数据安全、有序、有效共享。

数据共享模块整体框架是开放的生态框架,为了支持各系统业务模块、业务功能的动态扩展、灵活更新,模块采用以下原则进行设计实现。

业务数据共享“索引管道式”交换,数据共享模块根据实际需求可通过网络对松耦合、粗粒度的应用组件进行分布式部署、使用和组合。组合之间采用简单的、可精准定义的接口进行通讯,不涉及底层编程接口标准、协议和通讯模型。所有数据访问均通过数据接口组件,具有服务可重用、服务即时性、标准化服务接口、支持各种消息模式等特点,能够更加从容的面对业务的变化、实时获取相应数据。

微服务架构支撑数据采集、清洗、加工、共享等服务运行,数据共享模块采用微服务体系架构,服务可独立部署在不同进程中,不同服务之间是通过一些轻量级的机制进行通信,同时服务可独立扩展伸缩,每个服务又定义了明确边界。数据共享模块使用分布式服务组成系统,根据业务对组织进行划分,强调服务个体和弱通信,自动化运维,支持快速演化。

数据共享模块运用数据管道运行服务引擎为驱动,通过建立不同信息资源共享交换的数据传输管道,形成各个获取的数据 API 接口,按统一共性建设需求,整合并建立标准共享数据访问接口和统一的数据格式,以接口形式对外提供各类数据服务,高效构建“数据接口资源池”,以降低数据使用者的开发难度和成本,最终实现数据的按需、按权、合规调度、适时共享,支持实时、精准共享与交换服务。

四、结语

综上所述,数据处理与共享平台的研究与应用,对数据资源有效利用,对用好、用活数据,具有重大促进作用。本文研究的数据处理与共享平台是为了实现跨地区、跨层级的信息交换和共享,区别于传统業务系统数据平台,数据共享模块基于数据处理模块,提供的共享数据范围广、数据量大,数据交互更高效可靠,并提供统一的数据资源目录,支持线上的资源申请,实现第三方应用的统一管理,提供统一的监控和日志记录,更全面的数据脱敏策略和安全策略,提高业务协同效率,具有很高的实用价值。

猜你喜欢
数据服务结构化数据处理
地理空间大数据服务自然资源调查监测的方向分析
认知诊断缺失数据处理方法的比较:零替换、多重插补与极大似然估计法*
ILWT-EEMD数据处理的ELM滚动轴承故障诊断
促进知识结构化的主题式复习初探
结构化面试方法在研究生复试中的应用
如何运用税收大数据服务供给侧结构性改革
基于频繁子图挖掘的数据服务Mashup推荐
基于希尔伯特- 黄变换的去噪法在外测数据处理中的应用
基于图模型的通用半结构化数据检索
一种基于数据服务超链进行情景数据集成的方法*