基于数据中台的校园数据体系设计与建设

2021-12-29 10:12
科学与信息化 2021年8期
关键词:中台数据仓库架构

武警警官学院训练基地 广东 广州 510440

1 数据中台定义以及架构

自阿里巴巴提出“大中台,小前台”战略后,数据中台在互联网领域取得了快速发展,本文将为大家分享的是如何打造数据中台的过程。数据中台建设是以数据驱动业务创新为目的,具有机动快速、灵活反应的技术与组织能力体系建设。它具备三个基本要素:①最终目的:中台的最终目的是解决业务问题;②解决诉求:快速解决业务诉求是数据中台建设的一个重要的考量指标。说到底,中台建设是为了使用服务;③完整的组织:没有严格的组织间协调,就无法形成强大的战斗力,因此多支游击队凑在一起成不了集团军。关于技术体系、组织架构,需要有完整、严谨和深入的思考。

数据中台通常认为由五个核心架构部分组成,包括:基础数据层,包括数据采集平台、计算平台、存储平台,这些可以使用云计算服务,也可以自建。公共数据层,包括数据湖(数据仓库),负责公共数据模型的研发,还包括统一指标(标签)平台,负责把模型组织成可以对外服务的数据。应用服务层,负责将公共数据区的数据提供对外服务,包括数据分析平台、数据接口平台、数据可视化平台,多维查询平台等。数据研发平台,涵盖数据开发的各类工具,如:脚本开发工具、数据管道工具、模型设计工具、数据调度工具等。数据管理平台,针对全链路的数据管理,保证可以监控数据流向、数据使用效果、数据生命周期,以衡量数据的价值与成本。除此之外,为了丰富数据中台的组成,可以对架构进行扩展,如:构建数据资产平台、算法平台等。由于数据源于业务并最终服务于业务,因此在数据中台构建过程中必须重视与业务的衔接,需要通过制定一系列的流程制度加以明确,用来保障数据的来源及输出的质量[1]。

2 基于数据中台的校园数据体系设计与建设

2.1 One ID的设计

One ID指统一数据萃取,是一套解决数据孤岛问题的思想和方法。目前我校师生的身份标识ID有学号、教工号、NetID、校园卡号和身份证号等,这些ID散落在学校的各个业务系统中,其中身份证号具有最强唯一性,同时具有较强的数据敏感性,因此,结合实际情况可以根据身份证号映射生成统一用户uid,让uid代行全局唯一身份标识的作用,同时将全局唯一身份标识代入到全域数据仓库的各层数据中,通过这个统一uid,便可关联起各个数据域的数据,实现数据通融,以确保业务分析、用户画像等数据应用的准确和全面。

2.2 数据体系模型层次结构

(1)贴源数据层(operational datastore,ODS):全域数据统一存储。主要采集校园各业务系统、日志平台等结构化和半结构化的数据,然后汇聚到数据中台,尽可能保留原始业务流程数据,根据数据业务需求及审计要求保存历史数据、清洗数据,为上层提供数据服务。

(2)统一数仓层(common data model,CDM)又称为通用数据模型层,由公共维度汇总层(dimension,DIM)、数据仓库明细层(data warehouse detail,DWD)和数据仓库汇总层(data warehouse summary,DWS)3部分组成。本研究使用阿里的One Data核心方法论来完成CDM层的数据构建和管理,以维度建模为理论基础,先做业务调研和需求调研,以业务系统为单位划分业务板块,然后面向业务分析按照高内聚低耦合等原则,将业务过程整合成10个数据域,同时根据业务过程整理出相关原子指标、派生指标和抽象维度指标体系,最后设计出维度表、明细事实表和汇总事实表,形成统一规范的标准业务数据体系。其中,教工域和学生域依据角色在校全生命周期业务梳理,共确定原子指标241个、派生指标336个。其中,原子指标和度量含义相同,是某一业务行为的度量,是业务定义中不可再拆分的指标,如学生的学费实收金额;派生指标由原子指标、时间周期修饰词、若干其他修饰词组合得到,如管理学院学生一学年学费实收金额则为派生指标。

(3)应用数据层(application datastore,ADS)提供直接面向业务或应用的数据,按照业务的需要从统一数仓层抽取数据,并面向业务的特殊需要加工业务特定数据,以满足业务及性能需求,向特定应用组装应用数据。如无公用性或复杂性(如指数型、比值型和排名型等指标数据)的指标数据加工。同时为方便实现数据应用、数据消费的诉求,进行面向应用逻辑的数据组装(如横表转纵表和趋势指标串等)。

3 结束语

数据中台把传统数仓和大数据架构进行完全融合,利用大数据技术建立数据资产体系,提升数据共享力和服务力,为业务人员提供自助式数据服务,培养数据思维。校园大数据体系的架构和建设需要使用“自下而上”和“自上而下”相结合的方法。“自下而上”指对全域数据进行面向业务域的梳理;“自上而下”指面向分析主题将相关数据整合到数据仓库中。数据体系的实施主要包括业务调研和需求分析、数据总价架构设计、指标体系设计与实施、使用验证与优化4个环节,业务调研和需求分析做得是否充分直接决定了数据体系建设的是否成功,数据体系的使用效能、活力和可持续性还需要通过交付使用后验证,并不断进行优化迭代,从而提高数据资产所产生的综合效益。

猜你喜欢
中台数据仓库架构
基于FPGA的RNN硬件加速架构
中台是媒体转型必经之路吗?
——媒体中台建设的特点和误区
功能架构在电子电气架构开发中的应用和实践
基于数据仓库的数据倾斜解决方案研究
关于零售企业“中台”建设的研究
汽车制造企业质量中台研究
以技术开发中心为中台,数字化转型之见解
构建富有活力和效率的社会治理架构
探析电力系统调度中数据仓库技术的应用
数据仓库系统设计与实现