高校数据平台建设与数据治理实践

2021-12-10 09:58喻姣黄安琪袁新辉
中国教育信息化·高教职教 2021年11期
关键词:数据平台数据治理

喻姣 黄安琪 袁新辉

摘   要:数字经济时代,数据已定位为电子资产、重要生产要素、基础战略资源。高校正以数据为驱动力,充分发挥数据价值,推进教育治理现代化进程。在利用和挖掘数据价值过程中,最基础的工作是建立一个数据全生命周期管理的平台,最紧迫和困难的工作是数据治理。文章首先介绍了高校数据工作的背景;随后提出了“平台共享、生态共建”的工作思路,从架构及功能两个方面对数据平台做了阐述;最后文章重点论述如何利用数据平台开展数据治理实践,以期为高校数据工作提供有益参考和实践借鉴。

关键词:数据平台;数据交换与共享;数据标准;数据治理

中图分类号:G647 文献标志码:A 文章编号:1673-8454(2021)21-0048-05

一、引言

数字经济时代,数据已经被定位为电子资产、重要生产要素、基础战略资源。如何利用数据来实现管理的精细化、决策的科学化和服务的个性化是国内外各领域研究和探索的热点。各行业密集出台各类政策文件,要求加强数据资源管理、推动数据共享与公开、实现数据互联互通、挖掘数据价值。[1-4]

十三五期间高校信息化建设目标为“数字校园”,建设了大量的信息系统以支撑业务管理。虽然信息化建设成果显著,但随之而来出现了许多数据问题,如数据共享不畅、数据质量堪忧、全校协同乏力、数据权责不清、数据服务急缺等。本研究通过实地考察调研和相关文献统计,总结出当前高校数据工作现状如下:[5-8]①高校都意识到了数据的基础性和重要性,已将数据工作作为高校信息化十四五规划重点内容;②基于“ETL +视图”建成的数据中心已无法满足日益增长的数据需求,迫切需要一个数据平台来管理数据全生命周期,促进数据开放和应用;③数据质量普遍堪忧,因而数据治理是当前最紧要,也是最困难的任务;④数据应用落地场景各有侧重点,分别有学科建设、职称评审、年度考核、导师评选、学生和教师画像、教学评价等。

中南大学(下文简称“学校”)在2016—2019年用“ETL+视图”将基础数据集中到数据中心库,为业务信息系统提供简单的数据流通服务,但鉴于信息化在学校深入应用情况,数据中心库模式与学校数据诉求相距甚远,具体表现在以下两个方面:①业务部门虽有信息系统,但还是将大量时间用于数据收集、统计和报送,师生被通知登录各系统或者采用Excel重复填报个人数据;②“用数据说话、用数据管理、用数据决策、用数据创新”的诉求日益增长,而现状多是耗时耗力组合Excel形成的合计报表,但报表口径不一致、准确性不高。因此学校管理层、业务部门、师生强烈呼吁尽快开展数据工作。

综上所述,高校积极探索以数据为核心推进智能校园建设,以期提升教育决策科学化、管理精准化、服务个性化水平。但由于各高校信息化战略和目标、信息部门职责、信息化进程等情况不同,数据工作没有成熟可依的数据标准、通用完善的数据平台和系统性的实施方法。近年相关文献[5][8-11]的研究主要集中在高校大数据体系框架的构建、数据治理的理论研究等方面,而本研究则着力阐述如何建设一个数据全生命周期管理的平台,提出了“平台共享、生态共建”的工作思路(本文中的数据工作是指数据平台建设和数据治理相关工作),探索出了“分步实施、以用促建”的高校数据治理实践途径。

二、数据工作思路

学校数据工作思路为“平台共享、生态共建”。先建设一个数据平台,配套平台建立数据管理责任体系,制定数据管理办法、数据服务指南、数据治理规范等规章和指导性文件。然后遵照学校文件、利用数据平台形成全校协同共建的生态,一方面各部门各尽其责与信息部门共同进行数据治理后共享数据;另一方面跨部门、跨业务主题、跨系统的数据优先通过数据平台获取,避免重复采集。

数据工作的思路参照互联网电商模式,如图1所示,基础数据平台建成后主要任务就是开展数据资源的建设,并基于数据资源形成公开目录。参照商品目录,数据资源目录陈列的数据分为学校标准数据和部门共享数据两类。学校标准数据类比自营商品,是指经过数据治理,确定“一数一源”、进行标准化后在数据资源目录发布的学校主数据。学校标准数据将定期接受准确性、完整性等质量检查。部门共享数据类比直供商品,是由业务部门直接在数据平台上发布供其他单位申请使用的交换数据,此类数据使用频率较低或者只有特定的业务会用到,除非数据生产单位有特别的要求,否则一般不进行标准化处理和质量检查。学校标准数据在目录中标记为校级,管理责任属于数据生产部门和信息部门。部门共享数据在目录中标记为部门级,管理责任属于数据生产部门。

数据资源建设的主体分为数据管理者、數据生产者和数据消费者,其中数据管理者是负责数据平台建设和数据运营与管理的信息部门,数据生产者是学校生产数据的业务部门,数据消费者是需要使用数据的业务部门。数据管理者、数据生产者、数据消费者三者协同共建,各尽其责,形成学校数据生态圈。

数据管理者主要职能如下:①搭建数据平台;②在全校范围内寻找主数据的生产者,然后与其共同完成主数据治理后上架校级产品;③制定数据管理办法、数据治理规范、数据服务指南等规章和指导性文件,明确数据工作中各方的责任,管理、规范、指导数据生产和消费过程;④建立数据质量评价体系,在上架前和上架后持续对数据进行质量检查,并督促生产者持续改进;⑤建立数据产品售后体系,根据消费者反馈的质量问题走不同的售后处理流程;⑥建立支撑数据流通的物流体系,根据生产者和消费者约定的发货时间提供数据的运输服务等。

数据生产者主要职能如下:①生产高质量的数据并严格按照流程上架;②确保定时定量将数据提供给数据平台;③提供详实的产品说明书,产品说明书包含数据字段的业务规则和描述、数据使用方法及注意事项等;④做好售后保障,在数据管理员或者消费者反馈质量问题时及时答复,并找出原因及时修正等。

数据消费者主要职能如下:①在数据资源目录中找寻需要的数据项,仔细阅读数据项说明和数据样例后,提出明确的数据需求;②与数据管理员、数据生产者交流,确定最小最合理的数据范围;③按照管理办法的流程提交申请,等待管理员的合规性审核及生产者同意后接受供给;④接受在三方约定的供给时间、频率和范围内获得数据的条件;⑤按约定要求使用数据,在使用过程中发现数据问题后按照售后流程反馈。

三、数据平台介绍

数据平台主要分为数据层和应用层,平台架构如图2所示(虚线范围内)。

数据层为数据平台所建的数据存储环境,包括原始库、标准库、主题库、缓存库和运行库。原始库用于存储业务系统共享的原始数据,其数据可由生产者在数据平台注册发布形成部门共享数据,也可以通过规范流程形成标准数据。标准库存储学校标准数据,它由原始库里的主数据经过清洗、转换和标准化后形成。主题库存储的主题数据,根据经常性的应用需求由几个学校标准数据表通过联接、条件组合后形成。缓存库存储备份数据,在每次提供数据服务时将每一次推送出去的数据进行备份。缓存库有着十分重要的作用,不仅能用于计算前后两轮数据推送之间的差异,将差异进行标记,还能以数据拉链表的形式记录数据的历史状态。运行库为数据平台的应用支撑数据库,主要存储元数据、质量规则、检测出来的异常数据等。

应用层为数据平台的功能层,主要功能模块包括数据共享交换、主数据管理、元数据管理、标准管理、质量管理、系统管理。

1.数据共享交换

数据共享交换模块起桥梁枢纽作用,它管理各类数据源的有效连接,提供多种数据交换方式,实现数据在不同业务系统间顺畅、批量传输,还以数据资源目录为基础和依据,为数据消费者提供数据服务,并记录每次服务的详细情况,例如推送服务数据量、频率、服务时间等。

数据共享类型根据数据的保密性、重要性、使用范围等分为无条件共享、有条件共享、保密共享三类。数据平台根据数据共享类型的不同,支撑不同的服务流程,并配置了对数据字段的加密和脱敏、传输过程加密解密、数据仅对授权用户可见等安全保护措施。

2.主数据管理

主数据是具有高业务价值,在学校内跨部门、跨系统重复使用的数据。它具有唯一、准确、权威的数据源,是代表学校关键业务实体(例如教职工、学生、项目等)的可用数据。因此主数据管理不仅需要认证数据源,还要规范维护流程、确定开放属性、更新周期等。主数据在数据平台发布,消费者及时通过平台获取,从而实现 “一点录入、多点调用”。[12]

3.元数据管理

元数据是描述数据的数据,用于打破业务和IT之间的语言障碍,帮助业务更好地理解数据,通常分为业务、技术和操作三类元数据。[13]元数据管理中数据字典用来管理所有元数据相关信息,U/C矩阵表达数据项的生产与使用情况,数据地图呈现学校数据的总体概况,血缘分析实现数据全链路可追溯和数据影响分析。

4.标准管理

数据标准是数据在学校层面共同遵守的属性层含义和业务规则,是学校对某个业务实体对象的共同理解。数据标准包括数据项标准和代码标准。数据项是数据不可分割的最小单位,数据项标准包含每个数据项的编号及规则、名称、中文简称、类型、长度、约束、值空间、解释及举例等。代码标准用于规范数据项的取值,通过定义取值范围来限定数据项的取值。代码应具有一定规律性,易于计算机和人识别与处理,例如校区、机构、学生类别。数据标准管理功能包括数据项、代码的建立与维护,以及其版本的迭代发布。

5.质量管理

数据质量被定义为“适合使用”[14],即数据适合使用、满足特定用户期望的程度。学校从准确性、完整性、规范性、及时性四个维度来描述数据质量,根据这四个维度建立评估体系,采用正向和逆向两种方式推进质量提升:①主动为校级数据的每个数据项设计校验规则,定期检查数据的质量,生成异常数据明细,复核数据问题和校验规则设置的合理性,最终形成数据质量报告发送给数据生产者;②建立质量反馈流程,消费者发现问题后通过回溯方式来促进数据修正。

6.系统管理

系统管理包括用户及权限的管理,数据平台的数据库资源、任务运行情况等的管理。

四、数据治理实践

数据平台建成后,采用“分步实施”和 “以用促建”两种方法在学校开展数据治理的实践。

第一种方法是分步实施学校主数据。根据主数据消费需求旺盛程度、主数据管理单位是否唯一和明确、业务数字化水平高低、业务部门数据专业人员配备情况等对学校主数据统筹规划,分步实施。对教职工、学生、科研项目、教学课表和成绩等主数据进行梳理和标准化,第一批发布生成校级的数据资源目录。

第二种方法是以用促建拉动数据供应链条各个节点参与。在第一批学校标准数据入驻平台后,平台正式在全校上线并推广使用,满足数据消费需求。鼓励业务部门提交数据申请表,数据管理员收到申请表后確定数据已在目录中发布,通知消费者直接在平台订阅即可,而不在目录的需求则形成数据消费队列。数据消费队列的实践常见情况可分为两类:①若消费数据被识别为主数据,数据管理者将协同消费者在学校范围内寻找生产者,召开三方协调会议达成一致意见后再根据主数据流程与规范实施;②若消费数据仅用于两个业务系统之间的交换,则由生产者采用发布实时接口和部门级共享的方式上架数据。

在“分步实施”和“以用促建”两种方法的有效指导下推进学校数据工作,形成规范的主数据和数据标准建设过程,制定数据服务方案。

1.主数据形成过程

任何组织进行数据工作首先专注于主数据。面对学校信息系统上百个、建设程度参差不齐的复杂局面,采取分步实施的方法,一次完成一个业务主题域中的一个核心业务对象,然后逐渐扩大业务对象范围来进行主数据的识别和数据治理。学校主数据范围包括人事、教学、科研、财务、资产、学工等业务主题域,其核心业务对象有教职工、学生、课表、成绩、项目、论文等。

主数据的形成分为五个过程:①从人事、教学、学工等主题中,基于教职工、学生、课表、成绩等业务对象来识别单一数据源及管控组织;②对数据进行分类,规范数据项命名,明确数据项的代码取值范围;③针对有争议、多部门共同管理的业务对象,组织协调会议协商确定,例如通过学生学籍相关数据项确定教务部门为生产者、学生管理相关数据项确定学生工作处为生产者;④基于上述步骤,初步确定质量检查规则;⑤根据每年度的《高等教育学校统计调查表》《普通高等学校本科教学工作状态数据分析报告》等学校层面的报表确定指标数据和统计维度。

2.数据标准建设过程

在主数据建设过程中,还有一个重要环节就是同步形成学校的数据标准。数据标准的建设是以国家和教育行业标准为参考,根据现有系统的实际情况,与系统的主管部门共同确定数据项和代码。每形成一条主数据就能形成与其相关的数据标准,并录入数据平台进行管理。学校数据标准既是业务部门信息化建设的数据标准,也是数据的质量检查标准,还是学校数据报表的统计标准。数据标准经过学校审核后定期迭代发布,从而减少学校众多信息系统中同一业务实体对象出现模棱两可或者自相矛盾定义的风险。

3.制定数据服务方案

数据服务是指将数据作为一种产品在平台上提供,用于满足学校的消費需求且能提供灵活多样的服务方式,学校数据服务应用场景如图3所示。数据服务由数据管理专员进行申请,申请时写明需求数据字段和用途并承诺保障安全,相关部门审核数据用途的必要性、合理性、合法性。数据管理员收到申请表后根据业务系统情况、数据使用频率、数据量多少、数据可靠性等因素确定一个最优数据服务方式,包括数据轮询、接口调用、Kafka和在线查询。

(1)数据轮询

数据轮询是主流的服务方式,适用于数据量较大但对实时性没有极高要求的场景。学校人事、教务、科研等系统作为主数据的生产系统,不仅需要给数据平台供应数据,同时还需要其他系统的数据,采用此种服务方式。

数据轮询方式有三个步骤。

①建立前置数据库(以下简称前置库)。前置库是指业务部门必须建立的一个与数据平台进行有效连接的数据库环境,由业务部门设立的数据管理专员负责管理并保障安全。

②选择数据推送方式。推送方式分为全量、增量、增量更新三种。全量:新一轮数据推送时先清空表中原有数据再重新将全部数据加入,适用于没有主键的数据表。增量:数据表应有唯一标识的主键,新一轮数据推送时平台会在缓存库中找到前一轮推送的数据,根据主键逐行进行比对,对新记录增加一个新增时间和新增标记,多适用于数据记录不进行修改和删除的流水表。增量更新:数据表应有唯一标识的主键,新一轮数据推送时平台会在缓存库中找到前一轮推送的数据,根据主键逐行、逐列进行比对,比对完成后对数据有变化的记录增加一个AUD标记(A新增、U修改、D删除)和修改时间再推送,多适用于教职工信息、学生信息等主数据表。

③按需选取。数据平台存储的是全部数据,例如教师信息表、学生信息表里包含全校所有相关数据。根据“最少使用”原则,数据消费者只允许获得限定行、限定列的数据。因此在申请和审核时,平台通过提供编辑条件、选取数据字段来控制共享范围。

(2)接口调用

接口调用是政府数据开放平台主流的服务方式,但是在高校应用较少,推行有阻力,主要原因:一是高校业务系统开放的理念和意愿较低,几乎都没有形成通用、规范的数据对外接口;二是调用接口要求消费者根据数据平台的加密解密策略和程序规范定制开发程序,消费者因畏难而拒绝。

虽有诸多阻力,但接口调用相比数据轮询具有显著优势:①数据即调即用;②无需建前置库,也无需关注数据库之间网络权限的开通。接口调用分为API接口和实时接口两种。API接口是由数据资源目录中的数据资源生成的一个对外标准数据接口,其调用链接为数据平台网址,数据平台对API接口统一编号。需求数据量少且不对外共享数据的消费者推荐采用API接口。实时接口是指业务系统直接发布的对外标准数据接口,其调用链接为发布者的网址,数据平台提供接口信息和过程的管理。业务耦合较高、实时性要求高的两个系统交换数据推荐实时接口。

(3)Kafka

Kafka是分布式“发布-订阅”消息系统,它主要用于处理活跃的流式数据,常用于大数据系统中在各个子系统高性能、低延迟、不停流转的数据。将校园卡各类刷卡记录及时传送到数据分析平台形成实时数据统计报表这类应用场景,可采用Kafka的服务方式。

(4)在线查询

前面三种服务方式都需要具备一定IT技能的人员来完成,而在线查询适用于IT技能人员缺乏时的紧急数据需求,允许使用者查询和导出申请的数据。由于导出数据后,无法追踪数据的去向,存在数据泄露风险,因此一般不推荐。

五、结语

本研究基于学校数据工作的现状和需求,提出了“平台共享、生态共建”的工作思路,在该思路指导下建立的数据平台和开展的数据治理实践,在学校已落地实施了一段时间,数据平台已逐渐成为学校信息系统之间的数据流通枢纽,在数据治理的实践过程中业务部门的主动性和积极性被充分调动,数据质量得到大幅度提升,为学校提供了准确高效的数据服务。

客观地说,高校是一个非数字原生组织,数据工作是一个长期、渐进、困难、变革的过程。未来的高校数据工作不仅要对信息系统进行改造以实现数据的高标准、高质量生产和管理,还要务实求精地对存量数据进行治理以实现数据共享与应用,更需要根据教学、科研和管理需求推动数据应用落地,这样才能以数据来驱动创新和改革,推动教育治理现代化。

参考文献:

[1]新华社.中共中央 国务院关于构建更加完善的要素市场化配置体制机制的意见[EB/OL].http://www.gov.cn/zhengce/2020-04/09/content_5500622.htm.

[2]发改高技[2020]1922号.关于加快构建全国一体化大数据中心协同创新体系的指导意见[Z].

[3]新华网.中共中央、国务院印发《中国教育现代化2035》[EB/OL].http://www.moe.gov.cn/jyb_xwfb/s6052/moe_838/201902/t20190223_370857.html.

[4]教科信函[2021]13号.教育部关于加强新时代教育管理信息化工作的通知[Z].

[5]董晓辉,郑小斌,彭义平.高校教育大数据治理的框架设计与实施[J].中国电化教育,2019(8):63-71.

[6]吴南中,黄治虎,曾靓,等.教育大数据生态圈构建:“3+3”模型的逻辑与实践[J].中国远程教育(综合版),2019(7):77-85.

[7]罗军锋,张亚娟,冯兴利.基于高校的数据资产管理模型研究[J].现代信息科技,2020(5):108-111.

[8]余鹏,李艳.智慧校园视域下高等教育数据生态治理体系研究[J].中国电化教育,2020(5):88-100.

[9]宋苏轩,杨现民,宋子强.智能时代高校数据中心的新内涵及其体系架构[J].现代教育技术,2020(7):81-88.

[10]熊余,储雯,蔡婷,等.高校教育大数据应用支撑体系的设计与实践[J].现代教育技术,2020(11):91-97.

[11]王正青,但金凤.大数据时代教育大数据治理架构与关键领域[J].现代教育技术,2019(2):5-11.

[12]华为公司数据管理部.华为数据之道[M].北京:机械工业出版社,2020.

[13]劳拉·塞巴斯蒂安-科尔曼(Laura Sebastian-Coleman).穿越数据的迷宫[M].汪广盛,译.北京:机械工业出版社,2020.

[14]Won Kim,Byoung-Ju Choi,Eui-Kyeong Hong,et al.A Taxonomy of Dirty Data[J].Data Mining and Knowledge Discovery,2003(1):81-99.

(编辑:王天鹏)

猜你喜欢
数据平台数据治理
基于云计算的数据挖掘平台架构及其关键技术
高校数据融合路径及其治理框架的探讨
基于本体的企业运营数据治理
医疗物联网基础平台研究与设计
云端数据治理初探
大数据治理模型与治理成熟度评估研究
电力调度综合数据平台体系结构及相关技术
高校学生工作数据平台的构建和创新长效机制研究
大数据时代城市治理:数据异化与数据治理