大数据环境下高校数据治理策略探索

2019-03-14 12:42赵亚伟
电脑知识与技术 2019年1期
关键词:高校信息化数据治理大数据

赵亚伟

摘要:随着大数据技术的崛起,各高校逐步建立起自己的数据中心,这在很大程度上解决了高校各业务系统各自为政、信息孤立、管理方式复杂多变等问题。然而数据中心的数据质量情况严重取决于各个基础业务系统的数据质量。各业务系统由于长久以来的信息独享、信息更改不及时等,在数据质量上存在着很大的问题。因此,高校系统的数据治理便成了及其重要且必需的工作。该文以教师个人主页系统的推广为依托,详细介绍了如何利用教师个人主页系统协助基本业务系统的数据治理工作。

关键词:数据治理;高校信息化;大数据

中图分类号:G647       文献标识码:A      文章编号:1009-3044(2019)01-0022-02

1 高校数据治理面临的问题

目前高校数据治理主要面临以下几个方面的问题[1]。

一是各业务系统彼此独立,缺乏有效的数据沟通和共享,导致数据资源无法得到合理利用,产生大量的冗余数据,由于人为操作和系统数据标准及代码标准的不一致性,也导致了大量数据格式不统一以及数据互斥的现象。

二是部分业务系统的管理不规范,一部分部门仍按照Excel表格的方式存储数据,导致数据更新不及时,更为严重的是随着计算机硬件的更新换代,使得以前的数据大批量丢失。

三是数据质量参差不及。首先,同一含义的数据可以来源于不同的系统,加上系统之间的独立性导致很多数据格式存在差异,这为数据的整合增加了很大困难;其次,部分数据缺失或者互斥,如何利用技术手段解决缺失或者冲突的数据并更正便成为数据治理的另一个难点;最后,对于错误某些数据,其拥有单一的数据源,而且数据格式完全无误,单纯依靠技术手段难以发现其中的错误,这就需要人为进行数据核对,然而由于各系统的复杂性,这无疑会大大增加教师的工作量,降低教师及工作人员的积极性。

针对以上问题,结合我校的数据治理工作,笔者认为高校的数据治理工作可以分成以下几个步骤。

第一,需要确定统一的数据编码标准和使用操作规范,各系统严格按照此标准执行,这就为数据编码的统一性提供了坚实的基础。为此,我校参考国家标准、教育行业标准,修订了《北京语言大学信息编码标准》,同时制定了《北京语言大学基础数据管理暂行办法》,为数据的生产和使用提供了制度依托。

第二,需要确定起始数据源,建设正确、高效、可重复利用的数据中心。其中,这部分可分为几个小步:1)确定各系统之间的数据流程图,明确各个系统之间数据的流转关系,找出数据源头;2)分析需要纳入数据中心的字段名称,剔除无用字段;3)设计接口,实现数据的归聚,形成数据质量还不是特别高的数据集合;4)针对系统内和系统间的数据关系,设计数据监测模块,利用技术手段自动发掘其中的问题数据,在源头系统进行数据更改;5)对于无法用技术手段检测的数据,我们采用一种全新的方式进行校对——教师个人主页系统,该系统的上线使用,不仅为教师打造了一个动态的个人电子名片,而且为数据治理提供了强有力的工具。数据的准确性可以更客观的展示教师的科研教学成果,提升教师的影响力;教师主页用户量的提升以及教师影响力的扩大又进一步推动了数据治理工作的进展。

第三,根据数据流向,设计数据服务接口,建设大批量的碎片化服务平台,将经常使用的线下服务搬到线上,真正实现网络化、信息化办公。

第四,规划上层数据分析应用,发挥大数据的潜力,设计数据模型,搭建大数据分析平台,用于个人数据的分析展示和整体数据的价值挖掘,为学校的各项宣传和决策提供助力和依据。

如何借助教师个人主页系统治理单纯依靠技术手段无法修正的错误数据是该文所要论述的重点内容。

2 北京语言大学教师个人主页系统

为了加强学校教师对自身教学和学术研究的宣传,提升学校在教学、科研及人才培养等方面的影响力,我中心联合研究生处、人事处、教务处、科研处等单位为全校教职工建设了“北京语言大学教师个人主页系统”。

“北京语言大学教师个人主页系统”是为全校教职工提供的一个统一、便捷、个性化的中、英文个人主页管理和发布平台,是教师的电子名片。教职工可以在该平台中建立个人主页,展示个人基本信息、教学情况、学生信息、研究成果、研究方向、著作成果等内容[2]。

教师个人主页利用科研系统、人事系统、研究生系统、教务系统中已有的数据为依托,方便快捷地將教师的个人基本信息、教育经历、工作经历、授课信息、科研成果、所带的研究生信息等迁移到教师主页系统中,并对这四个系统中变化的数据实行增量同步策略,大大减少了教师录入数据的工作量,提高了数据的准确率,实现一个数据源、多个系统重复使用的目标。同时,教师也可以自定义添加内容,为教师的个性化设置提供了发挥空间。

然而,教师主页中的基础数据的数据质量不是很高,这就需要对源数据进行数据治理。上一章我们提出了数据治理的几种情况,通过技术手段我们完成了一部分数据的治理工作,并将其保存在数据中心;其他的不能使用技术手段治理的数据,我们采用了一种全新的应用和数据治理相结合的方法,即利用教师个人主页系统,将需要核对的字段信息集成到教师个人主页中,然后组织教师对自己的主页内容进行核对,这样既避免了教师去各个系统核对数据的烦琐,又进一步增加了教师对个人主页系统的了解,为教师主页的推广提供助力,数据核对工作完成后教师可根据需要选择是否开通自己的主页供他人访问。

3 数据整合及数据流向

教师个人主页通过统一身份认证系统获取教师基本信息,再通过数据中心将教务系统、科研系统、人事系统、研究生系统中的数据进行数据抽取,集成到教师个人主页数据库,然后将数据分类展示到教师个人主页中。

其中,数据中心采用ODI (Oracle Data Integrator)工具创建接口,配合数据质量监控模块,实现各系统数据到数据中心的增量同步工作,并对源数据质量进行技术层面的评估检测。然后,我们根据教师主页所需要的字段设计视图,从数据中心抽取相关数据内容以同样的方式同步至教师个人主页系统临时数据库。最后,检测教师个人主页系统临时数据库中的内容是否符合系统需求,删除重复记录和有害记录,将结果增量同步到教师个人主页数据库。

教师个人主页系统管理端访问权限封闭在校内,很大程度上保证了系统管理端的安全性和可靠性。校内教师通过统一身份认证登录管理后台,校外教师则通过WebVPN的方式登录管理端。老师可以在教师端管理后台看到自己所有的数据。其中,有一部分数据是老师自己添加的,另外一部分是从其他业务系统同步来的数据。为了便于区分,从其他业务系统同步过来的数据,我们在每个条目后面都添加了特殊的标志进行区分。同时,教师若开通了自己主页的用户访问权限,还可以对这些数据进行自定义设置其他人是否前端页面可见。老师如果发现自己的数据问题:如果是自己添加的数据,可以在教师主页进行修改;如果是其他业务系统同步过来的数据,则需要到指定系统进行更改,经过一段时间后,数据同步模块会将更改后的数据进行自动同步。这样便在很大程度上保证了数据的准确性和完整性。

4 数据治理进展及成效

我们与人事处、科研处、教务处和研究生处沟通后,结合大数据分析系统及北语教师印记应用所需要的信息,确定了人事系统包括基本信息、教育经历、工作经历、奖励信息在内的40个核心字段以及科研系统包括科研项目、著作成果、科研专利、论文成果、获奖信息在内的43个核心字段、教务系统的授课信息中的8个重要字段和研究生系统中的教师所带的学生信息中的7个重要字段。而后将这些字段信息集中展现在教师个人主页管理后台中。教师登陆教师主页管理端便可以方便地查看这些字段的内容是否正确。如果内容有误,我们通过与人事处、科研处、教务处和研究生处商议,确定了不同系统中数据修改流程。此项工作实施六个多月以来,数据质量有了明显的提高。

在这次數据治理工作中,全校大部分教师先后参与了本人数据的核对工作,反馈了大量的数据质量问题。经过总结整理,主要有以下几个方面:1)人事系统中教师的婚姻信息由于教师入职填写后便没有反馈,导致信息长时间没有更新,导致一部分教师的婚姻信息有误,这部分内容需要人工进行更正;2)由于教师姓名拼音是系统自动生成的,而汉语中存在多音字的现象,导致一部分教师的姓名拼音有误,这部分内容我们确定了新的拼音生成策略来解决这个问题;3)教师科研项目信息存在缺失的情况,这部分内容需要手工进行补录;4)由于历史原因,新旧系统在数据迁移的过程中,出现了一部分重复数据,这部分内容则需要根据重复的类型分类对待,必要时需要与教师沟通进行解决;5)某一条数据中部分字段信息缺失或有误。

经过此次数据治理工作,我校的数据中心有了一个质的提高。未来,将逐步建设高质量、可用的全量数据中心;继续加入非结构化数据的工具化收集及自动化治理工作,为各级部门及领导的决策提供良好的数据支持。

参考文献:

[1] 魏楚元.高校数据治理与大数据分析的思考与探索[J].中国教育网络,2017(10): 22-23.

[2] 张巍,刘瑾,杨雨.大连理工大学高校教师个人主页系统的探索与实践[J].中国教育网络,2017(11):64-65.

猜你喜欢
高校信息化数据治理大数据
移动技术在高校信息化建设中应用现状分析
大数据治理模型与治理成熟度评估研究
大数据时代城市治理:数据异化与数据治理