基于价值互联的协同数据治理研究

2023-01-14 12:35翁宇翔WENGYuxiang
价值工程 2023年1期
关键词:数据管理协同价值

翁宇翔WENG Yu-xiang

(青岛大学,青岛 266071)

0 引言

当下,数据资产的理念渐渐被人们所接受,对数据价值的相关研究也越来越深入,如何将海量高价值的异质数据进行集成,逐渐成为焦点问题。2008年全球金融危机后,信息化成为最热门的话题之一,成为组织争夺竞争优势的关键因素。依据IDC数据显示,截至2011年底,全球信息总量已经超过1.8ZB,平均每年50%的增速增长。体量非常巨大。面对如此多的数据,如何根据业务需要,将不同类型、散落在各系统中的、零散且不一致的数据进行整合,成为组织亟待解决的难题[1]。

同样的,数据本身的问题也需要解决。根据数据质量专家Larry English的统计,截至2010年底,由于数据质量低下,已经为122家知名机构带来了高达1,212,374,479,000美元的损失,由此可见,庞大体量的数据为组织带来的不仅仅是机遇,同时也伴随着巨大的挑战,如果组织对拥有的数据不加以适当处理,带来的将是高昂的管理成本以及不可估量的损失。信息化的到来,使得组织开始重视数据问题,尤其是大数据技术的应用,产生了海量的高价值数据,为组织带来了前所未有的机遇与挑战。尽管组织能通过海量的数据进行更加精确的分析,为制定决策提供依据,但同时又受到数据质量问题、异构问题、共享问题的困扰,造成意想不到的损失。

在此背景下,通过数据治理的方式解决上述问题变得尤为重要。然而,目前所讨论的数据治理大多以管控思想为主,极大地影响了数据治理最终的效果,虽然一定程度上解决了数据质量差、数据标准不一、权责模糊等问题,但没有从根本上解决数据集成、协同共享的问题,使得组织间很难实现价值的互联互通,因此,本文基于价值互联的思想,提出了协同数据治理的框架,并对该框架进行了检验,证明了其合理性。

本文的结构如下:第一部分为文献综述,第二部分为协同数据治理的框架设计,第三部分为院校融合下的协同数据治理实例,第四部分为总结。

本文主要贡献如下:

①将价值互联的技术思想应用于数据治理活动中,解决组织内部各业务单元及组织间跨越式协同问题,通过价值互联、协同共享,充分发挥数据资产对组织的价值;

②改变以往根据业务需要,简单的从需求侧建设业务系统的思路,将重点转移到供给侧一方,通过对供给侧开展协同数据治理活动,从源头上保证数据质量,确保一数一源。在此前提下,再根据需求侧的要求搭建业务系统;

③该理论框架可扩展性较强,相比以往建设的大型业务系统,该框架下建设的系统更加灵活轻便,可以根据业务需求及时作出调整,节省大量的人力物力成本。

1 文献综述

1.1 数据管理与数据治理

数据管理与数据治理虽然只有一字之差,但他们所代表的涵义却非常不同。从概念上来说,数据管理是在计算机软硬件技术的支持下,对数据进行收集、存储、处理和应用的过程,它的最终目的在于充分发挥数据的价值[2]。而数据治理是一种涉及信息相关过程的决策权和职责体系,根据商定的模型来执行,这些模型描述了“谁在什么时间和情况下,用什么方法,对哪些数据采取了什么样的措施”[3]。从决策方式上来说,Alhassan I等人认为数据管理涉及如何实施决策,它受治理的影响,而数据治理涉及到做出什么决策以及谁做出决策,从而确保对资源的有效管理和使用[4]。Fu X等人认为管理是关于组织决策的决策,也涉及到怎样去实施这些决策,而数据治理不仅涵盖决策领域,还涵盖责任[5]。从范围角度上来说,包冬梅等人认为数据管理关注的点更加的微观,相对数据治理而言更加具体,而数据治理更加的宏观,它更关注战略方针、组织架构等问题[6]。

综上,我们可以总结出如下几点:

①数据管理关注的话题更加的具体、更加的微观,多集中在数据本身和组织决策上;而数据治理关注的范围更加的广泛,更加的宏观,很多工作都是为管理决策提供依据和基础;

②数据管理更多的是应用管理学思想对数据和组织进行管控,权属关系简单;而数据治理则更注重组织架构、政策、数据的权责关系等数据管理没有涉及的内容;

③数据管理活动大多是发生在组织内部的,组织有着明确的边界;而对数据治理来说,解决更多的是如何在组织边界模糊化的情境下跨组织进行信息资源共享,解决组织间的数据权属问题、异构问题、质量问题、信息孤岛问题等。

处于大数据时代的今天,异构、信息孤岛、标准不统一、数据权属等问题已经越来越严重,尤其区块链技术的兴起,使得人们对“去中心化”的分布式治理的呼声越来越高,对传统的数据管理手段和方法提出了新的挑战,成为当下信息化发展的瓶颈,由此增加了组织对数据进行治理的重要性和紧迫性[7]。

1.2 数据治理现状

数据治理经过多年的发展,已经形成了比较成熟的体系架构及方法论。具体而言:

洪泽湖位于江苏省淮安市西南部,承接淮河上中游15.8万km2面积的来水,经调蓄后分别泄入长江和黄海,是淮河水系最大的拦蓄调控淮河洪水的平原湖泊型水库。随着南水北调东线一期工程的建设完成,洪泽湖作为输水干线上的主要调蓄湖泊之一,必将充分发挥其在南水北调水资源优化配置中的巨大作用。因此,在现状水量调度方案的基础上,对东线一期工程实施后的洪泽湖综合调度运行进行分析,提出新的思路十分必要。

技术上主要包括元数据管理与主数据管理。元数据是关于数据的数据,即“data about other data”,是在人们为了解决无序化的网络信息资源而提出来的[8],其目的是为 了提升信息资源共享水平、对组织信息资产有一个更加深刻的认识。对元数据进行管理,可以清楚地了解到组织目前的数据资产情况,并能准确地把握其含义。而主数据是不同系统间反复使用、相互共享的基础数据,是组织内根据业务需求重复使用的高价值的数据,存在于多个异构或同构的系统中[9]。随着业务的不断变化,组织内部或组织间进行信息资源共享的现象越来越普遍,进行主数据管理不仅能避免各系统间对数据使用的混乱问题,同时能够保证对外提供准确、一致的数据。

组织上,部分学者对治理中涉及到的权责问题非常关心,他们认为数据治理涉及到谁拥有决策权,并对组织数据资产相关的决策负有责任。Vijay Khatri等人建立了一个数据治理决策域模型[10],该模型包含了数据准则、元数据、数据访问、数据质量、数据生命周期五个决策域,并对决策域的范围和类型做了详细的阐述,定义好每个域中的权责关系,为数据治理工作提供了一个通用框架,为后续的工作奠定了基础。职责分配模型(RACI)也可以来阐述如何从组织角度进行数据治理。其代表的内涵是:Responsible(应负责任方),指授权管理某属性的人;Accountable(最终负责方),指对数据属性承担最终责任的人;Consulted(咨询方),指通过双向沟通接受咨询的某人或某些人;Informed(被告知方),指通过单向沟通被告知的某人或某些人。K Wende通过建立职责分配模型,将数据治理中涉及到的角色以及活动用矩阵的方式展现出来,并将数据治理活动中的角色划分为5个:执行发起人、数据质量委员会、首席管理员、业务数据管理员、技术数据管理员,每类人群在数据治理不同的阶段与活动中担负着不同的责任[11]。

1.3 价值互联

20多年来,信息互联网的发展为人们打开了一扇新的大门,给人们的生活带来了翻天覆地的变化[12],如今,区块链技术的兴起,又将人们带入了价值互联的时代。区块链所代表的去中心化思想,彻底颠覆目前主流的集中式信息资源共享模式,使价值能够在互联网上实时传递[13]。在区块链技术出现前,信息互联网没能搭建起能够使价值相互传递的机制,中心化的规则也无法满足数据价值在互联网上相互传递的需求,而区块链的出现,尤其是共识机制、智能合约等的建立,使互联网中的对等网络成为可能,真正建立起组织间互联互通的价值互联网,实现数据的自由传输,真正发挥数据资产的价值。数据的共享并不代表信息资源的共享,数据本身没有任何意义,仅仅是一堆文字符号。只有确定了数据的所有权,与数据使用者确立信任关系,可以按照约定好的规则进行使用,并且保证数据监管者对数据进行全程监督,这样才能将数据视为资产,只有可信的数据才能称为信息资源,才能成为资产。当数据确定为资产后,组织中各业务单元才能真正实现价值互联。

2 协同数据治理框架设计

2.1 场景描述

在大数据应用高度复杂化的今天,数据治理问题的有效应对和解决涉及“跨层级、跨地域、跨系统、跨部门、跨业务”,需要多个相关组织协同配合,这对传统数据治理体系提出了极大的挑战,如何基于“跨”的场景进行数据治理活动,用最经济、最有效的方式提高数据的运作效能,充分发挥数据资产的价值,成为大数据应用过程中面临的一个重要课题。

信息化在实际应用中,各个组织根据自身业务的需求搭建了各种各样的信息系统,而这些信息系统的建设多以满足需求侧为主,试图通过搭建业务系统来解决组织中相应的问题,这类建设普遍存在以下问题:重硬件投入,轻软件架构;信息系统数量不断增多,但是也形成了一个个信息孤岛,信息共享程度很低;重复建设过多,不同系统功能重复,既浪费,又因重复录入导致数据不一致。具体而言,目前存在的问题大体可以分为技术问题和非技术问题两类,如表1所示。

表1 信息系统建设中常见的问题

2.2 框架设计

通过总结梳理目前信息化建设中出现的问题,并基于对现有数据治理的研究,结合大数据应用中“跨层级、跨地域、跨系统、系统间数据集成问题进行了思考,并建立了一个基于价值互联的协同数据治理框架,如图1所示。

图1 基于价值互联的协同数据治理框架

该框架分为供给侧和需求侧两方面来进行设计,供给侧基于价值互联网,采用分布式的信息资源共享模式,实现组织间的共享协同,并且不同组织间基于信任服务和交换服务建立对等协同的网络,面向治理,以任务为导向,将数据看作为资产,在供给侧的每个价值单元中,各自保证数据的质量,对组织内的数据负责。在供给侧的框架搭建完成后,再根据需求侧提出的具体业务进行业务重构,基于信息互联网,采用集中式的信息资源共享模式,进行统一的技术支撑,建立大数据服务平台和对外服务平台,面向管理,以业务为导向,将数据看作是共用资源。

3 院校融合下的协同数据治理实例

基于凯米斯的行动研究模型,如图2所示,我们开展了为期半年的研究。

图2 凯米斯行动研究模型

通过调研,我们梳理出了目前信息化建设中所遇到的问题,按照供给侧与需求侧两个方面进行了分类,并按照系统、数据、应用需求、组织四个方面进行了分层,将问题结构化,如表2所示。

表2 问题结构化

3.1 整体规划

研究人员根据上述问题,从供给侧开始进行规划设计,从源头保证数据的质量,采用点对点的共享方式,达到一数一源的目标。在保证供给的前提下,根据具体业务需求迅速搭建业务平台,最大化地满足需求。研究人员首先从学校角度出发,对整个学校的信息资源共享、集成等进行了总体规划,如图3所示。

图3 院校融合下的协同数据治理总体框架图

学校的各个学院与行政部门等业务单元共用一个“资产共享服务中心”,该中心由学校进行维护,用于存放各单位的信息资源目录详情,通过查询目录,各单位就能找到需要数据的存储位置,进而与拥有数据的单位建立共享关系,从该单位的共享池中提取需要的数据,再将提取的数据存放在自己的共享池中,供后续使用。经过研究人员商讨,每个单位将业务数据经过清洗后存入共享池,分为供给共享库和需求共享库,供给共享库指本单位可以向外共享的数据,需求共享库指本单位从其它共享池取来的数据,各单位对自己共享池中数据的质量负责。并且,需求方为了方便数据的应用,真正发挥数据资产的价值,会通过专题库对数据进行分析。学院A为行政部门A提供数据的业务操作流程如图4所示。

图4 信息资源共享流程

该过程包括“信息资源发布”和“信息获取”。学院A发布信息时,首先向资产共享服务中心发起注册申请,在学院A的共享池中调用注册接口,最后在资产共享服务中心完成信息的注册。当行政部门A想要获取信息时,首先向资产共享服务中心发起检索目录请求,服务中心进行判断,若无条件检索,则结束请求过程,若有条件检索,则在检索后向提供方(学院A)共享池发起申请,提供方(学院A)审核后进行备案,并将数据传输到需求方(行政A)的共享池中,最后行政A将数据提取到自己的数据库中,完成信息获取过程。

3.2 各业务单元规划

具体到各业务单元(如学院A),研究人员又从供给侧规划设计了原始库与共享库,从需求侧设计了专题库,如图5所示。

图5 各业务单元框架设计

其中,原始库中存放所有的目前数据库中的数据,包含所有通过学校接口取来的数据以及学院自己的数据,各种数据都会在原始库中记录。提取数据之后,对数据进行分析归类、错误数据处理以及数据清洗工作,并做好相应的日志记录。数据清洗时,清洗规则由各业务部门,即数据的提供方定义,清洗完毕后数据将放在原始库新建的数据表中,与原数据表作区分。原始库的具体功能包括:数据分类、数据来源分析、数据清洗、日志记录、对脏数据进行处理。

共享库,顾名思义就是为了方便信息资源的共享而建立的数据库,因此共享库中存放的数据都是由原始库经过清洗后的干净数据,权责清晰,数据质量有保障,因此对共享库进行重新设计,将共享库人为地按照日常的业务规则,并参考数据标准集《CELTS-33高等学校管理信息标准》分为以下几个主题:学生主题、教职工主题、校友主题、教学主题、财务主题、科研主题、国际交流、后勤、维度、其它。这样既方便了数据的抽取及分类,对现有的数据资产一目了然,又能够方便信息资源对外共享。

专题库是面向业务而建立的,专门针对业务而存在的数据库。管理数据资产的最终的目的还是想要充分发挥数据资产的价值,如果不能很好地利用数据,不能很好地集成信息资源,那么前面所有做的工作都是在增加成本,因此,建立的专题库就是利用业务需求将数据库里的符合标准的数据以各种图片报表的形式展示出来,支持管理人员做出正确的决策。

组织方面,对信息资源共享的提供方和需求方的权责关系做了划分,如表3所示。

表3 组织权责划分

4 研究结果与总结

经过协同数据治理活动后,数据状况得到了极大的改善:①系统层解决了字典混乱,集成困难等问题,基本消除了信息孤岛现象;②数据方面,从源头保证了质量,语义问题得到解决,经过数据清洗,数据质量大大提升;③组织方面,对各方的权责进行了划分,元数据管理系统中对每条数据的来源去向也有相应的记录,一旦数据出现问题,能快速地找到数据的责任人。

综上,行动研究的结果符合预期的设想,解决了现阶段出现的数据问题,验证了协同数据治理框架的有效性和合理性。

处于大数据时代的今天,异构、信息孤岛、标准不统一、数据权属等问题已经越来越严重,传统的数据管理已经很难适应目前复杂多变的要求,使得组织逐渐开始关注数据治理活动,并针对相应的业务需求做出了一定的尝试。然而,当下数据治理活动需要多个相关组织协同配合,才能达到治理效果,本文从组织与技术视角阐述了传统数据治理的框架,并基于跨组织、跨系统等各种“跨越”边界的场景,在现有数据治理的基础上提出了基于价值互联的协同数据治理的框架,为新形势下开展协同数据治理活动奠定基础。

猜你喜欢
数据管理协同价值
企业级BOM数据管理概要
定制化汽车制造的数据管理分析
海洋环境数据管理优化与实践
蜀道难:车与路的协同进化
CTCS-2级报文数据管理需求分析和实现
“四化”协同才有出路
一粒米的价值
“给”的价值
三医联动 协同创新
协同进化