浅析数据血缘在数据安全治理中的应用

2021-07-08 09:46贡桑德庆安渊
数码影像时代 2021年7期
关键词:血缘数据安全层级

贡桑德庆 安渊

引言

数据血缘是指在数据的全生命周期中,因数据的加工、融合、流转等产生的数据与数据之间的多种关系。通俗地讲,数据A经过处理产生了数据B,我们则称数据A和数据B具有血缘关系。不管是结构化数据还是非结构化数据,都存在数据血缘关系。数据血缘还具有归属性、多源性、可溯性和层次性等特性。

数据血缘应用

目前,数据血缘分析技术在数据治理和数据仓库领域的应用已经比较广泛,基于数据血缘的四大特征,其主要应用有以下几个方面:

数据溯源

依托于数据血缘关系可溯性的特点,根据血缘中的数据链路关系,可实现指定数据的来源和去向追溯,帮助用户理解数据含义,在全流程上定位数据问题,进行数据关联影响分析等,解决多层复杂逻辑处理后数据难以理解、难以应用和错误难以定位的问题。

数据价值评估

数据价值是数据管理的核心标准,不管是数据交易中的数据定价还是数据安全中的保护等级,数据价值都是一个重要的参考因素。因此,如何准确地评估数据价值成为企业面临的一大难题。传统的数据价值评估,往往完全依靠相关法规要求和业务经验,缺少在具体应用场景中的评估依据,数据价值评估脱离了数据的应用场景和真实的业务价值。而数据血缘则提供了一种基于数据实际应用的价值评估方法,使用者越多、使用量级越大、更新越频繁的数据具有更高价值。

数据质量评估

数据血缘清晰地记录了数据来源以及数据流转过程中的处理方式和处理规则,能实现对各个数据节点的分析和数据质量评估。

数据归档参考

数据血缘中记录了数据的去向,可清晰地掌握数据被消费的情况,一旦数据没有消费者,也就意味着数据已失去价值。此时,可以对这些数据进行进一步评估,考虑进行归档或销毁处理。

在数据安全治理中,数据血缘的应用场景主要是数据溯源和数据价值评估。数据溯源可以帮助数据管理者理清数据脉络,形成数据图谱,协助构建数据安全管理体系,或追踪数据泄露节点、数据风险节点等。数据价值评估可以辅助数据分类分级体系建设,指导数据的分级管控和分级保护。

数据血缘分析

尽管数据血缘分析还未在数据安全治理中广泛应用,但考虑数据血缘的特性和应用场景,其在未来必将发挥重要作用。数据血缘分析作为数据血缘的应用方式,是一个贯穿数据生命周期的过程,涉及流程、技术、产品等多维度内容。数据血缘分析可分为三大模块:数据血缘建设、数据血缘分析、数据血缘可视化。

数据血缘建设

数据血缘建设并不是建设数据血缘关系,因为数据血缘关系是数据流转过程中自动产生的。数据血缘建设的目标是当数据被生产时,数据生产过程能被及时、准确地记录和存储下来。因此,数据血缘建设并不是一个指定的动作,而是一种管理流程和数据意识,需要延伸到数据产生之前,从数据存储的设计开始。

数据血缘建设是数据血缘分析的前提条件,准确、完整、及时记录信息才能带来有效的血缘分析效果,由于部分数据源本身的数据血缘建设准备较差,在某些业务场景中需要人工介入进行梳理。

数据血缘分析

数据血缘分析针对数据流转过程中产生并记录的各种信息进行采集、处理和分析,对数据之间的血缘关系进行系统性梳理、关联,并将梳理完成后的信息进行存储。由于企业数据庞杂等问题,数据血缘分析通常需要借助工具或系统展开,实现血缘信息数据的自动采集分析。

数据血缘分析通常按数据血缘的层级进行,层级基于业务需求和某些数据特性可能有差别,常见的分析层级为应用级、数据级和字段级。数据血缘分析的目标是实现数据来源的精确追溯、流转过程的准确还原、数据去向的精准定位。数据血缘分析需要考虑以下几个方面:

(1)全面性。数据处理过程实际上是程序对数据进行传递、运算演绎和归档的过程。为确保数据血缘的完整性,必须将整个系统作为数据血缘的分析对象,才能够真正做到溯源。

(2)及时性。数据之间的关系是随时变动的,为保证数据血缘的准确性和可用性,数据血缘分析必须与数据保持同步更新,确保数据血缘的分析结果面向最新的数据和数据关系。

(3)适用性。数据血缘分析技术和实现方式有多种,分析的广度、深度和维度也有不同,因此,数据血缘分析需要在实现需求目标的前提下开展。

数据血缘可视化

血缘分析完成后,需要依靠可视化技术将分析结果清晰、直观地传递给用户,帮助客户进行二次分析和具体应用。数据血缘图谱是血缘分析中最常用的可视化方案。

业务需求的差异将决定血缘分析层次和血缘层级的差异,进而体现在数据血缘图谱上。因此,数据血缘图谱要基于数据血缘层级进行分层展现,直观地从应用层级、数据层级、字段层级呈现数据的血缘关系。

在具体应用中,受到业务需求差异和可采集分析的血缘信息影响,数据血缘图谱的呈现方式可能存在差异,但其整体形态基本一致。以某个数据为核心节点,体现该节点的数据来源、数据去向、流转路径以及路径中的处理方式和规则。因此,数据血缘可视化视图中应至少包含以下元素:

(1)数据节点标记数据的具体信息,如所有者、层次信息、终端信息等,根据不同的血缘层次和业务需求,数据节点的信息有所差异。根据数据类型的不同,数据节点可分为主节点、数据流入节点和数据流出节点。

(2)数据血缘图谱呈现数据血缘关系,而主节点作为数据血缘图谱的核心,应是可方便切换的。

(3)数据流入节点是主节点的父节点,标记了主节点的数据来源,可能有多个或多层。

(4)数据流出节点是主节点的子节点,标记主节点的数据去向,也可能有多个或多层。在数据流出节点中有一种特殊的终端节点,数据到达终端节点后,将不再向别处流转。

(5)流转线路标记数据的流转路径,通常从流入节点汇聚到主节点,再从主节点扩散到流出节点。在流转线路中,不仅可标记数据的流转关系,还可以通过线路的粗细、长短等标记数据量级和更新频率。

(6)处理节点标记数据流转过程中的处理方式和规则,通常用于数据节点之间的流转线路上。通过处理节点可以直观地了解数据在两个节点之间流转时,利用何种规则进行了处理。

结语

随着数据爆发式增长,数据之间的关系越发复杂,为数据安全治理工作带来巨大挑战。在这样的背景下,具备可溯性、归属性等特征的数据血缘将在数据安全治理过程中发挥越来越大的作用。数据血缘应用需要依赖丰富的可分析数据、强大的数据采集能力、血缘分析能力和清晰直观的血缘图谱,贯穿数据全生命周期。数据血缘应用不仅要从技术层面重视,还需从数据安全治理的流程、制度、意识层面进行配合,才能產生预期的效果。

参考文献:

[1]刘勇.一种计算机网络关键节点识别方法[J].电子设计工程,2021,29(17):99-103,108.

[2]温婷.网络与数据安全产业迎高光时刻[N].上海证券报,2021-09-02(005).

[3]张思玮.网络安全发展迎来新拐点[N].中国科学报,2021-09-02(003).

[4]安全信任试点 助力车联网产业健康发展[N].中国电子报,2021-08-31(006).

[5]刘勇.一种计算机网络关键节点识别方法[J].电子设计工程,2021,29(17):99-103,108.

作者简介:贡桑德庆(1989—),西藏拉萨人,现就职于西藏自治区党委网信办。

猜你喜欢
血缘数据安全层级
爱与血缘的较量
军工企业不同层级知识管理研究实践
牛犊错牵难以要回 血缘鉴定确定归属
基于军事力量层级划分的军力对比评估
云计算中基于用户隐私的数据安全保护方法
建立激励相容机制保护数据安全
大数据云计算环境下的数据安全
任务期内多层级不完全修复件的可用度评估
大数据安全搜索与共享
超出血缘亲情的大爱