电子政务数据安全态势感知平台建设实践探索

2021-09-29 07:59范絮妍吴小倩冯立胜
信息安全研究 2021年10期
关键词:敏感数据日志数据安全

范絮妍 吴小倩 冯立胜 王 欣

(全国海关信息中心网络与信息安全处总工办 北京 100005)

2020年以来,国家将数字经济发展放在突出的战略地位,同步提出数据安全与应用发展并重的要求.2020年4月,国务院印发《关于构建更加完善的要素市场化配置体制机制的意见》明确提出“加快培育数据要素市场”“推动完善适用于大数据环境下的数据分类分级保护制度,加强对政务数据、企业商业秘密和个人数据的保护.”

数据泄露造成的危害日益加剧.据IBM Security发布的《2020年数据泄露成本报告》及业内其他研究报告统计分析,2020年全球数据泄露事件已突破360亿,数据泄露事件给政府企业造成的平均成本为386万美元[1-2].除了经济损失外,数据作为重要的战略资源,缺乏监管的跨境流动可能带来国家安全隐患;个人信息贩卖成为大数据产业灰色地带,对个人人身和生命财产安全带来严重威胁;生物识别信息和医疗数据等高价值敏感数据的泄露可能引发无法想象的灾难性后果.

世界各相关组织和国家纷纷开展数据安全和隐私保护立法,我国十四五规划提出加快数据安全、个人信息保护等方面的数据立法工作.2021年6月10日,全国人大常委会审议通过《中华人民共和国数据安全法》(简称《数据安全法》),以落实总体国家安全观的高度,提出聚焦数据安全领域的风险隐患,建立健全数据安全治理体系,建立数据安全风险评估、报告、信息共享、监测预警机制,建立数据安全应急处置机制,形成全社会共同维护数据安全和促进发展的良好环境.《数据安全法》对政务数据开发利用作出明确指示,要求省级以上人民政务应当将数字经济发展纳入本级国民经济和社会发展规划,加强数据开放共享和安全保障措施,建立统一规范、互联互通、安全可控的机制,利用数据安全运营,提升数据服务对经济社会稳定发展的效果.

在新形势和新要求下,电子政务运营单位陆续推进数据安全治理系列工作,规划设计覆盖全生存周期、以数据安全态势感知平台为核心的数据安全技术防护体系,逐步达到数据资产看得见、说得清、管得住、强审计、能追溯的目标.

1 电子政务系统数据安全风险及需求分析

1.1 政务数据的集中汇聚、开放共享催生更大风险

随着“数字政府”建设不断推进,基于国家政务信息资源整合共享的整体设计思路,政务数据正逐步走向集中管理、共享交换、互联互通.各中央部委单位、各地政府纷纷成立大数据局或大数据中心,集中汇集行业内全量数据,其中不乏个人信息、商业秘密、保密商务信息等敏感数据,数据价值巨大且风险提升.通过数据加工、建模分析,海量数据的衍生结果信息(如关联研判信息、宏观经济信息、风险布控信息、案件分析信息等)既能支持政府工作人员政务决策分析,还可能对国家宏观决策起到关键参考作用,必然会成为不法分子的目标.因此,基于数据的高价值、高聚集和开放共享等特性,电子政务数据势必面临多方面的安全风险和挑战,需要采取全方位的安全治理和保护措施[3-4].

1.2 缺乏数据资产底账分级分类动态维护机制

目前,政务大数据平台中的业务数据大多尚未完成分类分级梳理和保护,因数据资产底账的梳理和维护耗时耗力,动态底账和流向维护机制尚未有效建立.数据资产底账的建立往往结合专项工作进行一次性梳理,然而随着新数据资产部署、变更、旧数据资产的废弃等变化,已建立的底账又会变得不清晰、不全面;在大型信息系统中,一套业务数据库(集群或大数据平台)往往配置多个应用系统的访问权限,且常常作为接收端或发送端与其他数据库建立同步关系,数据流向极为复杂,易引入未经合法授权访问数据库的风险.因此,需要对数据资产底账建立分类分级动态梳理与维护机制.

1.3 数据全生存周期安全防护能力差距较大

根据GB/T 37988—2019《信息安全技术 数据安全能力成熟度模型》的要求,目前电子政务数据安全成熟度较具备体系化防护能力的3级标准往往存在较大差距,主要体现在尚未实现基于分级的全生存周期数据安全管控.具体包括:科技部门及业务部门人员主要通过个人经验对敏感数据进行识别;部委交换数据、国际交换数据的采集过程中,缺少数据防泄露监控措施,缺少数据销毁处理要求和对应的跟踪手段;缺乏敏感数据存储和传输加密手段;未制订数据脱敏规范,脱敏的相关场景、规则、方法不明确等.

1.4 多个风险暴露面缺乏集中、高效的风险监控手段

电子政务网络环境中面临的数据安全风险主要来自用户侧、应用侧、运维侧、客户端侧、对外交换侧5重可能的数据泄露风险暴露面,哪层监控不到位,都将给数据安全事件监测和溯源带来困难.目前,按照《网络安全法》对网络运营者有关日志监控的要求,部分电子政务运营者针对重要数据库、重要应用系统和重要网络安全域边界部署数据安全监控手段,覆盖多类对象平台.

然而,对于敏感操作行为、异常操作行为监控规则尚缺乏明确定义,目前仅能凭数据资产运维部门的理解,基于访问频度、查询条数、访问时间等设置阈值的方式配置单一化的监控规则,报警量大、误报率高,在海量告警日志中定位异常行为仍存在较大困难.面对数十台监控设备每天产生的数十亿条监控日志,在监测工具分散且监控规则单一的条件下,数据安全风险监控与审计工作面临极大挑战.

2 国内外数据安全管理能力建设模型研究

2.1 CARTA模型研究

Gartner建议数据安全防护使用持续自适应风险与信任评估(continuous adaptive risk and trust assessment, CARTA)模型,如图1所示:

图1 CARTA持续自适应风险与信任评估模型

传统安全模型假设访问数据的系统和设备的信任风险是静态的,所以安全建设主要是建设防护能力.但基于目前威胁的复杂性,CARTA模型假设访问数据的系统和设备都是可能被攻陷的,所有访问数据的主体风险与信任都是动态的,需要持续不断评估.基于这个假设,CARTA模型就需要考虑发现能力、防护能力、检测能力和响应能力4个方面的能力建设.但是,该模型只是框架性地设计了4种能力及其动态循环作用关系,尚未明确每种能力的构建方式,不足以系统化指引数据安全风险动态监测与处置的实践.

2.2 数据安全能力成熟度模型研究

数据安全能力成熟度模型(data security capability maturity model, DSMM)标准作为组织数据资产管理在数据安全能力成熟度方面的反映,重点考虑数据生存周期安全下的数据安全能力成熟度建设.模型借鉴CMM的通用实践衡量成熟度等级思想,通过覆盖数据生存周期各阶段过程,旨在明确各阶段数据安全能力及成熟度,帮助组织持续提升数据安全能力,获得组织整体数据安全能力[5-7],DSMM如图2所示:

图2 数据安全能力成熟度模型

该模型虽然体系化阐述定义了数据安全成熟度的3个维度,但是它仅是一个静态化的标准策略集,未能给出组织如何利用模型基于数据安全现状开展差距评估的过程方法,以及组织如何基于差距评估结果制定适用于本组织实际情况的数据安全策略基线,因而在组织数据安全落地工作中缺乏过程方法论的指导.

2.3 国内外数据安全技术研究现状分析

根据Gartner发布的2020年数据安全技术成熟度曲线,国内外数据安全相关技术研究中,数据安全治理技术尚处于新技术触发期,缺乏对数据全生存周期的安全治理体系建设实践.虽然数据库安全审计、数据防泄露(data leakage prevention, DLP)、云访问安全代理(cloud access security broker, CASB)等技术日趋成熟,在数据库、应用系统、云平台出入口等单个暴露面起到了一定的操作行为记录和监控审计作用,但尚未实现各个数据风险暴露面的集中关联监控和追踪溯源技术,尚未形成对数据安全的整体态势感知.

3 数据安全态势感知平台设计

面对电子政务系统数据安全保护工作面临的诸多风险和挑战,基于国内外数据安全技术研究分析现状,笔者参与建设某电子政务系统核心节点数据安全治理体系的工作,探索为数据安全管理相关方设计一套数据安全态势感知平台.该平台能够动态识别数据资产的分类分级及分布、数量,动态维护数据安全保护策略,动态监控数据安全风险并及时预警处置,初步达到数据资产看得见、说得清、管得住、强审计、能追溯的业务目标[8-13].

3.1 数据安全态势感知平台设计框架

数据安全态势感知平台整体设计分为数据采集层、数据治理层、分析建模层、应用展示层4层框架结构.其中:

数据采集层.采集汇聚客户端、网络、数据库、应用、云平台等各风险暴露面的监控设备日志信息,以及数据扫描设备获取发现的数据分布、数据结构、访问账号及权限信息等.

数据治理层.将采集的各类数据安全日志信息进行清洗、泛化并集中存储,此外,还应具有日志质量监控功能以保证日志采集的全面、准确、及时性.

分析建模层.根据业务安全需求,建立场景化告警规则和基于机器学习的行为分析模型等,根据告警实时性和智能化需求程度不同,模型可分为实时分析、离线分析和智能分析3种.

应用展示层.统一在应用层实现数据安全资产管理、策略管理、监测审计、响应溯源等功能.

系统架构设计如图3所示:

图3 数据安全态势感知平台架构设计

3.2 数据安全态势感知平台设计优势及效果

笔者参与建设的数据安全态势感知平台具有如下设计优势和效果:

1) 采用大数据、机器学习技术进行数据安全海量日志的采集、治理、集中存储和分析,共计采集数据库审计、应用安全网关、网络数据防泄露等5大类、60余台(套)相关安全设备日志,日均日志处理量逾7亿条,建立用户行为分析模型规则30余条.最终实现日志标准归一化,存储在线化、持久化,分析高效化、智能化,大大改善日志分散、存储时间短、分析规则单一、误报率高等问题.提升了笔者所在单位数据安全审计工作自动化和常态化水平,减少分析人员工作量2/3,问题准确度逾90%,问题发现周期缩短50%.

2) 实现了基于数据特征动态发现数据存储分布、流向和使用热度,使数据所有者和管理者能够全面动态掌控重要数据分布位置和使用效益,并且实现了数据资产底账管理和访问源白名单管理.例如,针对存储报关单、舱单等行业内全量数据的大数据平台,梳理出70余条授权访问源IP、用户名和工具信息,并基于此访问基线部署防火墙设备进行最小化授权访问控制.

3) 采用信息化手段支撑本单位数据安全现状差距评估,识别差距项14项,以安全能力成熟度3级为目标建立覆盖全生存周期的数据安全分级防控策略,并维护与10余种数据安全技术防护监控工具的策略支撑关系,实现了策略的统一设计管理以及基于风险监控的动态调整优化.

4 数据安全态势感知平台的建设实践

笔者在从事电子政务系统数据安全态势感知平台建设实践过程中,探索总结出以下4方面创新性工作经验.

4.1 实现基于角色分工的数据安全管理能力

经过对组织内外部调研分析,总结设计出一套适用于电子政务运营者数据安全相关方角色分工架构,以及数据安全态势感知平台,能够为数据安全相关方提供的配套支撑功能(详见表1),为数据安全治理提供组织机制和配套信息化支撑手段的整体保障.

表1 数据安全角色分工及配套支撑功能

4.2 实现数据资产底账分类分级动态管理能力

数据安全态势感知平台应为数据管理者解决如何将数据所有者给出的数据安全级别或重要数据目录,转换为网络系统中可识别、可追溯的敏感数据或重要数据对象,进而掌握这些数据在网络中的存储位置,以及被访问、获取、共享和分发的动态流转情况,从而实现数据的分类分级动态底账管理[14-16].通过实践,笔者梳理出一套数据资产底账分级分类动态管理的流程方法,并明确各环节的设计实现要点:

1) 敏感数据特征定义.

确定数据标识需要分析每一种敏感数据或重要数据在网络中的电子化特征.就像医学专家定义每种病菌的特征一样,只有特征定义得清晰、可识别、没有二异性,才可以通过特征来唯一定义每一种数据.分类特征是多维度的,例如文件类型、文件大小、文件指纹、关键字、正则表达式和编码规则等等,在网络中对数据资产进行梳理时应根据特征对数据进行匹配,从而去发现不同特征的敏感数据或重要数据分布位置,以及数据被访问、共享和分发的动态流转情况.因此,敏感数据特征定义成为数据分类分级动态管理的第一关键技术.

2) 敏感数据扫描发现.

利用数据梳理工具,采用主动扫描手段对指定网段内数据库、文件服务器等存储的数据发起扫描,通过特征匹配,识别数据库和文件服务器中所包含的敏感文件、重要数据的分布目录,通过分布目录形成重要数据分布字典.通过探索实践,敏感数据识别针对结构化和非结构化数据类型,具有不同的解决方案,具体如下:

① 结构化数据.因其结构化的呈现形式及动态的变化,这种标识往往很难通过在数据库、表上打个标签来实现,笔者在探索过程中通过明确敏感库、表、字段的分布位置和名称,进行集中URL目录化管理,形成重要数据分布底账,并通过定期扫描发现,更新重要数据分布的URL目录.

② 非结构化数据.性能开销较小的解决方案,依然是通过主机检查类工具进行文件扫描发现,识别重要数据的分布目录,而非直接在数据上打标签,因为标签计算需要密码学的加解密和加验签等手段,主机性能消耗大,且具有较大的时延,落地体验较差.

3) 涉数账号底账管理.

账号是访问数据的钥匙,是数据的重要关键资产,因此必须将账号底账管理纳入数据资产底账管理同等重要的范畴.经实践,采用账号发现及分析类工具可实现相关账号底账动态管理的功能,能够周期性扫描发现数据资产开设的访问账号情况,就指定时间段的2次账号底账进行对比分析,及时发现关停未经审批而开设的幽灵账号以及长期不适用的休眠账号、离岗离职人员的账号,从源头上化解诸多由于账号管理不完善造成的风险.

4) 敏感数据流转管控.

知道重要数据在哪后,还要掌握数据流转情况,因此,需要有针对性地部署监控工具和策略.监控工具同样需要利用数据管理者定义的数据特征识别这些重要数据被访问、共享、分发的情况,并进行持续动态监控.进而梳理出数据的访问源(即谁访问了哪个重要数据)、数据的流转去向、形成新的存储节点及其下游数据节点.为确保重要数据资产访问均为授权行为,应为每个重要数据资产维护授权访问的白名单信息,对于新增的访问源需进行准入确认,对于长期不活跃的访问源进行下线确认.

4.3 实现全生存周期的数据安全策略动态管理能力

数据安全管理者制订的全生存周期安全策略,需要结合各场景采用相关技术工具支撑其细化落地.策略制订前,需要明确识别差距和风险,采取应对策略,统筹设计;整体策略发布实施后,数据管理者、运维者、建设者结合具体工作场景,开展细化策略制订,并引入相关技术支撑工具[17-18].

为实现策略可配、可管,并能基于风险动态变更,在态势感知平台上应提供以下措施予以保障:

1) 在平台上动态管理数据安全策略,基于策略现状动态开展差距评估,并针对安全监控识别的风险进一步完善策略,实现数据安全策略优化完善的闭环管理;

2) 明确设置每条策略的管理对象、责任部门、实现手段、采取的技术策略及残余风险,以便策略分工落实和贯彻执行;

3) 尽可能对于各类数据安全工具进行策略集成管理,对于通用安全策略(数据分级分类策略)在平台侧进行集中统一的研制、更新,然后下发至底层探针;

4) 实现各工具设备协调统一,形成合力,从而识别未被保护的盲区和保护存在差距的位置,促进策略进一步健全.

4.4 实现全方位、智能化数据安全监控与审计溯源能力

面对数据访问、传输、存储涉及的多个暴露面风险,应在承载数据资产的网络环境中,部署多种监控手段(包括数据库审计设备、终端DLP、网络DLP、应用安全审计、全流量设备等),构建覆盖客户端、数据库、应用系统、服务器、网络等多风险暴露面、全方位的风险监控链.具体实践过程中主要采用以下技术:

1) 日志集中采集治理,构建全方位风险监控链.

针对监控日志分散、监控规则单一的问题,采取基于大数据和机器学习技术的统一日志采集、治理、智能化分析手段,将上述探针设备解析的监控日志进行集中采集、泛化、治理,形成安全日志统一标准化元数据,作为安全监控告警模型的输入.构建覆盖客户端、数据库、应用系统、服务器、网络等多风险暴露面以及全方位的风险监控链.

2) 安全监控模型建设,智能化风险预警.

在建立监控规则模型时,依据下列内容:一是行业内数据安全管理制度和策略.违背安全制度策略的行为视为违规.如制度要求账号专人专用,禁止多人共享,则应据此设置以下监控规则:1天内来源于2个以上跨省网段的IP地址使用同一个账号登录系统判定为账号多人共享.二是数据所有者和数据安全管理者等相关角色共同研究确定的电子政务系统用户对数据进行异常操作或敏感操作的特征.如对重要数据的查询/导出数量超过6万条,以及1天内高频查询重要数据,总量达6万条以上等.

然而,安全监控规则模型的建立有一个难点,即用户行为异常特征往往无法用简单的阈值去界定.这是因为出于不同的业务目的而开展的数据访问行为,形成的行为特征不同,界定异常的标准也不同,而且异常特征往往是多维度特征数据的组合.尝试引入用户实体行为分析(user entity behavior analysis, UEBA)技术,关联全时空上下文,通过深度及关联的安全分析模型及算法,利用AI分析模型(包括up/down异常、daily周期性异常、weekly周期性异常、新出现实体异常、阈值异常和潜伏型异常、集成学习评分以及强化学习、预测等算法),结合历史基线和群组对比,可以从时间、频次、地域、数量等多维度发现各系统存在的安全风险和异常的用户行为[19-20].经验证,UEBA 通过聚合异常,大量降低总体告警量和误报告警量,节省安全审计人员手动关联分析海量日志的时间,降低验证、调查、响应的时间,为组织提供内部安全威胁更精准、更及时的定位,以支持开展数据安全常规审计及事件溯源工作.

5 小 结

在从事电子政务数据安全治理工作中,笔者所在团队基于数据安全风险动态变化的理念,打造一套以数据发现、防护、监测与响应为核心思想,持续化运营的数据安全管理信息化平台.在平台建设探索实践中,笔者总结提出基于角色分工的数据安全管理能力、数据资产底账分级分类动态管理能力、全生存周期安全策略管理能力和全方位智能化数据安全监控与审计溯源能力4种能力建设落地经验,以提升组织数据安全管理及内部威胁应对水平,促使电子政务运营者逐步实现数据资产看得见、说得清、管得住、强审计、能追溯管理目标.后续,还需与业界同仁一道进一步深入开展数据安全治理及配套态势感知平台建设实践,为数据资源充分开发利用,数字经济高速发展,做好安全基石保障工作.

猜你喜欢
敏感数据日志数据安全
干扰条件下可检索数字版权管理环境敏感数据的加密方法
一名老党员的工作日志
扶贫日志
实现虚拟机敏感数据识别
基于透明加密的水下通信网络敏感数据防泄露方法
云计算中基于用户隐私的数据安全保护方法
基于4A平台的数据安全管控体系的设计与实现
雅皮的心情日志
建立激励相容机制保护数据安全
游学日志