基于多要素的数据安全风险识别及评估研究

2023-10-30 11:29龚诗然

信息通信技术 2023年4期

龚诗然魏凯

中国信息通信研究院北京 100191

引言

党的十九届四中全会首次将数据列为重要的生产要素，提出加快构建数据新型要素市场体系,数字化转型已成为社会经济高质量发展的必由之路。大数据、云计算以及物联网技术的成熟与完善使组织的数据更加集中，数据价值大幅提升的同时，数据遭受外部攻击威胁的概率也大幅上升，数据泄露、破坏、滥用等安全事件层出不穷。企业对数据的依赖程度加深也导致了数据安全事件一旦发生，损失难以估量。根据IBM《2023年数据泄露成本报告》，企业数据泄露事件平均成本为445万美元，数据安全风险的识别、评估及应对已成为国家安全战略、数字经济发展的重要议题之一。

《中华人民共和国数据安全法》(以下简称《数据安全法》)正式颁布、实施，提出数据处理者应加强数据安全风险监测，发现数据安全缺陷、漏洞等风险，重要数据处理者应定期开展数据安全风险评估。然而，数据安全风险不同于已经发生的数据安全事件，其本身具有未知性、不确定性，这导致数据安全风险识别、评估等研究具有较为重要的理论与现实意义。

本文将从数据安全风险相关的定义、识别要素与评估方法，总结已有的研究成果，并提出基于多要素的数据安全风险识别与评估的研究思路。

1 数据安全风险防范存在滞后性问题

随着数据安全上升为国家安全战略的重要组成部分，国家法律法规强调通过数据安全风险评估防范数据安全风险,但数据安全风险的概念与界定方式尚未明确，目前主要以数据安全事件的结果来识别、定义数据安全风险。这一点主要体现在对数据安全风险的类别划分上：《工业和信息化领域数据安全风险信息报送与共享工作指引(试行)》提出，数据安全风险包括但不限于数据泄露、数据篡改、数据滥用、违规传输、非法访问、流量异常等。魏长水等[1]也根据风险事件发生的诱因提出了数据违规传输风险、新技术应用安全风险等具体的风险。2023年，全国信安标委《网络数据安全风险评估实施指引》(以下简称《实施指引》)则在附录内列出了常见的数据安全风险类型(例如：数据泄露、数据篡改、数据破坏)。值得一提的是，《实施指引》也在网络数据安全风险的定义中特别指出，网络数据安全风险是由于开展网络数据处理活动不合理、缺少有效的数据安全措施等，导致数据安全事件的发生及其对国家安全、公共利益或者组织、个人合法权益造成的影响——这意味着任何一项不安全的行为、机制都有可能衍生出数据安全风险。这一点与《数据安全法》提出的“数据处理者需加强数据安全风险监测，发现数据安全缺陷、漏洞等风险”存在一定的共性：两者均明确了数据安全风险是受包括IT基础设施或安全管理的缺陷、漏洞在内的多种因素共同影响。

由此可以发现，采用数据安全事件的结果去描述数据安全风险，将对数据安全风险的识别、评估乃至处置带来一定的滞后性问题：任何不安全的行为、机制均可能成为数据安全风险的根源，从而推动风险演变、成为数据泄露、数据篡改等不同的数据安全事件，而且这些数据安全事件可能同时发生于同一数据或者在事件发生后产生新的关联。因此，以数据安全事件的结果去识别、定义数据安全风险，一定程度上会造成对数据安全风险的识别不全、评估有误、处置迟滞等方面的问题。而且这种基于事件结果“倒查”风险的方法难以推动企业建立全面、系统的数据安全风险“识别—评估—处置”工作思路，不利于企业持续构建数据安全风险治理体系。

2 数据安全风险的识别与评估密不可分

数据安全风险的未知、动态属性凸显了数据安全风险识别以及评估的重要性。《数据安全法》提出，数据处理者应通过开展数据安全风险评估对风险进行防范。《实施指引》则在“3.3评估流程”中重点提示了信息调研环节的重要性，指出评估实施者应基于调研阶段获取的信息，充分识别风险的基本信息，提炼要素间的关联关系，对风险进行定性、定量分析，从而对风险的影响程度、发生的可能性作出科学、有效的判断，推动后续的风险处置，实现风险管理闭环。

业内诸多学者的探索也充分佐证了这一点：魏光辉等[2]总结了政务数据处理活动的安全问题，提出了应全面识别政务数据安全风险信息，建立风险评估模型。曾令平等[3]列出了实施数据安全风险评估的典型业务场景、数据处理者以及数据，提出了数据安全风险评估实施前的风险识别要求。李安伦等[4]则提出了一种政务数据安全风险评估方法，强调将政务数据安全风险识别过程中识别到的信息输入到安全评估模型中，计算得出风险等级。

3 要素识别推动风险识别与评估有效落地

数据安全风险要素这一概念对数据安全风险识别至关重要，风险要素的识别是数据安全风险识别与评估过程的重要环节。这一点在国际、国内的多项标准中有所体现：美国国家标准技术研究院(NIST)在《隐私工程和风险管理》(NIST 8062)曾提出“问题操作”这一概念，并指出被识别的问题操作可用于评估风险发生的可能性、风险产生的影响。国内的《信息安全风险评估方法》则提出信息安全风险评估需要识别包括资产、威胁、脆弱性、安全措施在内的“基本要素”，通过建立、分析基本要素之间的关系(即资产存在脆弱性，威胁通过利用脆弱性导致风险，而安全措施的实施是通过避免脆弱性被利用难易程度，以防范威胁、保护资产)进行风险分析。

相较于信息安全风险，数据安全风险由于伴随数据及数据处理活动，广泛分布于组织的诸多业务场景、数据处理系统、平台及组件，其要素呈现出更为复杂、多样的状态。黄子洵等[5]通过分析数字化转型背景下的企业数据安全内涵，提出了一种面向企业的数据安全风险影响因素的识别方法，并列举了环境、技术和组织三个维度下的典型因素，论证了风险影响因素的识别对企业数据安全治理的价值，但未对各影响因素间存在何种作用关系、与风险评估如何衔接等问题进行阐述。2023年《实施指引》和国家标准征求意见稿《数据安全风险评估方法(征求意见稿)》则基于前述的基本要素，创造性地提出了“风险源”这一概念(即：风险源是可能导致危害数据的保密性、完整性、可用性和数据处理合理性等事件的威胁、脆弱性、问题、隐患等，也称“风险隐患”)，并同样指出了数据安全风险评估需要通过信息调研，识别数据处理者、业务和信息系统、数据资产、数据处理活动、安全措施等相关基本要素，从数据安全管理、数据处理活动、数据安全技术、个人信息保护等方面识别风险隐患，最终梳理风险源清单，分析、评价数据安全风险并给出整改建议。

综上，在实施数据安全风险评估之前，充分提炼、识别风险要素是有必要的，而且风险要素的识别应结合业内已有的评估方法论，与之形成有效的衔接，从而推动数据安全风险评估的落地实施。

本文结合现有评估方法论中的评估流程、内容与重点，从数据安全风险的作用对象、诱发源头、资产暴露面的角度入手，提炼了通用的数据安全风险要素，建立了风险要素间的关联关系，如表1所示。同时，本文梳理了风险要素间的关联关系，如图1所示。

表1 数据安全风险要素

图1 数据安全风险要素关系图

4 基于多要素的数据安全风险识别方法

风险由其发生的可能性与发生后的影响程度共同构成。根据上述风险要素及其作用关系，当数据资产、威胁、脆弱性、已有安全措施任一因素发生变化，数据安全风险的影响程度与发生的可能性将受到影响，触发新的风险。

本文提出一种基于多要素的数据安全风险识别方法。该识别方法通过分析数据安全风险发生的可能性与发生后的影响程度的底层构成，结合典型风险要素及其关联关系，提供了一种在识别阶段发现各风险要素，推动在评估阶段有效分析数据安全风险的可能性及其影响程度的思路。

4.1 数据安全风险的影响程度

数据的价值是衡量数据安全风险影响程度的重要因素。在“数据要素化，要素市场化”的整体背景下，其主要通过被消费使用产生价值。由此，刘航等[6]认为数据本身的真实性、一致性、完整性，以及数据处理活动面临的法律限制将直接影响数据在应用、流通过程中的价值。进一步地，数据安全的目标是通过采取必要措施，确保数据处于有效保护和合法利用的状态，以及具备保障持续安全状态的能力，因此数据面临安全风险时，其安全状态以及需求的变化也同样是衡量数据安全风险影响程度的重要因素。结合YD/T 3736-2020《电信运营商大数据安全风险及需求》，数据的安全需求具体包括保密性需求、完整性需求、可用性需求、可控性需求、合规性需求。因此，在对数据安全风险的影响程度进行识别、评估的过程中，一方面需要判断数据本身的价值，另一方面需要分析数据的安全需求保障情况，这一点具体可以通过收集数据在收集、存储、传输、加工等处理活动中面临的脆弱性以及已有的安全保障措施情况信息进行分析，如表2所示。

表2 数据安全需求保障分析

4.2 数据安全风险发生的可能性

威胁能够对数据构成潜在破坏，是一种客观存在的风险要素，通过对威胁的动机、能力以及发生的频率等属性进行赋值分析，结合脆弱性与已有安全措施的情况，能够实现对风险发生的可能性分析。《实施指引》提出“风险隐患”危害数据的安全需求，因此，在对数据安全风险发生的可能性进行识别、评估的过程中，需要基于脆弱性的可利用程度、已有安全措施情况，分析威胁发生的可能性。

贯穿数据全生命周期的脆弱性与威胁共同构成风险发生的可能性。施岭等[7]认为，数据应用场景与数据生命周期环节紧密相关，同一数据对应多个数据应用场景，任一应用场景均存在不同形态的数据安全风险。宋捷等[8]提出，与传统的安全威胁相比，数据安全不再局限于利用安全漏洞、恶意流量、病毒木马等网络攻击，贯穿数据全生命周期的脆弱性具有更为明显的多样动态性等特点，例如数据过度采集、用户隐私数据被滥用、数据开放共享导致的安全不可控等，主要由于数据的不同生命周期环节存在其固有的脆弱性，因此需要基于具体的生命周期环节全面分析数据全生命周期的固有安全缺陷，比如在数据采集环节关注是否有效控制数据采集范围，以及采集内容的质量、合法性等方面问题。

此外，在分析数据安全风险发生的可能性时，还需要关注人员在开展数据处理活动是否可能因操作不当造成的违法或违规事件——这也意味着在对数据处理活动这一风险要素进行识别与分析时，需要预先考虑其面向的数据应用场景、人员，进一步构建“数据—设备—用户”的互动关系，实现账号、IP、权限、数据、行为可见，对敏感数据及其流向、高危操作可知，对各类安全策略可管，如图2所示。

图2 基于多要素的数据安全风险识别方法框架图

4.3 基于多要素的风险识别方法的应用价值

组织数字化转型迅速，数据形式多样、种类繁杂，业务场景多，流转环节复杂，数据分布位置广泛、所涉人员众多。本文介绍的基于多要素的数据安全风险识别方法，能够为数据安全风险的评估乃至风险防治提供实施思路与要点，如表3所示：一方面，该方法有助于进一步明确风险评估的范围，推动复杂业务场景及其生命周期环节的解析；另一方面，该方法明确了需要识别、评估的维度与具体要素内容，能够有效厘清风险评估与分析的目标，从数据资产识别、法律法规遵从、数据处理活动、数据流转、数据载体或支撑环境等方向开展评估工作，创建可视的业务流、数据流，推动构建清晰的评估与分析逻辑，并通过建立风险要素分析矩阵，识别数据安全风险，判断风险等级是否可接受。

表3 基于多要素的数据安全风险识别方法

以信贷业务的授信申请流程为例。如图3所示，该业务为银行等提供贷款服务的机构最典型的业务场景之一，业务人员的操作流程涉及到查看额度、身份认证、证件上传、实名认证、活体识别、信息采集、电子签章、提交申请等具体动作，流程覆盖了数据的采集、传输与存储等环节。其中，由于业务必需，高价值的个人金融信息一经采集，需要被存储于银行的数据库中，面临被内部人员或非授权人员导出、非法窃取等安全隐患。

图3 信贷业务的授信申请流程图

为有效评估该场景下个人金融信息数据面临的数据安全风险，按照本文介绍的基于多要素的数据安全风险识别方法，对数据安全风险要素进行识别。

数据价值高低、数据安全需求受影响的程度、已有安全措施的状态共同决定了数据安全风险的影响程度。数据的真实性、一致性、完整性，一方面决定了数据本身的价值，另一方面影响了具体业务场景下的数据安全风险表现形式。在信贷业务场景下，一旦数据的真实性、完整性、一致性受损，这意味着存在授信流程中的身份认证环节存在安全缺陷、采集的身份信息数据为机器人注册等问题，可能导致机构面临数据造假、数据不可用、未经授权的用户修改数据等安全风险。数据安全需求与数据的价值形成正比，数据的价值越高，其安全需求就越高。以授信场景进行活体识别的个人生物识别信息为例，其本身是敏感的个人信息，一旦被泄露或滥用，易导致自然人的人格尊严受到侵害或者人身、财产安全受到危害。因此，这类数据及其载体、处理活动均具有极高的保密性、完整性、可用性、可控性、合规性需求，这也要求组织对于基于业务必需产生的数据采集、传输以及存储等环节，不仅需要关注业务、业务系统及其他载体的稳定性，还需要关注各环节已有的技术与管理措施是否安全、合规。一旦已有安全措施的状态不足以满足其安全需求，例如在授信场景下，处理敏感个人信息的业务人员未接受保密意识教育或者未签订保密协议，可能导致其误操作删除、违规外发敏感个人信息，导致关键业务不可用、侵害用户权益、组织面临监管合规处罚等安全风险。数据安全风险的实际影响程度主要受以上三种要素共同影响，数据价值越高，其安全需求越高，已有的安全措施与其安全需求的要求偏离越大，数据安全风险一旦发生则将对组织产生极大的影响。

威胁的等级高低、数据全生命周期的脆弱性分布情况共同决定了数据安全风险发生的可能性。威胁的来源、频率与能力直接构成威胁的等级。贷款授信业务中涉及大量用户的个人身份信息、账户信息等敏感数据，数据价值较高，面临被内部或外部不法分子窃取、倒卖牟利的威胁动机，而无论是能够利用漏洞、缺陷进行频繁攻击的犯罪分子，还是已被授权可随时访问、获取数据的业务人员，均具备构成高级威胁的能力，可能导致数据泄露频繁发生、业务服务屡屡被中断等数据安全风险。数据在全生命周期环节中均面临固有的脆弱性问题，例如数据在传输阶段可能面临由于敏感数据传输未加密被拦截窃取、密钥丢失等脆弱性问题，而数据在存储阶段则可能面临由于敏感数据明文存储、存储介质不可靠、数据备份不可用等脆弱性问题引发潜在的安全风险。这也要求组织的已有安全措施除了满足安全需求以外，还需要有针对性地排查、预防各业务场景所涉及的生命周期环节内的脆弱性问题，防止高级威胁频繁利用已知、已有的缺陷，构成风险事件。此外，数据全生命周期各环节涉及的设备、人员众多，同样加剧了数据安全风险发生的可能性。以授信业务场景下的数据存储环节为例，身份认证、证件上传、实名认证、活体识别等多个动作内环节均涉及数据存储，实际业务开展中可能由不同系统对数据进行处理，数据存储于不同位置，任一位置、环节的安全措施未满足安全需求(例如：敏感数据明文存储、数据库缺少审计及异常操作告警机制等)，导致缺陷被威胁频繁成功利用(例如：运维人员违规访问、外发明文的敏感数据等)，构成极高的数据安全风险发生的可能性。

综上，本文介绍的基于数据安全风险要素的识别方法，不仅能够识别与分析威胁、脆弱性与已有安全措施对数据的机密性、完整性、可用性的直接影响，进而分析风险发生的可能性以及影响，还能够分析数据及其各生命周期阶段面临的威胁、脆弱性与已有安全措施对其涉及的业务、数据处理活动的影响，防止因未有效关联分析各个风险要素导致的数据安全风险识别与实际情况存在滞后或偏差的情况，推动后续的风险处置，实现风险管理闭环。

此外，根据该识别方法，同样可以窥见未来数据安全风险防治相关的技术工具的发展方向：基于数据资产、威胁、脆弱性、已有安全措施因素的动态变化前提，数据安全风险检测工具应关联用户、设备、应用等多维信息，识别、分析数据安全风险要素状态，在数据采集层充分获取数据信息，在处理层、引擎分析层应提取账号、用户、设备、应用、数据、IP等影响数据安全风险关键要素的元素，对采集的日志进行数据标准化处理或对采集的流量进行解析和信息提取，并进一步发现、识别敏感数据，分析脆弱性、威胁，持续对检测结果进行验证和回馈，最终在运营层通过对所有用户和实体的行为基于时间序列的跟踪、画像，形成可视化态势安全运营，将用户与实体的数据活动可视化。

5 结语

数据安全风险的全面治理离不开科学、有效的数据安全风险评估，数据安全风险的识别与评估是开展数据安全风险管控的第一步，评估的结果是风险处置与监控的重要输入。数据安全风险的识别与管控还需要持续面向组织的业务开展，着眼于数据的全生命周期，有针对性地盘点、分析不同环节的风险要素，从技术、管理角度提供关键控制点，实现对整体风险敞口的最大控制。

本文总结了数据安全风险相关的研究工作，基于风险的基本特性分析了数据安全风险的关键要素，介绍了一种基于多要素的数据安全风险识别方法。数据安全风险识别与评估方法需要持续面向不同的行业典型的数据应用场景，提升数据安全风险识别与评估方法的适用性，提供更多维度的风险评估思路以及更多要素的风险识别方法。