面向网络安全的数据融合技术

2022-06-26 12:51崔东升

通信电源技术 2022年2期

崔东升，王斌

（内蒙古自治区邮电规划设计院有限公司，内蒙古呼和浩特 010070）

1 数据融合技术与相关要素

数据融合技术利用传感器资源对相关数据和观测信息进行分析、支配以及使用，对数据进行时间和空间上的整合，进而获得一致性解释。数据融合技术被提出后，在全世界范围内引起了广泛关注，相关学者将其用于重大科研项目的部署和实施，取得了多项突破[1]。虽然数据融合技术没有自己单独的理论体系，但是在不同领域相关应用背景下的融合方法是成熟有效的。人工智能和随机类算法是数据融合中经常应用的方法，同时神经网络等新概念或新技术对于数据融合将产生重要影响[2]。

目前，网络安全环境中存在很多风险，为了对企业和个人的关键信息进行有效保护，使其免受干扰和破坏，维持良好的网络空间秩序，需要积极构建相关联动协作机制，加强应对网络安全威胁的系统化防御。随着时代信息化的发展，物联网、移动互联网等已经和网络空间紧密结合，各种网络安全要素信息需要被人们掌握，从而更好地维护网络空间安全。各种数据之间具有关联、隐含以及互补关系，通过对数据进行充分合理的融合，从而实现大数据支持下的相关安全监测、研判分析以及合理应对[3]。

数据融合主要包括融合对象、目标以及方法等要素。用于数据融合的很多网络安全数据主要来源于计算设备、安全设备、外部数据源以及安全系统等，这些网络安全数据是多源异构的，具有很好的延伸性和拓展性。数据融合技术可以对网络安全中涉及到的多种信息数据进行一定的筛选和整合，建立网络安全相关知识、发展状态以及事件的完整框架，从而完成相应的保护目标，对问题进行有效解决。

2 数据融合应用

数据融合应用主要分为基于统计学的数据融合、基于数据挖掘的数据融合以及基于神经网络的数据融合，不同方法的融合效果也有所不同[4]。图1为工业数据湖数据融合的基本概念和原理流程。

图1 工业数据湖流程图

2.1 基于统计学的数据融合

统计学作为一种数学分支，主要涉及行为场景的假设和规律的总结。本次研究主要对假设检验和滤波清洗两种数据融合方法进行介绍，探究其在网络安全领域发挥的积极作用。具体统计学数据融合如图2所示。

图2 统计学数据融合

假设检验技术是将最优化的假设检验作为判断标准，在统计学原理的范围内对数据进行检验和处理，最终得出数据结论。作为一种由相关假设条件选择样本推断出总体的统计学方法，假设检验在最开始就对要探究事物的分布形式和总体进行相关假设，根据反证法和小概率原理在样本信息的基础上确定原假设成立与否[5]。假设检验可以采取卡方检验、方差检验以及t检验等多种方法，利用清除置信区间以外数据点的方式，排除掉异常数值，从而获得想要的数据。

滤波清洗技术可以对数据进行跟踪处理，对多传感器的相关数据进行计算，进而实现数据融合应用。滤波算法主要有粒子滤波和中值滤波等，在自主控制等领域均有应用[6]。例如，对于突然出现的相关告警信息，运用相关算法进行干预，对于一些攻击和误报可以进行有效清除。误报的来源多种多样，可能是因为数据背景缺乏，也可能是检测规则设置不合理，还可能是检测算法的适应性不足。数据融合技术可以对有关数据进行清洗，清除干扰到研究的数据，提高数据判断的准确性。

2.2 基于数据挖掘的数据融合

数据挖掘主要通过机器设备从大量数据中挖掘所需要的数据或者知识，比较常见的数据挖掘方法包括关联、分类以及聚类等[7]。聚类分析是对多个目标的数据进行分析和融合，其基础是模糊聚类分析和统计聚类分析，采集来源于多个传感器的样本数据，最终实现不同目标数据的隔离和同一目标数据的聚类[8]。聚类会将一个数据进行分割形成类或者簇，扩大簇内的数据相似度，同时也会加大不同簇内数据的差异性，这些行为都是遵从一定标准的，简单来讲就是汇集同类数据并分离不同类数据。层次聚类和迭代聚类是当前聚类分析中比较常见的方法，其中数值对层次聚类的影响较大。层次聚类计算速度慢且较为复杂，对大样本并不适用。而迭代聚类对分类指标有一定要求，即要求定距变量，优点是计算速度较快。

2.3 基于神经网络的数据融合

神经网络就像生物体内的神经系统，可以很好地对生物和环境的互动融合进行模拟，模仿生物的分析和判断能力，对外界进行感知和了解，进而对相关数据进行综合化处理。利用多源数据对外界事物进行具体描绘，生成综合画像。卷积神经网络通常包括出入向量、隐藏层、输出层、输出值等不同的阶段，如图3所示。卷积层由数量众多的卷积单元构成，在卷积定义中是一种形式上的特殊存在，在卷积神经网络中主要是对输入数据的区别和差异进行提取。除此之外，卷积神经网络还可以进行文本处理、语音处理等，在很多领域都有相关应用[9]。

图3 神经网络图层

循环神经网络的数据传递方式是多方向的，其接收到的数据信息还包含本身就有的状态信息，可以长久被存放在网络中并进行循环传递。作为循环神经网络中拥有复杂神经元的长短时记忆网络，当需要进行时间序列的有关处理且间隔和延迟需要占用较长时间时，其效果明显比循环神经网络好。和循环神经网络相比，长短时记忆网络中的神经元要复杂得多，其神经元接收的内容既有上一时刻输出、当前时刻样本输入，还有一个元胞状态[10]。

3 应用前景

网络安全数据具有多样性和复杂性，如果对其进行整理和划分，需要搭建异构多源数据和数据清洗融合的一系列原型系统。在系统中，对网络数据安全中涉及到的各种数据采用插件进行融合分析，重点分析数据中掺杂的不安全因素，应用相关统计学知识对这些数据进行清洗，判定出不安全数据，从而找出威胁，保护网络安全。数据融合技术在目前的日志管理与流量检测设备中有所应用，通过融合维度策略等可以对相关日志进行一定程度的压缩，将数以万计的数据融合成可供人们进行人工判断的精简日志，这在一定程度上有效减少了网络安全威胁对数据进行攻击所产生的运维工作量。除此之外，当前人工智能技术快速发展，通过对人工智能技术进行充分有效地利用，可以对攻击线索进行一定分析，还可以强化网络威胁的具象化表达。

4 结论

通过阐述网络安全数据的相关融合要素，重点研究了在网络安全中数据融合涉及到的相关算法的适用性。随着技术进步，对于网络安全数据的一些融合化处理需求也变得更为迫切，数据融合技术将会对网络安全产生重要的影响。在网络安全防护中，还可以利用数据融合技术对一些安全隐患进行排查并进行相应的风险评估，从而制定出行之有效的解决方法，减少不必要的损失。