基于多因素特征分析的网络安全数据处理模型

2022-01-15 02:51赵思佳
中国新技术新产品 2021年21期
关键词:特征分析字典数据处理

赵思佳 尹 婷

(湖南环境生物职业技术学院,湖南 衡阳 421005)

0 引言

网络将原本分离的世界连接为一体,信息的传输与共享得到史无前例的发展,知识的获取更为便捷,人类社会的进步借助于网络实现了第三次革命。网络改变了人类文明的发展模式和进程[1]。但是,任何事物都是具有两面性的。网络在为科技进步、社会发展提供高速运转平台的同时,也有可能成为部分别有用心者窃取信息、破坏秩序等犯罪活动的工具,因此网络的安全必须与网络的建设同步开展,保证网络安全的技术水平、防护能力始终处于领先地位。基于多因素特征分析,即是在综合考虑各方面因素的情况下,针对各个因素的典型代表特征进行甄别,准确识别网络传输数据中的安全隐患,保护网络的安全[2]。基于多因素特征分析的网络安全防护方法可以在相对低虚警的限定条件下,准确识别窃取、攻击行为,不会因为过于严格的核查规则影响网络的正常使用,也不会因为宽泛的数据审计而漏过网络破坏行为[3]。鉴于多因素特征分析优秀的网络防护能力,需要在该基础上深入开发,在更广阔的范围内使用该技术,保护网络安全。因此建立基于多因素特征分析的网络安全数据处理模型,以模块化的流程建立标准的网络安全数据处理算法,实现对网络安全的深度防护。

1 构建多因素特征分析的网络安全数据处理模型

1.1 模型整体架构设计

基于多因素特征分析的网络安全数据处理模型能够在实际应用时实现自动化处理,以提高流式数据的处理能力和计算效率[4]。该模型通过重新设计数据输入、输出以及数据计算节点,以在线分布式实时监控的工作模式对数据进行监控,增加对远程字典数据库的访问节点,在该节点中完成对数据的内容审查,以完成对实时流式数据的处理工作。整个模型的架构不给主干线路增加数据负担,以旁路工作的模式实现数据的输入和输出。如图1所示。

图1 实时流数据处理流程图

从模型的模式图可以看出,远程字典数据库作为数据交换的中心,负责特征信息的存储和维护,整个数据流的处理逻辑在计算节点集群中实现。网络传输的数据先通过远程字典通道(RIDIS)进入远程字典服务器,然后编排工具使用计算节点订阅对应通道的数据,并将数据发送到计算节点集群进行数据计算,对比网传数据和典型特征数据的相似度,作为判据之一。计算节点集群生成中间结果集,通过远程字典节点发送到远程字典服务器进行统计[5]。远程字典服务器完成计算后,远程字典输出节点将取出的中间结果集进行二次处理,做进一步的数据封装,按照标准格式封装成前端可视化模块所需的数据格式,实现归一化处理。最后,通过远程字典输出节点将处理后的最终计算结果发布到指定的远程字典通道备查,前端可视化模块即可从指定通道订阅数据在控制端可视化显示。

在原有的物联网编配工具中没有节点可以与远程字典交互,所以添加了远程字典节点。为了使用户能够自定义数据处理逻辑,引入了功能节点,节点间功能独立但是互相连通,计算结果互相可引用,多个功能节点构成整个流程计算节点组。通过这些节点的分布式处理,可以在操作工具中快速方便地编写流数据处理业务代码。为了提高开发标准,减少重复劳动量,也方便移植以及投入使用后的维护,节点中的业务代码采用模块化设计,一次编写,多点共用。

1.2 多因素特征的数据处理节点设计

模型中的功能节点是操作工具的重要元素。该工具中有3个基本节点:数据输入节点(信息录入功能)、输出节点(信息发布功能)和数据处理(算法校验功能)节点[6]。操作工具识别和处理节点的方法是以字符串匹配,为了保证节点识别的准确性,需要做到节点定义中带有名称的字符串必须与节点文件名保持一致,否则操作工具将无法解析。操作工具的节点本身主要包括js文件和HTML文件两种。其中js文件用于定义功能节点的主要功能,即具体任务执行流程;HTML文件用于定义节点的属性、节点编辑框格式以及交互帮助等辅助功能。HTML文件包括三部分内容:(1)节点的定义,规定节点的属性、用途、数据处理的流程以及在浏览器中的显示风格,为一个可执行的JavaScript代码;(2)节点的编辑模板,即标准化的节点数据形式,用于生成用户编辑节点;(3)节点的帮助信息,注释部分,提供使用该节点的说明[7]。

在操作工具中安装部署新节点后,可在操作工具前端编辑界面中使用该节点进行数据处理。操作工具的强大扩展性在于,用户可以在操作工具中设计节点的功能,完成特定的任务。

多因素特征数据处理节点的最核心设计原则是全面覆盖性,即需要创建节点来对输入的各种类型的数据进行必要的处理,即使有些类型不是节点所需要的,这是保证节点设计正确性和有效性的基础保障[8]。在这一原则指导下,节点具备了向原始数据添加额外信息的能力,同时也方便了节点的升级扩展。

还需要设置自检测节点,对模型的准确度进行自我检验。设置综合评价指标L。其表达式如下。

式中:TP是被划分到正例的样本数量,FP是本身属性为负例,但是被误判而划分到正例中的样本数量。FN是本身属性为正例,但被误判划分到负例中的样本数量。通过加权计算,得出判定正确的样本数量在加权后的总样本数量中的比值,比值越接近于1,表明模型的准确度越高。

1.3 主成分聚类分析

建立了功能节点后,需要对节点的构成进行分析。采用主成分分析法,这是一种将数据进行降维的计算方法,使用线性代数的相关定义将数据的高维属性降为很多个主成分。这种方法很适用于高维数据,可以分析信息量庞杂的数据[9]。一组庞杂的数据包括了非常多的属性特征,研究这样的数据就可以使用主成分分析法对数据进行属性简化,几个主成分实际上是属性特征的简单性表示,也方便之后的图像提取工作。

当处理对象为高维数据时,由于数据自身属性较多,数据一般会存在冗余。主成分分析可以在保持数据有效性的同时,将高维数据转换为低维数据。主成分分析的缺点如下。主成分分析采用数据压缩的方法,它可以从一定的角度反映一定的数据信息。但在降维过程中,重要信息可能是线性表示的,计算方式也较之高维数据有所不同,这种方式可能没有那么优越。聚类分析是数据挖掘中的经典算法之一。

该文基于多因素特征分析建立的模型主要应用的就是聚类分析方法。就是先对数据进行主成分分析,再进行聚类分析。这种方式是将两种算法结合起来,也能结合了两种算法的优势。将两种思路融合起来,先对数据进行降维的主成分算法,然后对几个主成分分别进行聚类分析。主成分聚类模型如图2所示。

图2 主成分聚类模型

基于数据处理模型,流程主要包括如下环节:1)对原始数据进行主成分分析。为简化数据处理复杂度,对数据标准化处理;求得与属性信息数据有关的相关系数数据集合;得到特征值、总方差以及累积的贡献率;往复循环,计算得到每个主成分的数据。2)将得到的所有主成分数据进行聚类分析。随机选择K个对象的属性为初始的聚类中心;根据每个聚类对象的均值,计算每个对象与这些中心对象的距离;并根据最小距离重新对相应对象进行划分;重新计算每个聚类的中心,循环直到每个聚类对象不再发生变化为止。主成分聚类分析模型综合利用了主成分分析和聚类分析的优点,既将数据进行降维,得到主成分,利用聚类分析的特点,将数据进行聚类。

综上所述,基于多因素特征分析的网络安全数据处理模型构建完成。

2 对比实验

2.1 实验准备

为了验证处理模型的准确度,该文设置了对比实验,对模型的数据处理的自适应度、漏报率、误报率进行检测。

首先进行数据采集。设定研究对象为行业统计的网络数据。将数据输入计算机中,将这些数据按照行业地区的数据进行聚类分析,建立起数据分析模型。

该文设计的模型主要应用的是多因素特征分析方法中的主成分分析和聚类分析方法。先将收集到的行业数据进行主成分分析,再将简化属性之后的主成分进行聚类分析。

实验的数据具体处理步骤如下:首先将样本数据进行标准化预处理,处理后可以得到研究数据样本,将其中30组样本人工植入破坏性代码,作为假想黑客数据,使用该文设计的数据处理模型进行数据处理并与其他数据处理方式进行对比,验证多因素特征分析的网络安全数据处理模型识别攻击的能力。

2.2 实验结果

将该文设计的多因素特征分析的网络安全数据处理模型命名为DYS模型。将DYS模型设置为实验组,选取已经投入应用的CAN、HG_G等七种数据处理模型进行对比。性能测试结果体现了输入数据样本的平均检测准确率、自适应、误报率、漏报率以及综合评定准确率的达到情况。其检测结果如表1所示。

表1 实验结果表

从表中结果可以看出,该文设计的数据处理模型的准确率指标结果为95.7%,高出处于第二的Firefl近3%,效果明显优于对比方法。对已知攻击,多因素特征分析数据处理模型在自适应和漏报率指标上的结果分别为97.2%和2.6%,分别高出次优结果约5%和0.4%,效果均优于对比方法;同时,该文模型在误报率指标上的结果与最优结果相差不到0.1%,效果较为良好。对未知攻击,该文的数据处理模型的自适应指标为87.2%,误报率指标为0.3%,分别高于次优结果约0.1%和1.2%,漏报率指标为16%比最优结果低1%左右,因此效果也较为良好。对变动网络数据集,DYS模型取得的检测准确率指标将近95%,高出处于第二的SVM-约1%,效果均优于对比方法。通过综合对比各项指标的结果,该文设计的数据处理模型DYS在已知、未知攻击检测的准确率、误报率及漏报率等指标上都可以超过其他模型,对网络攻击和隐蔽破坏行为具有防护能力,可以切实保障网络安全。

3 结语

网络已经成为社会发展和现代生活不可或缺的工具,在某种意义上理解,网络资源已经成为战略资源,因此网络安全的重要意义不言而喻。在建立网络安全的研究领域,虽然前人已经做出了卓有成效的工作,但是面对手段越发复杂和隐蔽的攻击行为和窃取技术,任何改进都是必要的,并且需要持续、深入地研究下去,为网络安全提供技术防范手段。结合多因素特征分析的数据处理模型,站在网络数据传输的角度,对数据进行筛查,通过不同类型数据的多种因素典型特征值对比分析,发现潜在的危险因素,发出报警并同步采取控制措施,保障网络安全。不过这种技术手段也存在薄弱之处,在面对大规模网络流量攻击和恶意加密流量攻击等问题时,存在计算能力不足的问题,因此还需要深入研究,持续改进。网络安全防护的技术手段研发一直在路上,需要业界共同努力,保障网络的实体安全。希望通过分享研究成果,为业界的技术进步提供启发,共同维护网络的安全环境。

猜你喜欢
特征分析字典数据处理
开心字典
开心字典
认知诊断缺失数据处理方法的比较:零替换、多重插补与极大似然估计法*
ILWT-EEMD数据处理的ELM滚动轴承故障诊断
2012 年南海夏季风特征分析
我是小字典
正版字典
基于希尔伯特- 黄变换的去噪法在外测数据处理中的应用
基于PowerPC的脉内特征分析算法的工程实现
不良汽车驾驶行为特征分析