基于最小生成树改进K-means聚类的网络入侵检测技术

2022-02-04 08:45陈功平
关键词:误报率聚类数量

王 红 陈功平

(六安职业技术学院, 安徽 六安 237158)

0 前 言

计算机和互联网作为当下信息传递的主要工具,已经被广泛应用于各行各业中。全球范围内的计算机和便携式上网设备都通过互联网进行连接,这给我们带来便捷的同时,也带来了许多安全隐患。网络安全问题已逐渐成为人们重点关注的问题。网络安全具有机密性、完整性等特征,应对网络攻击行为进行识别和检测[1]。网络入侵一般会留下痕迹,但具有一定的隐藏性,需要经过信息处理才能被识别[2]。现有的网络入侵检测技术需要对聚类数目和聚类中心进行人工设定,容易造成误差[3-4]。因此,本次研究利用最小生成树对K-means聚类算法进行改进,设计了一种新型网络入侵检测技术。

1.1 数据预处理

网络入侵数据一般混在正常数据中,若要挖掘出入侵数据,就需要使用聚类算法对数据进行预处理[5-6]。K-means是一种典型的聚类算法,其迭代基础是聚类中心,需要提前确定聚类数量和聚类中心位置,得到的结果往往受人为因素的影响较大,因此本次研究利用最小生成树改进 K-means聚类算法。

K-means聚类算法一般通过评价函数来判断簇之间能否合并或聚类。评价函数如式(1)所示:

(1)

式中:I—— 评价函数;

J—— 聚类解的常用目标函数;

n—— 簇的数量。

基于最小生成树改进的K-means聚类算法中,数据对象的簇数量是提前给定的,利用经典的Prim算法得到一棵最小生成树,将其划分为若干个部分,并把每个部分看成一个簇[7]。因此,根据经验随机给出的簇数量会在很大程度上影响聚类结果。

在最小生成树的改进机理下,对操作数据组成的集合进行处理,集合数量为m-1。通过距离计算,把树分裂成m棵子树,并将其看作独立的簇,选择包含较多元素的簇作为开始节点[8-9]。本次研究基于密度进行聚类划分,不同密度的聚类筛选过程如图1所示。

图1 不同密度的聚类筛选过程

图1a中的圆形中心点表示4个高密度点的分布情况,其中空心点表示密度最小,可以将其作为第1个聚类中心;在筛选过程中,将距离中心点最远的高密度点作为第2个聚类中心,即图1b中增加的空心点;根据不同的筛选规则,得到第3个聚类中心,即图1c中增加的空心点[10-12]。基于最小生成树改进的K-means聚类算法中,不同高密度点之间的距离应尽可能远。通过预处理得到的有效聚类数据集对入侵结果的影响很大,若要保证入侵检测结果的准确性,就要消除数据冗余。

1.2 入侵检测模型设计

通过上述聚类分析法划分网络行为数据,并进行数据挖掘,以实现网络入侵检测[13]。网络入侵检测模型示意图如图2所示。

图2 网络入侵检测模型示意图

在网络入侵检测模型中,对字符型特征数据进行编码,将其转化为数值型数据,以消除字符之间的差异性,如表1所示。

表1 字符型特征数值的转换

为了保证网络入侵检测模型的稳定性和可靠性,应提升模型泛化能力,以抑制过度拟合现象,网络入侵检测流程如图3所示。

图3 网络入侵检测流程

2 实验结果分析

2.1 实验准备

实验环境为Windows 10系统,选择Python语言进行代码编写。网络数据一般为多维度数据,应在优化过程中以距离为基础,使用数值型数据集。采用的数据集包括Iris数据集、Wine数据集和4k2_far数据集,共计612条数据。数据集特征说明如表2所示。

表2 数据集特征说明

将基于最小生成树改进K-means聚类的网络入侵检测技术与基于K-means聚类的网络入侵检测技术进行对比分析。选取聚类纯度作为聚类有效性指标,聚类纯度的计算如式(2)所示:

(2)

式中:Pc—— 聚类纯度;

N—— 数据总量;

K—— 聚类数量;

Ck—— 任意一个聚类中的对象数量。

一般情况下,Pc的取值范围为[0,1],Pc越大,聚类效果越好。实验参数说明如表3所示。

表3 实验参数说明

2.2 聚类结果对比分析

分别使用基于最小生成树改进K-means聚类的网络入侵检测技术和基于K-means聚类的网络入侵检测技术进行对比测试,聚类结果如图4和图5所示。

由图4和图5可知,相较于基于K-means聚类的网络入侵检测技术,基于最小生成树改进K-means聚类的网络入侵检测技术的数据分布更均匀,不同数据库之间的分布差异更明显,与实际情况相符。

图4 基于最小生成树改进K-means聚类的网络入侵检测技术的聚类结果

图5 基于K-means聚类的网络入侵检测技术的聚类结果

2.3 性能评估分析

采用检测率和误报率等指标进行性能评估,检测率的计算如式(3)所示:

(3)

式中:DR—— 检测率;

Nad—— 检测到的异常数量;

Nta—— 实际异常数量。

误报率的计算如式(4)所示:

(4)

式中:FR—— 误报率;

NM—— 被误判为异常的数量;

Nnr—— 实际正常数量。

检测率越大,误报率越小,说明技术性能越好。入侵检测评估指标结果如表4所示。

由表4可知,基于最小生成树改进K-means聚类的网络入侵检测技术的检测率为70%,误报率为0.472%;基于K-means聚类的网络入侵检测技术的检测率为44%,误报率为0.615%。因此,基于最小生成树改进K-means聚类的网络入侵检测技术的性能更优,检测效果更好。

表4 入侵检测评估指标结果

3 结 语

本次研究从网络入侵检测技术存在的问题入手,利用最小生成树改进K-means聚类算法,设计了一种新型网络入侵检测技术。利用最小生成树改进K-means聚类算法,对入侵检测数据进行预处理,设计不同密度的聚类筛选过程,去除冗余数据。构建网络入侵检测模型,将字符型特征转化为数值型数据,优化入侵检测流程,以实现网络入侵检测。实验结果表明,与传统网络入侵检测技术相比,本技术的性能更优,检测效果更好。

猜你喜欢
误报率聚类数量
一种基于Web日志的混合入侵检测方法
原始数据动态观察窗法在火灾特征信号融合提取中的应用研究
芳芳猜童话书的数量
家用燃气报警器误报原因及降低误报率的方法
基于K-means聚类的车-地无线通信场强研究
统一数量再比较
基于高斯混合聚类的阵列干涉SAR三维成像
头发的数量
基于Spark平台的K-means聚类算法改进及并行化实现
基于改进的遗传算法的模糊聚类算法