一种基于K-means算法的网络流量异常检测模型研究

2019-12-05 02:49刘慕娴陈文迪刘桂华
无线互联科技 2019年18期
关键词:means算法

刘慕娴 陈文迪 刘桂华

摘   要:网络流量异常检测作为一种有效的网络防护手段,能够检测未知攻击行为。为了更高效地检测出流量异常,文章提出一种基于K-means算法的网络流量异常检测模型。该方法首先将网络流量特征属性量化为熵值进行分类,然后将K-means聚类分析算法运用在网络流量异常检测中,提高了检测准确率,从而实现安全监测预警。该模型与传统的一些网络流量异常检测模型相比,具有更高的准确率。

关键词:流量异常检测;K-means算法;流量特征

随着互联网的快速发展,网络数据不断扩大,网络威胁问题也越来越突出。各种异常事件与正常的业务流量混合在一起,特别是一些僵尸网络、木马病毒、拒绝服务、跨站脚本攻击/跨站请求伪造(Cross Site Scripting/Cross-Site Request Forgery,XSS/CSRF)和其他攻击[1]。为了有效识别和定位网络流量异常情况,发现潜在的攻击行为,保证网络应用的安全运行,异常流量检测技术正面临严峻挑战。

传统的网络流量分类方法主要分为4种类型:基于端口的方法[2-3]、基于深度报文检测(Deep Packet Inspection,DPI)的方法[4]、基于统计的方法[5]和基于行为的方法[6-7]。其中,基于端口的方法准确度比较低,基于DPI的方法不能处理加密的流量并且复杂度比较高,因此,目前研究较多的是基于统计和基于行为的方法,也有部分研究尝试采用一些大数据分析方法[8-9]。随着网络应用的逐渐增加,网络流量特征的整体复杂性不断增加,数据采集与数据分析之间的主观判断差异使得网络异常流量检测的准确性仍有待提高。本文提出一種基于K-means算法的网络流量异常检测模型,它将网络流量特征属性量化为熵值进行分类,然后将K-means聚类分析算法运用在网络流量异常检测,对异常流量进行聚类,从而提升检测准确度。

1    基于K-means算法的网络流量异常检测模型

本模型按功能可分成数据预处理、训练与检测3个模块(见图1)。数据预处理模块首先获取网络数据包,然后分析协议和提取信息,得到原始网络流量数据的基本特征信息。同时,对原始网络流量数据进行预处理,得到可输入模型的训练数据和能够进行入侵检测的实时数据,其中,主要内容是对流量信息熵的量化。训练模块主要是使用K-means算法对训练数据进行训练,得到可以进行网络流量异常检测的模型。最后,在检测模块中,笔者用训练好的入侵检测模型接收来自采集处理模块的实时数据作为输入,检测出实时数据中的异常流量,与实际异常流量数据相比较是否正确。

1.1  流量信息熵量化

步骤7,检查所有簇中是否含有仅包含新增簇中心点的孤立簇,如果有,则删除该簇的中心点集和未标记样本,k=k﹣1,并重复步骤2—6;如果没有,则使用步骤6将确定的新k值和k个初始聚类中心点用作初始输入,并且连续地执行再分配。更新组中对象的平均值以更新聚类中心,直到聚类中心收敛,并获得整个样本集的k个分区。

2    实验结果分析

为了评估网络流量异常检测模型,本文选择使用3个常用的评估指标:检测率、误报率和未知攻击检测率,来对模型进行评估。其中,检测率是指网络流量异常检测模型对异常流量的识别能力,误报率是指网络流量异常检测模型针对正常样本的建模能力,未知攻击检测率体现出网络流量异常检测模型对于未知攻击的检测能力,这3个指标的具体计算公式如下:

本文将采用KDD CUP 99数据集来对几个网络流量异常检测模型去做相关训练和测试。该数据集中异常流量类型一般可以4类,分别为U2R,Probe,Dos与R2L。其中U2R指的是未授权的本地超级用户特权访问,Probe一般为平常所见的IP或端口扫描攻击,拒绝服务攻击(Denial of Service,DoS),R2L是远程主机的未授权访问,所以能够全面地体现检测模型的效率。

本文将与两个传统的流量异常检测模型进行比较,一个是基于云模型,另一个是基于流量分析,前者主要是统计分析,后者主要是主成分分析,试验比较结果如表1所示。可以看出,本文模型在检测率、误报率和位置攻击检测率上都优于传统的流量异常检测模型。

3    总结

本文提出的基于K-means算法的网络流量异常检测模型,首先将采集到的网络流量特征属性量化为熵值,方便后续的分类,然后再利用K-means算法对异常流量进行聚类分析,训练出检测模型,该模型在检测率、误报率和位置攻击检测率上都优于传统的流量异常检测模型。

[参考文献]

[1]张月敏.探究计算机网络流量异常的检测和预测[J].技术与市场,2019(6):201.

[2]宋小芹.对等覆盖网络传输层异常流量模糊识别仿真[J].计算机仿真,2019(6):408-411.

[3]张嘉誉,章坚民,杨才明,等.基于信息物理融合的智能变电站过程层网络异常流量检测[J].电力系统自动化,2019(14):173-184.

[4]王浩东,成实,张锐,等.基于深度数据包检测(DPI)及R平方值的数据承载网规划方法的研究[J].信息通信,2019(5):182-184.

[5]费金龙,王禹,王天鹏,等.基于云模型的网络异常流量检测[J].计算机工程,2017(1):178-182.

[6]单玉洁,殷旭东,张书启.基于流量分析的网络安全检测研究[J].信息与电脑(理论版),2018(6):205-207.

[7]徐久强,周洋洋,王进法,等.基于流时间影响域的网络流量异常检测[J].东北大学学报(自然科学版),2019(1):26-31.

[8]李宁.基于大数据的互联网异常流量检测研究[J].成都工业学院学报,2018(4):34-38.

[9]蒲晓川.大数据环境下的网络流量异常检测研究[J].现代电子技术,2018(3):84-87.

猜你喜欢
means算法
应用K—means聚类算法划分曲面及实验验证
K—Means算法及其在卷烟零售门店库存聚类分析中的应用
SIFT算法在木材纹理分类上的应用
基于数据抽样的自动k⁃means聚类算法