基于分类算法的校园网络入侵检测系统研究

2013-10-21 00:53何保荣李建荣王超智
电子设计工程 2013年12期
关键词:分类器数据挖掘分类

何保荣,李建荣,王超智

(1.郑州牧业工程高等专科学校 河南 郑州 450011;3.河南省基础教育教学研究室 河南 郑州 450016)

随着网络的迅速发展,网络攻击的工具和手段多种多样,而传统的校园网络所采用的安全技术大部分是信息加密、身份认证、防火墙、安全路由器等,它们对校园网络的安全已经不能构成有效地保障。所以,在不影响网络性能的情况下,如何分析融合来自各方面的安全信息和数据,提供一个良好的入侵检测系统,提高入侵检测系统的准确率和效率,实时保护校园网络的误操作、外部攻击和内部攻击等,已经成为目前保障校园网络系统安全的关键问题。

入侵检测系统的分类有多种,按照不同的检测方法,可分为异常检测系统和误用检测系统;按照不同的数据来源,可分为主机型和网络型入侵检测系统[1]。最近几年,不断出现了新的入侵检测产品,同时也不断提出新的入侵检测方法理论,特别是把数据挖掘的相关理论应用到入侵检测系统,为入侵检测系统的研究开拓了新的领域[2-3]。由于篇幅限制,本文主要讨论基于分类算法的校园网络入侵检测系统研究。

1 入侵检测中常用的数据挖掘算法

数据挖掘是一项通用的知识发展技术,从大量数据中发现未知的攻击、提取有用的数据信息,是在入侵检测中应用数据挖掘的目的。在入侵检测系统中经常使用的数据挖掘算法,一般有关联分析算法、序列分析算法和分类算法。在分类算法中,数据分类的目的是提取数据库当中数据项的特征属性,生成分类模型(或函数),该算法的输出结果就是分类器,该模型(或函数)可以把数据库中的数据映射到给定类别中的一个[4],从而应用于数据预测。分类器的构造方法有决策树方法、统计方法、神经网络方法和粗糙集方法[1]。

2 基于分类算法的校园网络入侵检测系统模型框架

本系统模型框架主要分以下几个部分:数据采集、数据预处理、构建特征属性、构建分类器。

2.1 数据采集器

为了便于对入侵进行更为精确的判断,数据采集器主要负责收集来自计算机网络系统中若干不同关键点的相关信息,全面了解网络上的行为。

2.2 数据的预处理

由于从网络上截取的数据包均是Tcpdump 文件格式,而这种格式的数据不能直接使用分类算法进行分析处理,所以需要首先对他们进行数据的预处理,从中提取出比较有意义的特征数据。

对原始数据进行预处理,就是对正常的数据使用关联规则算法、对包含入侵模式的数据使用序列规则算法来找到相应的模式,把正常数据和入侵数据进行比较得到规则集,得到在入侵数据中存在而在正常数据中不存在的那些“纯入侵”模式,最后通过对这些“纯入侵”模式构建临时的统计特征,使用分类器建立误用检测模型[5]。

2.3 构建特征属性

在已经得到“纯入侵”模式后,连接记录中已经存在一组固有的特征,根据从数据集中挖掘的关联规则和场景规则,构建附加的、更具有预言性的属性,这些属性也就是特征,被认为与从正常活动区分入侵活动相关。构建附加特征就是对于每一个本质特征计算相应的数据。由于附加特征是在找出“纯入侵”模式基础上抽取的,因此更能揭示入侵的实质,得到的入侵检测模型更有效。例如,在这一步可能增加一个记录连接数的属性,连接数表示:针对当前连接记录的目标m地址,在前两秒发起的连接。实际上,所有的网络流量可以抽象为连接记录,连接记录的属性存储诸如源碑、目标、源端口、目标端口、开始时间、持续时间、头标记等本质连接属性。在TCP/IP 网络中,连接记录表示为TCP 会话。

2.4 构建分类器

该步骤从扩展的训练连接记录(即增加新属性的原来训练记录集)构建分类器。构建特征和分类器学习的详细过程分别如图1 和图2 所示。

图1 特征构建Fig.1 Feature construction

图2 分类器学习Fig.2 Classifier learning

1)用户获得训练连接记录,把它们分为正常连接记录和入侵连接记录。

2)从正常连接记录和入侵连接记录中独立挖掘关联规则和场景规则。比较这些规则,所有包含入侵连接记录的规则形成入侵模型。

3)大多数自动程序仅采用入侵模式去获得意味着入侵行为的额外属性,这些属性是与当前连接记录具有某些相同属性值的连接记录计数、平均值和百分比。

4)对原来的训练连接记录添加新创建的连接记录属性。

5)构建分类器,学习怎样从入侵连接记录中区分正常连接记录。该误用入侵检测系统的分类器就是基于数据挖掘技术的入侵检测系统的最终产品。

基于分类算法的误用入侵检测系统所采用的技术比人工知识工程更系统、更自动化。但是,值得指出的是,它严重依赖于专家知识。例如,根据专家知识对挖掘过程产生的关联规则和场景规则进行修剪,同样,特征构建也仅增加那些专家认为很有可能与入侵相关的属性,此外,对不同的攻击类型需要构建独立的分类器,随后对这些分类器进行整合,最后根据领域知识,手工定义合适的总结包载荷特征。

3 决策树算法的改进

决策树算法是一种归纳学习算法,它继承了ID3 算法的全部优点,它先从所有的事例中选取一部分构造决策树,再用剩下的事例测试决策树并对它进行调整,它既能处理离散类型的属性,也能处理连续类型的属性,还可以对属性的取值集合进行等价类划分。

决策树算法采用分而治之的策略,采用信息增益来进行属性的选取。其计算方法如下:

如果目标属性具有C个不同的值,则数据样例集S 相对于C个状态的分类的熵为公式(1):

如果A 是S 中的一个属性,Values(A)表示属性A 所有可能的集合,Sv是S 中属性A 的值为v 的子集,则属性A 相对于样例集合S 的信息增益Gain(S,A)则被定义为公式(2):

我们知道了信息增益是算法用以增长树的每一步中选取最佳属性的度量标准。该制约大的属性,说明这个属性的能力就越强。为了加快该值的计算速度,我们现在改进如下:

因为我们都知道,如果x 很小,则有ln(1+x)≈x,所以有公式(3):

又因为log2Pi=lnPi/ln2,则有公式(4):

由此我们可以看出计算复杂度显著降低了,这样无疑就加快了速度。

4 结束语

校园网络环境的复杂化使得仅用传统的数据加密、防火墙等技术已经不能实现对校园网络的完全保护。本文通过入侵检测技术的研究,提出了一种基于分类算法的关于误用检测和异常检测的入侵检测系统模型框架,并对决策树算法进行了改进,从而降低了误报率和漏报率,提高了入侵检测系统的检测率。尽管近年来入侵检测技术取得了较快的发展,出现了很多新的检测模型和检测算法,但是要开发出实用的系统仍然需要进一步的研究、试验。

[1]黄辰林.基于分布自治代理的层次入侵检测系统设计[J].计算机工程与应用,2001(6):47-49.HUANG Chen-lin.Level intrusion detection system design based on autonomous agent[J].Computer Engineer and Applications,2001(6):47-49.

[2]张国.一种基于网络的入侵检测系统设计[J].微计算机信息,2009(25):70-72.ZHANG Guo.A network-based intrusion detection system[J].Micro Computer Information,2009(25):70-72.

[3]张杰,戴英侠.入侵检测系统技术现状及其发展趋势[J].计算机与通信,2002(6):28-32.ZHANG Jie,DAI Ying-xia.The status quo and trend of intrusion detection system technology[J].Computer andCommunication,2002(6):28-32.

[4]曾昭苏,王锋波.基于数据开采技术的入侵检测系统[J].自动化博览,2002(8):29-31.CENG Zhao-su,WANG Feng-bo.Intrusion detection system using data mining technology[J].Automation Panorama,2002(8):29-31.

[5]田大新,刘衍珩,李宾,等.基于动态分类算法的入侵检测系统[J].吉林大学学报:信息科学版,2006(2):71-73.TIAN Da-xin,LIU Yan-yan,LI Bin,et al.Intrusion detection system based on dynamic classification algorithm[J].Journal of Jilin University:Sciece Edition,2006(2):71-73.

[6]关心,王新.基于数据挖掘的入侵检测系统研究[J].信息技术,2007(10):100-103.GUAN Xin,WANG Xin.The research of intrusion detection system based on data mining[J].Information Technology,2007(10):100-103.

猜你喜欢
分类器数据挖掘分类
分类算一算
探讨人工智能与数据挖掘发展趋势
分类讨论求坐标
数据分析中的分类讨论
教你一招:数的分类
基于实例的强分类器快速集成方法
基于并行计算的大数据挖掘在电网中的应用
加权空-谱与最近邻分类器相结合的高光谱图像分类
结合模糊(C+P)均值聚类和SP-V-支持向量机的TSK分类器
一种基于Hadoop的大数据挖掘云服务及应用