自适应差分进化算法在入侵检测中的应用

2022-04-27 11:51黎银环林凯升

网络安全技术与应用 2022年4期

◆黎银环林凯升

自适应差分进化算法在入侵检测中的应用

◆黎银环林凯升

（江门职业技术学院广东 529020）

针对开放式的网络环境要求入侵检测系统能够实时高效响应的问题，本文提出了一种自适应的差分进化算法ADE，用于入侵检测的特征选择。算法对网络数据的混合属性进行预处理，引入进化代数和个体适应度函数作为自适应算子动态调整摄动比例因子F和交叉概率CR，采用自适应变异策略提高进化的适应性。在KDDCUP 99数据集的测试结果表明，改进的ADE算法收敛能力较强，稳定性较好，提高了网络入侵系统的检测性能。

入侵检测；差分进化算法；特征选择；自适应；变异操作

随着互联网技术的快速发展和开放式网络结构的日趋复杂，开放式网络受到的攻击日益频繁。网络入侵检测是对网络进行实时监测，识别和发现入侵行为并发出预警。近年来，许多研究人员改进智能算法或与其他算法结合应用到网络入侵检测系统[1-6]。在智能算法中，差分进化算法在处理数值优化问题方面具有较高的精确度和稳定性。文献[7-8]提出纯参数自适应差分进化算法，种群的处理策略能随着迭代次数的增加而变化。文献[9]为降低早熟概率，提出反向学习法的差分算法。文献[10-14]分别提出改进参数和变异策略的自适应差分进化算法。文献[15-16]通过改进子种群的重构方法提高了寻优精度及稳定性。上述文献主要是针对算法搜索停滞或早熟收敛等问题，对进化策略和进化适应性进行改进，在一定程度上提高了差分算法的性能和缓解存在问题。但部分算法的参数设置过于烦琐，算法复杂，导致算法复杂度的提高或运行时间的增加。另外，网络入侵检测要求实时响应，网络数据具有随机性强、数据量大、标识困难等特点；数据包含数据型和符号型属性，事先难以确定攻击的种类和数目。为此，本文提出了一种改进的自适应差分进化算法（ADE）应用于入侵检测的特征选择。算法采用混合属性的相似度距离作为测量函数，增强算法对网络数据特征的处理能力；利用进化代数和个体适应度函数优化交叉概率与摄动比例因子，通过变异阈值自适应选择较优的变异策略，增强进化初始阶段的全局搜索能力和后阶段的局部搜索能力，平衡收敛速度与早熟收敛的矛盾。通过仿真实验对比，结果表明本文算法能有效筛选出网络数据的最优特征，具有较强的收敛能力和较好的稳定性，能有效提高入侵检测的准确性。

1 混合属性的预处理

网络数据样本包含数值型和符号型属性，数值型属性的数值波动范围较大，本文先对原始数据的数值属性进行标准化处理，采用混合属性的相似度距离定义样本的相似度距离和聚类中心。

1.1 数值型属性的标准化处理

标准偏差定义：

对样本作标准化处理如式（3）：

1.2 样本的相似度距离定义

（4）

定义3 任意两个样本之间的相似度距离定义如下：

定义4C为包含个样本的第个聚类，其聚类中心m定义如公式（8）：

其中，数值属性的聚类中心值取该聚类中数值属性的平均值：

字符属性的聚类中心值取聚类中字符属性值的最大值：

2 差分进化算法的改进

差分进化算法（Differential Evolution，DE）是Storn R和Price K提出的进化算法[18]，具有较好的稳定性和全局收敛性，主要思想是基于种群内的个体差异度生成临时个体，经过变异、交叉、选择等操作进化为新的下一代，直到满足算法的结束条件。每代种群受种群规模、摄动比例因子和交叉概率等参数的控制。

2.1 种群初始化

2.2 进化控制参数的改进

2.3 变异操作的改进

变异操作是DE算法中最关键的步骤，变异策略对算法的收敛性能有较大影响。标准DE/rand/1/bin策略是一种自由搜索进化模式，有利于保持种群的多样性，但收敛速度较慢。标准DE/best/1/bin策略使用最优个体参与变异，收敛速度较快，但比其他策略更易早熟收敛。进化搜索过程中，随机选取的个体难以指导优化方向，在最优个体邻域附近搜索有利于提高搜索效率。文献[12]在DE/best/1/bin策略加入随机参数，使变异以一定的概率向最优方向进化。文献[13]利用线性退火因子选择策略进化。为提高算法的搜索能力，减轻早熟问题，参考已有的研究成果，本文提出由变异阈值选择差分进化策略的变异方法，如式（12）：

2.4 交叉操作

2.5 选择操作

选择操作是对新产生个体求适应度函数值，实验个体和目标向量的适应度函数值按竞争机制方式选择下一代，如式（15）：

3 自适应差分进化算法在入侵检测中的应用

基于自适应差分进化的入侵检测择算法包括选择特征子集和性能评估两个阶段。选择特征子集阶段对原始样本数据标准化预处理，计算混合属性的相似度距离，生成初始种群；用改进的自适应差分算法对种群进化操作，求得最优特征子集。在性能评估阶段，基于最优特征子集组成新的测试数据样本，利用K-means算法进行聚类，统计检测率、误检率和漏检率等检测结果。算法流程如下：

选择特征子集阶段：

步骤1：对训练样本集预处理，去除错误数据，按式（4）和（5）对数据集的数值型属性和字符型属性标准化预处理，按式（7）和（8）计算相似度距离和聚类中心。

步骤3：第代进化

对于当前种群执行以下操作：

性能评估阶段：

步骤6：利用K-mean算法对新特征测试样本集进行聚类；

步骤7：求得聚类结果，并统计检测率、误检率和漏检率等检测结果。

4 实验与分析

本实验软件平台为Windows 7系统，数据库为MS SQL Server 2008，在VC++6．0环境下实现程序设计进行仿真实验。验证数据源采用10％KDDCUP99入侵检测数据集，共有494 015条样本，包括22种攻击，主要为四大类网络攻击类型：DoS，Probe，U2R和R2L。每一条记录由34个数值属性和7个字符属性构成。其中正常数据记录占19.68%，异常数据记录占80.32%。从10％KDDCUP99的数据集上分别抽取40%、60%的训练样本和80%测试样本作实验样本，其中入侵行为样本约占8%。

为了验证算法的收敛能力，将上述四种DE算法均在60%训练样本集上进行特征选择测试，算法的参数设置相同，筛选出的最优特征子集如表1所示。其收敛性能如图1所示。

从图1中看出，传统DE算法在58代附近收敛，三种改进算法与传统DE算法相比，收敛效果都有所提高。DMDE算法和EVSDE算法的收敛效果比较接近，EVSDE算法开始的收敛效果较明显，后期在49代附近能较快速收敛；DMDE算法的收敛速度相对稳定，在48代附近平稳收敛；ADE算法收敛速度平稳，在41代附近收敛。本文改进的ADE差分进化算法在收敛实验中表现出较好的收敛效果。

表1 最优特征子集

算法最优特征子集编号特征数 DE3，4，5，22，24，31，32，33，34，3610 EVSDE3，4，5，22，23，27，31，32，33，3410 DMDE2，4，5，23，28，31，32，33，34，3610 ADE3，4，5，11，23，24，31，32，33，34，3511

图1 四种算法的收敛对比

在40%训练样本集上运行四种DE算法各10次，其适应度函数值变化如图2所示。与传统DE算法相比，三种改进的DE算法的适应度函数值变动较小，本文算法适应度函数值跳跃变动最小，曲线变化比较平缓，说明本文ADE算法相对稳定。

图2 10次实验的适应度函数值对比

本文用检测率、误检率和漏检率三项指标评价入侵检测性能。基于表1的最优特征子集，在80%的测试数据集上进行入侵检测性能测试，结果如表2所示。

表2 入侵检测性能测试结果

算法DEEVSDEDMDEADE 检测率（%）90.1291.2191.3691.93 误检率（%）3.292.152.282.10 漏检率（%）8.847.987.737.21

从表2中的实验数据可以看出，本文算法与其他三种算法相比，检测率有所提高，误检率和漏检率有所降低，这说明改进的ADE算法所筛选出的特征子集对于提高入侵检测的性能是有效的。

5 结束语

在开放式的复杂网络环境中，攻击方式层出不穷，攻击手段的隐蔽性和复杂性日渐提高，入侵检测技术在网络安全中的地位越显重要。本文采用混合属性作为样本特征的相似度距离函数，优化差分算法的参数和改进变异策略，并将改进的差分算法应用到入侵检测，改进算法在仿真实验中显示出较好的收敛性和稳定性。基于差分进化的入侵检测算法既要保证收敛速度，又要提高抗早熟收敛的能力，两者需要达到平衡，本文算法仍需不断改进，以进一步提高算法在开放式网络环境中的入侵检测性能。

[1]刘永忠，李欣娣，李杨，等. 一种基于FRS-FCM算法的集成入侵检测方法的研究[J]. 计算机科学，2012，39（4）：106-108.

[2]边根庆，赵宏，张维琪，等. 基于免疫克隆与差分进化的入侵检测方法[J].微电子学与计算机，2012，29（5）：124-128

[3]傅涛，孙亚民. 基于POS的K-means算法及其在网络入侵检测中的应用[J]. 计算机科学，2011，8（5）：54-55.

[4]朱红萍，巩青歌，雷战波. 基于遗传算法的入侵检测特征选择[J].计算机应用研究，2012，29（4）：1417-1419.

[5]代红，刘磊. 基于数据筛选策略的入侵检测研究[J]. 计算机工程与设计，2012，33（2）：488-492.

[6]CHOU T S，YEN K K，LUO J. Network intrusion detection design using feature selection of soft computing paradigms[J].International Journal of Computational Intelligence，2008，4（3）：196-208.

[7]BREST J，GREINER S，BOSKOVIC B，et a1.Self-adapting control parameters in differential evolution：A comparative study on numerical benchmark problems [J]. IEEE Trans on Evolutionary Computation，2006，10（6）：646-657.

[8]BREST J，SEPESY MAU EC M. Population size reduction for the differential evolution algorithm [J].Applied Intelligence，2008，29（3）：228-247.

[9]SHAHRYAR R，HAMID R TIZHOOSH，MAGDY M A SALAMA. Opposition-based differential evolution [J]. IEEE Trans on Evolutionary Computation，2008，12（1）：64 -79.

[10]BI XIAOJUN，XIAO JING. Classification-based self-adaptive differential evolution and its application in multi-lateral multi-issue negotiation [J]. Front. Comput. Sci.，2012，6（4）：442-461.

[11]ZHANG J Q，SANDERSON A C. Adaptive differential evolution with optional external archive [J]. IEEE Transact ions on Evolutionary Computation，2009，13（5）：945-958.

[12]李若平，冯达，欧阳海滨，等.改进差分进化算法在系统可靠性问题中的应用[J].东北大学学报（自然科学版），2012，33（2）：182-186.

[13]高岳林，刘俊梅.一种带有随机变异的动态差分进化算法[J].计算机应用，2009，29（10）：2719-2722.

[14]姜立强，刘光斌，郭铮.分工差分进化算法[J]. 小型微型计算机系统，2009（7）：1302-1304.

[15]姚峰，杨卫东，张明.改进自适应变空间差分进化算法[J]. 控制理论与应用，2010，27（1）：31-38.

[16]徐松金，龙文.动态调整子种群个体的差分进化算法[J]. 计算机应用，2011，31（11）：3102-3105.

[17]RALAMBONDRAINY H. A conceptual version of the k-means algorithm，Pattern recognition Letters，1995，16（11）：1147-1157.

[18]STORN R，PRICE K. Differential evolution for multi-objective optimization[J].Evolutionary Computation，2003（4）：8-12.

2020年“攀登计划”广东大学科技创新培育专项资金（编号：Pdjh2020b1292）；2021年度江门市基础与理论科学类项目