基于机器学习与大数据技术的入侵检测方法研究

2022-10-06 04:13任守东佟晓童李绘妍

计算技术与自动化 2022年3期

任守东，陈亮，佟晓童，李绘妍，张晶

(1.国网抚顺供电公司，辽宁抚顺 113008；2.国网辽宁省电力有限公司，辽宁沈阳 110006)

终端计算机与终端操作用户如今面临的巨大挑战之一便是网络入侵行为，其所带来的损失后果也是极其严重的。如网络入侵行为发生在终端设备稳定运行的进程中，极有可能造成文件损坏、主机瘫痪等后果，更严重的甚至会对网络产生不可逆的威胁。入侵检测技术是一种更为先进的信息安全技术，有着持续监控网络中的计算机及网络数据的作用，并且能够对一些存在于网络中的恶意或不良行为做出识别与检测。相比于已广泛应用的但却仅仅起到了阻挡外部网络入侵作用的防火墙技术而言，入侵检测技术在具备防火墙性能的基础上，还具备了检测网络内部的一些恶意行为的特性。其工作原理是收集并分析网络中的入侵行为，如对网络日志的处理，对网络信息的检测与监听或对日志和数据包的分析与排除。网络入侵检测系统具有实时监测识别恶意入侵行为的性能，这些入侵行为大都来源于网络的内部和外部。在监测到入侵行为的同时，便可以向用户发出警告，能够避免网络系统遭到恶意行为的伤害，从而使计算机内部一些重要的信息能够得到妥善的保存。

随着人工智能方法的普及，入侵检测技术也逐渐朝着智能化的方向发展。智能化的快速发展以机器学习为相应的基础，这也是因为计算机性能的提升及科技的飞速进步。而到目前为止，以人工智能或机器学习为基础的网络入侵检测技术所存在的问题，如耗时长、检测率低、处理数据效率低且量小等，依然有待解决。因此，提出基于机器学习和大数据技术的网络入侵检测技术，根据大数据分析技术的网络入侵原理，将GRU(Gate Recurrent Unit)与SVM(Support Vector Machines)分类算法相结合，提高分类精度，最后选择当前标准的网络入侵检测数据集进行仿真实验，验证基于机器学习和大数据分析技术的网络入侵检测的有效性和优越性。

1 基于大数据的入侵检测原理

计算机网络入侵检测防御体系，是一种以大数据技术为基础而形成的新型计算机网络安全防御方式，其具有更为高效且全面地检测并将一些计算机网络信息的安全问题进行处理的能力。主要过程可以分为以下步骤：

(1)对网络中的数据进行抽取，以行为特征为根据来抽取网络行为；

(2)对相应数据进行预处理，从而能够得到具有相对一致性的数据模式，具体方式为，将上述以抽取方式所得到的行为特征数据完成清洗，集成并进行转化等预处理步骤；

(3)以构建起入侵检测的行为模型为手段，对网络安全进行防护检测，从而最终达到拦截并响应相关非法网络行为的目的。

基于上述步骤，在抽取并预处理相关数据的过程中，应制定相关的数据处理规则，从而解决数据来源复杂、量大且格式严重不统一的难题。最终达到能够确保数据的完善与有效的同时使数据的质量也有所提高的目的。大数据技术的基础，就是完成数据的收集与入侵模型的构建步骤后，最终能够通过所得到的入侵行为特征，来判别处理一系列的网络行为。

2 基于GRU与SVM的网络入侵检测方法

2.1 GRU神经网络

GRU神经网络是Cho等人在2014年提出的比LSTM网络更高效的版本。它比LSTM网络结构更简单，效果更佳，也解决了RNN的长时记忆和梯度问题。

GRU模型有更新门和重置门两个门。具体结构如图1所示：

图1 GRU神经网络结构

图中代表更新门，代表重置门，这一切都来自于之前传递的状态(-1)和当前节点的输入()，计算公式如下：

=(·[(-1),()])

(1)

=(·[(-1),()])

(2)

(3)

(4)

最后为GRU神经网络更新阶段。在此阶段中，将更新门用于选择和遗忘。更新阶段的表达式如式(4)所示。更新门的范围为0～1，门控信号越趋近于1，说明它记忆的数据越多，而越趋近于0，越是被遗忘。

2.2 SVM分类器

SVM是一种监督学习模型，可在分类和回归分析之间分析数据。它的基本思想是定义一个函数空间中间隔最大的线性分类器。SVM分类器还包括允许非线性分类的核技术。SVM分类器的学习策略是最优分类超平面，其中这个超平面必须满足分类要求，在保证分类精度的同时，最大化超平面两侧的空白空间。SVM的主要思想如下：给定一组数据集={(,),(,),…,(,)}，其中，∈，∈{-1,1},=1,2,…,，

满足:

(·+)≥1

(5)

使得:

(6)

根据拉格朗日对偶，求解原问题的对偶问题即可得到最优解，经过转换后为:

(7)

将目标公式加负号后，把求解最大值问题转换为最小值问题，经过转换后为:

(8)

经过计算得到解后，我们进一步根据求解和，得到最大分离超平面和分类决策函数。

2.3 GRU-SVM模型

根据SVM分类器的特点，使用SVM分类器代替Softmax方法，将此方法作为GRU模型的输出，并通过使用交叉熵函数来计算损失。

图2是GRU-SVM模型的示意图，由图可知，模型前-1个为GRU单元，包括到-1个各种状态，以及到-1个不同的输入，得到输出结果的方法为SVM分类器。

图2 GRU-SVM模型示意图

GRU-SVM模型流程图如图3所示。首先将数据集输入模型中，初始化神经网络权重和偏置，然后计算神经网络参数。通过比较损失函数与理想值的差异，迭代优化权重和方差，通过不断训练，构建理想的神经网络模型。

图3 GRU-SVM模型流程图

3 实验结果与分析

采用从一个模拟的美国空军局域网上采集来的9个星期的网络连接数据集——NSL-KDD数据集，主要目的是对GRU-SVM模型的网络入侵检测效率进行相应的分析，这其中包含了9800条数据。由此可见，而每一条记录都是由56个入侵行为特征及一个网络行为类型所组成的。NSL-KDD数据集是由1类正常行为和4类入侵行为组成，实验应对数据进行部分随机抽取完成。文中采用以RNN和LSTM算法为基础的网络入侵检测法来进行对比测试研究，从而增加了GRU-SVM模型的网络入侵检测结果的说服力。

统计基于GRU-SVM模型、RNN-SVM模型和LSTM-SVM模型的网络入侵检测方法对数据进行训练，并对测试样本进行检测，检测结果如图4～图6所示。

图4 正确率对比

图5 误检率对比

图6 漏检率对比

由图可知，基于RNN-SVM模型的网络入侵检测的正确率最低，误检率和漏检率最高，难以建立理想的网络入侵检测模型；基于GRU-SVM模型的网络入侵检测效果要明显优于基于RNN-SVM模型和LSTM-SVM模型，说明SVM分类器与GRU神经网络结合与另外两个模型相比具有明显的分类优势，基于GRU-SVM模型的网络入侵检测成功率相当高，网络入侵行为的漏检率与误检率明显降低，相对于其他检测模型，基于GRU-SVM模型的网络入侵检测整体效果得到了有效改善，可以保证网络安全。

统计基于RNN-SVM模型、LSTM-SVM模型与GRU-SVM模型的网络入侵时间，如表1所示。

表1 网络入侵检测时间对比

从表中可以看出，相对于基于RNN-SVM模型和LSTM-SVM模型的，基于GRU-SVM模型的网络入侵检测时间明显减少，这充分表明了时间一致的情况下，GRU-SVM模型的网络入侵检测效率更高，可以满足检测大规模网络入侵的需要。

4 结论

基于探索并研究网络入侵领域，提出了以大数据技术和机器学习为基础的入侵检测方法，首先描述了大数据分析技术中的网络入侵基本原理，然后将GRU神经网络与SVM分类算法进行融合，从而实现了分类精度有所提高的效果，最后进行一系列仿真实验，其中实验挑选符合当前标准的网络入侵检测所形成的数据集来完成。最终结果显示，本文所提出的方法能够高效、高标准地检测网络入侵，对网络系统的安全具有更多的保障。由于采用数据集相比真实的网络数据有较小的噪音，而且冗余信息较少，所以提出的模型在真实环境中的性能可能较差，需要尝试获取真实的网络数据，来对模型进行改进，使模型能真正应用于实际的网络入侵检测中。