基于大数据的计算机信息安全处理技术研究

2022-07-09 13:09尹海翔

电子技术与软件工程 2022年9期

尹海翔

（深圳信息职业技术学院广东省深圳市 518172）

近年来，由于网络入侵导致计算机部分信息被篡改以及传输中被泄漏的情况时有发生，对计算机信息安全造成严重的威胁。信息安全不仅影响着网络用户的工作和生活，还会对我国经济的长远发展形成一定的阻碍，因此需要有效手段对计算机网络入侵进行检测。大数据技术能够将海量数据进行集中整合，具有效率高、数据处理量大等特点，因此越来越被人们所重视。本文基于大数据研究计算机信息安全处理技术，为各种攻击的拦截和处理提供了重要的参考依据，对计算机信息隐私防护具有现实意义。

1 基于大数据的计算机信息安全处理技术研究

1.1 计算机网络信息采集

在大数据背景下，要实现计算机的信息安全处理，需要以大量的信息采集为基础，并对采集到的信息数据进行分析与筛选，将筛选后的信息进行相应地处理，并将其安全存储在数据库中，从而使用户能够及时准确找到有用的信息。本文基于网络爬虫进行数据信息的采集，基于爬取深度，网址处理范围以及网址的URL 格式实现了网络爬虫设计。在本文设计的网络爬虫结构中，通过URL 链表模块对已爬取队列和未爬取队列进行URL 连接的存放，记录网络页面中已访问过和未访问过的URL 链表，对爬取网址进行初始化处理，实现URL 的大小转换。解析URL 页面中的链接信息，下载网址后对网页进行分析和完整性的处理，再将信息数据中提取的内容存储在数据库中。

为了避免重复的信息采集，本文设计去重模块比较抓取情况，分析URL 的特征值，避免在信息数据采集时过多出现重复现象。对爬虫抓取链接进行过滤。根据网络中信息的更新频率和计算机系统的执行效率，进行信息数据的定时采集。由于网络文档存在着格式不统一的情况，因此需要进行HTML 文档格式的转换，并制定数据信息收取规则，将格式转换完成的XHTML 文档以标签节点树的方式进行解析，将各标签作为一个节点，并代替区的网络文档节点区域标签节点，划分文本节点和注释节点的类型，建立信息标志组合。根据抽取规则进行信息的采集，在不需要理解文本含义的情况下，实现对信息数据的抽取，将非结构化以及半结构化的信息转化为计算机系统能够识别的结构化信息数据。为了避免数据在采集过程中发生信息损坏、丢失以及拦截情况，本文应用加密技术，在网络环境不稳定的情况下起到隐私防护作用。

1.2 信息特征提取与数据存储

由于计算机不能直接识别文本，因此需要通过向量空间模型表示文本，通过运算向量空间的向量，实现对文本内容的处理，并利用向量空间上的相似度来表示文本内容中语义的相似度。本文基于词频加权法，计算特征词在向量空间中的权重，具体公式为：

式中c 为文档类别，h 为特征，EX(c,h)为互信息。根据预先设定的文本类别，对文本进行分类处理，将训练样本的类别确定后，建立一个关于输入样本的表征数据和拟输出结果之间的对应关系，以此确定未知样本的输出类别，根据提取的特征项的数据，将类别向量矩阵进行归一化处理。对信息进行自动分词，完成最终的文本分类。本文以词为基本单元，将禁用词剔除后，利用最大匹配算法将文本信息内容中最长的复合词进行切分，再将字串与分词词典匹配，对停用词进行过滤处理，从而达到减小存储空间的效果，经过分类与停用词过滤等一系列操作后，形成文档信息的特征向量空间，确保本文分类达到信息的预处理要求。为了提高计算机对大数据信息的执行效率，本文通过分布式数据存储技术将信息数据存储到数据库中，在计算机受到攻击入侵时，通过应急通道转移信息，实现安全存储。

1.3 网络攻击入侵检测

对网络入侵的检测是保证计算机信息安全处理的关键环节，通过采集到的计算机信息数据，及时对计算机网络的入侵行为进行检测，根据目前已有的入侵威胁分类，通过主动监测的方式将网络数据故障进行匹配与排除，采用分层的检测方法将测试样本划分到指定类别中，并从测试机中去除这些样本，再将剩余的测试样本进行二次分类，分析网络攻击行为后，按照网络攻击类型的相似度进行组别的划分，设定整体检测框架，本文设计的网络攻击入侵检测架构由5 层组成，第一层将测试的样本数据分为Dos 攻击和其他类别攻击，第一层主要将测试数据中的Dos 攻击排除，第二层继续将其他攻击类别的数据划分为Probe 攻击和其他类别攻击，第三层的目的是尽可能地将U2R 攻击检测出来，第四层主要进行R2L 攻击的检测，最后一层为正常数据和未知数据。

在网络入侵检测阶段，识别入侵特征向量变换，分析入侵特征向量，并以向量的形式进行数字处理与分类，基于人工智能技术决策，汇总向量分类结果。计算机网络系统中均存在着易被网络攻击的数据库，在本文计算机系统检测到异常网络攻击行为后，会产生防攻击子集，通过攻击子集与计算机系统的入侵特征匹配，对后续的网络攻击行为进行预测，为了尽可能地保证检测事件序列和匹配规则相对应，本文综合考虑预测模块的运行情况，对偏离情况进行约束。根据检测事件序列的相似度，调整计算机网络系统规则，从而达到保证网络攻击入侵检测的可靠性。

1.4 基于大数据的信息安全加密

大数据技术在实现信息共享的同时，加大了信息泄露的风险，由于信息数据在共享环境下无法掌控其输出方向，导致计算机信息隐私保护效果不佳。为此，本文基于大数据进行计算机信息安全处理，通过公开密钥算法加密处理计算机信息，加密过程将算法与密钥相结合，将明文转换为密文，根据不同密钥产生不同密文实现密文传输。将信息和加密密钥作为输入，形成密文表达式为：

y=R(x) （3）

式中x 为明文，k 为密钥，R 为加密算法作为的函数，具有该密钥的预期接收者能够进行反向变换，实现信息的解密，其表达式为：

式中W 为解密算法，当入侵攻击方仅获得加密密钥或加密算法时，仅能对明文进行估计，而无法得到复原明文。我们将入侵攻击方的密码分析攻击类型进行分类，首先为密文攻击，已知明文攻击、选择明文攻击和自适应选择明文攻击，分析本文信息加密的破译难度，进一步设置高级加密标准，通过混淆扩散法复杂化密文和明文之间的统计独立性关系，将各明文数字的影响扩散到尽可能多的输出密文数字中，从而隐藏明文数字的统计特性，使通信双方以交换密钥协议为基础，通过密钥交换实现合法通信双方的安全通信。

1.5 设置网络防火墙

本文设置的防火墙基于交叉编译器设计而成，该防火墙支持多种通讯协议和硬件设备，通过与用户签订的网络协议判断IP 端口的安全性，根据浏览IP 历史传输记录，经IP数据包对信息内容的采集和特征提取，判断数据的连接状态，并将采集到的信息数据进行对比，根据IP 包的标准，检验IP 数据是否满足数据传输标准，若IP 数据内容未达到传输标准，则会自动丢弃数据信息从而保证网络的安全性。本文防火墙架构允许各处理核动态地参与IP数据包的处理过程，并根据实际的数据处理的需要，添加防火墙功能，将新添加的代码进行隔离，从而保证防火墙原有的各功能以及IP 层不会因新添加的功能代码而出现不良影响。在人员进行数据传输时，根据网络环境判断能否进行正常传输，分析接口及原地址的运行情况，若数据包中存在不良网络信息，则对信息下载进行拦截，起到对网络病毒的有效的防护作用。除此以外，为了提高网络信息安全防护水平，安装杀毒软件，从而对损坏的信息进行及时的修复与还原，实现对文件进行压缩加花的抗侵袭处理，使计算机在杀毒软件安装下发挥自我保护作用，使计算机处于安全状态。

2 实验论证分析

2.1 实验环境搭建

为验证本文方法的有效性，需要对计算机信息安全处理的各项功能进行实验分析，首先对实验环境进行搭建，本文硬件测试环境包括数据库，服务器，以及客户端主机等。本文的实验数据集中包含四类攻击，主要为Dos 攻击、Probe 攻击、U2R 攻击和R2L 攻击，将数据集中数据以3:1比例分别作为训练集和测试集的数据来源，每组样本数量为10，共进行10 组平行试验，各组实验重复100 次后进行统计。

2.2 入侵检测性能分析

本文在上文建立了一种分层检测框架，为了验证本文方法对网络入侵检测的效果，减少网络入侵检测的时间，本文通过传统方法1 和传统方法2 进行对比实验，对Dos 攻击、Probe 攻击、U2R 攻击和R2L 攻击和正常类别的检测结果如表1 所示。

表1：不同方法的网络入侵检测率对比

由表1 可知，由于数据集中的U2R 样本攻击数据和R2L 样本攻击数量较少，同时这两种攻击类别与正常数据的相似度较高，因此具有较大的检测难度，相比而言，Dos 攻击和Probe 攻击的检测率更高，本文方法对这两种类别的检测率均在95%以上，在不同入侵攻击类别的检测中，本文方法的检测效果更佳。统计不同方法的误报率，本文方法误报率仅为1.56%，传统方法1 和传统方法2 的误报率分别为2.13%和5.89%，虽然本文方法在U2R 攻击和R2L 攻击的检测率还有待提高，但整体检测水平仍高于其他两种方法，且误报率在可以接受的范围内，证明本文方法对网络入侵的检测效果较好。将规则数增加到1000 条时，对比不同方法在检测数据逐渐增多的条件下的检测时间，具体如图1 所示。

由图1 可知，在不同规则数条件下，本文方法的入侵检测时间均比传统方法的检测时间短，在规则数为200 时，本文方法的入侵检测时间为0.12 秒，传统方法1 和传统方法2的入侵检测时间分别在0.2 秒以上，在规则数达到1000 条时，传统方法1 和传统方法2 的入侵检测时间已达到0.6 秒以上，而本文方法的入侵检测时间仅为0.31 秒，本文方法的平均入侵检测时间为0.25 秒，传统方法1 和传统方法2 的平均入侵检测时间均在0.4 秒以上，证明本文方法能够实现快速检测，满足计算机信息安全处理的要求。

图1：不同方法的入侵检测时间对比

2.3 防火墙性能分析

在本文的防火墙性能测试中，主要对吞吐率和拦截性能进行评估，验证本文方法的有效性。设定实验仿真时间为1500s，将不同大小的数据包输入到防火墙中。首先测试在不同条件下的防火墙吞吐率，在该项测试中的数据包大小分别为64B、128B、256B、512B、1024B、1518B，防火墙工作模式分为路由模式和NAT 模式，规则数设定为1 条，200条，400 条。由于不同规则会影响防火墙处理数据包的时间，为了保证实验结果的准确性，本文使用相同的字符串匹配规则，以较为简单的IP 地址匹配规则为研究对象，得到不同条件下的防火墙吞吐率如表2 所示。

表2：不同条件下防火墙吞吐率

由表2 可知，在路由模式下，以规则数为400 为例，在数据包大小为64B 时的吞吐率为23.8%，在数据包大小为1518B 时，吞吐率达到了90.2%，证明数据包大小逐渐递增的同时，吞吐率也大幅提高。NAT 模式的吞吐率在不同的规则数条件下均比路由模式的吞吐率低，证明NAT 模式每秒钟处理数据包的数量比路由模式的数据包处理数量少。在规则数不同的条件下，以数据包大小为1518B 为例，规则数为1 条时的吞吐率为98.3%，规则数为400 条时的吞吐率为90.2%，说明随着规则条数不断增加，其防火墙的处理性能出现了一定程度的下降。对比本文方法与传统方法1 和传统方法2 设置的防火墙的入侵拦截率，评价不同方法的入侵拦截效果，具体如图2 所示。

图2：拦截效果对比

由图2 可知，在统计特征量为100 时，本文方法的病毒入侵拦截率能够达到99.5%，传统方法1 的拦截率为86.3%，传统方法2 的拦截率为80.7%，与两种传统方法相比，本文方法的拦截率分别高了13.2%和18.8%，证明本文方法的病毒入侵拦截率更高，拦截效果更好。

2.4 信息加密效果分析

本文对信息的加密解密功能进行验证，以图像数据和文字数据为研究对象，将原图进行灰度图像的转化处理，本文使用的加密算法经过三层加密，并将迭代次数作为图像信息加密的重要部分，若没有正确的密钥值，则无法生成相应的矩阵，其输入的不同密钥值也会呈现出不同解密图像，而无法获取正确解密后的原始图像信息。具体图像信息的加密解密情况如图3 所示。

图3：图像信息加密解密情况

由图3 可知，图（b）为原始图像经过本文方法进行加密后得到的加密结果，加密后的图像实现了全面的信息覆盖，图（c）为两次错误密钥值生成的解密图像，图像解密未能成功，证明本文方法的图像信息加密效果良好。对原始图像进行解密操作，并将解密后的图像与原始图像进行对比，由图（d）可知，正确解密后的图像没有改变图像信息结构，图像信息得到了较好的恢复，非线性排列以及符号矩阵转换正确，证明本文方法具有较好的图像信息的解密效果。为进一步验证本文方法的加密解密效率，本文方法与传统方法进行对比，在文字信息的文字数量不同的条件下，验证不同方法的加密解密时间结果，具体如表3 所示。

表3：不同方法的加密解密时间对比

由表3 可知，文字信息的加密时间比加密时间更长，这是由于加密过程需要将加密信息与原始信息进行匹配，本文方法与传统方法相比，本文方法的加密解密时间更短，速度更快，证明本文方法的加密解密效率更高。

综上所述，本文方法能够有效监测网络入侵，且入侵拦截效果显著，对信息的加密处理具有隐蔽性好，效率高的特点，证明本文计算机信息安全处理方法具有可行性。

3 结束语

本文通过大数据信息采集、信息特征提取与数据存储、网络攻击入侵检测、计算机信息安全加密、设置网络防火墙等手段，完成了基于大数据的计算机信息安全处理技术的研究，取得了一定的研究成果。同时，由于时间和条件的限制，本文研究还有诸多问题亟待解决，需要在日后的研究中不断改进和完善，如本文研究未对计算机系统出现信息泄漏的原因进行分析，对数据传输通信的研究内容涉及较少，未来还将在今后的研究中不断增强本文方法的应用性，有效减少信息泄漏和丢失情况，保证计算机信息的安全。