基于网络爬虫的教学系统恶意篡改检测系统设计

2020-05-20 06:39冯洋洋
数字通信世界 2020年4期
关键词:爬虫教学系统网页

冯洋洋

(郑州工业应用技术学院,新郑 451100)

0 引言

网络爬虫又称网页机器人,根据用户在计算机上登录网页的记录,找寻对应网页的链接,可近似的看作一种网页追踪引擎[1]。若教学系统被黑客攻击,教学资源或发布消息被随意篡改,极易对高校的正常运营造成很大的影响,因此开展基于网络爬虫的教学系统恶意篡改检测系统的研究是具有十分现实的意义的。

1 基于网络爬虫的教学系统恶意篡改检测系统设计框架

为了提升教学系统持续运行的安全性,对于教学系统的篡改情况可自动检测,满足设计系统的实用性功能,以下将结合 技术对教学系统进行解析,具体框架设计如图1所示。

图1 检测系统整体框架

如图1所示,为基于网络爬虫的教学系统恶意篡改检测系统的整体框架,采用由顶部至底部的设计方法,最上层为显示层,为用户登录页面,也是系统为用户展示的主界面,由后台管理员负责用户的注册、账号及密码管理,主要功能是对域名、教学资源的管理。系统框架中层是业务层,主要进行教学系统中信息的发布、资源的上传等操作,同时业务层中包含网络爬虫的源代码,在该层面上可进行对应代码的删除、修改及增添,除此之外还可以进一步检测教学系统中是否被插入暗链,根据暗链在业务层的功能实现基于网络爬虫对教学系统的安全监测,满足系统功能的实现[2]。最底层为系统的数据层,数据层中包含教学数据库及检测数据库,已经教学系统中网站被恶意篡改后,教学资源数据库将会自动保存被篡改前的原版网页,确保数据的安全性,同时检测数据库用于保存系统进行检测过程中的所有操作步骤,确保出现同种恶意入侵时,系统可在最短时间内做出反应。

2 系统硬件设计

结合上述对基于网络爬虫的教学系统恶意篡改检测系统的设计,以下将进行对应的硬件设计,为系统的持续稳定运行提供平台[3]。根据对应教学系统在各个高校中的运行环境,使用32位进制的Windows 17操作系统,结合AIR技术开发系统的脚本解释器,同时选择Python2.6.7型号的记忆芯片,采用50~80MHz 和2.40MHz的时钟源为系统提供256kB 的在线运行内存,确保系统的持续运行,使用i7计算机处理器,同时配备超过128GB 的外设硬盘,实现交互式系统的检测。

3 系统软件设计

基于上述对软件运行平台的搭建,以下将进行系统软件运行环境的选择,设计系统的页面及模块结构,同时构建数据库对数据进行存储。

3.1 系统页面设计

3.2 系统模块设计

基于网络爬虫的教学系统恶意篡改检测系统的软件功能模块主要包括数据收集、存储模块及网络爬虫调度模块三个模块,以下将结合上述三个模块在系统中的功能进行对应的设计。首先,系统软件的功能均在业务层进行实现,主要结合网络爬虫基于互联网状况良好的条件下对教学系统中多个网页内关键词、重点数据的收集,利用数据库存储数据的功能,将收集的数据分类存储。其次为网络爬虫调度模块,也是检测系统中的核心模块,主要分为网络域名子模块、源代码下载子模块及网页链接提纯子模块,三个模块之间的工作相辅相成,具体工作流程如图2所示。

图2 网络爬虫调度模块工作流程图

如图2所示,为网络爬虫调度模块的工作流程,初始化条件下的UML 控制模块只有一个网络爬虫进入端口,此时可采用下载源代码子模块的方式对网页中源代码进行下载,结合网页中的对应链接对网页中关键字进行有效提取,并将提取后的链接、关键字放入UML 控制面板中,进行数据的进行数据的分析。

3.3 数据库设计

结合上述对系统功能模块的设计,对于数据收集处理模块中的大批量数据、教学系统中的大量教学资源均需要一个相对完善的数据库,进行对应的数据存储、管理。检测人员在教学系统恶意篡改检测前期,应将未被篡改的资源或网页存储在数据库中,作为网页被篡改后的对比[5]。为了提升工作人员网页检测时搜索网页的速度,可将所有检索过教学系统中教育官网或教学平台的域名存储至数据库中,进行二次搜索时,便可直接通过数据进入该网站。当教学系统中某一固定网站被确定不需要检测时,可在数据库中删除对应网站的域名或进入路径。当确定教学系统中某一网站经过正规人员修改后,需要重新利用网络爬虫搜索该网页中的关键词汇或关键数值,将原数值在数据库中删除,将最新构建的数值添加到数据库中对应的表结构中。若教学系统中重新添加新网页或教学平台,也可与数据库建立新的连接。

根据用户注册时填写的身份信息,确认对应的实体属性,便于后台管理员对人员之间的管理,当用户登陆过程中,系统将自动在数据库中识别是否存在与登录用户相同的账号密码。根据建立的用户信息表,设计教学系统中不同网站的属性结构。

通过对被检测网页的具体描述实现网络爬虫获取网页的能力,同时分析网页中是否因为被插入暗链而被随意篡改,将篡改前后的网页分别进行对应的信息对比,并存储对应的数据库表中,实现基于网络爬虫的教学系统恶意篡改检测系统的设计。

4 对比实验

为了确保所设计检测系统的有效性,整体实验均在相同网络环境下进行,针对某高校的教学系统进行了多次恶意篡改试验,为保证整体实验的严谨性,首先采用传统的检测方法对教学系统进行检测,再用文章设计的基于网络爬虫的教学系统恶意篡改检测系统对相同教学系统再次进行检测,设置实验组和普通组,采集5组检测数据,将数据分析处理如表1所示。

表1 教学系统恶意篡改检测系统误报率

通过表1分析,两种方法对于教学系统恶意篡改的误报率,可以得出结论:在同种外界环境下,采用相同的检测方法,文章设计的基于网络爬虫的教学系统恶意篡改检测系统对于恶意篡改的识别率较高,误报率降低了约10%。

5 结束语

文章开展了基于网络爬虫的教学系统恶意篡改检测系统设计。通过对系统页面的、功能模块及对应数据库的设计,实现系统整体框架的设计。相比传统的检测系统,尽管误报率已经降低,但仍存在一些缺陷有待解决。例如,用户在登录时页面所提供的验证码只有简单的数字或图片,对于扭曲度较高验证码的识别率较低,同时在页面的结构布置方面仍存在一些不足,在后期发展中,将会对系统中的存在的缺陷进一步完善并优化,提高教学系统在应用中的安全性。

猜你喜欢
爬虫教学系统网页
利用网络爬虫技术验证房地产灰犀牛之说
淄博市大力推进交互式在线教学系统应用
基于Unity的计算机硬件组装仿真教学系统设计
基于Python的网络爬虫和反爬虫技术研究
基于HTML5与CSS3的网页设计技术研究
基于移动学习理念的智慧教学系统
基于CSS的网页导航栏的设计
基于HTML5静态网页设计
大数据背景下校园舆情的爬虫应用研究
基于NRF无线通讯技术的自组网互助教学系统研究与开发