决策树在高校实验室智能管理平台的应用

2019-07-20 13:24张慧宁
电子技术与软件工程 2019年10期
关键词:实验室管理决策树预警

张慧宁

摘要:本文针对传统高校实验室信息化管理系统需要较多的人工参与、效率低下,不能适应快速发展的现代化实验室的问题,提出构建基于决策树的高校实验室智能管理平台。其中,以Hadoop等大数据技术为支撑,实现数据快速、并行计算;以决策树为核心,进行数据挖掘,实现智能预测。可解决实际应用场景中的设备故障预警、防火预警和防盗预警等问题,具有极高的实用性。

[关键词]决策树 实验室管理 预警 大数据

传统高校实验室信息化管理系统需要较多的人工参与,效率低下,难以适应现代化高校实验室的发展。为此,建设智能化、现代化的高校实验室管理平台已成为大势所趋。国内外已存在大量相关的研究。其中,大数据技术拥有四个特征:价值高、体量大、速度快、种类多。基于这四个特征,必须对数据进行深度数据挖掘,以得到我们想要的信息。数据挖掘是创建数据挖掘模型的一组试探法和计算方法,通过对提供的数据进行分析,查找特定类型的模式和趋势,最终形成模型。主要包括分类、聚类、关联规则和预测模型。决策树是一类常用的大数据挖掘方法,适用于从一组不相关的数据集合中提取出一系列相关规则。

本文依托于大数据技术和决策树模型,构建高效智能的实验室管理平台,可减少实验室可能存在的风险的同时,能极大降低实验室管理员负担。

1 总体功能概要

平台功能以预测为核心,包括:故障预警、防火预警和防盗预警等功能,功能介绍如下。

1.1 设备智能故障预警功能

实验室历年积累了大量设备数据,将这些数据和设备生产商提供的参数数据,输入到计算层的大数据计算集群中,进行深度数据挖掘,从而建立设备运行故障模型。通过传感器等设备获取设备的运行时间、运行负载等数据,输入到计算层,计算得出设备运行信息,从而判断设备是否出现故障,进而智能通知实验室设备维修人员,实现设备的故障预警。

1.2 智能防火预警功能

防火预警功能,从公开数据等渠道获取实验室各类可燃物燃点信息,输入到平台,由平台基于决策树模型进行数据挖掘,建立实验室可燃物档案。后由,传感器定时获取设备温,度等信息,经过计算层计算,与已经建立的可燃物档案进行比对。一旦数据超过阈值,即可通知实验室管理员进行处理,或智能联系保卫部门进行处理。

1.3 智能防盗预警功能

由于实验室积累的盗窃行为数据较少,平台通过网络爬虫获取大量各类盜窃行为数据。经过计算层深度数据挖掘,建立盗窃行为特征库。平台运行过程中,再定时更新盗窃行为特征库。然后,通过实验室高清摄像头实时获取实验室人员流动图像信息,进行处理、计算后与盗窃行为特征库进行比对,智能识别盗窃行为,并进行预警,通知实验室管理员或者警卫员。

2 技术原理分析

2.1 三层模型概要

根据功能分析,将平台设计为三层:输入层、计算层和应用层。

输入层是平台的基础,通过ETL工具获取平台所需的数据,实现从已有信息化系统获取数据、从网络爬取公开数据、从传感器采集数据等功能。

计算层是平台的核心,通过Hadoop集群和Mahout对输入层提供的数据进行处理,实现大数据计算和深度数据挖掘。

应用层是平台的接口,使用计算层提供的服务,解决实际应用场景中的问题。实现故障预警、防火预警和防盗预警等功能。

三层互为补充,层层递进,构成整个平台。输入层为计算层提供数据服务,计算层使用输入层提供的服务为应用层提供计算服务,应用层使用数据计算层提供的服务为用户提供接口。

2.2 计算层

计算层的核心是Hadoop集群,使用HDFS、MapReduce、Hbase和Zoo Keeper提供快速、并行计算能力,使用Mahout提供深度数据挖掘能力。以下对Mahout在计算层的应用进行详尽阐述。

基于决策树(Decision Forest)的数据挖掘预测模型:

计算层的核心是基于Mahout提供的决策树模型实现智能预测。选取实验室应用服务器故障预测进行说明,表1是从实验室应用服务器群积累的运行数据中随机抽样出的7组数据。

对于决策树学习,关键是选择最优划分属性,选择方法有多种,实验选取的是最常用的一种指标“信息熵(informationentropy)”,,信息熵的定义为:

式中,D为样本集合,pi(i=.2...)为集合D中第i类样本所占的比例。求得的信息熵Ent(D)的值越小,样本集合D的纯度越高。

根据表1数据,可计算出样本集合D的信息熵为:

再根据公式(1),,可计算每个属性A的信息增益(informationgain),计算公式为:

式中,D、为样本数据集D根据属性A进行划分而产生的V个分支节点中的第v个分支的样本数目,Ent(D、)为跟据公式1计算得出的D、的信息熵。求得的信息增益Gain(D,A)越大,则使用属性A进行划分获得的“纯度提升”越大。故采用信息增益作为决策树的属性划分选择,即maxGain(D,A)。

根据表1数据,我们首先计算出用“CPU使用率”划分之后所获得的3个分支节点的信息熵为:

接着,根据公式(2)我们计算出“CPU使用率”的信息增益为:

类似的,再计算出“内存使用率”的信息增益:

Gain(D,内存使用率)=0.699

显然,内存使用率的信息增益最大,故选择其为划分属性,然后可构造出如图1所示决策树。

综上所述,只需再引入设备运行时间、运行环境湿度和温度等属性信息,再分别计算对应的Ent(D)、Gain(D,设备运行时间)等信息,依次比较出每次划分的最大信息增益,即可构建出最终决策树模型,实现智能预测。

3 总结

将决策树应用于高校实验室管理平台,能解决传统实验室信息化管理平台效率低下问题。其中,HDFS、MapReduce等技术的应用实现数据快速并行计算,决策树模型的应用实现智能预测。从而解决实验室设备故障预警、防火预警和防盗预警等实际应用场景中的问题。同时,使得实验室管理更加规范化、秩序化和科学化,适应不断提高的实验教学要求。

参考文献

[1]王帅国。雨课堂:移动互联网与大数据.背景下的智慧教学工具[J].现代教育技术,2017,27(05):26-32.

[2]张淡,曹健,面向大数据分析的決策树算法[J].计算机科学,2016,43(S1):374-379+383.

[3]孟小峰,慈祥,大数据管理:概念、技术与挑战[J].计算机研究与发展,2013,50(01):146-169.

猜你喜欢
实验室管理决策树预警
一种针对不均衡数据集的SVM决策树算法
法国发布高温预警 严阵以待备战“史上最热周”
决策树和随机森林方法在管理决策中的应用
园林有害生物预警与可持续控制
关于实验室管理的研究
基于决策树的出租车乘客出行目的识别
机载预警雷达对IFF 的干扰分析
基于肺癌CT的决策树模型在肺癌诊断中的应用