高校数字校园框架下的运维管理系统开发与应用

2019-02-18 11:34陈顺平朱智宇
教育现代化 2019年104期
关键词:工单页面运维

陈顺平,朱智宇

随着高校数字校园软硬件规模不断扩大,新应用、新设备相继投入使用,数字校园的各个应用给师生提供的服务已经成为了日常学习、工作和生活必不可缺少的一部分。与此同时,计算机机房及办公场地配套的环境设备也日益增多,这就导致其管理的难度大大增加,维护人员常常疲于应对,故障处理效率难以保证。所以,高校信息中心迫切需要一套能够提供7×24小时,全网不间断监控的运维系统,来及时发现各类设备运行中存在的问题、并及时定位故障,协助运维人员进行及时有效处置。

一 研究现状

在运维系统研究和开发方面,经历了几个阶段:早起由于入网设备和系统及用户较少, 用户对网络故障的处理时效性要求不高, 采用传统的手工维护方式就能满足需求。此类方式,常见的如:维护人员携带笔记本,直接在设备存放现场,通过串口方式接入设备并用系统自带命令进行故障维护,或者直接现场排查故障点后进行硬件模块更换。随着,信息化程度的不断深入,设备维护和用户需求越来越高,基于网络的运维工具随之孕育而生,如:常见的Secure CRT、Putty等,借助此类软件工具,能帮助运维人员通过网络远程方式,异地处理故障,很大程度上缓解了运维压力。再之后,由于设备系统类型越来越多,设备技术架构和故障类型越来越复杂,专用的运维管理系统响应而生,比较有代表性的如:摩卡、北塔等,此类系统功能强大,但一般主要针对同类硬件设备故障运维。

当前,随着高校信息化建设工作的推进,在数字校园框架体系下,设备、系统、用户不但数量庞大,而且类型各异,所以运维人员迫切需要一种既能满足设备运维,同时又能满足软件数据维护需求的运维系统,同时能集成状态监控、故障发现、预警告知、工单处理、资产管理等功能模块,满足运维工作中各方面的需求,同时减低多套系统建设成本的投入和运维人员技术操作的难度,另外网络安全也是当前运维工作中一个研究的重点。国内方面,如:赵冰冰[1]就在《IT化网络运维的探索与应用》提出了一种模块化的运维系统设计思路,论述了当前运维系统应该具备的一些基本功能模块构成;刘红梅,陈刚等[2]详细介绍了一种基于组织、流程、IT的集中故障管理改革创新实践模式,并对故障处理工单功能在运维系统中的实现进行了介绍;付强[3]在其研究中就特别指出了新形势下,网络安全运维的重要性和安全运维工作的关注点。

二 数字校园运维管理的需求

在数字校园框架体系中,各类网络设备是基础设施,如:光纤线路、交互设备、服务器、存储等;在此基础上,通过虚拟化、共享数据仓库等技术手段为上层各类应用服务提供服务和数据的支撑;上层则通过统一身份认证和服务总线方式调用来自如:OA、教务、财务、科研、一卡通等应用系统的中的数据服务,并基于信息门户手段为不同用户提供个性化的应用服务[4]。图1为高校典型的数字校园的技术框架图。

基于数字校园技术框架,我们针对网络运维需求梳理如下。

(一)网络设备的管理需求

图1 高校数字校园技术框架体系

各类网络设备,包括:交换机、无线AP、服务存储等,是数字校园的基础设施,其中交换机是数字校园运行的心脏,每台换机都直接影响着众多师生的上网情 况和使用情况,而高校数字校园框架体系中,交换机数量往往就有几百台;服务器存储设备是各类应用承载的基础,其关键指标,如:CPU内存使用率、磁盘空间、IOPS、设备流量等,直接影响各类应用服务的稳定性;另外,当前各高校都自建了自建的IDC数据中心机房,机房的温度、湿度、供电等动环因素也是直接影响各类设备正常运行的关键。鉴于以上复杂情况,单靠传统的人力的巡检,已无法满足数字校园高稳定、高可靠性的运行需求。

(二)数据应用的管理需求

在数字校园框架体系下,数据是核心,各高校一般都在建设有数据仓库,用于集中存储各类应用服务需数据,常见的结构化数据库包括:Oracle、SQL Server、Informix等,非结构化的如:MongnDB、HBase等,此类数据库的实时链接数、响应时间、数据查询效率等关键指标也是服务稳定的重要保障;另外,在应用层面,各类系统,特别是B/S架构的系统,页面防篡改、HTTP请求时间、中间件连接数等,都是日常运维中必须关注的重点对象。

(三)运维工单管理的需求

运维工单是对数字校园运维过程中的各项故障、任务进行线上管理的凭据。运维工单一般包含两个部分,一个是手动工单、一个是监测程序的自动工单。通过运维工单的线上流程化管理,可以建立运维管理人员和用户、设备以及各类资产的相互联系,也可以建立网络中心的责任机制,为各类运维工单进行跟踪、管理、派发、绩效考核等工作提供依据。

(四)设备资产管理的需求

随着网络信息中心采购的设备、资产越来越多,设备资产的管理成为网络信息中心的一项繁重工作。区别于国资处的资产管理,网络信息中心的资产需要解决的是在线巡检、资产的实时识别、资产的报修、外借等问题。网络信息中心的资产管理需要完成内部管理的有序、网络设备的可用、设备寿命年限的评估、更新迭代的分析等需求。通过IT资产管理,可以提高网络信息中心的工作效率和服务质量,为设备的采购、更新、售后提供支撑。

(五)移动运维管理的需求

当前,对于运维工作的要求,越来越强调实时性、便捷性,高校信息中心的运维人员长期需要外出进行故障处理,所以针对各类故障信息需要能够及时方便的获取相关信息。随着移动设备和应用的普及,这也给移动运维提供了可能,通过在移动端按照运维软件,可以将各类故障告警信息、设备运行数据、用户报修申请直接发送到运维人员手机上,方便后续跟踪处置。

三 数字校园运维管理系统的开发

(一)运维管理系统功能模块

根据前期开展的系统建设需求分析,运维管理系统规划了5个主要功能模块:设备监控模块、系统监控模块、故障预警模块、资产管理模块、工单管理模块。

设备监控模块:主要涵盖下图2中交换机监控和其他网络设备监控,该模块基于SNMP协议对各类网络交互设备进行轮询,定时采集网络设备的网络流量、端口运行、CPU使用、内存占用、磁盘存储等关键硬件指标信息。由于SNMP是标准协议,所以采用SNMP协议机制,能方便运维人员及时监控数字校园中的各类交换机、服务器、存储等网络设备。

平台监控模块:主要针对下图中信息门户、网站等各类Web信息系统平台的页面安全性、服务畅通性、中间件和数据库稳定性进行监控;监控采用的主要技术手段主要包括:网页防篡改技术、数据线性采集技术等。通过系统设置的计划任务,对各类应用服务系统进行定时检测,监控系统的正常性、安全性、稳定性。

故障告警模块:基于监控模块获取的数据,通过Cache缓存技术及相关算法,可自定义监控参数,如:监控监测频率、响应时间阈值、异常报警阈值、最大报警次数。并基于可视化技术,以友好的界面为运维人员提供直观的故障预警信息,同时通过调用微信、电子邮件、MAS短信等接口,将告警信息及时传送到运维人员的终端设备。

资产管理模块:运维系统根据需求添加已有的IT资产信息,主要包括:资产设备类型、品牌、型号、规格、价格、生产厂家、供应商联系方式等,同时为资产生成唯一二维码,使用手机扫描即可展示资产信息,生成扫描记录,方便管理人员了解资产动态,并能根据资产使用情况进行统计报表。

工单管理模块:主要包含报修系统提交的手动工单和运维系统自动监测到的自动工单。平台根据之前预设的工单责任人,会对工单进行自动派发,委派给相应的责任人,工单管理员可以根据实际情况对工单进行责任人的修改和扭转。工单完成后,用户可以对工单进行评价和跟踪。

图2 数字校园运维系统各功能模块

(二)运维系统关键技术

基于SNMP协议采集网络设备状态信息,实现网络设备监控功能:SNMP(简单网络管理协议),是IETF提出的一种通用协议。目前,各类主流网络设备商,如:CISOHUAWEIDELLHP等都支持该协议组[5];基于该协议,能接收来自网络设备中的相关事件报告,从而帮助运维管理人员获知网络中出现的问题[6],如:CPU内存使用率、磁盘占用率、网络端口状态、网络流量情况等。下面给出的就是在linux环境下,在安装了SNMP协议包的情况下,通过snmpwalk命令查看设备信息的方法。

snmpwalk -v 1 -c SNMP Password IP OID

其中:v指定SNMP的版本;c指定连接对象的主机口令

IP指定对象设备网络地址;Oid 指定要读取设备 指标

下面给出的是SNMP协议中常用的Oid用途。

表1 SNMP协议中常用的Oid

基于防篡改技术监控Web页面安全性,实现对网站/平台的监控:通过爬虫程序定时抓取被监控对象的Web页面;针对爬取的页面与原系统备份页面进行对比分析;如发现页面文件大小、修改时间、摘要信息发生改变,则发送页面被篡改告警。由于该技术需要定期对被监控对象进行计划操作,如:定时页面爬取、页面文件摘要信息生成等,所以会产生额外的系统开销,所以如何优化以上任务操作机制,则是决定此类服务优劣的重要因素[7]。下面介绍的是两种页面文件摘要信息的生成机制。

识别Web页面是否篡改,最有效的手段就是分析页面文件的摘要信息。当前,文件摘要算法主要包括:SHA和MD5,表2是不同算法的计算效率。

表2 两类算法进行文件摘要信息处理速度

根据以上分析,在计算较小的文件时,算法计算速度无明显差异;在进行大的文件摘要信息处理时,MD5优势明显。在本系统设计中,我们采用的就是MD5摘要算法。

基于J2EE技术框架进行运维系统开发,实现运维系统的整体开发:J2EE体系结构提供中间层集成技术框架,用于解决低成本的应用程序的高可用性、高可靠性和可扩展性的开发需求,大大降低了开发分布式应用的成本和复杂性,并且支持Enterprise JavaBeans和应用程序集成。整个平台打包方便,易于部署[8]。本系统采用的是最为典型的三层结构开发,分为表现层、业务逻辑层和数据服务层。业务逻辑、数据操作及合法性校验等工作放在业务逻辑层处理。客户端通过组件与中间层建立连接,再由中间层与数据库交互。另外,J2EE体系下的Spring技术框架技术+HTML5+CSS能方便的定制系统移动端程序。下面给出的是在J2EE框架下,JAVA编写的一段代码,通过先定义SNMP服务类指定Oid,采集218.196.*.* 主机的CPU和RAM 使用率。

import java.io.IOException;

public class Demo {

public static void main(String[] args) {

SnmpService snmpService = new SnmpService();

SnmpModel snmpModel = new SnmpModel();

snmpModel.setIp("218.196.*.*"); snmpModel.setCommunityName("public");

snmpModel.setHostIp("218.196.*.*");

snmpModel.setPort(161);

snmpModel.setVersion(1);

System.out.println("cpu利用率:"+ snmpService.getCpuUtilization(snmpModel));

System.out.println("RAM 使用率:"+ snmpService.getMemoryUtilization(snmpModel));

}

}

四 数字校园运维管理系统的应用

(一)系统的部署实施

数字校园网络运维管理系统支持多种部署方式,既能实现在高校本地校园网中的部署,也能实现适合范围广的远程部署模式。系统采用Browser/Server体系结构,提供Windows和linux版本,完成系统安装后,运维服务人员只需要在显示器上安装浏览器就能访问,客户端零安装、零维护,系统扩展非常容易,同时支持移动端使用。

图3 数字校园运维系统的部署

(二)系统的效果展示

系统采用AJAX异步刷新技术,实时展示对园区各类B/S系统、各种类型的数据库、服务器、交换机等软硬件设备的集中监管,通过条形图、饼状图、百分比以及颜色的不同来表现资源使用情况,并利用实时刷新、滚动、轮播的方式推送最新数据,让用户第一时间发现故障异常。平台还可以根据不同的运维需求进行个性化的参数配置,记录资源运行情况,针对异常情况发送预警信息,使用户即时掌控各个资源的异常状态,降低故障的发生概率。图4给出的是系统的综合监控首页,运维人员可以及时方便的掌握各类监控设备和应用的运行状态。

另外,根据前期需求规划,系统还附带了工单和资产管理模块,采用Hibernate技术开发,并通过:Session、SessionFactory、Transaction、Query和Configuration核心接口,对持久化对象进行存取和事务控制。Hibernate能实现对JDBC进行轻量级对象封装,适用场景多样,能够很好的支持运维管理系统的前后台程序开发。图5给出的是运维管理系统的故障报修工单模块效果。

(三)系统的应用价值

数字校园运维管理系统在投入应用后,给高校信息中心带来的收益是显著的,主要体现在以下方面。

* 问题主动发现,准确定位故障;

* 对软硬件性能的实时监管和预警功能;

* 实时性能状态、数据分析、统计图表一应俱全;

* 提供数据分析,给性能调优提供参考和依据;

* 人性化工单管理,大大降低监控和维护的人力成本;

* 提高信息化运维服务水平,规避故障所带来的损失;

* 提供7×24小时不间断的稳定监控,及时发现故障并预警。

图4 数字校园运维管理系统的监控页面

图5 数字校园运维管理系统的报修工单模块

五 结束语

综上所述, 在数字校园框架体系下,运维管理系统的开发与应用,能有效管控校园终端设备、网络链路、网络资产、服务器、交换机、数字校园子系统,由于一体化的设计,结合工单和资产等模块,解决了运维管理人员操作不同系统,多头管理的现象,提高流程化管理水平、缩短故障响应时间,降低了技术部门的压力和人力投入,有助于高校数字校园的运维质量和服务水平的提升。

猜你喜欢
工单页面运维
客服工单监控技术的开发与研究
刷新生活的页面
基于量化考核的基层班组管理系统的设计与应用
答案
运维技术研发决策中ITSS运维成熟度模型应用初探
风电运维困局
杂乱无章的光伏运维 百亿市场如何成长
基于HANA的工单备件采购联合报表的研究与实现
基于ITIL的运维管理创新实践浅析
电力95598热线全业务集中后的工单预警机制