ITSS过程要素在IT运维管理中的实践

2021-12-29 10:12
科学与信息化 2021年8期
关键词:运维要素故障

无锡城市职业技术学院 江苏 无锡 214153

引言

随着我国教育管理信息化水平的不断深入,目前大多数高校,在信息化项目的建设上,已完成了多种业务场景的应用系统建设工作,例如教务管理信息系统、财务管理信息系统、后勤能源管理信息系统、办公自动化协同管理系统、校园一卡通系统等应用系统,信息系统的建设已具一定规模,对这些系统的运行维护提出更高的要求。

为做好IT运维服务工作,用ITSS(Information Technology Service Standards,ITSS)标准来规范日常的IT运维管理工作。ITSS是在工信部、国家标准化管理委员会指导研制的,是我国IT服务行业实践的总结和提升,是一套在IT运维实践中可参照执行的综合配套的信息技术服务标准库,在实施各类信息技术服务时作指导和参考。

1 IT运维目前存在的问题

总体来讲有以下几点:①被动地服务于业务,需求响应不及时;②能够为各部门或用户提供专业的服务,但是当涉及跨业务领域的问题时,存在由于各自专业都未触及的知识复合地带,导致沟通困难,影响服务质量。③存在“重技术,轻服务”现象。④以流程为导向,以服务师生为中心的理念不够到位。⑤缺乏统一的服务平台。⑥整个系统缺乏统一的共享支撑平台[1]。

2 过程要素的识别和实践

IT运维服务有四个服务要素组成,本文着重点在过程要素。过程要素是IT服务的四个要素之一,与其他要素相比具有—定的独特性,在多数情况下,过程不是显性的,通常看不见、摸不着。但在面向客户的IT运维服务过程中是实实在在存在的,为了服务好师生,交付特定的IT需求,就需要去挖掘梳理这种在工作中“默认”的过程去实现交付目标。

在IT运维过程中,客户的IT服务需求是通过—个个过程及相关活动来实现的,过程要素是IT服务需求实现的保障,过程活动的贯穿使服务更加标准化、规范化,进而服务产出更加标准、稳定。

过程及过程管理的优劣直接关系服务效率和效益。未明确识别定义的过程在服务实践中难以标准化,服务质量难以把控,也无法准确衡量,因此需要对过程进行识别和明确定义。

识别需要的过程及过程目标

在IT运维实施过程中,需要对管理流程进行梳理,融合业务服务,构建适合业务发展及管理需求的管控流程,建立与之配套的、与IT系统特点吻合的、对运行管理起到支撑作用的服务管理体系,搭建具有懂技术、会业务、经验丰富和技能精湛的跨专业的人才结构队伍。

过程要素一般包括需求管理、事件管理、问题管理、变更管理、发布管理、评价管理、操作管理、任务管理、知识库管理等管理过程。

在IT运维管理实践中,常常设计以下IT服务管理的过程要素。

2.1 服务台管理

服务台采用电话、邮箱、网络等方式受理,受理后一定要把问题落实好,如果热线无法处理问题,而是简单地接转给相关技术人员,则技术人员仍处于随时待命的状态,服务资源并没有节省,同时让用户重复问题。在实践中会有这样一个现象,真正想解决问题的用户,通常会绕过服务台,直接与技术人员联系。

2.2 事件管理过程

对发生的事件进行记录、对事件进行分类并安排人员处理事件并监督整个处理过程直至事件得到解决、关闭的过程。

事件的分类:从技术的角度可以分为硬件、软件、网络、数据库、接口、业务类型等几个类别。从用户角度可以分为有故障、请求、咨询、新需求、投诉、回访等几个类别。

事件的等级:按照事件要求分为5个等级,等级越高的事件,表示越严重,需要优先解决。

事件的状态:事件状态表示事件当前的处理状况,分为创建、分配中、处理中、等待中、解决、关闭等。

事件处理的两个指标:处理一个事件时,有两个要素,一是处理事件花费的时间;二是处理事件花费的资源量。

事件与变更管理、问题管理和知识库管理是需要集成考虑的,事件处理过程中可以直接发起变更申请,也可以发起问题申请和知识库管理申请。

2.3 问题管理过程

在IT运维处理各种故障中,大约有40~60%出现的是重复性问题,技术性问题只占20%~30%,流程失误方面占40%,人员疏忽方面占40%。

IT运维主要问题集中在以下三方面:

(1)网络层面:①设备物理故障:电源掉电;②网络掉线:设备故障、链路阻断或者设备老化不可靠;③网络边界:PC设备、打印设备、无线设备非法接入;④流量异常:如病毒爆发、BT下载;⑤安全认证:随意更改IP地址、安全事件审计;⑥其他故障:木马攻击、ARP欺骗。

(2)应用层面:①应用服务的及时性、并发性下降。②基础软件运维故障:操作系统、数据库系统、中间件、语言处理系统和办公软件等系统停止工作,进程运行情况,数据库连接、日志、备份等情况。③支撑系统运维故障:建模软件、集成开发环境、开发管理软件、逆向工程软件和再工程软件等支撑软件停止工作。

(3)桌面层面:①桌面维护:大量桌面(包括云桌面)的维护工作(系统漏洞补丁、重装系统、安装应用软件、端口策略等)。②桌面系统硬件配置资产清单不清。③图像与音视频设备、视频监控设备、会议系统设备、硬件设备虚拟化等。④桌面安全策略无法维护。

2.4 配置管理过程

配置管理流程将IT资产分类和分级,对资产的配置信息的增加、删除、改动的活动有记录,能快速地搜索到使用的配置物品,提高管理水平。配置管理的应用,将有助于明确设备资产资源的使用状况,统一管理设备,使设备信息一致化,使设备资源达到最佳利用率。

2.5 变更管理过程

主要是对设备使用现状及设备替换的管理。对每项变更都必须能够有申请、分析、审批决策、实施、验证等过程,要充分考虑变更所带来的风险、实施是否成功、业务部门是否满意和变更后是否有负面影响等。变更管理的过程,能有助于改善服务质量和优化设备利用率。

2.6 发布管理过程

发布管理主要是应用于软件方面的发布,要对发布进行记录,并对配置项进行更新。在运维管理过程中,凡是有可能影响设备正常使用的重大技术信息如定期性系统测试报告、软硬件的版本更新及管理报告等都应该纳入发布管理。

2.7 信息安全管理过程

目前信息安全管理主要依据的国际标准是ISO27002信息安全管理实践规范。该标准规定了建立、实施、维护和持续改进信息安全管理体系,还包括信息安全风险评估和处置要求,共包含35个安全类别以及114项控制[2]。

2.8 知识库管理过程

IT服务知识管理的目标是将运维过程中产生的各类信息所包含的知识进行提取、保留,通过评审后加以应用。将知识范围大致分为三类,以设备应用为核心的技术类、以标准流程规范为核心的管理类以及以用户为核心的服务类。

通过知识库的建立,把个人知识转化为组织知识,可以快速检索与获取,在客户响应速度和业务熟练度方面有了显著的提高,提高所有运维人员的个人能力,逐步由忙乱无序向有条不紊的学习型组织过渡,进而提高整体IT运维团队能力,实现利用知识创造价值的目的。

3 过程要素的评价考核

实施IT运维管理工作,须构建绩效考核体系,以量化指标为抓手,量化的指标越多,考核就越全面。过程要素评价的指标有事件解决率、变更成功率、发布成功率、信息安全事件数量等等,但很多指标在实际运维工作中难以细化,难以用数据测量和记录,在设计绩效考核体系时采用定性定量相结合的办法。以下列举几个较为常用的量化考核指标:

指标一,平均无故障时间:按考核周期,规定各种软硬件在考核周期内出现故障的次数。该指标可以促进运维人员加强日常对运维对象的监控和例行检查,把一些故障杜绝在萌芽状态,从而减少故障的出现。

指标二,事件响应时间:按每个事件考核,一个事件发生后,从报修到着手开始寻求解决的时长。根据设备的重要性对故障的影响进行分级,等级越高的故障,其事件响应时间就应当越短。这是考核事件是否得到及时解决的一个关键量化指标,可以促进运维人员处于快速响应的工作状态。

指标三,客户满意度:根据解决问题的能力、态度、及时性等确定。考核运维人员的服务意识,沟通交际能力等多方面素质[3]。

4 结束语

过程要素集聚的背后,实质上是人员、技术、资源等构成的IT运维生态带来的“磁吸效应”。在IT运维过程中,对工作技能低、工作意愿高的人员,要进行指导、帮助;对工作技能高、工作意愿高的人员,要给予更多信任与授权,做好技术岗位的培训,充分发挥资源的最大作用,才能做好IT运维工作。

在IT运维的实践中,对ITSS过程要素所涉及的场景不可能都制订出严格的操作规程,所有的过程都细化到标准操作程序也是不可取的。另外,在IT运维实践中,过程会因客户需求的变化、过程本身设计等原因,而做周期性的动态调整。

猜你喜欢
运维要素故障
高速公路智能运维平台
掌握这6点要素,让肥水更高效
故障一点通
智能+时代的新运维
——2019(第十届)IT 运维大会特别报道
配电线路的运维管理探讨
奔驰R320车ABS、ESP故障灯异常点亮
也谈做人的要素
2015年8月债券发行要素一览表
故障一点通
江淮车故障3例