基于ITIL的政务云运维管理平台设计与研究

2018-04-19 06:15陈喜珠谢炜裴俊豪
电信工程技术与标准化 2018年4期
关键词:政务运维流程

陈喜珠,谢炜,裴俊豪

(湖南省邮电规划设计院有限公司,长沙 410026)

1 ITIL

ITIL(即IT基础架构库)是英国商务办公室(OGC)从20世纪80年代开始开发的一套企业IT管理服务标准库。它把英国各个行业IT管理的最佳实践归纳起来变成规范,旨在提高IT资源的利用率和服务质量,目前已经发展成为一套IT服务管理的事实标准。IT服务管理是目标,ITIL是工具,强调的就是流程、人员和技术三大要素的有机结合,IT服务管理在实施过程中不仅部署管理工具,同时将根据企业的具体情况制定人员的岗位职责,并设计日常工作流程,以及突发事件管理和问题管理流程等。参考ITIL来规划和制定IT服务管理,从而确保IT服务管理能为企业运作提供更好的支持,总体来说,应用ITIL实现企业的IT服务管理,可以实现IT与业务的整合,在提高IT服务质量的同时,降低IT的运作成本。

2 政务云

政务云是云计算技术在行业云应用的一种,它是由政府主导、企业建设运营的综合服务平台,旨在提升政府效率,促进政府部门之间的互联互通和信息共享和增强政府部门对公众的服务能力。

目前,电子政务的建设正由传统的粗放型分散建设方式,向集约型云计算模式转变。针对建设模式,政务云可分为政务公有云和政务私有云,政务公有云可直接托管在一些可靠的对外服务的公有云(如BAT公有云和运营商公有云等)之上,直接购买服务;而政务私有云则需要政府部门建立自己的云计算数据中心,用以承载云计算资源,这就对实际的运行维护和管理提出了更高的要求。本文研究对象是政务私有云,为确保政务云资源交付的敏捷性和灵活性,提升资源的使用效率,同时提供全网资源的统一运维、自动监控、故障预警处置等信息化管理,建设一套专门针对云计算服务的运维管理体系是十分有必要的。

3 政务云运维管理面临的挑战

云计算在改变电子政务传统IT建设模式的同时,也给政府部门IT运维管理模式带来转变。主要体现在表1几个方面。

这些变化和区别给传统的政府部门IT运维管理带来新的挑战。

(1)需要明确运维模式。政务云主要承载各委办局的业务,涉及各委办局的客户及相应的开发商及维护商,还有政务云平台的建设方、运维方,理清分工界面很重要。

(2)客户服务能力要求更好。需提供给用户准确及时地服务响应,需依靠自动化管理工具来实现用户自助服务。

(3)运营维护质量要求更高。需更高的技术能力支撑和全流程的业务分析和问题定位能力。

(4)内部协同能力要求更强;需要建立相适应的维护和管理制度,实现流程化的协同。

(5)有效控制IT建设及运营成本。需完善的财务管理制度和全面的运维服务统计分析能力。

4 基于ITIL政务云运维管理架构设计

ITIL作为IT服务管理的最佳实践,为政务云运维管理提供了一个客观、严谨的标准和规范。能够主动发现系统中存在的问题,以流程贯穿整个运维管理过程,切实保障政务云平台可靠、稳定、高效地运行,综合监控、统一运维和对外服务,实现自动化运维管理和云运营,全面提升平台用户的满意度,提高运维部门的服务质量。

政务云运维管理平台以CMDB(资产及配置数据库)为核心,集中监控为基础,服务为导向,整合ITIL的服务台、事件管理、问题管理、知识库、财务管理等关键流程,完全从用户的角度出发,将业务管理与IT 管理进行有效融合。政务云运维管理平台具体架构如图1所示。

5 运维管理平台功能模块

5.1 综合监控管理平台

通过专用工具和手段对整个网络运行参数进行全面、系统、深入的采集。综合监控管理不仅能够对服务器、网络设备等IaaS层设备进行监测,同时还具备中间件、数据库等PaaS、DaaS层监控能力,另外还需具有强大的SaaS层应用软件监测功能,从应用可用性、系统资源占用和性能指标3个层面进行全面深入的监测管理。并且以视图的方式显示资源的运行状态,当出现故障时可以快速定位到设备,告警自动产生,自动按照可用性或容量进行分类,自动派发给相应的岗位,实现事态流程的自动化。

综合监控管理由统一采集与控制、IT基础设施监测、应用监测、平台及数据监测、控制管理、综合展现、接口管理、性能指标库等组成。如图2所示。

表1 传统模式与云模式

图1 政务云运维管理平台架构

图2 综合监控管理平台

5.1.1 数据采集方式

首先,要对基础设施、平台及数据、应用系统的运行状态和性能数据进行实时监控,需考虑数据如何获取,这是运维管理平台的第一道关口,也是基础。目前比较常用的数据采集方式有探针、日志采集等。

(1)探针方式:探针的组成包括分光器、汇聚LAN Switch及探针服务器,探针通过分光器获取到数据网络中各个接口的数据,然后发送到探针服务器进行解析、关联等处理,最后将数据送到监控平台上进行进一步分析和展示。

(2)日志采集:任何一个生产系统在运行过程中都会产生大量的日志,需要将分散在各个系统中的日志收集起来,目前应用广泛的日志采集工具有Cloudera的 Flume、Facebook的Scribe等。具有较高的可靠性、扩展性、管理性。

5.1.2 监控内容

(1)IaaS层监控:对IaaS层的监控管理包含监控机房实时环境,监测网络设备、存储、安全设备、主流操作系统的服务器或集群的运行状态和性能数据,包括设备的基本信息、负载、内存利用率、文件系统、磁盘空间和吞吐、事件与错误日志等信息的分析与监视,帮助用户及早发现基础设备的性能瓶颈与故障隐患。

(2)PaaS层监控:根据监控策略实现对操作系统、数据库以及应用服务中间件运作状态的监控,提供包括配置信息、连接池、线程队列、负载监测、通道情况监测等多类监测组,分析与监测中间件的各项运行状态参数。同时在提供相应数据获取和服务测试接口的情况下实现对服务总线、服务接口等相关资源的运行状态监控、性能监控、负载监控以及异常自动告警;从服务接口的在线率、访问量、访问成功率、响应速度等方面对服务质量进行评价和排名;基于监控日志,从地区、应用、时间、频度等多个方向,对应用服务资源运行情况进行统计分析。

(3)DaaS层监控:对数据库、数据源、数据对象、ETL服务引擎、ETL作业的运行状态进行自动的、持续的监控,代替人工巡检。系统发现异常信息时及时生成告警记录,并根据配置的方案通过图形化界面、短信、邮件通知相应资源管理责任人。

(4)SaaS层监控:提供对应用服务层的基础信息、连接测试、基本负载等重要信息的监测。能够有效实时地分析HTTP/HTTPS、DNS、FTP、DHCP、LDAP等通用服务的运行状态和参数,深入分析服务响应速度变化的技术原因和规律,从根本上解决服务响应性能的问题,并能主动检查某业务相关环节的健康性,并生成相关业务视图,以便于监控。

5.2 资产及配置管理

如图3所示,资产配置管理库(CMDB)是衔接技术与管理的关键数据整合层。首先把生产环境中的各类硬件、软件、数据库、网络、业务、文档、虚拟资源等分门别类并建立好相应的数据模型,并从综合监控管理平台进行数据同步、手工录入、第三方数据同步等多种手段结合,通过配置采集接口完成CMDB数据的初始化。由于来自于各个采集接口的数据存在不一致的情况,还必须在CMDB内部对同一资源进行唯一性识别并建立调和规则。CMDB初始化完成后,即进入维护阶段,可利用关系可视化工具查看配置项关系,并对日常配置项变更进行控制。

图3 资产及配置管理数据库

(1) 基础服务层:基于关系数据库的逻辑存储,并实现资产及配置管理基础性功能。

(2) 数据服务层:提供对资产及配置管理数据库的配置数据访问操作并提供对外接口,向周边系统提供平台的数据访问服务。通过数据服务层提供的功能模块实现被管理对象的自动发现,为周边系统提供配置项同步和映射服务。

(3) 数据应用层:实现的对配置数据的使用,包括对外服务、统计分析等功能。

资产配置把零散在各处的不规范的资源信息,通过采集,汇聚在整体规划的数据库中,打破了管理模式之间的固有壁垒,通过识别、控制、维护、审查、展现IT资源,为技术监管、管理流程和业务服务提供准确、统一的配置数据支撑,帮助信息部门有效管控不断变化的IT环境与服务。

5.3 运维管理流程

将ITIL理论与政务云实际情况相结合,建立基于ITIL的流程化管理,对整个政务云管理的行为和工作进行规范化,对事件、问题、变更、发布流程以及各种服务请求进行智能的分配和详细的记录;对于人员的工作进行正确合理的评价,发现工作中的问题,从而对服务质量实现持续改进,不断提高对核心业务的支撑。ITIL流程化运维示例图如图4所示。

当前,政务云运维流程管理可进行如下设置。

图4 ITIL流程化运维

(1)服务目录。通过服务目录可以定义服务的服务名称、服务描述、服务目标、服务时间、服务客户、服务范围等内容。服务定义完成后可以对服务进行统计和分析,了解服务与资源、服务与请求的关系。能够接收需求管理流程输出的需求设计内容,针对新或变更需求确定其IT服务及服务目录。

(2)资源需求管理。建立云资源申请、调整、回收等业务流程,实现云资源业务的自动化处理。在流程运转中即开始相关资源的交付和分派,审批通过后系统将自动根据申请要求进行相关资源的准备,并最终将相关服务交付到申请人,实现自动化交付。

(3)IT财务管理。主要实现对IT预算和成本的管理,能够根据成本模型计算出每项IT服务的总体成本,并能查询到各个成本细节,可作为IT部门年度报表的数据支撑。

(4)服务连续性管理。确保IT部门提供的IT服务具有服务连续性的计划,支持从风险分析到服务连续性方案的定制。支持每个IT服务连续性信息的记录、修改和删除;支持服务连续性管理规范中所定义的信息项数据类型,并支持对这些信息项进行客户化修改,如连续性要求分类、灾备级别等;支持服务连续性工单的流转和审批;支持将服务连续性管理中的任务分配到相应的支持角色和个人;支持方便的定义自动升级处理的时间阀值。

(5)配置管理。能够快速完成虚拟机等云计算资源的创建、变更、删除等操作,即时满足用户对资源的动态需求。

(6)事件管理。将政务云维护范围内的所有与政务云基础架构和应用相关的申告、故障、业务处理和咨询服务请求等事件,由事件报告人通过电话、电子邮件、Web系统等方式将事件信息报告给服务台或其他拥有事件录入权限的用户,并以工单形式提交给相关人员进行处理。

(7)问题管理。对一个或几个已暂时处理但根本原因尚不明确的事件,需要查明错误产生的根本原因,以问题工单的形式,按照问题管理流程,在各部门间流转。当运维人员接到问题工单后,可查看问题的详细信息,并对其进行处理。

(8)变更与发布管理。当问题工单通过调查和分析发现问题产生的根本原因,但不能制定恰当的解决方案从根本上予以解决时,问题工单需要通过变更提交变更请求,从而通过实施必要的变更从根本上消除问题的根源。

(9)知识库管理。将平时运行维护的案例、经验等信息沉淀到一个统一的知识数据库中,使之能够在日常的维护工作中提供信息支持。在故障自动处理和人工处理的过程中通过在知识库中检索相关故障维护的分类和快速定位,找到匹配的处理案例,加快故障和问题的解决速度。

(10)安全管理。主要是实现IT信息安全管理流程的流程控制功能,确保信息安全流程中的各项活动得到执行。能够建立信息安全管理的工单,该工单定义信息安全管理的各项活动,例如制定安全策略,宣传、培训安全管理要求,评估安全风险,实施安全风险控制等活动,并为这些活动分配责任人和时限。具体安全管理的任务需要使用外部专用的安全管理系统实现。

(11)供应商管理。主要是实现供应商管理流程的功能,包括供应商信息的维护,供应商工作的管理,合同执行情况监控以及供应商评价。

(12)运营分析与考核。主要是实现指标管理、运维质量、评估考核的功能。建立IT运营关键质量体系,及时展现运营情况,实现运营透明化。

5.4 组织保障体系建设

(1)优化组织机构设置,提升维护人员技能水平。评估政务云集中建设和运营的资源需求,逐步充实IT维护部门的技术人员力量,合理调整人员的配置。加强技术人员的能力培养,重点需要加强需求管控、业务分析、故障根源分析等专业技能培养。

(2)建立政务云运维管理制度和流程,规范维护管理运作。制度和流程是政务云运维管理推进实施的保障,是政务云运维管理平台业务流程及规则固化的依据。根据政务云实际需求修订和完善运维管理流程和制度,并梳理调整技术人员岗位职责,编制各岗位职责说明书,适应政务云统一运维管理的流程化管理需要。

6 结束语

本文介绍了ITIL和政务云基本概念,分析了云计算给政府部门IT运维模式带来的变化,并提出了基于ITIL的政务云运维管理流程与方案。通过该平台的建设,可以显著提高资源交付的灵活性,提升资源的使用效率,为上层业务提供不间断地资源保障与可伸缩的资源供给,完成对政务云全部资源的有效管理。

政务云运维管理的完善涉及到运维组织架构及人员调整、管理制度和流程梳理、平台建设等众多工作,运维管理建设真正满足业务需求是一个长期的过程。

[1] Jan van Bon.IT管理框架[M]. 北京:清华大学出版社,2009.

[2] 方力,沈鑫,叶昭晖. 基于ITIL理念的高校云服务资源管理研究[J]. 中国信息界, 2012(12).

[3] 王建宇,苗恕宾. 浅谈ITIL技术与云管理平台的融合应用[J].中国管理信息化, 2016(8).

[4] 董惠亚,薄剑勇. 政务云计算中心运维管理系统的研究[J].宁波大学学报.

猜你喜欢
政务运维流程
吃水果有套“清洗流程”
运维技术研发决策中ITSS运维成熟度模型应用初探
风电运维困局
违反流程 致命误判
杂乱无章的光伏运维 百亿市场如何成长
政务
政务
政务
政务
本刊审稿流程