清华大学强化管理提高数据中心服务能力

2012-08-28 02:40戚丽刘乃嘉居立
中国教育网络 2012年10期
关键词:清华大学级别数据中心

文/戚丽 刘乃嘉 居立

从2000年左右开始,校园数据中心历经十多年的变化,很多高校已经基本完成了数据中心的基础环境建设,校园数据中心已经成为数字校园建设的必要环节。如何做好数据中心的运营管理工作,使之能够不断满足学校的信息化建设需求,不断为信息化用户提供服务,是越来越多高校关心的话题。

我们总结清华大学数据中心多年来的建设管理经验,简要分析了当前阶段校园数据中心的管理工作组成内容,并以清华大学数据中心为例,介绍了清华大学数据中心的运营管理与服务经验。

数据中心管理内容分析

数据中心作为基础保障环境,为学校各类应用系统提供运行环境,同时也为校内各单位提供相关的IT服务。校园数据中心的管理对象可以划分为基础保障环境和信息系统,其中信息系统由应用及数据资源组成。各管理对象具体说明如下:

基础保障环境:管理对象包括机房、网络、存储、服务器、容灾系统、数据库、应用软件等。

数据资源:在当前阶段数据资源主要是指数据库中的数据。

应用:运行在某一环境,并提供服务的应用程序称为应用,一个信息系统由一个或多个应用组成。

数据中心所管理的对象来源如图1所示。在建设阶段可以分为系统建设和环境建设两类,系统建设包括业务系统、公共软件平台等。环境建设是指数据中心的软硬件建设。在建设阶段主要完成规划设计、开发或采购活动。在各类项目建设完成后,进入运维阶段,在此阶段主要有运维管理、流程管理和服务管理三块内容,最终通过服务管理将建设成果转换为服务提供给用户。在运维阶段,具体管理内容如下:

1. 运维管理

基础保障环境运行维护:负责基础保障环境的规划和建设,为应用系统运行提供稳定、高效的运行环境,具体包括硬件环境、系统软件以及公共服务软件的安装、配置、监控、优化等维护工作。

数据管理:对各应用系统运行过程中产生及使用的数据的管理,包括结构化数据和非结构化数据,具体包括对数据遵循的标准检查、数据的存放及安全、数据生命周期管理等,为用户提供良好的数据环境和数据服务管理等。

应用管理:为保证信息系统的稳定、高效运行而对相应应用系统进行的安装、配置、优化、监视等运行维护工作。

信息安全保障体系的建设与管理:信息安全管理策略的制订与实施,包括机房、主机、网络、应用、数据以及容灾等层面的防护措施的实施,以及相关安全管理制度的制订及落实,确保数字校园信息的保密性、完整性和不可否认性。

图1 数据中心管理对象来源示意图

图2 服务支持流程关系图

2. 流程管理

流程是指运维服务过程中一系列、有规律的业务活动,在运维管理过程中,通过流程将运维管理的各块工作串联在一起,使用户有着良好的信息服务体验。流程管理中使用较多的流程,是根据IT服务最佳实践ITILV2中的流程进行改造而成,主要是以用户需求和IT基础设施为核心产生的一系列活动,包括服务台、事件管理、问题管理、变更管理和发布管理等。在运维服务中,通常以服务台作为单一入口,以配置数据库为核心,各个管理活动的相互关系如图2所示。

服务台:服务台有时也称帮助台,它不是一个服务管理过程,而是一种服务职能。服务台经常与事件管理紧密结合,用来连接其他的服务管理流程,逐渐被称为一线服务支持的代名词。

事件管理:是对IT基础架构及IT服务交付有影响的事件或事故进行管理。事件可以是硬件或应用系统故障,信息、报警或异常,也可以是一个服务的中断或者服务性能的降低等。

问题管理:目的是消除引起事件的深层次根源以防止事件再次发生,它包括主动性问题管理和被动性问题管理两类活动。被动性问题管理的目标是找出导致以前发生的事件产生的根本原因,并提出解决措施或纠正建议;主动性问题管理的目标是通过找出运维服务中的薄弱环节来阻止事件的发生,并提出消除这些薄弱环节的建议。

配置管理:是一个将系统中软件和硬件等配置项资源进行识别和定义,并记录和报告配置状态和变更请求以及检验配置项的正确性和完整性等活动构成的过程,配置管理不仅要记录资源信息,还要记录他们之间的关系。

发布管理:是由一项或多项经过批准的变更所组成,发布管理流程是指对经测试后导入实际应用的新增或修改后的配置项进行分发和宣传的管理流程。

变更管理:从记录变更请求开始,对变更进行审核及评估,通过审核的变更要经过测试后才能够被实施,实施后需要对变更进行评价,以保证变更被有效实施。

3. 服务管理

服务管理旨在帮助IT服务部门确保所提供的服务能够高效、有序的进行。同时,对服务质量能够进行科学、有效的管理与控制,确保提供的所有服务都符合要求的服务级别,并不断提高服务效率和水平,提升用户满意度。在当前阶段,服务管理主要包含服务目录制定、服务级别协议管理及服务评价三方面内容。

服务目录:服务目录是对提供的所有服务的描述,同时,也是服务级别协议需要引用的重要文件。

服务级别协议管理:是指对协议签署、执行、以及变更情况的监督和控制。在服务级别协议的执行过程中,检查服务是否达到协议要求的服务级别,以及用户对提供服务的满足程度,解决复杂问题和突发问题,并对业务和用户对服务产生的新需求或变更需求进行管理。

服务评价:对IT服务质量、运维服务能力以及提供的服务是否满足业务和用户需求进行评估,评估结果直接反映出用户对IT服务的满意程度。同时,也是服务提供部门持续改进服务的重要依据。服务评价包括对用户满意度的调查和IT服务部门的定期自评两个方面。

运维管理是数据中心管理工作的基础,流程管理是主线,串接各块的管理工作,通过服务管理的转化,将数据中心内部的管理工作以服务的形式提供给用户,并通过服务评价将用户对服务质量的满意度及新需求反馈给数据中心,用于数据中心后期的建设以及运维管理、流程管理的改善。

今年,沧州市实施学前教育普及民心工程,通过加大学前教育经费保障力度,新建、改扩建公办园,制定出台政府购买普惠性民办幼儿园学前教育服务办法,努力提高全市普惠性幼儿园覆盖程度,确保到年底全市学前教育三年毛入园率达到92.72%。

清华大学数据中心管理服务案例

清华大学数据中心成立于2001年,机房面积200平方米左右,为清华大学近百个信息系统的运行提供保障,负责基础设施环境的维护、应用管理及数据管理等工作,同时为校内院系等50多个单位提供服务器托管、虚拟机租用、虚拟主机等资源服务以及系统管理、数据库管理、网站安全监测等服务。

清华大学数据中心的建设与运营管理一直围绕清华大学信息系统建设需求以及信息化服务需求进行,在经历了规范化和流程化管理的两个阶段以后,逐步向以服务为核心的管理模式进行转变,充分体现了数据中心的管理服务职能。

1. 规范化建设

规范化的管理是数据中心管理的立足之本,是服务质量保证的基础。清华大学数据中心根据管理内容不同,划分了不同的岗位,并对每个岗位制订了工作要求和管理规范,使管理员在日常管理工作中能够有章可循,保证数据中心整体的管理水平能够达到质量的基准线。数据中心对日常管理制订了规章制度、工作规范和流程近百个,明确各岗位职责,实现了日常工作的规范化。规范化的管理是一个动态管理的过程,工作要求和工作规范要根据工作内容的增加而不断调整,也要根据服务标准要求进行调整。

引入自动化管理工具,是实现规范化管理的有效手段,也能够大幅提高管理效率。清华大学数据中心采用了以下自动化管理工具:

自动监控:在开源软件Nagios的基础上进行了二次开发,对数据中心机房环境、网络、存储、数据库、服务器、应用系统及应用数据提供全方位的监控,通过手机短信、邮件等多种形式报警;

建立了服务器自动安装系统,设置了统一的安装模板,在实现服务器的快速部署的同时,也提升了系统的安全性。一台服务器的操作系统安装时间在半小时之内完成。

通过上述自动化工具的引入,大幅提升了管理效率。

2. 流程化管理建设

清华大学数据中心根据多年的运行经验,结合IT服务最佳实践ITIL V2的流程建议,设计建立了事件管理、问题管理、配置管理、变更管理、大型活动支持管理等管理流程,并采用了商业化软件对IT运维管理信息和流程进行管理和支持,将管理流程落地。

配置管理中,设置了服务、信息系统、逻辑环境、基础环境、管理信息5个一级类别,15个二级子类、40多个三级子类,将数据中心管理的对象按照管理要求进行记录,目前已经建立了2300多个配置项,覆盖了数据中心85%的管理内容。

变更管理流程是运维过程中使用较多的流程,按照工作性质,将变更管理划分为三类:简单变更、重要变更、紧急变更。简单变更是指各管理员可以日常负责处理无需审批的变更,如应用升级、建立账号等;重要变更流程是指需要审批的工作流程;紧急变更是指需要事后补单的变更。

事件管理与问题管理设置了不同的事件和问题类别,使用ITIL V2的标准流程,记录日常的维护工作。根据我们的管理工作内容,还设置了大型活动准备的工作流程,用于对选课、迎新、离校等大型活动的技术支持工作。

通过IT运维平台的建设和推广使用,使数据中心约90%日常管理工作都能够被记录,大大增强了各管理员的协同工作能力,同时也加强了日常运维工作的过程管理。

3. 全生命周期的服务管理

随着校内单位服务种类的增多以及服务要求的提升,我们逐步开展了服务管理方面的工作。

在实际工作中,注重用户服务需求的收集。根据用户服务的需求,逐步进行技术引入工作,不断扩充服务内容。在新服务设计时,进行服务级别的设置以及对应的成本核算,促进运维管理工作更加精细化。我们根据用户的需求,建立了用户服务目录,对服务内容以及服务标准进行说明,同时根据服务标准进行服务成本的核算。

在服务级别的确定中,设立了应用的运行级别、应用的安全级别以及服务器的级别。应用的运行级别将用于应用的监控设置、日常管理频度等工作;应用的安全级别用于应用的上线安全扫描以及运行环境的安全部署要求;服务器级别用于服务器的日常管理要求,服务器级别的制定依赖于应用的最高级别。

通过服务管理工作的不断深入和细化,在服务设计和服务提供时,注重服务成本的核算,努力化解有限人员与无限服务需求的矛盾,通过适度的SLA协议的制订,降低服务成本,不断提升用户的满意度。

数据中心的建设是随着新技术的发展不断螺旋上升的过程,做好数据中心的管理,不断拓展数据中心的服务职能,提高服务质量,则是校园数据中心持续发展的动力。数据中心以服务为核心的建设模式和管理模式还有很多地方需要探索,“三分技术,七分管理”,数据中心“软环境”的建设必将是数据中心后续建设过程中不可或缺的环节。

猜你喜欢
清华大学级别数据中心
酒泉云计算大数据中心
清华大学:“如盐在水”开展课程思政
浅析数据中心空调节能发展趋势
我的清华大学自主招生经历
关于建立“格萨尔文献数据中心”的初步构想
级别分明
迈向UHD HDR的“水晶” 十万元级别的SIM2 CRYSTAL4 UHD
新年导购手册之两万元以下级别好物推荐
你是什么级别的
他永远是我们的老学长——清华大学受助研究生来信摘编