数据中心基础设施运维管理工作的研究

2022-05-11 00:02李锐
今日自动化 2022年3期
关键词:运维管理数据中心基础设施

李锐

[摘    要]随着云计算、移动互联网、大数据等新业务模式和新技术的不断发展,以智慧城市、虚拟现实、人工智能等为代表的产业应用正在全面实施和加速演进,数据中心已成为国家战略性的信息基础设施。数据中心的安全性、可靠性和稳定性支撑作用会更加凸显。文章在了解传统数据中心配套设施运维基础上,深入研究大数据时代数据中心设施运维管理工作的具体措施,提出通过主动、积极地精细化运维管理来不断提高数据中心各系统的可用性,从而满足用户需求。

[关键词]数据中心;基础设施;运维管理

[中图分类号]TP308 [文献标志码]A [文章编号]2095–6487(2022)03–0–03

Research on the operation and Maintenance Management of Data Center Infrastructure

Li Rui

[Abstract]With the continuous development of new business models and new technologies such as cloud computing, mobile Internet, and big data, industrial applications represented by smart cities, virtual reality, artificial intelligence, etc. are being fully implemented and accelerated. Data centers have become national Strategic, fundamental information infrastructure. The security, reliability and stability of the data center will be more prominent. On the basis of understanding the operation and maintenance of the supporting facilities of traditional data centers, we deeply study the specific measures for the operation and maintenance of data center facilities in the era of big data, and propose to continuously improve the availability of various systems in the data center through active and active refined operation and maintenance management. meet user needs.

[Keywords]data center; infrastructure; operation and maintenance management

1 概述

互联网从最初Web1.0、2.0应用,逐渐演进到云计算、大数据时代,进而全面迈向“互联网+”的万物互联时代,数据中心作为互联网的关键基础设施和物理承载体,逐渐从成本中心演变为服务中心,从支撑业务到驱动业务发展,并成为业务创新的加速器[1]。

随着“互联网+”渗透到各行各业,数据中心的规模日益庞大,系统日渐复杂,数据中心安全运行也面临诸多挑战:

(1)系统设施大幅增加,標准化程度不高,管理难度大。随着数据中心不断发展、业务系统不断扩容,数据中心供配电系统、制冷系统、消防系统、安防系统以及VESDA(极早期烟雾报警系统)等设备同样迅速增加,基础设施运维任务日益繁重,维护质量难以保证。

(2)运维管理难度大,运维工作碎片化,行业运维人才短缺,运维管理规范化、一体化程度不足。

2 关键设施运行维护

数据中心设施系统架构包含关键基础设施、人员构成、操作规程以及运维操作管理平台(DCOM),如图1所示。

图1中可以看出,数据中心关键设施包括IT模块、强电模块、弱点模块以及暖通模块,这些关键设施的运行维护要求对日常工作的细节进行严格把控,尤其是对它们的操作及其维护要点应有较为深入的了解,有计划、有重点地针对关键设施开展行之有效的维护工作并使之常态化,是运维人员及时发现故障隐患和提升维护质量的有力手段。

2.1 高低压配电

高低压配电系统为数据中心所有设备提供电力支持,合理的供配电系统设计和安全稳定输出是数据中心连续、高效运行的可靠保证。供配电系统具有结构设计复杂、自动化程度高、运行方式灵活、设备质量和性能要求高等特点。

数据中心的高低压供电系统由高压和低压配电线路、变电站(或配电站)及用电设备组成。一般由10 kV高压配电柜、变压器、低压主配电柜、终端配电箱、应急发电机、UPS等主要设备构成。

高低压配电系统维护的技术性强,内容专业且具体,执行过程中通常需要设备原厂专业工具和仪器,其维护一般分为自主维护和购买专业厂家维保,作为使用方更多关注维护工作计划和管理以及在厂家维护过程中进行现场监督和提供支持,确保设备日常巡检项目以及预防性检测项目保质保量完成。

(1)高压配电柜检测维护周期。以施耐德10 kV配电柜PIX产品为例,在实际运行过程中,检测维护周期,如表1所示。

(2)变压器检测维护周期。干式变压器与油浸式变压器相比具有安装轻便、结构简单、防火性能好的特点,在数据中心被广泛使用,检测维护周期,如表2所示。

(3)低压配电柜检测维护周期。以奥利图iPD智能精密配电柜为例,在实际运行过程中,检测维护周期,如表3所示:

2.2 UPS

UPS的作用主要有不间断切换、隔离作用、电压变换作用、频率变换作用和提供一定的后备时间。其中不间断切换和提供后备时间是保证对负载供电的连续性;其他三项是保证对负载供电的质量。通常情况下,UPS设备开机时会检查设备运行环境,设备房间的温度、湿度等设定应符合要求,一般温度不宜超过25℃。

UPS系统的日常维护内容包括UPS设备巡检、UPS的输入/输出配电柜巡检、蓄电池巡检等,巡检频次为2~3次/d,UPS系统的定期维护主要包括功能性检查(含电池放电测试)、故障模拟测试等,一般检查频次为1次/季度。

2.3 蓄电池组

阀控式密封铅酸蓄电池(VRLA)在UPS电源中广泛的应用,数据中心机房对蓄电池的要求可以归纳为安全性、可靠性(高功率)、长寿命、经济性。但由蓄电池故障而引起供电系统故障的比例约为30%至50%。因此,加强蓄电池的正确使用和维护,对提升系统可用率、降低UPS电源系统故障率、延长设施使用寿命都有着重要的意义。

进行蓄电池组例行化维护时,应重点检查电池外观与结构不可出现裂纹、变形、漏液等现象,检查连接条紧固程度、气密性、电压/内阻(1次/每季度)、环境、电流校准(对比UPS显示值)。同时做好每季度激活性充放电以及每年核对性放电。另外,针对蓄电池出现漏液或者内阻过大(>3 mΩ)的情况,考虑12 V 200 AH VRLA使用寿命约5~8a(不同品牌、不同使用单位的规定略有差异),应当尽快更换蓄电池单体或蓄电池组以确保安全稳定运行。

2.4 制冷系统

通常情况下,数据中心制冷系统可分为水冷型和风冷型。风冷型适用于小型数据中心,具有独立的制冷回路,成本较低,维护量较小。水冷型则适用于大型数据中心,采用自然冷却手段,规模节能效应显著,但系统组成复杂,维护量较大。

2.4.1 风冷精密空调维护

风冷精密空调维护工作主要针对室内机,室内机主要由压缩机、风机、蒸发器、过滤器、加湿器、加热器、排水系统、控制器等构成。在实际运行过程中,压缩机、加湿器出现故障的比例较高。

压缩机是维持制冷系统高低压力的核心,其正常工作时,高低压的压力值会在一个正常范围内,以艾特网能Cool Master系列CM100DA精密空调使用R410A制冷剂为例,压力值正常范围设定,如表4所示。

以佳力图MEAD802精密空调使用R22制冷剂为例,压力值正常范围设定,如表5所示。

当压力值超出正常范围时,应判断压缩机或制冷系统存在故障。若压力偏低,检查是否系统中制冷剂不足,或存在泄露;当压力偏高,检查冷凝系统(室外机)是否工作正常,或系统是否存在堵塞问题等。

精密空调加湿器分为电极加湿器和红外加湿器,电极加湿器结构原理相对简单,成本较低,但对水质要求较高,维护工作量较大。应定期清洁加湿,避免大量水垢积淀在加湿灌中,同时在日常加湿过程中,注意检查加湿电流及排水管排水是否正常。

2.4.2 冷冻水型空调系统维护

冷冻水型空调系统主要由制冷主机、冷却塔、冷却水泵、冷冻水泵、分集水器、末端机房空调和膨胀水箱等组成。在实际运行中,应当严格遵守维护规程,按照操作手册对系统各组成部分进行定期巡检。

除此之外,冷冻水型空调系统还应注意如下事项:

(1)预防市电中断。宜采用双路市电保证水泵不间断运行和自启动,对于T4标准的数据中心冷冻水循环水泵和末端可采用UPS或EPS电源。

(2)水源储备。应当储备一定数量的水源用作冷却塔热量排放蒸发以及排污,一般可储备8~12 h且双路补水水源。

(3)管网和设备的备份冗余。对于大型数据中心,管网应当为环形管路或双支路[4]。管路和阀门的配置可满足系统不停机维护的要求,制冷主机、冷却塔、水泵和末端可采用N+1备份。

3 DCIM运维管理可视化

数据中心基础设施管理(DCIM)是一套可以收集、监控、管理、控制基础设施的工具。DCIM向管理人员提供诸多信息,包括环境监测、电力系统、制冷系统、报表管理、数据分析等,辅助管理人员根据需求做出适当的维护计划[2]。对于DCIM的维护工作可从以下两个方面开展。

3.1 IP化采集设备

IP化采集设备目前有两种,一种是透传模式,另一种是前端智能主机模式。以前端智能主机模式为例,在实际巡检维护中,应当模拟以下场景:

(1)后台管理系统与前端智能主机设备出现通信异常,通过网页是否可以登录IP化采集设备,查看相关动力、环境设施的参数信息,对该设施进行模拟状态变化,查看在IP化采集设备上是否有相应的事件记录;判断通过网页设定的UPS、空调等控制功能是否生效。

(2)对被监控设施进行相关的操作,模拟故障告警等相关状态,查看DCIM管理端是否能够收到状态变化信息、是否能够在指定时间内频繁告警。

3.2 管理服务器

DCIM管理服务器包含硬件和软件两个层面。①硬件层面维护通常包括除尘以及硬件配置升级,保证服务器处理性能的同时兼顾稳定性;②软件层面维护应当包括数据维护、应用软件升级等。

4 运维管理规范化

做好数据中心基础设施运维管理离不开完整的规章制度和严格的维护操作规程。

4.1 加强制度体系建设

加强数据中心运维体系制度建设,明确运维体系组织结构,落实管理人员主体责任,维护人员定岗定责[3]。

4.2 建立健全操作规程

结合实际,针对数据中心具体设施制定相应的维护操作规程并严格执行,做到有章可循、有法可依。加强考核管理,最大程度降低人为因素造成的故障。

4.3 制定设施维护计划

按照配电、制冷、监控、消防和物理安全五大系统分类制定维护计划表,做到有日常巡检、周巡检、月度维保、季度维保、半年维保和年度维保,巡检和维保内容对应五大系统各类设施,特别是关键设施如:冷水机组、高低压配电柜、变压器、发电机、UPS、PDU、精密空调等,同时做好关键基础设施的应急演练;消防、监控系统设备巡检时注重设备的可用性和联动性。

4.4 完善运维培训体系

制定系统的专业知识培训体系,并随着新技术、新业务的引进不断完善;制定岗位规范培训计划,强化设备运行状态分析和故障判断处置能力;制定安全生产培训计划,不断提升运维人员的职业素质和技能水平,提高独立分析和解决问题的能力。

5 结束语

数据中心基础设施的运维管理是一项长期而复杂的工作,“以业务为中心,以制度为根本,以关键设施为重点”,严格执行维护规程,不断提高维护效率,才能有效促进数据中心基础设施运维管理水平的

提升。

参考文献

[1] 程小丹,李崇辉,曹洁.数据中心设施运维指南[M].北京:电子工业出版社.

[2] 郑立.DCIM赋能数据中心智能化运维[J].电信技术,2019,9(10):171-172.

[3] 乔晓攀.大数据时代下机房管理与运维工作的研究[J].现代工业经济和信息化,2018,16(50):15.

[4] 付雷.提高数据中心基础设施可用性运维管理体系研究-以G数据中心为例[D].南昌大學,2019.

猜你喜欢
运维管理数据中心基础设施
关于间接蒸发冷机组在数据中心中应用的节能分析
公募基础设施REITs与股票的比较
基础设施投资项目
前7个月国内充电基础设施增加12.2万台
2018年数据中心支出创新高
新政府会计准则规范公共基础设施处理
2017第十届中国数据中心大会榜单